人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

OCRの目的でモノクロスキャンする場合、2階調と多階調のどちらが良いか?

文字で書かれた書籍を、
スキャンして、OCRにかけたいと思います。
スキャンには、コンビニのマルチコピー機を使おうと思います。

下記に、コンビニ3社の
マルチコピー機のスキャン機能についてまとめてみましたが、
OCRにかける目的でのスキャニングとしては、
どのコンビニで、どのファイル形式にすべきか、わかりません。

もし、一般的なOCRソフトにとって、
多くの階調を含む画像のほうが高い精度で認識できるのであれば、
JPEGの多階調モノクロを選択します。
逆に、白か黒かの1ビットの画像のほうが高い精度で認識できるのであれば、
TIFFの2階調モノクロを選択します。

ご助言を頂戴したく存じます。

セブンイレブン = JPEG 400 dpi 又は TIFF 600 dpi
ファミリーマート= JPEG 400 dpi 又は .pdfファイル
ローソン = JPEG 400 dpi 又は .pdfファイル

(なお、ファミリーマートのJPEGはローソンのJPEGよりもコントラストが高く、
階調が出にくい、とのうわさ有り)

よろしくお願い申し上げます。

●質問者: ak2ey4
●カテゴリ:コンピュータ 科学・統計資料
○ 状態 :終了
└ 回答数 : 4/4件

▽最新の回答へ

1 ● jan8
●250ポイント

紙の枚数で料金が決まるので、メモリ容量の許す限り、
できるだけ多階調、高解像度、無圧縮のデータとすべきです。
後から階調や解像度を落としたり、データ形式を変換したり出来るからです。

今は数GBのUSBメモリが当たり前に使われているので、容量に困る事はないでしょう。


ak2ey4さんのコメント
人間の目で画像処理したほうが良いのか、 それともソフトに任せた方が良いのか、 どちらか判明せずにおります。 失礼ながら、 回答No.4のgizmo5さんへのコメントをご覧いただき、 ご意見をお聞かせ頂ければ幸いです。

2 ● エネゴリ
●250ポイント

やはり容量を気にしないのならできるだけ多階調、高解像度、無圧縮のデータにする方がいいようです。(OCRソフトによっては圧縮するものもあるので)
http://www.book-scan.net/scan/dpitoocrsetteijinofairusaizunotigai.html
コンビニではローソンの.pdfには「OCR埋め込み文字機能付き」がついているそうなのでそちらの方がおすすめです。ただし値段はローソンが高いです。
http://yaplog.jp/kephis/archive/23
ほか参考リンク
http://keme.hatenablog.com/entry/20101126/1290793461


ak2ey4さんのコメント
ローソンでpdf化してみましたが、 単なる画像が、キャンパスに乗っているだけでした…… 回答No.4のgizmo5さんへのコメントをご覧いただき、 ご意見をお聞かせ頂ければ幸いです。

3 ● kanonk
●250ポイント

高解像度で多階調のデータでスキャンするべきですよ。
そうしておけば後からいくらでも圧縮等はかけられますし、OCRに最適な画像処理ができます。

ただ、無地の部分の埃やシミなどが目立つ場合もあり、これが障害になることもあります。
それでも高解像度の方が有利ですよ。


4 ● gizmo5
●250ポイント

基本的にOCRはパターン認識なので二階調の方が読み取り精度が良いです。
ただし、きれいにスキャンできるならという条件があります。
スキャン対象が古い書籍のように紙に地の色がついていると、二値でスキャンするとノイズが出やすいです。
コンビニの機種による違いよりも、スキャン対象の品質にもよる違いの方が大きいと思います。
スキャン対象の品質次第ですが、二階調でスキャンするのがよろしいと思います。

スキャンする枚数が少なければ、様子を見ながら閾値を変えて二値化するのが一番良いと思うのですが。


ak2ey4さんのコメント
2階調が良いとおっしゃるのは、他の方と違いますね。 OCRはパターン認識だから、とのこと。確かにそう思います…… (失礼ながら、)素朴には。 また、それは他の方々の認識と違うわけではないのだろうとも思います。 他の方は、「多階調でスキャンしておいて、後でOCR用に画像処理せよ」 という事をおっしゃっているのだろうと思います。 この「OCR用に処理された画像」について、gizmo5さんは 「(最終的には)2階調が良い」、 とおっしゃるのだろうと推測いたします。 ただ、どうなんでしょう。 人間が画像をOCRソフトにかける最初の操作の時に、 すでに2階調になっているものが、本当に適切なのかどうか。 原理的かつ素朴に考えると、おっしゃるとおり、ソフト内部の処理の、 「最終的な」、文字同定(特定の文字として認識する段階)の時には、 2階調になっているはずだ、と、私も思います。 つまり、「(幅のない)線の集まり」になっているのだろうな、 と思います。 しかし、もし、一般的なOCRソフトが、 文字を同定する時に、 「この画像に基いては、文字として認識できなかった」とか、 あるいはもっと高等なソフトであれば、 「この部分をこのような文字や語句として認識してしまうと、 文としておかしい」、 などのように、 ある種の人工知能のようなプロセスがある場合には、 文字の同定に失敗したという事が、ソフト内部で、 OCRのプロセスの最初の段階として在るであろう 「明るさ・コントラストの自動設定」 へとフィードバックされるように作られていて、かつ、 その再処理が、ソフト自身にとって適切に行われるように なっているとすれば、 むしろ、人間の目を使った2値化よりも、 ソフト自身による2値化に任せた方が良いかもしれません。 (上記の「OCRのための適切な画像処理」のプロセスが 無いソフトの場合は、確かに、 人間の目で見て2値に調整するしかありません) 以上のようなシステムが、 OCRソフトの業界において (そういう業界があるか存じませんが……学会はありそうですね)、 「普通のこと」であるとすれば、 私が自分で2値化するのはやめた方が良い、ということになります。 gizmo5さんは、上記のような「業界」とか「学会」の、 ネット上のコミュニティをご存じですか? そちらで質問してみたいです (日本語か英語のコニュニティでないと、私は読み書きできません)。 ご存知でしたら、教えていただけるとありがたいです。 また、gizmo5さん自身が、 上記のようなOCRソフト内部の作りにお詳しいのであれば、 おっしゃるとおり、私が目で2値化しようと思います。
関連質問

●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ