日本語、比較的普通の明朝体の書籍をORCでテキスト化しています。画像を加工して OCR ソフトでの認識を向上させる方法を教えてください。

解像度は600x600dpi程度でスキャニング済です。
2000ページ程度分の画像を編集するため、あんましメンドいのは御免です。
フリーウェアで一括加工出来れば素晴しいです。MacOSX,
Windowsのどちらの環境で動くものでもかまいません。
ちょっとした加工程度では何も変わらないのであれば、はっきりそうおっしゃってください。
よろしくおねがいします。

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:2006/09/20 01:47:56
  • 終了:2006/09/22 21:54:13

ベストアンサー

id:Baku7770 No.3

Baku7770回答回数2832ベストアンサー獲得回数1812006/09/21 11:39:03

ポイント100pt

 他の質問では別の回答を書きましたが、学習機能付のOCRソフトなら、同一出版社の書籍を発行年次順に並べて繰り返している内に上がってきます。

 やはり明朝体とは言え微妙に違うからでしょう。

 

 書籍の場合、画像をトリミングするなど周囲、見開きの汚れ(なんて言うのでしょうか)と頁番号や章などのタイトルを消去してからOCRすると認識率が格段に違います。

 

 メディアドライブさんに質問した時に始めて気が付いたのですが、e-Typistにしろ読んdeココにしろ元々1枚の紙をOCRするのが本来の使い方で書籍は苦手なようです。

MediaDrive:パッケージ TOP

id:KotoriKoToriko

>1枚の紙をOCRするのが本来の使い方で書籍は苦手なようです。

これすごく実感しています。

程々であきらめてさっさと校正作業した方が良いんでしょうね。

2006/09/21 12:51:11

その他の回答(2件)

id:countd No.1

シオン回答回数101ベストアンサー獲得回数02006/09/20 10:51:22

ポイント20pt

書籍ということなので、まず

・影が出来やすいのでそれを消す

と言ったところから始めると良いかと思います。

特に、分厚い書籍になればなるほど本の「真ん中」の明度が足らず

薄暗くなります。OCRソフトには自動補正するものもありますが。

具体的手段ですが、グラフィックソフトでガンマかコントラストを

「くっきり側」に振ってください。ノイズがあまりに多い場合は

役に立たない方法ですが…自動化ソフトを使えば大量処理の自動化

も可能です。(ロケットマウスとかを想定して言ってます)


影云々はこちらの画像をご参照ください。

ちなみにこれからももし大量にスキャンされるのであれば、

↓のような専用機の購入もお勧めします。

http://as-works.co.jp/html/gyoumunaiyo_opticbook3600.htm

id:KotoriKoToriko

やぁ、本はバラバラにしてスキャンしているので、基本的に影はないのですよ。

ところで偶然ですが、ブックスキャナー OpticBook3600 のページをさがしていたので、教えていただいてうれしかったです。すぐ製品の名前忘れるんですよね。

ロケットマウスってマウス自動で動くやつですよね?

そういうソフト使っても良いですね。

2006/09/20 11:21:00
id:wm5775 No.2

wm5775回答回数351ベストアンサー獲得回数42006/09/20 10:52:55

ポイント5pt

コニカミノルタ ブックスキャナ

http://konicaminolta.jp/products/business/micrographics/epicwin....

私もよく本からOCRするので、欲しいなぁ~とため息をつくばかりです。本の歪みや影なども補正するソフトがついてくるそうです。

id:KotoriKoToriko

これに近いのってデジカメで自作できんかな?

僕はScanSnapって言うのを使ってるんですが、裁断して本を捨てなくてはならない。本好きとしては少し悲しいところです。

2006/09/20 11:22:37
id:Baku7770 No.3

Baku7770回答回数2832ベストアンサー獲得回数1812006/09/21 11:39:03ここでベストアンサー

ポイント100pt

 他の質問では別の回答を書きましたが、学習機能付のOCRソフトなら、同一出版社の書籍を発行年次順に並べて繰り返している内に上がってきます。

 やはり明朝体とは言え微妙に違うからでしょう。

 

 書籍の場合、画像をトリミングするなど周囲、見開きの汚れ(なんて言うのでしょうか)と頁番号や章などのタイトルを消去してからOCRすると認識率が格段に違います。

 

 メディアドライブさんに質問した時に始めて気が付いたのですが、e-Typistにしろ読んdeココにしろ元々1枚の紙をOCRするのが本来の使い方で書籍は苦手なようです。

MediaDrive:パッケージ TOP

id:KotoriKoToriko

>1枚の紙をOCRするのが本来の使い方で書籍は苦手なようです。

これすごく実感しています。

程々であきらめてさっさと校正作業した方が良いんでしょうね。

2006/09/21 12:51:11

コメントはまだありません

この質問への反応(ブックマークコメント)

トラックバック

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません