日本語、比較的普通の明朝体の書籍をORCでテキスト化しています。画像を加工して OCR ソフトでの認識を向上させる方法を教えてください。

Question

KotoriKoToriko

28

28もっと見る

125pt

コンピュータ科学・統計資料

日本語、比較的普通の明朝体の書籍をORCでテキスト化しています。画像を加工して OCR ソフトでの認識を向上させる方法を教えてください。

解像度は600x600dpi程度でスキャニング済です。
2000ページ程度分の画像を編集するため、あんましメンドいのは御免です。
フリーウェアで一括加工出来れば素晴しいです。MacOSX,
Windowsのどちらの環境で動くものでもかまいません。
ちょっとした加工程度では何も変わらないのであれば、はっきりそうおっしゃってください。
よろしくおねがいします。

回答の条件

URL必須
1人2回まで

登録：2006/09/20 01:47:56
終了：2006/09/22 21:54:13

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

No.1

シオン10102006/09/20 10:51:22

20pt

書籍ということなので、まず

・影が出来やすいのでそれを消す

と言ったところから始めると良いかと思います。

特に、分厚い書籍になればなるほど本の「真ん中」の明度が足らず

薄暗くなります。OCRソフトには自動補正するものもありますが。

具体的手段ですが、グラフィックソフトでガンマかコントラストを

「くっきり側」に振ってください。ノイズがあまりに多い場合は

役に立たない方法ですが…自動化ソフトを使えば大量処理の自動化

も可能です。（ロケットマウスとかを想定して言ってます）

影云々はこちらの画像をご参照ください。

ちなみにこれからももし大量にスキャンされるのであれば、

↓のような専用機の購入もお勧めします。

http://as-works.co.jp/html/gyoumunaiyo_opticbook3600.htm

やぁ、本はバラバラにしてスキャンしているので、基本的に影はないのですよ。

ところで偶然ですが、ブックスキャナー　OpticBook3600　のページをさがしていたので、教えていただいてうれしかったです。すぐ製品の名前忘れるんですよね。

ロケットマウスってマウス自動で動くやつですよね？

そういうソフト使っても良いですね。

2006/09/20 11:21:00

No.2

wm577535142006/09/20 10:52:55

5pt

コニカミノルタ　ブックスキャナ

http://konicaminolta.jp/products/business/micrographics/epicwin....

私もよく本からOCRするので、欲しいなぁ~とため息をつくばかりです。本の歪みや影なども補正するソフトがついてくるそうです。

これに近いのってデジカメで自作できんかな？

僕はScanSnapって言うのを使ってるんですが、裁断して本を捨てなくてはならない。本好きとしては少し悲しいところです。

2006/09/20 11:22:37

コメントはまだありません

KotoriKoTorikoの日記 2006-09-20 03:33:50

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

Baku7770 · Accepted Answer · 2006-09-21T11:39:03+09:00

　他の質問では別の回答を書きましたが、学習機能付のＯＣＲソフトなら、同一出版社の書籍を発行年次順に並べて繰り返している内に上がってきます。

　やはり明朝体とは言え微妙に違うからでしょう。

　書籍の場合、画像をトリミングするなど周囲、見開きの汚れ（なんて言うのでしょうか）と頁番号や章などのタイトルを消去してからＯＣＲすると認識率が格段に違います。

　メディアドライブさんに質問した時に始めて気が付いたのですが、ｅ－Ｔｙｐｉｓｔにしろ読んｄｅココにしろ元々１枚の紙をＯＣＲするのが本来の使い方で書籍は苦手なようです。

MediaDrive：パッケージ TOP

Baku7770 · Accepted Answer · 2006-09-21T11:39:03+09:00

　他の質問では別の回答を書きましたが、学習機能付のＯＣＲソフトなら、同一出版社の書籍を発行年次順に並べて繰り返している内に上がってきます。

　やはり明朝体とは言え微妙に違うからでしょう。

　書籍の場合、画像をトリミングするなど周囲、見開きの汚れ（なんて言うのでしょうか）と頁番号や章などのタイトルを消去してからＯＣＲすると認識率が格段に違います。

　メディアドライブさんに質問した時に始めて気が付いたのですが、ｅ－Ｔｙｐｉｓｔにしろ読んｄｅココにしろ元々１枚の紙をＯＣＲするのが本来の使い方で書籍は苦手なようです。

MediaDrive：パッケージ TOP

日本語、比較的普通の明朝体の書籍をORCでテキスト化しています。画像を加工して OCR ソフトでの認識を向上させる方法を教えてください。

ベストアンサー

Baku777028321812006/09/21 11:39:03

その他の回答（2件）

シオン10102006/09/20 10:51:22

wm577535142006/09/20 10:52:55

Baku777028321812006/09/21 11:39:03ここでベストアンサー

コメント（0件)

この質問への反応（ブックマークコメント）

トラックバック