人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

日本語、比較的普通の明朝体の書籍をORCでテキスト化しています。画像を加工して OCR ソフトでの認識を向上させる方法を教えてください。
解像度は600x600dpi程度でスキャニング済です。
2000ページ程度分の画像を編集するため、あんましメンドいのは御免です。
フリーウェアで一括加工出来れば素晴しいです。MacOSX,
Windowsのどちらの環境で動くものでもかまいません。
ちょっとした加工程度では何も変わらないのであれば、はっきりそうおっしゃってください。
よろしくおねがいします。

●質問者: KotoriKoToriko
●カテゴリ:コンピュータ 科学・統計資料
✍キーワード:MacOSX OCR ORC Windows ソフト
○ 状態 :終了
└ 回答数 : 3/3件

▽最新の回答へ

1 ● シオン
●20ポイント

書籍ということなので、まず

・影が出来やすいのでそれを消す

と言ったところから始めると良いかと思います。

特に、分厚い書籍になればなるほど本の「真ん中」の明度が足らず

薄暗くなります。OCRソフトには自動補正するものもありますが。

具体的手段ですが、グラフィックソフトでガンマかコントラストを

「くっきり側」に振ってください。ノイズがあまりに多い場合は

役に立たない方法ですが…自動化ソフトを使えば大量処理の自動化

も可能です。(ロケットマウスとかを想定して言ってます)


影云々はこちらの画像をご参照ください。

ちなみにこれからももし大量にスキャンされるのであれば、

↓のような専用機の購入もお勧めします。

http://as-works.co.jp/html/gyoumunaiyo_opticbook3600.htm

◎質問者からの返答

やぁ、本はバラバラにしてスキャンしているので、基本的に影はないのですよ。

ところで偶然ですが、ブックスキャナー OpticBook3600 のページをさがしていたので、教えていただいてうれしかったです。すぐ製品の名前忘れるんですよね。

ロケットマウスってマウス自動で動くやつですよね?

そういうソフト使っても良いですね。


2 ● wm5775
●5ポイント

コニカミノルタ ブックスキャナ

http://konicaminolta.jp/products/business/micrographics/epicwin....

私もよく本からOCRするので、欲しいなぁ~とため息をつくばかりです。本の歪みや影なども補正するソフトがついてくるそうです。

◎質問者からの返答

これに近いのってデジカメで自作できんかな?

僕はScanSnapって言うのを使ってるんですが、裁断して本を捨てなくてはならない。本好きとしては少し悲しいところです。


3 ● Baku7770
●100ポイント ベストアンサー

他の質問では別の回答を書きましたが、学習機能付のOCRソフトなら、同一出版社の書籍を発行年次順に並べて繰り返している内に上がってきます。

やはり明朝体とは言え微妙に違うからでしょう。

書籍の場合、画像をトリミングするなど周囲、見開きの汚れ(なんて言うのでしょうか)と頁番号や章などのタイトルを消去してからOCRすると認識率が格段に違います。

メディアドライブさんに質問した時に始めて気が付いたのですが、e?Typistにしろ読んdeココにしろ元々1枚の紙をOCRするのが本来の使い方で書籍は苦手なようです。

MediaDrive:パッケージ TOP

◎質問者からの返答

>1枚の紙をOCRするのが本来の使い方で書籍は苦手なようです。

これすごく実感しています。

程々であきらめてさっさと校正作業した方が良いんでしょうね。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ