現在どのような方法がお勧めでしょうか?
対象書籍は、帝国データバンクの企業年鑑です。(見開きA3版)
表OCR for Excel でトライするも、満足できるデータは取得できませんでした。
これは、という方法をご存知の方はお知らせ願います。
どうぞよろしくお願い致します。
scansnapという製品を使用されては如何でしょうか。
http://scansnap.fujitsu.com/jp/product/
個人の推測ですが機器自体にOCRをサポートする機能が入っていると思います。
付属ソフトだけで画像をOCR実行するよりも機器でスキャンし続けてOCR実行すると
キレイにテキスト化できます。
(恐らく100%ではありませんが、ソフトだけで処理するよりも100%に近いです)
差し込み口に紙を束ねて差しておくことで自動的に連続して取り込んでくれます。
また付属ソフトを利用することでテキスト選択(コピペ)ができるPDFが作れます。
その他のものも電子データ化するのであればPDFがお勧めです。
電子化することでのメリットは大きいですよね。著作権がらみで電子化しにくいのも現状です。またOCRを使えば検索も可能になりさらにメリット倍増ですよね。
しかし、100%完全なものは、現状無理だと思いますが、やり方によって、かなり実用できるようになります。それにはADF式スキャナーのほかに、裁断機を用意すると良いです。これは、本の背表紙を切る為に使用します。つまり、書籍を裁断機でバラしてスキャナーで一気に電子化、というのが常套手段です。
裁断機でばらばらにすることにより、きれいに読み取れるようになり、OCRの精度が向上します。
電子化5000頁 ~ 利用目的と作業手順の効率 ~
1.目次ページの見出しと頁数を(OCRソフトで)完璧に電子化する。
2.本文ページは、スキャンしたまま、ファイル名をページ順にする。
(初期設定の「日付順のまま」フォルダにまとめるだけでよい)
3.ADF(連続給紙)機能は、スキャンしやすいが、A4にバラすと、
あとで利用しにくいのが難点。コピーするか、元のように再製本するか、
もう一冊を入手するか、三択を決断しましょう。
── 「スーパー源氏」で探したところ,上記の太田書店で2003年西日
本版が5000円です.「帝国データバンク会社年鑑」で検索できます.
http://q.hatena.ne.jp/1101266478
── 《帝国データバンク会社年鑑(東日本編、西日本編)2冊1組》
/索引別冊(50音順および業種別)定価115,500円(本体価格110,000円)
/毎年10月発刊掲載社数 14万社/A4判、約4,500ページ/冊
── 帝国データバンクが保有する全国125万社の企業プロフィール・
データベースです。
エクセルなどに電子化した目次索引で、該当ページを探しだして印刷
するか、必要な場合だけ、プリントから再度スキャンしましょう。
(最新情報は、ネット上の登録会員契約がおすすめです)
わたしは、つぎの複合機を使っています(OCR付属)。
http://q.hatena.ne.jp/1255076841#a956693
ブラザーA3複合機(片面)MFC-6490CN(実売 40000円未満)
scansnapという製品を使用されては如何でしょうか。
http://scansnap.fujitsu.com/jp/product/
個人の推測ですが機器自体にOCRをサポートする機能が入っていると思います。
付属ソフトだけで画像をOCR実行するよりも機器でスキャンし続けてOCR実行すると
キレイにテキスト化できます。
(恐らく100%ではありませんが、ソフトだけで処理するよりも100%に近いです)
差し込み口に紙を束ねて差しておくことで自動的に連続して取り込んでくれます。
また付属ソフトを利用することでテキスト選択(コピペ)ができるPDFが作れます。
その他のものも電子データ化するのであればPDFがお勧めです。
隣の席の人がやっていましたが分厚い裁断機をハンズなどで買う
裁断した書籍をスキャンする
スキャンしたデータをOCRにかける
これで雑誌なら100mbくらいになるそうですが連続スキャンの設備が必要ですね・・
なるほど。参考に致します。