書籍のデータを電子データ化したいのですが、

現在どのような方法がお勧めでしょうか?
対象書籍は、帝国データバンクの企業年鑑です。(見開きA3版)
表OCR for Excel でトライするも、満足できるデータは取得できませんでした。
これは、という方法をご存知の方はお知らせ願います。
どうぞよろしくお願い致します。

回答の条件
  • 1人3回まで
  • 登録:2009/10/16 18:06:25
  • 終了:2009/10/23 18:10:02

ベストアンサー

id:hirovlsi No.3

hirovlsi回答回数66ベストアンサー獲得回数82009/10/17 00:19:26

ポイント20pt

scansnapという製品を使用されては如何でしょうか。

http://scansnap.fujitsu.com/jp/product/

個人の推測ですが機器自体にOCRをサポートする機能が入っていると思います。

付属ソフトだけで画像をOCR実行するよりも機器でスキャンし続けてOCR実行すると

キレイにテキスト化できます。

(恐らく100%ではありませんが、ソフトだけで処理するよりも100%に近いです)

差し込み口に紙を束ねて差しておくことで自動的に連続して取り込んでくれます。

また付属ソフトを利用することでテキスト選択(コピペ)ができるPDFが作れます。

その他のものも電子データ化するのであればPDFがお勧めです。

その他の回答(4件)

id:konamushi No.1

konamushi回答回数94ベストアンサー獲得回数12009/10/16 19:11:16

ポイント20pt

電子化することでのメリットは大きいですよね。著作権がらみで電子化しにくいのも現状です。またOCRを使えば検索も可能になりさらにメリット倍増ですよね。

しかし、100%完全なものは、現状無理だと思いますが、やり方によって、かなり実用できるようになります。それにはADF式スキャナーのほかに、裁断機を用意すると良いです。これは、本の背表紙を切る為に使用します。つまり、書籍を裁断機でバラしてスキャナーで一気に電子化、というのが常套手段です。

裁断機でばらばらにすることにより、きれいに読み取れるようになり、OCRの精度が向上します。

id:ita07

なるほど。参考に致します。

2009/10/18 10:55:09
id:adlib No.2

adlib回答回数1833ベストアンサー獲得回数1052009/10/16 19:33:57

ポイント20pt

 

 電子化5000頁 ~ 利用目的と作業手順の効率 ~

 

1.目次ページの見出しと頁数を(OCRソフトで)完璧に電子化する。

2.本文ページは、スキャンしたまま、ファイル名をページ順にする。

(初期設定の「日付順のまま」フォルダにまとめるだけでよい)

 

3.ADF(連続給紙)機能は、スキャンしやすいが、A4にバラすと、

あとで利用しにくいのが難点。コピーするか、元のように再製本するか、

もう一冊を入手するか、三択を決断しましょう。

 

── 「スーパー源氏」で探したところ,上記の太田書店で2003年西日

本版が5000円です.「帝国データバンク会社年鑑」で検索できます.

http://q.hatena.ne.jp/1101266478

 

── 《帝国データバンク会社年鑑(東日本編、西日本編)2冊1組》

/索引別冊(50音順および業種別)定価115,500円(本体価格110,000円)

/毎年10月発刊掲載社数 14万社/A4判、約4,500ページ/冊

 

── 帝国データバンクが保有する全国125万社の企業プロフィール・

データベースです。

http://www.nifty.com/QKGT/

 

 エクセルなどに電子化した目次索引で、該当ページを探しだして印刷

するか、必要な場合だけ、プリントから再度スキャンしましょう。

(最新情報は、ネット上の登録会員契約がおすすめです)

 

 わたしは、つぎの複合機を使っています(OCR付属)。

http://q.hatena.ne.jp/1255076841#a956693

 ブラザーA3複合機(片面)MFC-6490CN(実売 40000円未満)

 

id:hirovlsi No.3

hirovlsi回答回数66ベストアンサー獲得回数82009/10/17 00:19:26ここでベストアンサー

ポイント20pt

scansnapという製品を使用されては如何でしょうか。

http://scansnap.fujitsu.com/jp/product/

個人の推測ですが機器自体にOCRをサポートする機能が入っていると思います。

付属ソフトだけで画像をOCR実行するよりも機器でスキャンし続けてOCR実行すると

キレイにテキスト化できます。

(恐らく100%ではありませんが、ソフトだけで処理するよりも100%に近いです)

差し込み口に紙を束ねて差しておくことで自動的に連続して取り込んでくれます。

また付属ソフトを利用することでテキスト選択(コピペ)ができるPDFが作れます。

その他のものも電子データ化するのであればPDFがお勧めです。

id:hoshijapan No.5

2daysaweek回答回数18ベストアンサー獲得回数02009/10/22 21:15:58

ポイント20pt

隣の席の人がやっていましたが分厚い裁断機をハンズなどで買う

裁断した書籍をスキャンする

スキャンしたデータをOCRにかける

これで雑誌なら100mbくらいになるそうですが連続スキャンの設備が必要ですね・・

  • id:adlib
     
     追記
     
     エクセルへの転写がうまくいかないのは、つぎの原因が考えられます。
     わたしの使用機種では、見開きA3を、OCRで読込んでも、縦書き
    B4として認識するので、結果はバラバラになります。
     
     または、一段目の最後の文字と、二段目の最初の文字が、たとえ罫線
    で区切られていても、くっついて認識されるからです。
     A4(一頁づつ)にバラして読込んで初めて、認識されるのです。
     
     わたしも他社の「OCR for Excel」を購入しましたが、ほとんど実用
    になりませんでした。現在は廃版になったので、グレー階調で保存した
    画像ファイルから読込む場合にかぎり(年に数回)利用しています。
     
    ── 2008年3月31日を持ちまして本製品の販売を終了いたしました。
    http://software.fujitsu.com/jp/ocr/socr/
    【表OCR/文書OCR for Excel&Word】
     
     類似質問にも回答しましたが、役立ったかどうか、不明のままです。
    http://q.hatena.ne.jp/1255076841#a956693
     ブラザーA3複合機(両面)MFC-6890CN(実売 70000円前後)
     
  • id:karuishi
    1000万円分の書籍をスキャン取込みした方がいます。
    http://d.hatena.ne.jp/yaneurao/20091009
    http://d.hatena.ne.jp/yaneurao/20091001
  • id:ita07
    > 1000万円分の書籍をスキャン取込みした方がいます。
    この情報は非常に役に立ちました。有難うございました!
  • id:ita07
    ちなみに、ScanSnap fi-5110E0X3という少し昔の機種で
    スキャン詳細モード(確かエクセレントモードという呼び方)で読み取った場合、
    読み込みスピードは非常に遅いですが、
    OCRによる文字識字率はほぼ100%近いものでした。
    事後ですがご連絡致します。

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません