人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

大量の書籍を効率よく電子化したいと思っています。
条件としては、ある程度貴重な本なので、本をばらばらにしたり傷つけたりするのはNGです。
電子化は単にPDF等にするだけでなく、テキストデータとして取り出せるようにできればなおよいです。
現在の候補は「やさしくデジカメ OCR」を利用することです。これよりよさそうなものをご紹介いただくか、もしくは「やさしくデジカメ OCR」を利用したことがある方がいらっしゃいましたらその使用感など教えていただけますと助かります。

●質問者: touroku
●カテゴリ:コンピュータ 書籍・音楽・映画
✍キーワード:OCR テキスト デジカメ データ 書籍
○ 状態 :終了
└ 回答数 : 4/4件

▽最新の回答へ

1 ● hamster009
●27ポイント

このソフトはある意味画期的ですね。もし本当にちゃんと動作するなら。というのは、OCRスキャン装置って非常に高価ですよね。手動のものでも数十万、自動となると数千万します。で、それでも必ずしもちゃんと読み取れるとはいかないようです。なのに、スキャンではなく、デジカメで撮影した画像から安いOCRソフトでどれだけ正確に読み取れるものか?大変疑問です。たぶん、雑誌記事のごく一部分を撮影して取り込むという程度なんじゃないでしょうか?

それでも、すこしでも精度を上げるためには、こうした撮影ボックスを自作する方法があります。レフ版や青いスクリーンを使うことで、よりはっきり撮影できる効果はあると思います。

http://arena.nikkeibp.co.jp/tec/camera/20020730/101347/

なんにしても、この3、4千円程度のソフトにはあまり期待しない方がよいのではないでしょうか?

◎質問者からの返答

ありがとうございました。

撮影ボックス+ある程度の性能のOCRソフトというのを検討してみたいと思います。


2 ● Baku7770
●27ポイント

詳細は後述しますが、ある程度貴重な書籍ということであればImageOFFICEでしょうね。

貴重な本であり素人が使うのに、スキャナ+e?Typistならまだ奨めますが、デジカメ+やさしく……なら反対します。

書籍の電子化と似たような作業でマイクロフィッシュの撮影というのがあります。何故スキャナでなくてカメラなのかということを指摘するのですが、カメラで書籍を撮影し、電子化する場合、専用の台で照明を工夫し、外部と暗幕等で遮断するなどかなり神経を使います。書籍でばらさないということであれば、ガラス抑えという作業も入ってきます。お尋ねの「やさしく……」は、価格などから判断して、例えばコンビニで雑誌の数ページを写メで撮影してそれをOCRするといった、少量のデータを扱うことに主眼を置いたソフトと考えます。

大量の書籍を扱われるようなのでどこまで必要かは判りませんが、最低でも先述のImageOFFICE程度の価格のソフトが必要となります。また、書籍の内容をどう保存するかでも異なります。

私の場合、OCRとスキャニングを読んde!!ココ、中間の画像処理に読取革命、イメージの取り込みはPaintShopを使っています。

読んde!!ココでスキャニングと見開き補正をした画像を一旦保存。読取革命でノイズや汚れを消去した後再度保存。読んde!!ココでOCRという手順です。1枚ずつではありません。書籍なら、1度に40ページはやりますし、認識率も上がり、こちらの方が早い。

これらは、市販OCRソフトが書籍ではなく、書類などの紙のOCRを目的に開発されていることに気が付いてからやっています。

◎質問者からの返答

ありがとうございました。

もしよろしければ、参考までに何ページをどのくらいの時間でやっているかお聞かせいただけますと幸いです。


3 ● tokyo-joe
●26ポイント

少し古いレビュー記事ですが、このサイトが参考になります。

http://www.sbcr.jp/vwalker/series/testlab/art.asp?newsid=6250

現在は、上で紹介されているソフトのバージョンも上がり、比較結果が異なる結果になるかもしれませんが、このレビューでは、

・e.Typist v.9.0

・読取革命 Ver.8

・読んde!!ココ Ver.9

等がオススメになっているようです。

参考までに、スキャンも含めたまとめページがありますので、こちらもどうぞ。

http://adf.dkiroku.com/referenceSites.html

◎質問者からの返答

ありがとうございました。

参考にさせていただきます。

なお、私の書き方が悪くて誤解させてしまったようですが、OCRを使ってテキストデータにするのは「できれば」ということで、第一の目的は後でそのファイルを開けば中身を読める程度の形に効率よく電子化することです。

なぜ「デジカメ+やさしく・・」を候補に挙げたかというと、数ページ試したところスキャナで1ページずつ読み込むよりも、一人がページをめくり、一人がデジカメで撮影するほうがだいぶ速かったということです。

「効率」と「精度」では「効率」を優先したいと考えておりますので、よろしくお願い致します。


4 ● Baku7770
●10ポイント

#a2で回答した者です。私宛コメント


もしよろしければ、参考までに何ページをどのくらいの時間でやっているかお聞かせいただけますと幸いです。

について回答します。

私の場合1時間7?10ページ程度ですが、これは字体のチェックや精読を含めて行っておりますので、これをそのまま参考にされても他の回答者へのコメントから推測してしょうがないと考えます。

そこで何故、ソフトを使い分けているかを含めて補足しましょう。

まず、読んde!!ココでのスキャンですがあらかじめページ数を決めて一気にスキャンします。スキャナの蓋を開閉したりしません。読取革命を使わないのはこれができないからで、文庫本見開きだと40ページ(つまり20画像)で10分かかりません。で、「見開き補正」を行います。ここまでで15分前後のハズです。解像度は600dpiのハズです。(自宅に置いていますので)

これを一旦TIFFで保存します。

次に読取革命で先程のTIFF画像から、枠と同時にページ番号や上部あるいは下部にある見出しの類を「トリミング(読んde!!ココにこの機能がない)」で消去、ついでに見開き部分の陰は消しゴムのより範囲指定で消去します。写真や図およびそれらのタイトルについても消去しています。これだけなら、10分を少し切る程度です。

また、汚れの消去を行うかは特に決めていません。ここは読取革命だと表示倍率を自由に設定できるというメリットを使っています。これをやり出すときりがないでしょう。

で、OCRですが、読取革命の認識率が低いこともあって、ファイル保存し、読んde!!ココに戻ります。

枠やページ番号、各ページの見出しを消してあるので自動読取枠+OCRで充分です。ここも10分前後でしょう。

私はこれを丁寧にチェックしてからWordにコピペしていますが、Word出力など省力化は可能です。

スキャナに関してなら私のように市販スキャナ(EPSON製)ではなく業務用のスキャナを使われるといいでしょう。

書籍なら高額ですがブックスキャナもあります。そこまで高額でなくとも業務用のスキャナならかなり高速です。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ