対象となる資料は一部カラーで、夕刊紙(夕刊フジ 、夕刊ゲンダイ)やビジネス誌(日経ビジネス、ダイヤモンド)に似ています。
保管状態がよく劣化ありません。
調べるとWinReader PRO v.12.0がありますが、こちらより識字率が高いOCRソフトはありますか?
http://mediadrive.jp/products/wrp/index.html
認識率の高い低いは、実運用にほとんど違いはありません。
(というより、いずれも期待はずれに終わると思います。)
99%の認識率というOCRソフトを使っても、100文字に1文字は誤認識することになりますし、実際に認識率99%を謳うソフトでも新聞・雑誌記事などでは、実運用上は90%以下だと思った方がいいでしょう。
つまり、OCRを使っても、相当手間隙をかけないと、テキストデータにはなりません。
キーワード・タグだけを付けて、イメージをそのまま保存するほうが賢いと思います。
参考に挙げていただいたOCRソフトは試用版もあるようなので、一度試されてはいかがでしょうか?
http://q.hatena.ne.jp/answer URLはダミーです。
どのようなソフトでも100%の識字率はほぼ不可能です。
一字一句間違いないものを求めておられるならば
OCRで取り込んだ後のチェック修正はほぼ必須となるでしょう。
実際のところ、ソフトの違いは読み取り機能の以外の付加機能次第といえます。
(その点WinReader PROは多言語対応など非常に多機能のようですね)
二次加工などをお考えならば別ですがスクラップ的な用途でしたら
画像として取り込むのが良いでしょう。
とりあえず体験版がある有名どころの読取革命や読んde!!ココを
試して比較してみてはいかがでしょうか。
http://ai2you.com/ocr/product/koko13/koko13.asp
http://panasonic.co.jp/pss/pstc/products/yomikaku/index.html
同様に有名どころは試しています。
1の方が仰られているようにOCRソフトの識字率は似たり寄ったりです。
アルファベットのOCRは比較的識字率は高いようですが、日本語は画数の多い漢字や数字の二とカタカナのニなどの似た字は誤変換を起こしやすく、アルファベットよりも識字率は格段に落ちるようです。
また、小説などのように書体が基本的に同じで、サイズも変わらないのならまだしも、雑誌のように文字サイズが大小様々で、書体も違う場合識字率はさらに落ちるかと思います。
一度購入していた雑誌を処分する際OCRを行おうとしたのですが(このとき行った雑誌は月刊アスキー、OCRソフトはです)、識字率があまりにひどく、使い物になりませんでした。場合によってはOCRした後修正するよりも自分で打ち込んだ方が早いのではないかと思ったくらいです。
画像データとして保存し、内容は目録をつくって確認するのが一番手っ取り早いかと思います。
http://ja.wikipedia.org/wiki/%E5%85%89%E5%AD%A6%E6%96%87%E5%AD%9...
丁寧にありがとうございます。
PC用OCRソフトも品質が上がっていますが、限界があります。
上記のWinReaderは比較的識字率の良い製品と思いますが、最上というわけではないので、もう少し情報収集されることをお勧めします。
個人的にお勧めなのは、以下のような個人向けドキュメントスキャナを購入されることです。
PFU ScanSnap
http://scansnap.fujitsu.com/jp/
キャノン imageFORMULA
http://cweb.canon.jp/imageformula/lineup/dr/index.html
スキャンデータのPDF化、及びOCR読み込みによる抽出テキストをPDFに埋め込んでくれるので、多量の紙資料を電子化したい場合は便利です。
どうしても完全なテキストが必要な場合には、OCRソフトで抽出した後手修正で補っていくことになりますが、そこそこ検索可能で、内容理解は「読めればOK」なのであれば、こういう案もいかがでしょうか。
最上のOCRソフトが分かれば嬉しいです。
質問に不備があり申し訳ございません。
先日WinReader PROを試して、イマイチだったんです。