また、ある程度の多機能性も欲しいです。
私がしたい事を具体的に言いますと、
十数冊の本の、「目次」と「索引」をスキャンした画像ファイル(.TIFF)を、
テキストデータにすることです。
目次と索引ですので、下記のように、
"……" 等の横線が、項目名の長さにより、違う長さで出てきます。
項目 ○○ ………… 52, 102
項目 ×××× …… 305
このような画像であっても、
自動的に項目名とページ数のつながり方を認識してほしいので、
ある程度の「多機能性」が欲しいのです。
しかし、「文字認識精度」か「多機能性」か、どちらかを採れと言われれば、
断然、「文字認識精度」です。
なぜなら、
画像内の文字の配置については、
前もって切り貼りしてからOCRにかければ良いですが、
誤認識がないか目で確認するのは、多量の労力が必要だからです。
以上、私のニーズに合ったOCRソフトをご存じの方、ご教示下さい。
長所・短所の簡単な解説をつけて下されば、なお結構です。
Windows7か8で動くものをお願いします。
有料・無料は問いません。高価なものでも良いです。
http://panasonic.co.jp/pstc/products/yomikaku/demo.html
ABBYY FineReader12(体験版)
http://finereader.add-soft.jp/
主な特徴
http://www.unipos.net/find/product_item.php?id=64
・99.8%の言語認識精度
・文書レイアウトの保存機能
(グラフ、図表、テキスト列、イメージ、テーブルなど)
・190種類の言語を認識、48種類の言語における辞書機能
・カスタムユーザー辞書
・フォントの保存
・豊富な出力フォーマットをサポート
(Microsoft Word、Excel、PowerPoint、Adobe Acrobat、Corel、WordPerfect、OpenOffice.org Writerなどに直接送信できます)
http://ascii.jp/elem/000/000/721/721112/index-2.html
思った以上にOCRソフトは使える!
ルビのない原稿なら誤認識は実質わずかに0.04%
1ページ目から1万文字ぶんの原稿とOCR変換したデータを精査したところ、誤変換は63ヵ所。ほとんどが、「二」や「……」「。」の誤認識だった。「草鞋」を「草鮭」、「花崗岩」を「花]岡石」とするなどのミスは3~4ヵ所あった。ルビは165ヵ所あり、ミスは90ヵ所。そのほとんどが、1行に複数のルビがあるためにくっついたもの。文字の認識ミスは10ヵ所程度だった。
ルビのない原稿なら、高い確率で認識してくれることがわかった。本文の誤認識は0.6%、実質的には0.04%といったところだ。
ABBYY FineReader ® 12
http://finereader.add-soft.jp
ABBYY FineReader 12 は、スキャンした文書、PDF、デジカメやiPhone、スマートフォンで撮影した画像などを、
高い精度で読み取り、検索/編集可能なフォーマットに変換できる 総合 OCR ソフトウェア です。
変換可能な形式には、Microsoft® Word、Excel、検索可能な PDF、および一般的な電子書籍フォーマットが含まれます。
ABBYY FineReader 12 は 190 の言語に対応しています。
OCRといえば宛名認識といえば東芝、と思ったので下記をあげてみる。
使ったことないのですが。
ExpressReader Pro
http://www.toshiba-sol.co.jp/pro/ocr/erpro/index_j.htm
値段が桁違いな分はさすがに性能は上なんじゃないかと思う。
でも、活字だとオーバースペックかも。
こういう価格帯もあるよという事で出してみました。
これはちょっと高すぎて買えないですねぇ……ご回答ありがとう存じます。
そのソフトは私が既に回答しています。
2014/06/09 08:52:28