日本語OCRの中で、文字認識精度が最強のものを教えて下さい。

また、ある程度の多機能性も欲しいです。

私がしたい事を具体的に言いますと、
十数冊の本の、「目次」と「索引」をスキャンした画像ファイル(.TIFF)を、
テキストデータにすることです。

目次と索引ですので、下記のように、
"……" 等の横線が、項目名の長さにより、違う長さで出てきます。

項目 ○○ ………… 52, 102
項目 ×××× …… 305

このような画像であっても、
自動的に項目名とページ数のつながり方を認識してほしいので、
ある程度の「多機能性」が欲しいのです。

しかし、「文字認識精度」か「多機能性」か、どちらかを採れと言われれば、
断然、「文字認識精度」です。

なぜなら、
画像内の文字の配置については、
前もって切り貼りしてからOCRにかければ良いですが、
誤認識がないか目で確認するのは、多量の労力が必要だからです。

以上、私のニーズに合ったOCRソフトをご存じの方、ご教示下さい。
長所・短所の簡単な解説をつけて下されば、なお結構です。

Windows7か8で動くものをお願いします。
有料・無料は問いません。高価なものでも良いです。

回答の条件
  • 1人5回まで
  • 登録:
  • 終了:2014/06/15 20:25:04
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

回答5件)

id:snow0214 No.1

回答回数470ベストアンサー獲得回数116

ポイント250pt

パナソニック 読取革命Ver.15 製品版

パナソニック 読取革命Ver.15 製品版


無料体験版ダウンロード

http://panasonic.co.jp/pstc/products/yomikaku/demo.html

参考記事:比較2014' 現行の日本語OCRソフトの性能評価・おすすめ

http://monomania.sblo.jp/article/55737163.html

id:Yacky No.2

回答回数1376ベストアンサー獲得回数156

ポイント250pt

ABBYY FineReader12(体験版)
http://finereader.add-soft.jp/
主な特徴
http://www.unipos.net/find/product_item.php?id=64

・99.8%の言語認識精度
・文書レイアウトの保存機能
(グラフ、図表、テキスト列、イメージ、テーブルなど)
・190種類の言語を認識、48種類の言語における辞書機能
・カスタムユーザー辞書
・フォントの保存
・豊富な出力フォーマットをサポート
(Microsoft Word、Excel、PowerPoint、Adobe Acrobat、Corel、WordPerfect、OpenOffice.org Writerなどに直接送信できます)

id:gizmo5 No.3

回答回数504ベストアンサー獲得回数141

ポイント250pt

電子書籍 自炊 | PDF作成に最適な活字OCRソフト | e.Typist v.15.0:トップ

http://ascii.jp/elem/000/000/721/721112/index-2.html

思った以上にOCRソフトは使える!
ルビのない原稿なら誤認識は実質わずかに0.04%

 1ページ目から1万文字ぶんの原稿とOCR変換したデータを精査したところ、誤変換は63ヵ所。ほとんどが、「二」や「……」「。」の誤認識だった。「草鞋」を「草鮭」、「花崗岩」を「花]岡石」とするなどのミスは3~4ヵ所あった。ルビは165ヵ所あり、ミスは90ヵ所。そのほとんどが、1行に複数のルビがあるためにくっついたもの。文字の認識ミスは10ヵ所程度だった。

 ルビのない原稿なら、高い確率で認識してくれることがわかった。本文の誤認識は0.6%、実質的には0.04%といったところだ。

id:kanonk No.4

回答回数327ベストアンサー獲得回数16

ABBYY FineReader ® 12

http://finereader.add-soft.jp

ABBYY FineReader 12 は、スキャンした文書、PDF、デジカメやiPhone、スマートフォンで撮影した画像などを、
高い精度で読み取り、検索/編集可能なフォーマットに変換できる 総合 OCR ソフトウェア です。
変換可能な形式には、Microsoft® Word、Excel、検索可能な PDF、および一般的な電子書籍フォーマットが含まれます。
ABBYY FineReader 12 は 190 の言語に対応しています。

id:Yacky

そのソフトは私が既に回答しています。

2014/06/09 08:52:28
id:TransFreeBSD No.5

回答回数668ベストアンサー獲得回数268

ポイント250pt

OCRといえば宛名認識といえば東芝、と思ったので下記をあげてみる。
使ったことないのですが。

ExpressReader Pro
http://www.toshiba-sol.co.jp/pro/ocr/erpro/index_j.htm
値段が桁違いな分はさすがに性能は上なんじゃないかと思う。
でも、活字だとオーバースペックかも。
こういう価格帯もあるよという事で出してみました。

id:akkeyyyy

これはちょっと高すぎて買えないですねぇ……ご回答ありがとう存じます。

2014/06/15 13:25:51
  • id:nazeka2014
    上記に上がっているe.Typistを持ってたけど,もう使用していない。理由はわかるよね?
  • id:akkeyyyy
    nazeka2014さん、なぜですか?
  • id:yoshinon
    残念ながら最近、フリーのものと有料のものの性能差が、ほぼなくなりつつあります。
    Googleの無料のOCRですら、かなり強力です。
    http://hokoxjouhou.blog105.fc2.com/blog-entry-373.html
  • id:akkeyyyy
    yoshinon (id:yoshinon) 様、

    それは、上のコメント「なぜですか?」へのご回答でもあるのでしょうか?

    しかし、そうでなくとも、とても役に立つご助言です。有難うございます!

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません