個人ユースで、精度の高いOCRソフトを探しています。PDFの読み取りとワード文書などへの変換も可能なもので、今、一番性能が良く、リーズナブルなものはどれでしょうか。価格は、一万前後ぐらいまでで考えています。

回答の条件
  • URL必須
  • 1人3回まで
  • 登録:2006/09/13 22:40:32
  • 終了:2006/09/20 22:45:04

回答(4件)

id:fukinoko No.1

fukinoko回答回数35ベストアンサー獲得回数22006/09/13 22:51:42

ポイント23pt

こんな感じのでしょうか?

http://software.fujitsu.com/jp/ocr/socr/

id:Lion21c

ありがとうございます。

「文書OCR for Word V5.0」は、新機能として、表示されているPDFファイルのページを、画像として入力し、認識することができますね。ただ、いきなりワード文書にはならない分、手間が一つふえるのでしょうか。

2006/09/13 23:14:42
id:jyouseki No.2

jyouseki回答回数5251ベストアンサー獲得回数382006/09/13 23:00:12

ポイント23pt

http://panasonic.co.jp/pss/pstc/products/yomikaku/feature_1.html

OCRソフトで定評があるのはPanasonic製の「読み取り革命」です。


http://item.rakuten.co.jp/plusyu/4544892011011/

http://item.rakuten.co.jp/plusyu/4544892011028/

「読取革命」従来版か以下の0CRソフトをお持ちなら安価な優待版が使えます。

ソースネクスト株式会社 「本格読取」

エー・アイ・ソフト株式会社 「読んde!!ココ」シリーズ

メディアドライブ株式会社 「e.Typist」シリーズ

キヤノン株式会社 キヤノン製スキャナーにバンドルされているOCRソフト

エプソン株式会社 エプソン製スキャナーにバンドルされているOCRソフト


http://panasonic.co.jp/pss/pstc/products/yomikaku/demo.html

無料体験版もあります。

id:Lion21c

ありがとうございます。

リストにあるなかの安いものを以前、購入したのですが、残念ながら精度が?というかんじでした。ただ、「読み取り革命」の優待版が買えるというのはいいですね。

性能的には「文書OCR for Word V5.0」と

「読み取り革命」では、どちらが評価が高いのでしょうか?

英文の読み取りに強いものがありがたいのですが、いかがでしょうか。

2006/09/13 23:41:13
id:Baku7770 No.3

Baku7770回答回数2832ベストアンサー獲得回数1812006/09/14 14:57:49

ポイント22pt

ImageOFFICE - FUJITSU Japan

 

 古いバージョンですが、文書OCR for Word V5.0と同じ、OCRエンジンを搭載したImageOfficeの試用版とe-Typist、読み取り革命、読んde!!ココについては製品版を試用していました。現在は事情があって読んde!!ココしか使っていません。

 英文と言うことであれば、ほぼ間違いなくe-Typistの製品版が一番でしょう。

 試した時点で(和文のみです)認識率が一番高かったのは、ImageOfficeでした。ただ、英文に限ればで話しをしますが、e-Typistは辞書に頼りすぎるので精度が上がるはずです。

 OCRのアルゴリズムを少し解説しますと、イメージから該当する文字を選択。辞書や文法パターンなどからもっとも確度の高い文字列で決定とします。

 e-Typistの場合、辞書の影響を強く受けてしまうので、通常では考えられない文字認識をしてしまいます。よって当時は前記3つを分けて使用していました。

 最近の文書はe-Typist、ちょっと古い文書なら読んde、古すぎて誤認識当たり前という文書は革命といった感じです。誤認識文字を一括して修正できますので。

 逆に英文の場合、文字数が少ない、単語辞書に頼ったほうが精度が高いなどの特徴があるのでe-Typistの方が精度が上がるはずです。

 過去に安い物を購入してとありますが、スキャナなどにバンドルしている製品を使用した結果であれば、製品版とは比較になりません。一度文書ファイルまたは印刷物を持って各社のイベントに参加されると、OCRしてくれますよ。都内が中心ですが、大阪日本橋でやっていることがあります。

 因みに文書OCR for Word V5.0は所有していますが何故か動かないのでほこりを被っています。

id:Lion21c

詳細なご回答、ありがとうございます。

やはり、実際に試行錯誤された経験は貴重ですね。早速、e-Typistの体験版を使わせていただきましたが、非常に精度は高いと思います。読んde!!ココは、現在Ver.12が出ていますが、これもなかなかよさそうです。このソフトについては、使用されていて、どう評価されますでしょうか。使い勝手など含めて教えていただければ助かります。

また、日・英の両方で使う場合、総合的なバランスで推奨されるのは、どれになりますでしょうか。

2006/09/15 12:34:03
id:Baku7770 No.4

Baku7770回答回数2832ベストアンサー獲得回数1812006/09/19 14:00:02

ポイント22pt

 読んde!!ココ Ver.12は以前と比べると大分良くなりましたね。

 私の場合、特に旧い書籍や中国、朝鮮などの人名や地名が出てくる書籍をOCRしますので、どうしてもJIS第1・第2水準では収まらないので、認識結果を拡大表示する必要があります。

 以前のバージョンだと認識結果の文字と対応する文字の画像がかなりずれていたのがV12でほぼ合致してくれるのでかなり生産性が上がったと記憶しています。

 私の場合、レイアウトを守る必要がない。つまり、書籍のDBとするため、むしろA4サイズにして頁数を少なくすることがメインですので参考にはならないかもしれません。

 一番の不満は書籍を読み込んだ後に見開き傾き補正を自動化できないことで、これはe-Typistも同じようです。後、スキャン→傾き補正→ノイズ消去まで自動で行っていますが、ノイズ消去の段階で文字の一部を消去してしまうことで、特に振り仮名で顕著にやってくれます。(例:ツ、シ、ン、ソ→ノ)手動だと、ノイズ消去を弱にすることが可能なので、そういった現象は抑えられます。

 「読んで」にしろ、「e-」にしろ、元々紙をOCRするソフトのようで、書籍をOCRするのは弱いようです。

 日英のOCRについてですが、何をOCRするかで違います。

 まず、英語。登録単語数が「読んで」62,000語、「e-」61,000語とほぼ同数など仕様上は変わりません。前回も申し上げたとおり、アルゴリズムで判断する限り、普通の日本語文書をOCRするなら「e-」、専門書や昭和30年代以前の文書をOCRするなら「読んで」が良いと考えます。ここで普通の日本語文書とは最近の新聞記事を想定して下さい。社説のような文書は「読んで」の領域に近くなります。

読んdeカタログ

e-Typistカタログ

  • id:Lion21c
    みなさん、ご回答、大変にありがとうございました。
    Baku7770さんも、二度も詳細な情報を寄せて頂き、
    とても参考になりました。
    心から感謝申し上げます。

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません