人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

個人ユースで、精度の高いOCRソフトを探しています。PDFの読み取りとワード文書などへの変換も可能なもので、今、一番性能が良く、リーズナブルなものはどれでしょうか。価格は、一万前後ぐらいまでで考えています。

●質問者: Lion21c
●カテゴリ:コンピュータ
✍キーワード:ソフト リーズナブル 価格 前後 OCR
○ 状態 :終了
└ 回答数 : 4/4件

▽最新の回答へ

1 ● fukinoko
●23ポイント

こんな感じのでしょうか?

http://software.fujitsu.com/jp/ocr/socr/

◎質問者からの返答

ありがとうございます。

「文書OCR for Word V5.0」は、新機能として、表示されているPDFファイルのページを、画像として入力し、認識することができますね。ただ、いきなりワード文書にはならない分、手間が一つふえるのでしょうか。


2 ● jyouseki
●23ポイント

http://panasonic.co.jp/pss/pstc/products/yomikaku/feature_1.html

OCRソフトで定評があるのはPanasonic製の「読み取り革命」です。


http://item.rakuten.co.jp/plusyu/4544892011011/

http://item.rakuten.co.jp/plusyu/4544892011028/

「読取革命」従来版か以下の0CRソフトをお持ちなら安価な優待版が使えます。

ソースネクスト株式会社 「本格読取」

エー・アイ・ソフト株式会社 「読んde!!ココ」シリーズ

メディアドライブ株式会社 「e.Typist」シリーズ

キヤノン株式会社 キヤノン製スキャナーにバンドルされているOCRソフト

エプソン株式会社 エプソン製スキャナーにバンドルされているOCRソフト


http://panasonic.co.jp/pss/pstc/products/yomikaku/demo.html

無料体験版もあります。

◎質問者からの返答

ありがとうございます。

リストにあるなかの安いものを以前、購入したのですが、残念ながら精度が?というかんじでした。ただ、「読み取り革命」の優待版が買えるというのはいいですね。

性能的には「文書OCR for Word V5.0」と

「読み取り革命」では、どちらが評価が高いのでしょうか?

英文の読み取りに強いものがありがたいのですが、いかがでしょうか。


3 ● Baku7770
●22ポイント

ImageOFFICE - FUJITSU Japan

古いバージョンですが、文書OCR for Word V5.0と同じ、OCRエンジンを搭載したImageOfficeの試用版とe?Typist、読み取り革命、読んde!!ココについては製品版を試用していました。現在は事情があって読んde!!ココしか使っていません。

英文と言うことであれば、ほぼ間違いなくe?Typistの製品版が一番でしょう。

試した時点で(和文のみです)認識率が一番高かったのは、ImageOfficeでした。ただ、英文に限ればで話しをしますが、e?Typistは辞書に頼りすぎるので精度が上がるはずです。

OCRのアルゴリズムを少し解説しますと、イメージから該当する文字を選択。辞書や文法パターンなどからもっとも確度の高い文字列で決定とします。

e?Typistの場合、辞書の影響を強く受けてしまうので、通常では考えられない文字認識をしてしまいます。よって当時は前記3つを分けて使用していました。

最近の文書はe?Typist、ちょっと古い文書なら読んde、古すぎて誤認識当たり前という文書は革命といった感じです。誤認識文字を一括して修正できますので。

逆に英文の場合、文字数が少ない、単語辞書に頼ったほうが精度が高いなどの特徴があるのでe?Typistの方が精度が上がるはずです。

過去に安い物を購入してとありますが、スキャナなどにバンドルしている製品を使用した結果であれば、製品版とは比較になりません。一度文書ファイルまたは印刷物を持って各社のイベントに参加されると、OCRしてくれますよ。都内が中心ですが、大阪日本橋でやっていることがあります。

因みに文書OCR for Word V5.0は所有していますが何故か動かないのでほこりを被っています。

◎質問者からの返答

詳細なご回答、ありがとうございます。

やはり、実際に試行錯誤された経験は貴重ですね。早速、e?Typistの体験版を使わせていただきましたが、非常に精度は高いと思います。読んde!!ココは、現在Ver.12が出ていますが、これもなかなかよさそうです。このソフトについては、使用されていて、どう評価されますでしょうか。使い勝手など含めて教えていただければ助かります。

また、日・英の両方で使う場合、総合的なバランスで推奨されるのは、どれになりますでしょうか。


4 ● Baku7770
●22ポイント

読んde!!ココ Ver.12は以前と比べると大分良くなりましたね。

私の場合、特に旧い書籍や中国、朝鮮などの人名や地名が出てくる書籍をOCRしますので、どうしてもJIS第1・第2水準では収まらないので、認識結果を拡大表示する必要があります。

以前のバージョンだと認識結果の文字と対応する文字の画像がかなりずれていたのがV12でほぼ合致してくれるのでかなり生産性が上がったと記憶しています。

私の場合、レイアウトを守る必要がない。つまり、書籍のDBとするため、むしろA4サイズにして頁数を少なくすることがメインですので参考にはならないかもしれません。

一番の不満は書籍を読み込んだ後に見開き傾き補正を自動化できないことで、これはe?Typistも同じようです。後、スキャン→傾き補正→ノイズ消去まで自動で行っていますが、ノイズ消去の段階で文字の一部を消去してしまうことで、特に振り仮名で顕著にやってくれます。(例:ツ、シ、ン、ソ→ノ)手動だと、ノイズ消去を弱にすることが可能なので、そういった現象は抑えられます。

「読んで」にしろ、「e?」にしろ、元々紙をOCRするソフトのようで、書籍をOCRするのは弱いようです。

日英のOCRについてですが、何をOCRするかで違います。

まず、英語。登録単語数が「読んで」62,000語、「e?」61,000語とほぼ同数など仕様上は変わりません。前回も申し上げたとおり、アルゴリズムで判断する限り、普通の日本語文書をOCRするなら「e?」、専門書や昭和30年代以前の文書をOCRするなら「読んで」が良いと考えます。ここで普通の日本語文書とは最近の新聞記事を想定して下さい。社説のような文書は「読んで」の領域に近くなります。

読んdeカタログ

e?Typistカタログ

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ