文書を画像として読み込んだPDFファイルを、文字列を検索可能にしたいです(OCR化?)。

それをするためには、Acrobatを購入すれば出来るのでしょうか?また、それしか方法はないでしょうか?

回答の条件
  • 1人2回まで
  • 13歳以上
  • 登録:2011/04/16 21:30:33
  • 終了:2011/04/23 21:35:02

回答(4件)

id:online_p No.1

online_p回答回数1153ベストアンサー獲得回数592011/04/16 21:40:55

ポイント23pt

acrobatはあまり日本語の認識が良くないです。パナソニックのocrソフトにしてください。

ただし、解像度が低いとそれでも認識されません。

id:taknt No.2

きゃづみぃ回答回数13537ベストアンサー獲得回数11982011/04/16 21:42:11

ポイント23pt

http://www.sourcenext.com/titles/use/124290/

いきなり®PDF to Data Office2010対応版

テキストファイルにも出力できます。

それを PDFに変換したらいいでしょう。

id:asuka645 No.3

あすか回答回数856ベストアンサー獲得回数972011/04/16 23:27:24

ポイント22pt

PDFの透明テキストとして埋め込めるOCRソフトであればできます。

お勧めはAcrobat Standardです。

日本語の認識精度も大変高いものになっています。

Adobe Acrobat X Standard Windows版

Adobe Acrobat X Standard Windows版

  • 出版社/メーカー: アドビシステムズ
  • 発売日: 2010-12-01
  • メディア: DVD-ROM


その他、下記のようなソフトでもできます。

読んde!!ココ Ver.13

読んde!!ココ Ver.13

  • 出版社/メーカー: エー・アイ・ソフト
  • 発売日: 2007-02-23
  • メディア: CD-ROM

id:Baku7770 No.4

Baku7770回答回数2831ベストアンサー獲得回数1812011/04/17 14:33:31

ポイント22pt

 幾つか、気をつけなければいけない点がありますので補足します。

 まず、OCR特に日本語OCRは二つの技術から構成されます。1つは画像を文字に変化する技術。もう一つは単語辞書や文法から変換された文字の候補からより正しい日本語となるような文字の候補を選んでいく技術。

 質問のように既に画像をお持ちの場合、1番目の画像を文字に変換する段階で引っかかることが多々あります。それは市販されているOCRソフトは原稿の文字の大きさ、スキャナの解像度が指定されていて、それから外れていることが多々あるということです。

 特に家庭用のスキャナだと1200dpiだとか2400dpiで画像を作成しがちですのでそれをやってしまっていれば、認識精度はただですら誤認識があるのに殆ど使い物にならない読み取り結果ができてしまいます。

 OCRは技術的には97%が限界とされています。これは文庫本1ページが約1200文字ですから、36文字誤読があるということです。それ以上の精度を謳っているソフトを見かけますが、学習させた原稿と同じタイプの書籍、例えば同じ作家の同一出版社から同時期に発行された書籍をOCRさせた結果でしかありません。

 特に専門書的な原稿だと専門用語で誤認識が発生しやすいものとなっています。

 2番目の問題はPDFというデータフォーマットが抱えている問題があります。本格的な文書データベースのコンテンツとして、PDFは実は専門家の間では嫌われています。

 一般に公開するフォーマットとしては人気が高いのですが、PDFはバージョンの違いやソフトに依る方言のために表示できなかったり、文書データベースに格納できなかったりといった事件が多々発生しており、今後改善される保障がありません。

 そのため、#a1や#a3で紹介されているようなOCRソフトを使った場合、Acrobatに比べて読み取り精度がより高いことと、手作業の修正が容易であるというものの、出来上がったPDFに方言があるという欠点があります。

 文書データベースを何で構築するか、原稿の文章としての特性から判断してください。

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません