人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

文書を画像として読み込んだPDFファイルを、文字列を検索可能にしたいです(OCR化?)。
それをするためには、Acrobatを購入すれば出来るのでしょうか?また、それしか方法はないでしょうか?

●質問者: koime_ryokutya
●カテゴリ:コンピュータ インターネット
✍キーワード:Acrobat OCR PDFファイル 文字列 検索
○ 状態 :終了
└ 回答数 : 4/4件

▽最新の回答へ

1 ● online_p
●23ポイント

acrobatはあまり日本語の認識が良くないです。パナソニックのocrソフトにしてください。

ただし、解像度が低いとそれでも認識されません。


2 ● きゃづみぃ
●23ポイント

http://www.sourcenext.com/titles/use/124290/

いきなり?PDF to Data Office2010対応版

テキストファイルにも出力できます。

それを PDFに変換したらいいでしょう。


3 ● あすか
●22ポイント

PDFの透明テキストとして埋め込めるOCRソフトであればできます。

お勧めはAcrobat Standardです。

日本語の認識精度も大変高いものになっています。

Adobe Acrobat X Standard Windows版

Adobe Acrobat X Standard Windows版

  • 出版社/メーカー: アドビシステムズ
  • 発売日: 2010-12-01
  • メディア: DVD-ROM


その他、下記のようなソフトでもできます。

読んde!!ココ Ver.13

読んde!!ココ Ver.13

  • 出版社/メーカー: エー・アイ・ソフト
  • 発売日: 2007-02-23
  • メディア: CD-ROM


4 ● Baku7770
●22ポイント

幾つか、気をつけなければいけない点がありますので補足します。

まず、OCR特に日本語OCRは二つの技術から構成されます。1つは画像を文字に変化する技術。もう一つは単語辞書や文法から変換された文字の候補からより正しい日本語となるような文字の候補を選んでいく技術。

質問のように既に画像をお持ちの場合、1番目の画像を文字に変換する段階で引っかかることが多々あります。それは市販されているOCRソフトは原稿の文字の大きさ、スキャナの解像度が指定されていて、それから外れていることが多々あるということです。

特に家庭用のスキャナだと1200dpiだとか2400dpiで画像を作成しがちですのでそれをやってしまっていれば、認識精度はただですら誤認識があるのに殆ど使い物にならない読み取り結果ができてしまいます。

OCRは技術的には97%が限界とされています。これは文庫本1ページが約1200文字ですから、36文字誤読があるということです。それ以上の精度を謳っているソフトを見かけますが、学習させた原稿と同じタイプの書籍、例えば同じ作家の同一出版社から同時期に発行された書籍をOCRさせた結果でしかありません。

特に専門書的な原稿だと専門用語で誤認識が発生しやすいものとなっています。

2番目の問題はPDFというデータフォーマットが抱えている問題があります。本格的な文書データベースのコンテンツとして、PDFは実は専門家の間では嫌われています。

一般に公開するフォーマットとしては人気が高いのですが、PDFはバージョンの違いやソフトに依る方言のために表示できなかったり、文書データベースに格納できなかったりといった事件が多々発生しており、今後改善される保障がありません。

そのため、#a1や#a3で紹介されているようなOCRソフトを使った場合、Acrobatに比べて読み取り精度がより高いことと、手作業の修正が容易であるというものの、出来上がったPDFに方言があるという欠点があります。

文書データベースを何で構築するか、原稿の文章としての特性から判断してください。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ