1、Acrobat X pro とスキャナさえあれば、OCR機能を利用して
スキャナで読み取った書類を、テキスト化することができるのでしょうか?
もし他に必要な物があれば、何が必要かも教えてください。
2、英語やタイ語等も読み込めるのでしょうか?(PCにフォントがインストールされていることが前提)
1、できます。→参考「Acrobat X Pro / 機能 」
2、英語には対応していますが、タイ語には対応していません。→参考「2010'Adobe Acrobat X のOCRの出力実験と実力評価」
#a1,a2のdeflationさんを補足する内容で回答します。
質問文中にOCRでテキスト化できるといった表現をされていますが、どの程度を期待されているのでしょうか?
その内容によっては、できないという回答になるのが現状です。
まず、通常OCRの認識は二つの方向から精度を上げていきます。一つは画像データをより正しい文字に変換する。もう一つは文法チェックや単語辞書と突き合わせることによります。
例えばカタカナの「カ、タ」と漢字の「夕(ユウ)、力(チカラ)」を誤認識しないのは後者のチェックによるものです。
AcrobatのOCR機能の怖いところはその仕様が私の知る限りで、公開されていないことです。特に学習機能があるのかどうかが気になります。特に文章データベースを構築する場合、インデックスとしたい専門用語に誤認識が集中するため、通常は人によるチェックを必ず行います。
一般には平均で97%以上はほぼ不可能というのが現状です。ちなみに私が参考のためにとった文庫本は38文字×16行×2頁で1200文字になりますから、36文字は誤認識が発生するということです。
私の知っている限りで最も高い精度を上げている手法は、複数のソフトでOCRして、認識結果が同じとなる多数決をとるといったかなり強引な手法です。ただし、これはある業者が自身の業務用に使っているもので残念ながら一般には公開されていません。
学習機能があるOCRソフトであれば、特定の専門分野の文章だと書籍2~3冊、出版社ごとに繰り返せば結構使い物になってきますが、最初からというのは難しいでしょう。
http://current.ndl.go.jp/files/ca/ca1718.pdf
タイ語のOCRなら、#a2のdeflationさんの揚げたABBYY FineReaderの他に、MLDOCRが知られています。
ありがとうございます。
どの言語に対応するかは、ソフトに依存するのですね。
タイ語が読めるソフトはあるのでしょうか?