OCRについて、教えてください。


1、Acrobat X pro とスキャナさえあれば、OCR機能を利用して
スキャナで読み取った書類を、テキスト化することができるのでしょうか?
もし他に必要な物があれば、何が必要かも教えてください。

2、英語やタイ語等も読み込めるのでしょうか?(PCにフォントがインストールされていることが前提)

回答の条件
  • 1人2回まで
  • 13歳以上
  • 登録:2011/03/19 14:51:04
  • 終了:2011/03/26 14:55:02

回答(3件)

id:deflation No.1

deflation回答回数1036ベストアンサー獲得回数1262011/03/19 14:56:17

ポイント27pt

1、できます。→参考「Acrobat X Pro / 機能



2、英語には対応していますが、タイ語には対応していません。→参考「2010'Adobe Acrobat X のOCRの出力実験と実力評価

id:peach555

ありがとうございます。

どの言語に対応するかは、ソフトに依存するのですね。

タイ語が読めるソフトはあるのでしょうか?

2011/03/19 15:05:42
id:deflation No.2

deflation回答回数1036ベストアンサー獲得回数1262011/03/19 15:41:07

ポイント27pt

タイ語が読めるソフトはあるのでしょうか?

ABBYY FineReaderが対応しています。

id:Baku7770 No.3

Baku7770回答回数2832ベストアンサー獲得回数1812011/03/19 21:08:34

ポイント26pt

 #a1,a2のdeflationさんを補足する内容で回答します。

 質問文中にOCRでテキスト化できるといった表現をされていますが、どの程度を期待されているのでしょうか?

 その内容によっては、できないという回答になるのが現状です。

 まず、通常OCRの認識は二つの方向から精度を上げていきます。一つは画像データをより正しい文字に変換する。もう一つは文法チェックや単語辞書と突き合わせることによります。

 例えばカタカナの「カ、タ」と漢字の「夕(ユウ)、力(チカラ)」を誤認識しないのは後者のチェックによるものです。

 AcrobatのOCR機能の怖いところはその仕様が私の知る限りで、公開されていないことです。特に学習機能があるのかどうかが気になります。特に文章データベースを構築する場合、インデックスとしたい専門用語に誤認識が集中するため、通常は人によるチェックを必ず行います。

 一般には平均で97%以上はほぼ不可能というのが現状です。ちなみに私が参考のためにとった文庫本は38文字×16行×2頁で1200文字になりますから、36文字は誤認識が発生するということです。

 私の知っている限りで最も高い精度を上げている手法は、複数のソフトでOCRして、認識結果が同じとなる多数決をとるといったかなり強引な手法です。ただし、これはある業者が自身の業務用に使っているもので残念ながら一般には公開されていません。

 

 学習機能があるOCRソフトであれば、特定の専門分野の文章だと書籍2~3冊、出版社ごとに繰り返せば結構使い物になってきますが、最初からというのは難しいでしょう。

http://current.ndl.go.jp/files/ca/ca1718.pdf

 タイ語のOCRなら、#a2のdeflationさんの揚げたABBYY FineReaderの他に、MLDOCRが知られています。

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません