OCRについて、教えてください。

Question

peach555

57

54もっと見る

80pt

コンピュータ

OCRについて、教えてください。

１、Acrobat X pro　とスキャナさえあれば、OCR機能を利用して
スキャナで読み取った書類を、テキスト化することができるのでしょうか？
もし他に必要な物があれば、何が必要かも教えてください。

２、英語やタイ語等も読み込めるのでしょうか？（PCにフォントがインストールされていることが前提）

回答の条件

1人2回まで

登録：2011/03/19 14:51:04
終了：2011/03/26 14:55:02

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

コメントはまだありません

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

deflation · Answer 1 · 2011-03-19T14:56:17+09:00

１、できます。→参考「Acrobat X Pro / 機能」

２、英語には対応していますが、タイ語には対応していません。→参考「2010'Adobe Acrobat X のOCRの出力実験と実力評価」

deflation · Answer 2 · 2011-03-19T15:41:07+09:00

タイ語が読めるソフトはあるのでしょうか？

ABBYY FineReaderが対応しています。

Baku7770 · Answer 3 · 2011-03-19T21:08:34+09:00

　#a1,a2のdeflationさんを補足する内容で回答します。

　質問文中にＯＣＲでテキスト化できるといった表現をされていますが、どの程度を期待されているのでしょうか？

　その内容によっては、できないという回答になるのが現状です。

　まず、通常ＯＣＲの認識は二つの方向から精度を上げていきます。一つは画像データをより正しい文字に変換する。もう一つは文法チェックや単語辞書と突き合わせることによります。

　例えばカタカナの「カ、タ」と漢字の「夕（ユウ）、力（チカラ）」を誤認識しないのは後者のチェックによるものです。

　AcrobatのＯＣＲ機能の怖いところはその仕様が私の知る限りで、公開されていないことです。特に学習機能があるのかどうかが気になります。特に文章データベースを構築する場合、インデックスとしたい専門用語に誤認識が集中するため、通常は人によるチェックを必ず行います。

　一般には平均で９７％以上はほぼ不可能というのが現状です。ちなみに私が参考のためにとった文庫本は３８文字×１６行×２頁で１２００文字になりますから、３６文字は誤認識が発生するということです。

　私の知っている限りで最も高い精度を上げている手法は、複数のソフトでＯＣＲして、認識結果が同じとなる多数決をとるといったかなり強引な手法です。ただし、これはある業者が自身の業務用に使っているもので残念ながら一般には公開されていません。

　学習機能があるＯＣＲソフトであれば、特定の専門分野の文章だと書籍２～３冊、出版社ごとに繰り返せば結構使い物になってきますが、最初からというのは難しいでしょう。

http://current.ndl.go.jp/files/ca/ca1718.pdf

　タイ語のＯＣＲなら、#a2のdeflationさんの揚げたABBYY FineReaderの他に、MLDOCRが知られています。

OCRについて、教えてください。

回答（3件）

deflation10361262011/03/19 14:56:17

deflation10361262011/03/19 15:41:07

Baku777028321812011/03/19 21:08:34

コメント（0件)

この質問への反応（ブックマークコメント）