Scansnapで文書等をスキャニングして、ActobatでOCRをあてて検索できるようにしています。
一方でAcrobatにはスキャンPDFの最適化機能があります。
そこで質問ですが、スキャンした文書にOCRを適用するとき、PDF最適化前と後では認識率に
違いはあるのでしょうか?
なおスキャンする条件やOCRの取り込み前提は同じものとします。
Acrobat 9.0 Standardを使っています。
最適化によって、AcrobatのOCRがよく働くように、画像の歪みを補正したり、輪郭のシャープ化を行います。また、一般的にファイルサイズも小さくなるので、OCR前に最適化を施した方が認識率が高まります。
ただし例外があります。極端に大きなサイズの文字と小さな文字が同じページにあったり、横書きと縦書きが連続しているようなページでは最適化が失敗することが時々あります。
>PDF最適化前と後では認識率に違いはあるのでしょうか?
ないか、最適化したほうが補正されるので、最適後のほうがOCR認識率が高くなります。
あくまで、印字された文字にたいしてであって、手書きの場合は不明です。
印字文字の場合で結構です
やはり最適化後がいいのですか・・・一度前後で試してみたのですが気持ち最適化前のほうが読み込めていたので、他の方のご意見を伺いたかったのです
Acrobat 9.0 Standardを使っています。
最適化によって、AcrobatのOCRがよく働くように、画像の歪みを補正したり、輪郭のシャープ化を行います。また、一般的にファイルサイズも小さくなるので、OCR前に最適化を施した方が認識率が高まります。
ただし例外があります。極端に大きなサイズの文字と小さな文字が同じページにあったり、横書きと縦書きが連続しているようなページでは最適化が失敗することが時々あります。
なるほどわかりました!
確かに実験したときはフォントサイズの大小差が大きかったです
ありがとうございます
なるほどわかりました!
確かに実験したときはフォントサイズの大小差が大きかったです
ありがとうございます