アドビのAcrobat.com.com利用しましたが、誤字脱字だらけで使い物になりませんでした。
実際にやっておられる方の方法が知りたいです。
元がOCRだったら、そのPDFの埋め込みテキストがすでに違っている(認識率が低い)ことになりますね。であれば、もっと認識率が高いOCRソフトでもう一度認識からやり直すしかないのでは?もっとも、プリンタに付属するOCRソフトはそんな極端にひどいものではないはず(たいていは90%中盤から後半)なので、体験版がそれに勝るとは考えにくいですが。ぶっちゃけ認識率が60%なんてクソだと言えます。冷静に考えてください。60%というと、100文字認識させたら正解が60文字そこそこしかないってことですよ?40文字近くも間違ってる。ボロボロじゃないですか。
もし今の埋め込みテキストがそんなにひどいなら、元文書を作ったところにやり直しを依頼した方が良さそうな予感がします。元文書の画質が低いと、どんなOCRを使っても認識率は上がりませんので、もっと解像度を上げたらどうだろうと言うのが真っ先に思いつく点です。が、元文書がすでに汚い(ファクスで流れてきたものだったり、何世代コピーされたか解らないもの)では、おそらく何をやっても無駄な抵抗に終わりそうですが。
基本的に元文書次第のところがあると思います。(画像化されていたり、段組上の問題があったり、暗号化されていたり、、、と。)
当方は分量が少なければ、コピー&ペーストでテキストエディタに貼り付けています。(量が多ければ、フリーソフトから適当なものを選んで使用。)
メモ帳にコピペしても文字化けします。
フリーソフトもいくつか試しましたがうまくいきませんでした。
コピペして誤字脱字があるって、どうやってPDFにしたのか理解に苦しみますが。普通なら、透明テキストですから、誤字なんてありえませんからね。
私ならPDFを作成した元のファイルを寄越せとか、PDF作成環境を調べるところから始めます。OCRも原稿や書かれている内容によって最適なソフトは違いますかし、そのようなファイルなら、OCRソフトそのものの機能で一度別形式に変換してから作業します。
>フリーソフトもいくつか試しましたがうまくいきませんでした。
ここの意味がわからないのですが、OCRならフリーソフトの認識率なんて80%を超えるはずはありませんし、PDFをダイレクトに加工するのなら純正Acrobatで作成されたPDFの限られたバージョンまでと覚悟してください。
紙媒体を EPSON PX-504A を使用してダイレクトにPDFにしたそうです。
OCRソフト(e.Typist v.14.0 体験版)で識字率60%程度で、これが一番精度高かったので、とりあえず、これで作業することにしました。
(引き続き情報募集します)
元がOCRだったら、そのPDFの埋め込みテキストがすでに違っている(認識率が低い)ことになりますね。であれば、もっと認識率が高いOCRソフトでもう一度認識からやり直すしかないのでは?もっとも、プリンタに付属するOCRソフトはそんな極端にひどいものではないはず(たいていは90%中盤から後半)なので、体験版がそれに勝るとは考えにくいですが。ぶっちゃけ認識率が60%なんてクソだと言えます。冷静に考えてください。60%というと、100文字認識させたら正解が60文字そこそこしかないってことですよ?40文字近くも間違ってる。ボロボロじゃないですか。
もし今の埋め込みテキストがそんなにひどいなら、元文書を作ったところにやり直しを依頼した方が良さそうな予感がします。元文書の画質が低いと、どんなOCRを使っても認識率は上がりませんので、もっと解像度を上げたらどうだろうと言うのが真っ先に思いつく点です。が、元文書がすでに汚い(ファクスで流れてきたものだったり、何世代コピーされたか解らないもの)では、おそらく何をやっても無駄な抵抗に終わりそうですが。
はい。頼んでみます。
チェック・ポイント
1.つぎのサイトを開いてから、メーカー・サポートに電話しましょう。
0120-938-008(EPSON ビジネスインクジェット PX-504A)
http://www.epson.jp/products/biz/px504a/spec.htm
2.添付ソフトを使って、誤字脱字だらけになることはありません。
(原稿の上下左右が、水平・垂直に置かれているか、確認しましょう)
この商品で、テキスト形式を得るには、他のソフトは必要ありません。
3.下記ソフトが、正常にインストールされているか、確認しましょう。
OCR;読んde!!ココ パーソナル 4.08 Windows 8 32bit版(20121011)
PDF作成モジュール OCRコンポーネント 1.33 Windows XP(20130131)
http://www.epson.jp/dl_soft/list/4731.htm
PDFファイルの元ファイルは昔、FAXで送られてきたものをスキャンしてPDFにしたそうです。
メーカーでは、そういうファイルは認識率悪くなるとのことでした。
あきらめます。
ありがとうございました。
はい。頼んでみます。
2013/04/09 20:55:16