PDFファイルをテキスト形式にする方法ありませんか?

アドビのAcrobat.com.com利用しましたが、誤字脱字だらけで使い物になりませんでした。
実際にやっておられる方の方法が知りたいです。

回答の条件
  • 1人5回まで
  • 登録:
  • 終了:2013/04/10 15:14:26
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

ベストアンサー

id:SPX900 No.3

回答回数166ベストアンサー獲得回数49

ポイント28pt

元がOCRだったら、そのPDFの埋め込みテキストがすでに違っている(認識率が低い)ことになりますね。であれば、もっと認識率が高いOCRソフトでもう一度認識からやり直すしかないのでは?もっとも、プリンタに付属するOCRソフトはそんな極端にひどいものではないはず(たいていは90%中盤から後半)なので、体験版がそれに勝るとは考えにくいですが。ぶっちゃけ認識率が60%なんてクソだと言えます。冷静に考えてください。60%というと、100文字認識させたら正解が60文字そこそこしかないってことですよ?40文字近くも間違ってる。ボロボロじゃないですか。

もし今の埋め込みテキストがそんなにひどいなら、元文書を作ったところにやり直しを依頼した方が良さそうな予感がします。元文書の画質が低いと、どんなOCRを使っても認識率は上がりませんので、もっと解像度を上げたらどうだろうと言うのが真っ先に思いつく点です。が、元文書がすでに汚い(ファクスで流れてきたものだったり、何世代コピーされたか解らないもの)では、おそらく何をやっても無駄な抵抗に終わりそうですが。

id:kakunoshin

はい。頼んでみます。

2013/04/09 20:55:16

その他の回答4件)

id:rafting No.1

回答回数2652ベストアンサー獲得回数176

ポイント18pt

基本的に元文書次第のところがあると思います。(画像化されていたり、段組上の問題があったり、暗号化されていたり、、、と。)

当方は分量が少なければ、コピー&ペーストでテキストエディタに貼り付けています。(量が多ければ、フリーソフトから適当なものを選んで使用。)

id:kakunoshin

メモ帳にコピペしても文字化けします。
フリーソフトもいくつか試しましたがうまくいきませんでした。

2013/04/09 01:17:49
id:kakunoshin

http://q.hatena.ne.jp/1115015484

ここで紹介されている方法では出来ませんでした。

id:Baku7770 No.2

回答回数2832ベストアンサー獲得回数181

ポイント18pt

コピペして誤字脱字があるって、どうやってPDFにしたのか理解に苦しみますが。普通なら、透明テキストですから、誤字なんてありえませんからね。

私ならPDFを作成した元のファイルを寄越せとか、PDF作成環境を調べるところから始めます。OCRも原稿や書かれている内容によって最適なソフトは違いますかし、そのようなファイルなら、OCRソフトそのものの機能で一度別形式に変換してから作業します。

>フリーソフトもいくつか試しましたがうまくいきませんでした。

ここの意味がわからないのですが、OCRならフリーソフトの認識率なんて80%を超えるはずはありませんし、PDFをダイレクトに加工するのなら純正Acrobatで作成されたPDFの限られたバージョンまでと覚悟してください。

id:kakunoshin

紙媒体を EPSON PX-504A を使用してダイレクトにPDFにしたそうです。
OCRソフト(e.Typist v.14.0 体験版)で識字率60%程度で、これが一番精度高かったので、とりあえず、これで作業することにしました。

(引き続き情報募集します)

2013/04/09 07:06:04
id:SPX900 No.3

回答回数166ベストアンサー獲得回数49ここでベストアンサー

ポイント28pt

元がOCRだったら、そのPDFの埋め込みテキストがすでに違っている(認識率が低い)ことになりますね。であれば、もっと認識率が高いOCRソフトでもう一度認識からやり直すしかないのでは?もっとも、プリンタに付属するOCRソフトはそんな極端にひどいものではないはず(たいていは90%中盤から後半)なので、体験版がそれに勝るとは考えにくいですが。ぶっちゃけ認識率が60%なんてクソだと言えます。冷静に考えてください。60%というと、100文字認識させたら正解が60文字そこそこしかないってことですよ?40文字近くも間違ってる。ボロボロじゃないですか。

もし今の埋め込みテキストがそんなにひどいなら、元文書を作ったところにやり直しを依頼した方が良さそうな予感がします。元文書の画質が低いと、どんなOCRを使っても認識率は上がりませんので、もっと解像度を上げたらどうだろうと言うのが真っ先に思いつく点です。が、元文書がすでに汚い(ファクスで流れてきたものだったり、何世代コピーされたか解らないもの)では、おそらく何をやっても無駄な抵抗に終わりそうですが。

id:kakunoshin

はい。頼んでみます。

2013/04/09 20:55:16
id:videosoft123 No.4

回答回数2ベストアンサー獲得回数0

ポイント18pt

変換ソフトを利用すると、簡単になります。
例えば、使ったことがある4Videosoft PDF Text 変換。

id:kakunoshin

そのソフトでも文字化けしました。

2013/04/10 14:19:34
id:adlib No.5

回答回数3162ベストアンサー獲得回数243

ポイント18pt

 
 チェック・ポイント
 
1.つぎのサイトを開いてから、メーカー・サポートに電話しましょう。
 0120-938-008(EPSON ビジネスインクジェット PX-504A)
http://www.epson.jp/products/biz/px504a/spec.htm
 
2.添付ソフトを使って、誤字脱字だらけになることはありません。
(原稿の上下左右が、水平・垂直に置かれているか、確認しましょう)
 この商品で、テキスト形式を得るには、他のソフトは必要ありません。
 
3.下記ソフトが、正常にインストールされているか、確認しましょう。
 OCR;読んde!!ココ パーソナル 4.08 Windows 8 32bit版(20121011)
 PDF作成モジュール OCRコンポーネント 1.33 Windows XP(20130131)
http://www.epson.jp/dl_soft/list/4731.htm
 

id:kakunoshin

PDFファイルの元ファイルは昔、FAXで送られてきたものをスキャンしてPDFにしたそうです。
メーカーでは、そういうファイルは認識率悪くなるとのことでした。
あきらめます。
ありがとうございました。

2013/04/10 15:13:18

コメントはまだありません

この質問への反応(ブックマークコメント)

トラックバック

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません