PDFファイルをテキスト形式にする方法ありませんか？

コピペして誤字脱字があるって、どうやってＰＤＦにしたのか理解に苦しみますが。普通なら、透明テキストですから、誤字なんてありえませんからね。

私ならＰＤＦを作成した元のファイルを寄越せとか、ＰＤＦ作成環境を調べるところから始めます。ＯＣＲも原稿や書かれている内容によって最適なソフトは違いますかし、そのようなファイルなら、ＯＣＲソフトそのものの機能で一度別形式に変換してから作業します。

>フリーソフトもいくつか試しましたがうまくいきませんでした。

ここの意味がわからないのですが、ＯＣＲならフリーソフトの認識率なんて８０％を超えるはずはありませんし、ＰＤＦをダイレクトに加工するのなら純正Acrobatで作成されたＰＤＦの限られたバージョンまでと覚悟してください。

紙媒体を　EPSON PX-504A を使用してダイレクトにPDFにしたそうです。
OCRソフト（e.Typist v.14.0 体験版）で識字率60％程度で、これが一番精度高かったので、とりあえず、これで作業することにしました。

（引き続き情報募集します）

2013/04/09 07:06:04

No.4

videosoft123202013/04/09 18:03:47

18pt

変換ソフトを利用すると、簡単になります。
例えば、使ったことがある4Videosoft PDF Text 変換。

そのソフトでも文字化けしました。

2013/04/10 14:19:34

No.5

adlib31642432013/04/10 09:56:50

18pt

　
　チェック・ポイント
　
１．つぎのサイトを開いてから、メーカー・サポートに電話しましょう。
　0120-938-008（EPSON ビジネスインクジェット PX-504A）
http://www.epson.jp/products/biz/px504a/spec.htm
　
２．添付ソフトを使って、誤字脱字だらけになることはありません。
（原稿の上下左右が、水平・垂直に置かれているか、確認しましょう）
　この商品で、テキスト形式を得るには、他のソフトは必要ありません。
　
３．下記ソフトが、正常にインストールされているか、確認しましょう。
　OCR；読んde!!ココパーソナル 4.08 Windows 8 32bit版（20121011）
　PDF作成モジュール OCRコンポーネント 1.33 Windows XP（20130131）
http://www.epson.jp/dl_soft/list/4731.htm
　

PDFファイルの元ファイルは昔、FAXで送られてきたものをスキャンしてPDFにしたそうです。
メーカーでは、そういうファイルは認識率悪くなるとのことでした。
あきらめます。
ありがとうございました。

2013/04/10 15:13:18

コメントはまだありません

Awa Library Report - 　Ｑ＆Ａ Monthly 〜 adlibさんの今月の活動〜 2013-04-30 03:52:22

　Ｑ＆Ａ Monthly 〜 adlibさんの今月の活動〜　 http://d.hatena.ne.jp/adlib/20130401 http://www.hatena.ne.jp/adlib/activities http://twitter.com/awalibrary 　 http://www.enpitu.ne.jp/usr8/bin/list?id=87518&pg=000000 http://www.enpitu.

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

SPX900 · Accepted Answer · 2013-04-09T17:21:55+09:00

元がOCRだったら、そのPDFの埋め込みテキストがすでに違っている（認識率が低い）ことになりますね。であれば、もっと認識率が高いOCRソフトでもう一度認識からやり直すしかないのでは？もっとも、プリンタに付属するOCRソフトはそんな極端にひどいものではないはず（たいていは90%中盤から後半）なので、体験版がそれに勝るとは考えにくいですが。ぶっちゃけ認識率が60%なんてクソだと言えます。冷静に考えてください。60%というと、100文字認識させたら正解が60文字そこそこしかないってことですよ？40文字近くも間違ってる。ボロボロじゃないですか。

もし今の埋め込みテキストがそんなにひどいなら、元文書を作ったところにやり直しを依頼した方が良さそうな予感がします。元文書の画質が低いと、どんなOCRを使っても認識率は上がりませんので、もっと解像度を上げたらどうだろうと言うのが真っ先に思いつく点です。が、元文書がすでに汚い（ファクスで流れてきたものだったり、何世代コピーされたか解らないもの）では、おそらく何をやっても無駄な抵抗に終わりそうですが。

SPX900 · Accepted Answer · 2013-04-09T17:21:55+09:00

元がOCRだったら、そのPDFの埋め込みテキストがすでに違っている（認識率が低い）ことになりますね。であれば、もっと認識率が高いOCRソフトでもう一度認識からやり直すしかないのでは？もっとも、プリンタに付属するOCRソフトはそんな極端にひどいものではないはず（たいていは90%中盤から後半）なので、体験版がそれに勝るとは考えにくいですが。ぶっちゃけ認識率が60%なんてクソだと言えます。冷静に考えてください。60%というと、100文字認識させたら正解が60文字そこそこしかないってことですよ？40文字近くも間違ってる。ボロボロじゃないですか。

もし今の埋め込みテキストがそんなにひどいなら、元文書を作ったところにやり直しを依頼した方が良さそうな予感がします。元文書の画質が低いと、どんなOCRを使っても認識率は上がりませんので、もっと解像度を上げたらどうだろうと言うのが真っ先に思いつく点です。が、元文書がすでに汚い（ファクスで流れてきたものだったり、何世代コピーされたか解らないもの）では、おそらく何をやっても無駄な抵抗に終わりそうですが。

PDFファイルをテキスト形式にする方法ありませんか？

ベストアンサー

SPX900166492013/04/09 17:21:55

その他の回答（4件）

ラフティング26521762013/04/09 01:01:38

質問者から

Baku777028321812013/04/09 05:28:38

SPX900166492013/04/09 17:21:55ここでベストアンサー

videosoft123202013/04/09 18:03:47

adlib31642432013/04/10 09:56:50

コメント（0件)

この質問への反応（ブックマークコメント）

トラックバック