人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

PDFファイルをテキスト形式にする方法ありませんか?
アドビのAcrobat.com.com利用しましたが、誤字脱字だらけで使い物になりませんでした。
実際にやっておられる方の方法が知りたいです。

●質問者: kakunoshin
●カテゴリ:コンピュータ
○ 状態 :終了
└ 回答数 : 5/5件

▽最新の回答へ

1 ● ラフティング
●18ポイント

基本的に元文書次第のところがあると思います。(画像化されていたり、段組上の問題があったり、暗号化されていたり、、、と。)

当方は分量が少なければ、コピー&ペーストでテキストエディタに貼り付けています。(量が多ければ、フリーソフトから適当なものを選んで使用。)


kakunoshinさんのコメント
メモ帳にコピペしても文字化けします。 フリーソフトもいくつか試しましたがうまくいきませんでした。

質問者から

http://q.hatena.ne.jp/1115015484
ここで紹介されている方法では出来ませんでした。


2 ● Baku7770
●18ポイント

コピペして誤字脱字があるって、どうやってPDFにしたのか理解に苦しみますが。普通なら、透明テキストですから、誤字なんてありえませんからね。

私ならPDFを作成した元のファイルを寄越せとか、PDF作成環境を調べるところから始めます。OCRも原稿や書かれている内容によって最適なソフトは違いますかし、そのようなファイルなら、OCRソフトそのものの機能で一度別形式に変換してから作業します。

>フリーソフトもいくつか試しましたがうまくいきませんでした。

ここの意味がわからないのですが、OCRならフリーソフトの認識率なんて80%を超えるはずはありませんし、PDFをダイレクトに加工するのなら純正Acrobatで作成されたPDFの限られたバージョンまでと覚悟してください。


kakunoshinさんのコメント
紙媒体を EPSON PX-504A を使用してダイレクトにPDFにしたそうです。 OCRソフト(e.Typist v.14.0 体験版)で識字率60%程度で、これが一番精度高かったので、とりあえず、これで作業することにしました。 (引き続き情報募集します)

3 ● SPX900
●28ポイント ベストアンサー

元がOCRだったら、そのPDFの埋め込みテキストがすでに違っている(認識率が低い)ことになりますね。であれば、もっと認識率が高いOCRソフトでもう一度認識からやり直すしかないのでは?もっとも、プリンタに付属するOCRソフトはそんな極端にひどいものではないはず(たいていは90%中盤から後半)なので、体験版がそれに勝るとは考えにくいですが。ぶっちゃけ認識率が60%なんてクソだと言えます。冷静に考えてください。60%というと、100文字認識させたら正解が60文字そこそこしかないってことですよ?40文字近くも間違ってる。ボロボロじゃないですか。

もし今の埋め込みテキストがそんなにひどいなら、元文書を作ったところにやり直しを依頼した方が良さそうな予感がします。元文書の画質が低いと、どんなOCRを使っても認識率は上がりませんので、もっと解像度を上げたらどうだろうと言うのが真っ先に思いつく点です。が、元文書がすでに汚い(ファクスで流れてきたものだったり、何世代コピーされたか解らないもの)では、おそらく何をやっても無駄な抵抗に終わりそうですが。


kakunoshinさんのコメント
はい。頼んでみます。

4 ● videosoft123
●18ポイント

変換ソフトを利用すると、簡単になります。
例えば、使ったことがある4Videosoft PDF Text 変換。


kakunoshinさんのコメント
そのソフトでも文字化けしました。

1-5件表示/6件
4.前の5件|次5件6.
関連質問

●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ