人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

PDFからテキストを抽出したいと思っています。通常はPDFからテキストを抽出できるのですが、あるネットから得たPDFの資料はテキストを抽出しようとすると文字化けを起こしてしまいます。テキストエディタに貼ると完全に文字化け。MSWordに貼り付けてもほんの一部だけ通常に読めますが、大部分で文字化けを起こしています。抽出ツールはPDF DocText、XPDFなどを使っていますが、どれも同じです。

そこで中の情報を見ていると、文字化けを起こすPDFはPDF変換: GNU
Ghostscript 6.52と表示されています。予想するにGhostScript→PostScript→PDFでPDFにしたPDFファイルは文字化けを起こすような気がしますが、何か文字化けしないで良い方法で抽出できる方法はないでしょうか?

単純にPDFからテキストを抜き出すだけのフリーツールは既に見つけてあるので必要ありません。

●質問者: silverspring
●カテゴリ:コンピュータ インターネット
✍キーワード:GNU PDF PDFファイル PostScript テキスト
○ 状態 :終了
└ 回答数 : 4/4件

▽最新の回答へ

1 ● achipu
●27ポイント

文字コードの問題ではありませんか?

EUC, UNICODEだと、Windows標準のSHIFT-JISしか対応していないエディタでは文字化けをおこしてしまいます。

等、様々な文字コードに対応したエディタをお使いになられてはいかがでしょう。

◎質問者からの返答

文字コードの違いでは無いと思います。問題のPDFは英文で書かれたファイルです。秀丸で文字コードを全てチェックしましたが、どれも全滅でした。


2 ● KairuaAruika
●27ポイント

http://www.hatena.ne.jp/hatenatypered?yaq=%25a5%25c6%25a5%25ad%2...

アドレスはダミーです。

PDFって基本的にはepsデータなので,Illustratorにドラッグドロップしてみてください。

テキストパスは分断されている可能性はありますが,文字化けよりかはましかと思います。


3 ● IAMTHESUN2
●26ポイント

PDFファイルは、PDFファイル出力時に、テキストのコピー、選択ができないようにプロテクトをかけることができます。

簡単に流用されるのを防ぐためですが、情報発信側の企業のニーズというより、その情報を加工する業者の事情によるところが大きいです。

おそらく、情報発信側の企業内部で作成したのについては、大部分にプロテクトは掛けられていないと思います。プロテクトが掛けられているのは、外部の業者が作成したものがほとんどだと思います。その仕事を簡単に他社に奪われないようにするためのささやかな抵抗というわけです。

ただ、ファイルのプロテクト解除ツール iTextFront もあるようです。

http://support.adobe.co.jp/faq/faq/qadoc.sv?246+001


4 ● i_kumagoro
●10ポイント

終了していないのでpdfのセキュリティも問題なかったものとして回答します。

独自のエンコーディングを使用している、またはエンコーディングの指定がおかしいフォントを埋めこんで表示に使っている場合は、テキスト抽出をしても文字化けするという事が起こりえると思います(英文では珍しいと思いますが)。Adobe ReaderやAcrobatでpdfを開いてそこに含まれている英単語で検索をかけることはできますか? これができないのであればテキスト抽出は困難です。

検索がかけられない場合はこの問題である可能性が高いと思います(プロパティからフォントの一覧を表示するとカスタムエンコーディングとなっているフォントがあるはずです)。埋めこまれたフォント名等から作成に使用したアプリケーションを類推し、フォントのエンコーディングを調べて変換することは不可能ではないと思いますが、そこまでするくらいなら画像イメージにしてOCRにかけた方が早いと思います。

(多分英文で)同様にコピー&ペーストができなかった人の話(英語, adobeのフォーラムです。表示されない場合はguestでログインして下さい)。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ