イラストレータで作成したデータをPDFに変換し、そのPDFからテキスト(英文)を抽出したいのですが、ワードにコピペすると、文字が化けしてしまいます。
原因、および解決方法をご教示いただきたく、よろしくお願いいたします。
もともとそのデータは、別の複数のPDFからテキストを抽出してワードで編集し、それをイラストレータデータで組んだものでした。
その編集過程で、何か問題があったのでしょうか?
あるいは、元のPDFデータのテキスト自体に、何か問題があったのでしょうか?
http://questionbox.jp.msn.com/qa3658692.html
ジャングルという会社の「編集!PDF」(ダウンロード版だと5700円)これは優れものです。いきなり PDFtoDATAの場合は変換するとデータがテキストボックスに入ってしまい、いちいちコピー、ペーストをしなければならず大変面倒でした。(それ以前に誤変換が多く使い物にならないという問題がありますたが・・・)
「編集!PDF」は体験版(下記URL)もあるので是非一度使ってみて、満足いくようであれば購入してはどうでしょうか?私はいくつかのPDFファイルを Word,Excelに変換してみましたが実用に耐えうる非常によいソフトと判断し、ダンロード版を購入しました。私が思っていた以上によかったので、 27099様にも是非お知らせしようと思い、再度回答させていただきました。(私はこの会社の回し者ではないです。念のため)
保存の仕方が悪いのではと思います
全てのフォントを使用してみるにチェックを入れて見てください
http://kohtguchi.at.webry.info/200603/article_7.html
あるいはこちらの手順で保存してみてください
PDFをどのアプリで開いているかわかりませんが、結果的には以下のいずれかの方法でテキストのコピペはできると思います。
1)AdobeReader等で編集→ファイルをクリップボードにコピー→Wordへ貼り付け/NOtePad等へ貼り付け
2)AdobeReader等でPDFをテキストとして保存→Wordで開く/NotePad等で開く
3)PDFのテキスト部分"のみ"うまくコピーしてWordに貼り付け(妙な半角スペースやドット等はコピーしない)
原因は推測になりますが、編集に使用するアプリなどのバージョンがかなり古いということでなければ、PCのフォント環境が意識せず変更された、イラレでテキストを正しく処理できなかった(読み込み時・PDF保存時)、PDF側のテキスト情報をクリップボード・Wordで正しく理解できなかった(おそらくイラレの問題)、等だと思われます。
イラレはテキストの扱いが今も昔も神経質で苦手なので、イラレ側に原因はあるのかなと思います。
元のPDFデータには問題ないと思います。
私も同様の仕事をしていますが、PDFからテキストを取り出す際は、一旦プレーンテキストとして保存したり、NotePad等にコピペしたり等、とにかく手作業でテキストの書式を消す作業をしており、手間はかかりますがトラブルは少なくなりました。
全ての文字がjis非対応のunicode対応文字で、かつペースとしたソフトがunicodeに対応していない場合はそうなります。
考えられる原因としては先日あったMICROSOFT UP DATEにおいて追加されたMSPゴシック、 MSP明朝のJIS2004規格というパッチファイルが原因ではないかと推測される。
Microsoft社の製品ではもちろん表示できるが、他社であるADOBEの製品のアクロバットがその更新されたフォントを認識できない為である
コメント(3件)
ワードだけですか?
試しにメモ帳に貼ってもダメですか?
http://homepage3.nifty.com/e-papy/p2.html#s1
----------------------------------------------------------
PDFDocText v1.21
PDFファイルをテキストに変換するツールです。
テキスト変換はページ・ファイル単位で行うことができます
----------------------------------------------------------
でも、文字化けする行(ライン)と、しない行(ライン)があることが、わかりました。
わけがわかりません。。。