PDFから抽出したテキストの文字化けについて教えてください。

イラストレータで作成したデータをPDFに変換し、そのPDFからテキスト(英文)を抽出したいのですが、ワードにコピペすると、文字が化けしてしまいます。
原因、および解決方法をご教示いただきたく、よろしくお願いいたします。
もともとそのデータは、別の複数のPDFからテキストを抽出してワードで編集し、それをイラストレータデータで組んだものでした。
その編集過程で、何か問題があったのでしょうか?
あるいは、元のPDFデータのテキスト自体に、何か問題があったのでしょうか?

回答の条件
  • 1人2回まで
  • 登録:
  • 終了:2009/12/17 11:15:02
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

回答7件)

id:lepremierpas No.1

回答回数1175ベストアンサー獲得回数41

ポイント17pt

http://questionbox.jp.msn.com/qa3658692.html

ジャングルという会社の「編集!PDF」(ダウンロード版だと5700円)これは優れものです。いきなり PDFtoDATAの場合は変換するとデータがテキストボックスに入ってしまい、いちいちコピー、ペーストをしなければならず大変面倒でした。(それ以前に誤変換が多く使い物にならないという問題がありますたが・・・)

「編集!PDF」は体験版(下記URL)もあるので是非一度使ってみて、満足いくようであれば購入してはどうでしょうか?私はいくつかのPDFファイルを Word,Excelに変換してみましたが実用に耐えうる非常によいソフトと判断し、ダンロード版を購入しました。私が思っていた以上によかったので、 27099様にも是非お知らせしようと思い、再度回答させていただきました。(私はこの会社の回し者ではないです。念のため)

id:taku0208 No.2

回答回数250ベストアンサー獲得回数11

ポイント17pt

pdfからwordに変換するには、下記のウェブサイトを試してみて下さい。コピペだとうまくいきません。

http://www.pdftoword.com/

id:ana_log No.3

回答回数114ベストアンサー獲得回数22

ポイント18pt

保存の仕方が悪いのではと思います

全てのフォントを使用してみるにチェックを入れて見てください

http://kohtguchi.at.webry.info/200603/article_7.html

あるいはこちらの手順で保存してみてください

http://ameblo.jp/pressbee/entry-10202876322.html

id:ggene No.4

回答回数1ベストアンサー獲得回数0

ポイント17pt

PDFをどのアプリで開いているかわかりませんが、結果的には以下のいずれかの方法でテキストのコピペはできると思います。

1)AdobeReader等で編集→ファイルをクリップボードにコピー→Wordへ貼り付け/NOtePad等へ貼り付け

2)AdobeReader等でPDFをテキストとして保存→Wordで開く/NotePad等で開く

3)PDFのテキスト部分"のみ"うまくコピーしてWordに貼り付け(妙な半角スペースやドット等はコピーしない)

原因は推測になりますが、編集に使用するアプリなどのバージョンがかなり古いということでなければ、PCのフォント環境が意識せず変更された、イラレでテキストを正しく処理できなかった(読み込み時・PDF保存時)、PDF側のテキスト情報をクリップボード・Wordで正しく理解できなかった(おそらくイラレの問題)、等だと思われます。

イラレはテキストの扱いが今も昔も神経質で苦手なので、イラレ側に原因はあるのかなと思います。

元のPDFデータには問題ないと思います。

私も同様の仕事をしていますが、PDFからテキストを取り出す際は、一旦プレーンテキストとして保存したり、NotePad等にコピペしたり等、とにかく手作業でテキストの書式を消す作業をしており、手間はかかりますがトラブルは少なくなりました。

id:dggh777 No.5

回答回数61ベストアンサー獲得回数0

ポイント17pt

PDFのデータをテキスト化すると文字化け

http://okwave.jp/qa4598404.html

id:mnO302 No.6

回答回数201ベストアンサー獲得回数7

ポイント17pt

全ての文字がjis非対応のunicode対応文字で、かつペースとしたソフトがunicodeに対応していない場合はそうなります。

http://oshiete1.goo.ne.jp/qa4598404.html

id:tensisyougun No.7

回答回数39ベストアンサー獲得回数1

ポイント17pt

考えられる原因としては先日あったMICROSOFT UP DATEにおいて追加されたMSPゴシック、 MSP明朝のJIS2004規格というパッチファイルが原因ではないかと推測される。

Microsoft社の製品ではもちろん表示できるが、他社であるADOBEの製品のアクロバットがその更新されたフォントを認識できない為である

http://www.aquanet.co.jp/howto/trouble/pdffont.html

  • id:ken3memo
    >ワードにコピペすると、文字が化けしてしまいます。
    ワードだけですか?
    試しにメモ帳に貼ってもダメですか?
  • id:Yoshiya
    PDFからテキストを抽出するフリーソフトがありますが、こちらは試してみましたか?

    http://homepage3.nifty.com/e-papy/p2.html#s1
    ----------------------------------------------------------
    PDFDocText v1.21 
    PDFファイルをテキストに変換するツールです。
    テキスト変換はページ・ファイル単位で行うことができます
    ----------------------------------------------------------
  • id:risa3621
    メモ帳に貼り付けても、同じでした。
    でも、文字化けする行(ライン)と、しない行(ライン)があることが、わかりました。
    わけがわかりません。。。

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません