PDFファイルに関する質問です。


スキャナで読み取った文書に対し、一括してAcrobatでのOCR処理を行い、透明テキストを埋め込んでいます。その際、一部のファイルが「OCR失敗 / 透明テキスト埋め込み失敗」となってしまいます。

大量のPDFファイル群から、「透明テキストが埋め込まれていない、画像のみのPDFファイル」を見つけ出す方法を探しています。1ファイルごとをAcrobatで開き、透明テキストの有無を手動で確認するのは大変だからです。

上手い方法やツールがあるでしょうか? お教えいただけると幸いです。ズバリご回答には100ptを送信いたします。よろしくお願いいたします!

回答の条件
  • 1人3回まで
  • 登録:
  • 終了:2010/12/29 21:29:03
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

ベストアンサー

id:asuka645 No.1

回答回数856ベストアンサー獲得回数97

ポイント100pt

ご利用のOSの種類が分からないのですが、もしWindowsをご利用でしたら、xdoc2txtが役に立つでしょう。

コマンドラインで利用でき、PDF透明テキストを標準出力に出力します。

標準出力に何も出なければ単なる画像PDFとするようなバッチを組めばいいでしょう。

id:Mugicha2004

すみません、使用環境をお書きしてませんでしたね。

  Windows7/Pro/64bit

です。Linux系での実行でもOKです。

xdoc2txtコマンドを利用すれば...とのアドバイス、ありがとうございます。バッチ処理を行い、ファイルサイズでチェックすれば、テキスト無しファイルを見つけられそうですね。

もうしばらくご回答を待ちたいと思います。他の方法も知りたいので... よろしくお願いいたします!

 

2010/12/27 13:07:08

その他の回答1件)

id:asuka645 No.1

回答回数856ベストアンサー獲得回数97ここでベストアンサー

ポイント100pt

ご利用のOSの種類が分からないのですが、もしWindowsをご利用でしたら、xdoc2txtが役に立つでしょう。

コマンドラインで利用でき、PDF透明テキストを標準出力に出力します。

標準出力に何も出なければ単なる画像PDFとするようなバッチを組めばいいでしょう。

id:Mugicha2004

すみません、使用環境をお書きしてませんでしたね。

  Windows7/Pro/64bit

です。Linux系での実行でもOKです。

xdoc2txtコマンドを利用すれば...とのアドバイス、ありがとうございます。バッチ処理を行い、ファイルサイズでチェックすれば、テキスト無しファイルを見つけられそうですね。

もうしばらくご回答を待ちたいと思います。他の方法も知りたいので... よろしくお願いいたします!

 

2010/12/27 13:07:08
id:kanetetu No.2

回答回数2199ベストアンサー獲得回数11

ポイント80pt

プリフライトのチェックを利用

フォントの埋め込みで確認するのはいかがでしょうか?

ドロップレットを作成すればドラックアンンドドロップすれば

確認できます。

プリフライト検査実行用ドロップレットの作成と編集

http://help.adobe.com/ja_JP/Acrobat/9.0/Professional/WSF208C281-...

id:Mugicha2004

このような機能があるのですね! Acrobat8/Proで作成できました。AcrobatやPDFは奥が深いですね....


「文字を含まないPDFファイルをエラーフォルダに移動」までできると完璧なのですが、選択すべきプロファイルメニューがよく分かりませんでした。今後も役立ちそうなので、勉強してみます。


一工夫が必要そうですが、有用な情報でした。ありがとうございました!

2010/12/29 21:28:31
  • id:Mugicha2004
    AcrobatのOCRの処理結果ダイアログを見る... 処理結果ログを参照する...などの方法は、当方の希望ではございませんので、よろしくお願いいたします。

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません