スキャナで読み取った文書に対し、一括してAcrobatでのOCR処理を行い、透明テキストを埋め込んでいます。その際、一部のファイルが「OCR失敗 / 透明テキスト埋め込み失敗」となってしまいます。
大量のPDFファイル群から、「透明テキストが埋め込まれていない、画像のみのPDFファイル」を見つけ出す方法を探しています。1ファイルごとをAcrobatで開き、透明テキストの有無を手動で確認するのは大変だからです。
上手い方法やツールがあるでしょうか? お教えいただけると幸いです。ズバリご回答には100ptを送信いたします。よろしくお願いいたします!
ご利用のOSの種類が分からないのですが、もしWindowsをご利用でしたら、xdoc2txtが役に立つでしょう。
コマンドラインで利用でき、PDF透明テキストを標準出力に出力します。
標準出力に何も出なければ単なる画像PDFとするようなバッチを組めばいいでしょう。
ご利用のOSの種類が分からないのですが、もしWindowsをご利用でしたら、xdoc2txtが役に立つでしょう。
コマンドラインで利用でき、PDF透明テキストを標準出力に出力します。
標準出力に何も出なければ単なる画像PDFとするようなバッチを組めばいいでしょう。
すみません、使用環境をお書きしてませんでしたね。
Windows7/Pro/64bit
です。Linux系での実行でもOKです。
xdoc2txtコマンドを利用すれば...とのアドバイス、ありがとうございます。バッチ処理を行い、ファイルサイズでチェックすれば、テキスト無しファイルを見つけられそうですね。
もうしばらくご回答を待ちたいと思います。他の方法も知りたいので... よろしくお願いいたします!
プリフライトのチェックを利用
フォントの埋め込みで確認するのはいかがでしょうか?
ドロップレットを作成すればドラックアンンドドロップすれば
確認できます。
プリフライト検査実行用ドロップレットの作成と編集
http://help.adobe.com/ja_JP/Acrobat/9.0/Professional/WSF208C281-...
このような機能があるのですね! Acrobat8/Proで作成できました。AcrobatやPDFは奥が深いですね....
「文字を含まないPDFファイルをエラーフォルダに移動」までできると完璧なのですが、選択すべきプロファイルメニューがよく分かりませんでした。今後も役立ちそうなので、勉強してみます。
一工夫が必要そうですが、有用な情報でした。ありがとうございました!
すみません、使用環境をお書きしてませんでしたね。
Windows7/Pro/64bit
です。Linux系での実行でもOKです。
xdoc2txtコマンドを利用すれば...とのアドバイス、ありがとうございます。バッチ処理を行い、ファイルサイズでチェックすれば、テキスト無しファイルを見つけられそうですね。
もうしばらくご回答を待ちたいと思います。他の方法も知りたいので... よろしくお願いいたします!