PDFファイルが数千個以上あります。スキャナ読み取りのファイルが多いです。
一部はAcrobatのOCR機能を用いて、「テキスト埋め込み」済みです。WordファイルをPDF変換したもの…などのため、もともとテキストが埋まっているファイルもあります。
未OCRファイルを分別したいのです。Acrobatで、1つずつ開いて確認するのはタイヘンです。良い、フリーウエアなどないでしょうか…
数千ファイルが対象です。ワタシ的にズバリご回答の方には、先着になりますが100ptをお送りします。よろしくお願いいたします!
javaでプログラミングできますか?
できるなら以下のサイトの方法で割りと簡単に解決できそうです。
以下の2つの処理を書いて、全ファイルに対して実行すればできそうです。
①以下のサイトを参考にPDFからテキストを抽出する
②抽出した文「字が空かどうか」などの判定文を入れて判定結果を出力
<参考サイト>
http://u-kari.blogspot.jp/2008/02/pdf.html
javaでプログラミングできますか?
できるなら以下のサイトの方法で割りと簡単に解決できそうです。
以下の2つの処理を書いて、全ファイルに対して実行すればできそうです。
①以下のサイトを参考にPDFからテキストを抽出する
②抽出した文「字が空かどうか」などの判定文を入れて判定結果を出力
<参考サイト>
http://u-kari.blogspot.jp/2008/02/pdf.html
早速のご回答、ありがとうございました。当方からのコメントが遅くなりすみません。Javaは若いころに書いたことがありますが… 仕事で他人が使うのです。出来合いのフリーウエアがあれば手っ取り早いなあ…と思っていました。せっかくのご回答ですので、50ptをお送りいたします!
以下のツールを使うとPDF→Text変換可能です。バッチ化して一括変換してからエクスプローラで選別するのが早そうな気がします。
■ xdoc2txt - PDF,WORD,EXCEL,一太郎などの各種バイナリ文書からテキストを抽出
http://ebstudio.info/home/xdoc2txt.html
<使い方> xdoc2txt.exe -f 出力ファイル名.txt 入力ファイル名.pdf
あと、COM形式のライブラリも付属しているので、VBScript を用いたプログラミングも可能です。
Dim xdoc2txt Set xdoc2txt = CreateObject("xd2txcom.Xdoc2txt.1") Dim strText strText = xdoc2txt.ExtractText("入力ファイル.pdf",False) WScript.Echo strText
手法をご提示いただき、ありがとうございました。フリーウエアで手っ取り早く…が希望でした。画面上で簡単に識別できるとうれしかったのですが。せっかくのご回答ですので、少なくて恐縮ですが、50ptを送信いたします!
早速のご回答、ありがとうございました。当方からのコメントが遅くなりすみません。Javaは若いころに書いたことがありますが… 仕事で他人が使うのです。出来合いのフリーウエアがあれば手っ取り早いなあ…と思っていました。せっかくのご回答ですので、50ptをお送りいたします!
2016/05/01 11:22:11