PDFファイル、テキスト埋め込みに関する質問です。フリーウエアなどを探しています。


PDFファイルが数千個以上あります。スキャナ読み取りのファイルが多いです。

一部はAcrobatのOCR機能を用いて、「テキスト埋め込み」済みです。WordファイルをPDF変換したもの…などのため、もともとテキストが埋まっているファイルもあります。

未OCRファイルを分別したいのです。Acrobatで、1つずつ開いて確認するのはタイヘンです。良い、フリーウエアなどないでしょうか…

数千ファイルが対象です。ワタシ的にズバリご回答の方には、先着になりますが100ptをお送りします。よろしくお願いいたします!

回答の条件
  • 1人1回まで
  • 登録:
  • 終了:2016/05/01 11:23:41
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

ベストアンサー

id:nanacy7741 No.1

回答回数81ベストアンサー獲得回数8

ポイント50pt

javaでプログラミングできますか?
できるなら以下のサイトの方法で割りと簡単に解決できそうです。

以下の2つの処理を書いて、全ファイルに対して実行すればできそうです。
①以下のサイトを参考にPDFからテキストを抽出する
②抽出した文「字が空かどうか」などの判定文を入れて判定結果を出力
<参考サイト>
http://u-kari.blogspot.jp/2008/02/pdf.html

id:Mugicha2004

早速のご回答、ありがとうございました。当方からのコメントが遅くなりすみません。Javaは若いころに書いたことがありますが… 仕事で他人が使うのです。出来合いのフリーウエアがあれば手っ取り早いなあ…と思っていました。せっかくのご回答ですので、50ptをお送りいたします!

2016/05/01 11:22:11

その他の回答1件)

id:nanacy7741 No.1

回答回数81ベストアンサー獲得回数8ここでベストアンサー

ポイント50pt

javaでプログラミングできますか?
できるなら以下のサイトの方法で割りと簡単に解決できそうです。

以下の2つの処理を書いて、全ファイルに対して実行すればできそうです。
①以下のサイトを参考にPDFからテキストを抽出する
②抽出した文「字が空かどうか」などの判定文を入れて判定結果を出力
<参考サイト>
http://u-kari.blogspot.jp/2008/02/pdf.html

id:Mugicha2004

早速のご回答、ありがとうございました。当方からのコメントが遅くなりすみません。Javaは若いころに書いたことがありますが… 仕事で他人が使うのです。出来合いのフリーウエアがあれば手っ取り早いなあ…と思っていました。せっかくのご回答ですので、50ptをお送りいたします!

2016/05/01 11:22:11
id:cx20 No.2

回答回数607ベストアンサー獲得回数108

ポイント50pt

以下のツールを使うとPDF→Text変換可能です。バッチ化して一括変換してからエクスプローラで選別するのが早そうな気がします。

■ xdoc2txt - PDF,WORD,EXCEL,一太郎などの各種バイナリ文書からテキストを抽出
http://ebstudio.info/home/xdoc2txt.html

<使い方>
xdoc2txt.exe -f 出力ファイル名.txt 入力ファイル名.pdf

あと、COM形式のライブラリも付属しているので、VBScript を用いたプログラミングも可能です。

Dim xdoc2txt
Set xdoc2txt = CreateObject("xd2txcom.Xdoc2txt.1")

Dim strText
strText = xdoc2txt.ExtractText("入力ファイル.pdf",False)
WScript.Echo strText
id:Mugicha2004

手法をご提示いただき、ありがとうございました。フリーウエアで手っ取り早く…が希望でした。画面上で簡単に識別できるとうれしかったのですが。せっかくのご回答ですので、少なくて恐縮ですが、50ptを送信いたします!

2016/05/01 11:23:28

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません