PDFファイル、テキスト埋め込みに関する質問です。フリーウエアなどを探しています。

Question

Mugicha2004

161

152もっと見る

100pt

コンピュータ

PDFファイル、テキスト埋め込みに関する質問です。フリーウエアなどを探しています。

PDFファイルが数千個以上あります。スキャナ読み取りのファイルが多いです。

一部はAcrobatのOCR機能を用いて、「テキスト埋め込み」済みです。WordファイルをPDF変換したもの…などのため、もともとテキストが埋まっているファイルもあります。

未OCRファイルを分別したいのです。Acrobatで、1つずつ開いて確認するのはタイヘンです。良い、フリーウエアなどないでしょうか…

数千ファイルが対象です。ワタシ的にズバリご回答の方には、先着になりますが100ptをお送りします。よろしくお願いいたします！

回答の条件

1人1回まで

登録：2016/04/25 12:01:10
終了：2016/05/01 11:23:41

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

No.2

cx206071082016/04/26 00:29:24

50pt

以下のツールを使うとPDF→Text変換可能です。バッチ化して一括変換してからエクスプローラで選別するのが早そうな気がします。

■ xdoc2txt － PDF,WORD,EXCEL,一太郎などの各種バイナリ文書からテキストを抽出
http://ebstudio.info/home/xdoc2txt.html

＜使い方＞
xdoc2txt.exe -f 出力ファイル名.txt 入力ファイル名.pdf

あと、COM形式のライブラリも付属しているので、VBScript を用いたプログラミングも可能です。

Dim xdoc2txt
Set xdoc2txt = CreateObject("xd2txcom.Xdoc2txt.1")

Dim strText
strText = xdoc2txt.ExtractText("入力ファイル.pdf",False)
WScript.Echo strText

手法をご提示いただき、ありがとうございました。フリーウエアで手っ取り早く…が希望でした。画面上で簡単に識別できるとうれしかったのですが。せっかくのご回答ですので、少なくて恐縮ですが、50ptを送信いたします！

2016/05/01 11:23:28

コメントはまだありません

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

うっち～ · Accepted Answer · 2016-04-25T15:11:38+09:00

javaでプログラミングできますか？
できるなら以下のサイトの方法で割りと簡単に解決できそうです。

以下の２つの処理を書いて、全ファイルに対して実行すればできそうです。
①以下のサイトを参考にPDFからテキストを抽出する
②抽出した文「字が空かどうか」などの判定文を入れて判定結果を出力
<参考サイト>
http://u-kari.blogspot.jp/2008/02/pdf.html

うっち～ · Accepted Answer · 2016-04-25T15:11:38+09:00

javaでプログラミングできますか？
できるなら以下のサイトの方法で割りと簡単に解決できそうです。

以下の２つの処理を書いて、全ファイルに対して実行すればできそうです。
①以下のサイトを参考にPDFからテキストを抽出する
②抽出した文「字が空かどうか」などの判定文を入れて判定結果を出力
<参考サイト>
http://u-kari.blogspot.jp/2008/02/pdf.html

PDFファイル、テキスト埋め込みに関する質問です。フリーウエアなどを探しています。

ベストアンサー

うっち～8182016/04/25 15:11:38

その他の回答（1件）

うっち～8182016/04/25 15:11:38ここでベストアンサー

cx206071082016/04/26 00:29:24

コメント（0件)

この質問への反応（ブックマークコメント）