人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

PDFファイル、テキスト埋め込みに関する質問です。フリーウエアなどを探しています。

PDFファイルが数千個以上あります。スキャナ読み取りのファイルが多いです。

一部はAcrobatのOCR機能を用いて、「テキスト埋め込み」済みです。WordファイルをPDF変換したもの…などのため、もともとテキストが埋まっているファイルもあります。

未OCRファイルを分別したいのです。Acrobatで、1つずつ開いて確認するのはタイヘンです。良い、フリーウエアなどないでしょうか…

数千ファイルが対象です。ワタシ的にズバリご回答の方には、先着になりますが100ptをお送りします。よろしくお願いいたします!

●質問者: Mugicha2004
●カテゴリ:コンピュータ
○ 状態 :終了
└ 回答数 : 2/2件

▽最新の回答へ

1 ● うっち?
●50ポイント ベストアンサー

javaでプログラミングできますか?
できるなら以下のサイトの方法で割りと簡単に解決できそうです。

以下の2つの処理を書いて、全ファイルに対して実行すればできそうです。
?以下のサイトを参考にPDFからテキストを抽出する
?抽出した文「字が空かどうか」などの判定文を入れて判定結果を出力
<参考サイト>
http://u-kari.blogspot.jp/2008/02/pdf.html


Mugicha2004さんのコメント
早速のご回答、ありがとうございました。当方からのコメントが遅くなりすみません。Javaは若いころに書いたことがありますが… 仕事で他人が使うのです。出来合いのフリーウエアがあれば手っ取り早いなあ…と思っていました。せっかくのご回答ですので、50ptをお送りいたします!

2 ● cx20
●50ポイント

以下のツールを使うとPDF→Text変換可能です。バッチ化して一括変換してからエクスプローラで選別するのが早そうな気がします。

■ xdoc2txt ? PDF,WORD,EXCEL,一太郎などの各種バイナリ文書からテキストを抽出
http://ebstudio.info/home/xdoc2txt.html

<使い方>
xdoc2txt.exe -f 出力ファイル名.txt 入力ファイル名.pdf

あと、COM形式のライブラリも付属しているので、VBScript を用いたプログラミングも可能です。

Dim xdoc2txt
Set xdoc2txt = CreateObject("xd2txcom.Xdoc2txt.1")

Dim strText
strText = xdoc2txt.ExtractText("入力ファイル.pdf",False)
WScript.Echo strText

Mugicha2004さんのコメント
手法をご提示いただき、ありがとうございました。フリーウエアで手っ取り早く…が希望でした。画面上で簡単に識別できるとうれしかったのですが。せっかくのご回答ですので、少なくて恐縮ですが、50ptを送信いたします!
関連質問

●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ