HDD上の大量のPDFファイルに記載された文字列を検索する事ができるソフト。

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:2007/08/26 14:28:31
  • 終了:2007/09/02 14:31:54

回答(10件)

id:taknt No.1

きゃづみぃ回答回数13537ベストアンサー獲得回数11982007/08/26 14:32:12

ポイント16pt

http://www.google.co.jp/intl/ja/options.html


Google デスクトップ検索をインストールして検索すればいいでしょう。

テキスト、Word、Excel、Powerpoint、PDF、MP3、画像、オーディオ、およびビデオファイルのフルテキストを含む、お使いのコンピュータ上のすべてのファイルにメタタグを使用することにより、メディアファイルを検索することもできます。例えば、ファイル名だけではなく、アーティストの名前と歌のタイトルによる検索もできます。

id:youkan_ni_ocha

うまくいきません。

2007/08/26 14:56:45
id:KairuaAruika No.2

KairuaAruika回答回数6926ベストアンサー獲得回数972007/08/26 14:47:30

ポイント16pt

http://www.villagecenter.co.jp/soft/searchx/

有償ですが,条件指定もかなり細かく指定できます。

インデックスを作ってしまえばかなり高速です。

後は,Acrobat自体でインデックスを作成してしまうのもありかと。

Acrobatに関して詳しくは,マニュアルをご覧下さい。

id:youkan_ni_ocha

インデックス無しでやってみましたが、検索できず。現在、インデックス作成中。インデックスを作成すると、非常に高速に検索ができました。ただ、有料なのが難点でしょうか。まぁ、たいした金額ではないですが、、、

2007/08/27 00:36:36
id:KUROX No.3

KUROX回答回数3542ベストアンサー獲得回数1402007/08/26 14:48:51

ポイント16pt

http://courier.adobe.co.jp/acrobat/a00013.html

普通にAcrobatを買って、使えばどうでしょうか?

id:youkan_ni_ocha

PDFのファイル数が1000個とかあって(帳票)この中の、ある文字列 例えば、ABFCC501が書かれているファイルをみつけてこい。という使い方をするので、ご指摘の方法では厳しいと思います。

2007/08/26 15:11:22
id:KUROX No.4

KUROX回答回数3542ベストアンサー獲得回数1402007/08/26 15:19:16

ポイント16pt

http://www.forest.impress.co.jp/article/2004/06/03/kwinspector.h...

窓の杜に紹介されたこういうソフトもあります。

窓の杜に紹介されるのには、ある程度のレベルをクリアした

ものしか紹介されません。

どちらにしろ、PDFファイルの中にテキスト情報が入ってない

限り、キーワードによる検索はできないと思います。

id:youkan_ni_ocha

テキスト情報はあるようです。現在実行中。フリーというのがいいですね。しかし、少しおそいかも。

2007/08/27 00:44:18
id:wasisan No.5

wasisan回答回数86ベストアンサー獲得回数72007/08/26 16:38:54

ポイント16pt

Googleデスクトップよりも手軽な全文検索ツールで代表的なものにnamazuがあります.

フォルダ単位でインデクス化できて,速度も結構速いと思います.

ただ,元がUnixツールなので,導入には少し手間取るかもしれないですが.

Namazuを使おう:

http://www10.plala.or.jp/miyazawa/namazu/

id:sukiyaki22 No.6

sukiyaki22回答回数299ベストアンサー獲得回数22007/08/26 18:24:23

ポイント15pt

これでいけるでしょう。

http://www.magrex.co.jp/pdfe/product_01.html

id:naruenosekai No.7

naruenosekai回答回数140ベストアンサー獲得回数122007/08/26 18:45:16

ポイント15pt

1~3のやり取りを見ている限り、テキスト化されていない絵の状態の文字列を検索したいということだと理解しました。


その場合、一度PDF内の絵の文字をOCRしてテキスト化する必要があります。

OCRソフトにて全てのPDFをテキスト付きPDFに連続変換しましょう。


もし、全てのファイルを指定して連続変換する機能が無いOCRソフトしかない場合(Acrobat等)には、PDFを全部読込んで一つのファイルにして変換させてやる方法もあります。


あと、一度印刷してシートフィーダ付きのスキャナにて再度、スキャンしなおして透明テキスト付きPDFを作成する方法もあります。

これなら人手をはさまずに連続で処理できると思います。処理時間はそれなりにかかりますが...

同じくPDF→BMP→OCR→PDFという方法もあります。


あと、微妙な方法ですがWEBサーバを立ち上げて(フリースペースでも可)、そこに検索したいPDFファイルを置いて、インターネットに公開します。そしてgoogleから全てのファイルにアクセス(スクリプトとかダウンローダを使えば簡単だと思います。)

するとgoogle側でOCRして検索できるようになります。

ただ、検索情報がネットに公開されてしまうのが弱点です。


いずれの方法にも言えることですが、OCRするので対象となる文字が小さかったりつぶれていたり、ゆがんでいたり、手書だったり、認識しにくいフォントを使っていたり、汚れが入っていたりしてOCRしにくい状態では駄目です。

とくにOCRは誤認識が多いので存在しても、100%見つかるわけではないことに注意。

全体の処理時間を考えると、苦労をいとわなければ人手で検索した方が確実です。


http://www.vector.co.jp/magazine/softnews/070227/n0702273.html

http://www.forest.impress.co.jp/article/2005/11/29/smartocrlite....

http://xelo.jp/pdf/02soft/pdfocr.html

id:youkan_ni_ocha

誤解があるようですが、文字情報です。なぜgoogleデスクトップでうまくいかなかったのか、原因不明

2007/08/27 12:34:17
id:hiko3karasu No.8

hiko3karasu回答回数1058ベストアンサー獲得回数252007/08/26 23:21:51

ポイント15pt

元のPDFはワープロ等から出力されたものでしょうか?

スキャナで読み込んだものではないでしょうか?

 

http://dummy

id:youkan_ni_ocha

PDFは、文字情報も含まれています。

2007/08/27 12:33:27
id:Yota No.9

Yota回答回数453ベストアンサー獲得回数282007/08/27 10:15:19

ポイント15pt

全文検索システムNamazu(Windows用)の設定覚書

Namazuで検索できます。

あらかじめPDFのテキスト部分を取り出してINDEXを作っておきます。

(このページの「(2006.02.11追記)PDFファイルをインデックスに追加する作業」のところ)

インデックスを作るのに時間はかかりますが、検索は驚くほど高速だと思います。

id:youkan_ni_ocha

フリーで早いのはunix系ですか、、、やはり

2007/08/27 12:35:02
id:okinaka No.10

okinaka回答回数38ベストアンサー獲得回数12007/09/02 00:35:48

ポイント10pt

DesktopHE はいかがですか?

http://freemind.s57.xrea.com/desktophe/

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません