人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

データの収集方法についての質問です。
とあるサイトに膨大な量のPDFがあるのですが、多すぎて、とても全部は見れません。
キーワードを設定して、内容にキーワードが含まれるPDFファイルだけを抜き出したいのですが何か簡単な方法かソフトはありますか?
宜しくお願いします。

●質問者: tama2002
●カテゴリ:コンピュータ インターネット
✍キーワード:とある キーワード サイト ソフト データ
○ 状態 :終了
└ 回答数 : 5/5件

▽最新の回答へ

1 ● b-wind
●20ポイント

http://courier.adobe.co.jp/acrobat/a00013.html

データのダウンロード後であれば AdobeReader で複数ファイルから検索可能です。


http://www.google.co.jp/support/bin/answer.py?answer=469&top...

Web 上に公開されているデータでしたら、Google 検索の site: キーワードで URL を限定する事により、対象のサイトからのみの検索が可能です。

Google 検索結果には PDF も含まれますから、目的は満たせるかと思います。

◎質問者からの返答

試したのですが、上手くいきません。

タイトルのみの目次ページでgoogleの検索オプションを試したのですがリンク先のPDFの中身までは検索してくれないみたいです。

ありがとうございました。


2 ● KairuaAruika
●20ポイント

PDFデータをダウンロードすることは可能でしょうか。

可能であれば一度ローカルにダウンロードしてください。

Acrobatを起動し,

編集/検索

検索用のペインが現れますのでその中の,

「以下の場所にある全てのPDF文書」を選択してプルダウンメニューで,保存したローカルの場所を指定して検索すればOK。

◎質問者からの返答

そうですね、ダウンロードすれば問題解決ですね。

でも出来ればダウンロードしないで検索する方法があれば助かります。(PHPのスクリプト等でも可です。)

ありがとうございました。


3 ● virus
●20ポイント

Google で検索出来ないということは、そのPDFがデータを文章として持ってない可能性がありますね。

試しに2、3個をダウンロードしてブラウザまたはAdobeReader で目的の語彙が検索可能かどうかですね。

あと、そのサイトは何らかのログイン等の制限がかかっているということはないですか?

◎質問者からの返答

文章はデータとしてあって、ページに制限もかかってはいないです。

目的のページとは違うのですが、ここのページ http://www.cgt.mlit.go.jp/soumu/nyusatsu.html にもリンク先にPDFファイルが同じ様にあるのですが、googleの検索オプションではPDFの中までは検索できません、やり方が悪いのでしょうか?


4 ● kurukuru-neko
●20ポイント

例のURLは以下のように検索できます。

>http://www.cgt.mlit.go.jp/soumu/nyusatsu.html

HTMLファイルを指定していするとHTMLを検索するので

そのデータが保存されているディレクトリーを指定する

必要があります。

"入札" filetype:pdf site:www.cgt.mlit.go.jp/soumu

◎質問者からの返答

なるほど、こうすれば良いのですね、私のやり方が悪かっただけのようです。

ありがとうございました。


5 ● virus
●20ポイント

すでに解決(?)してるようですので蛇足(補足)になりますが、Google の検索オプションで「ファイルタイプ」指定で「すべてのファイル」を指定すると一部のpdfファイルしか検索しないようです(理由は知りません)ので、ファイルタイプとして pdf だけを指定した方が良いようです。

◎質問者からの返答

なるほど、気をつけます。

ありがとうございます。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ