人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

サイトの中の一部のコンテンツを抜き出す方法(検索エンジンのクロールのようなこと)をする方法を教えて下さい。

具体的には、こちらが指定するURL(ファイルで10000個くらい所有)すべてにアクセスして一部分の文章を持ってきたいと考えています。

HTMLパーサー?的なことができる方法やサイトを教えて下さい。

Wgetとしてこのタグとこのタグの間を抜くという方法が一番現実的なのでしょうか・・・。

●質問者: redhat
●カテゴリ:コンピュータ
✍キーワード:HTML URL wget アクセス クロール
○ 状態 :終了
└ 回答数 : 1/1件

▽最新の回答へ

1 ● くいっぱ
●130ポイント

http://program.g.hatena.ne.jp/kuippa/

プログラマの秘密のあれこれ - マじん。くいっぱ

ちょうど一昨日PHPでそんなような目的の関数をつくってたので。


文章を一部もってくるのは特定のパターンをもっていますか?持ってくるURLは関数の引数あたりにしてやればできると思いますし。

やりようは多くあると思います。

◎質問者からの返答

ありがとうございます。

正規表現を使って、抜くパターンですね。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ