サイトの中の一部のコンテンツを抜き出す方法(検索エンジンのクロールのようなこと)をする方法を教えて下さい。


具体的には、こちらが指定するURL(ファイルで10000個くらい所有)すべてにアクセスして一部分の文章を持ってきたいと考えています。

HTMLパーサー?的なことができる方法やサイトを教えて下さい。

Wgetとしてこのタグとこのタグの間を抜くという方法が一番現実的なのでしょうか・・・。

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:
  • 終了:--
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

回答1件)

id:kuippa No.1

回答回数1030ベストアンサー獲得回数13

ポイント130pt

http://program.g.hatena.ne.jp/kuippa/

プログラマの秘密のあれこれ - マじん。くいっぱ

ちょうど一昨日PHPでそんなような目的の関数をつくってたので。


文章を一部もってくるのは特定のパターンをもっていますか?持ってくるURLは関数の引数あたりにしてやればできると思いますし。

やりようは多くあると思います。

id:redhat

ありがとうございます。

正規表現を使って、抜くパターンですね。

2005/12/16 16:12:28

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません