とある飲食店情報サイトがあるとします。

各店舗ごとに個別ページが設けられていて、店名・URL・電話番号などが記載されています。

各ページは一つのテンプレートを使って作られているので、必ず規則性があります。例えば店舗URLは

<li class="url">http://www.hoge.com</li>

といったように<li class="url">と</li>の間が必ずURLなので、そこだけを自動的に抽出したいのです。


各ページに自動的にアクセスしてデータを収集したいと思っているのですが、どういった方法が考えられるでしょうか。何かスクリプトを書けばいいと思うのですが、取っ掛かりがつかめません。

また、このような行為は検査エンジンと同じ事をするのだと思うのですが。モラル的にはどうでしょうか?その辺りの情報もご存知でしたらお教え頂きたいです。

回答の条件
  • 1人5回まで
  • 登録:
  • 終了:2007/06/27 12:15:03
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

回答1件)

id:t_shiono No.1

回答回数256ベストアンサー獲得回数22

ポイント60pt

希望環境が分からないのですが、

HTTPでページデータの取得

ページデータを正規表現で処理

というだけで基本的にはOKです。

似たような仕組みを、

PHPで、PEARのHTTP_Requestでデータを取得し、

preg_matchで対象文字列を取得する

という形でやったことはあります。


モラル的なことについては、

・アクセス頻度

・利用目的

に依存すると思いますが、そのサイトでその情報の利用について明示的に禁止していなければ、サーバ負荷に影響の出ない範囲であれば、よいかと思っています。法的によいという意味ではないですが、似たことを行っているという事例は何度か聞いたことがあります。

id:tokyosmash

PEARのHTTP_Requestですデータを取得するのですね。例えば20ページほどのURLに連続的に接続して、データを解析して、DBに格納という事もできるのでしょうか。ちょっと色々と調べてみます。

回等ありがとうございます。些細なことでも構いませんので何かあったらまたよろしくお願いします。

2007/06/21 19:27:55

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません