とある飲食店情報サイトがあるとします。

Question

tokyosmash

115

114もっと見る

60pt

コンピュータインターネット

とある飲食店情報サイトがあるとします。

各店舗ごとに個別ページが設けられていて、店名・URL・電話番号などが記載されています。

各ページは一つのテンプレートを使って作られているので、必ず規則性があります。例えば店舗URLは

<li class="url">http://www.hoge.com</li>

といったように<li class="url">と</li>の間が必ずURLなので、そこだけを自動的に抽出したいのです。

各ページに自動的にアクセスしてデータを収集したいと思っているのですが、どういった方法が考えられるでしょうか。何かスクリプトを書けばいいと思うのですが、取っ掛かりがつかめません。

また、このような行為は検査エンジンと同じ事をするのだと思うのですが。モラル的にはどうでしょうか？その辺りの情報もご存知でしたらお教え頂きたいです。

回答の条件

1人5回まで

登録：2007/06/20 12:13:37
終了：2007/06/27 12:15:03

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

コメントはまだありません

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

t_shiono · Answer 1 · 2007-06-20T15:19:12+09:00

希望環境が分からないのですが、

HTTPでページデータの取得

ページデータを正規表現で処理

というだけで基本的にはOKです。

似たような仕組みを、

PHPで、PEARのHTTP_Requestでデータを取得し、

preg_matchで対象文字列を取得する

という形でやったことはあります。

モラル的なことについては、

・アクセス頻度

・利用目的

に依存すると思いますが、そのサイトでその情報の利用について明示的に禁止していなければ、サーバ負荷に影響の出ない範囲であれば、よいかと思っています。法的によいという意味ではないですが、似たことを行っているという事例は何度か聞いたことがあります。

とある飲食店情報サイトがあるとします。

回答（1件）

t_shiono256222007/06/20 15:19:12

コメント（0件)

この質問への反応（ブックマークコメント）