人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

とある飲食店情報サイトがあるとします。
各店舗ごとに個別ページが設けられていて、店名・URL・電話番号などが記載されています。

各ページは一つのテンプレートを使って作られているので、必ず規則性があります。例えば店舗URLは

<li class="url">http://www.hoge.com</li>

といったように<li class="url">と</li>の間が必ずURLなので、そこだけを自動的に抽出したいのです。


各ページに自動的にアクセスしてデータを収集したいと思っているのですが、どういった方法が考えられるでしょうか。何かスクリプトを書けばいいと思うのですが、取っ掛かりがつかめません。

また、このような行為は検査エンジンと同じ事をするのだと思うのですが。モラル的にはどうでしょうか?その辺りの情報もご存知でしたらお教え頂きたいです。

●質問者: tokyosmash
●カテゴリ:コンピュータ インターネット
✍キーワード:URL かめ とある どうでしょう アクセス
○ 状態 :終了
└ 回答数 : 1/1件

▽最新の回答へ

1 ● t_shiono
●60ポイント

希望環境が分からないのですが、

HTTPでページデータの取得

ページデータを正規表現で処理

というだけで基本的にはOKです。

似たような仕組みを、

PHPで、PEARのHTTP_Requestでデータを取得し、

preg_matchで対象文字列を取得する

という形でやったことはあります。


モラル的なことについては、

・アクセス頻度

・利用目的

に依存すると思いますが、そのサイトでその情報の利用について明示的に禁止していなければ、サーバ負荷に影響の出ない範囲であれば、よいかと思っています。法的によいという意味ではないですが、似たことを行っているという事例は何度か聞いたことがあります。

◎質問者からの返答

PEARのHTTP_Requestですデータを取得するのですね。例えば20ページほどのURLに連続的に接続して、データを解析して、DBに格納という事もできるのでしょうか。ちょっと色々と調べてみます。

回等ありがとうございます。些細なことでも構いませんので何かあったらまたよろしくお願いします。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ