各店舗ごとに個別ページが設けられていて、店名・URL・電話番号などが記載されています。
各ページは一つのテンプレートを使って作られているので、必ず規則性があります。例えば店舗URLは
<li class="url">http://www.hoge.com</li>
といったように<li class="url">と</li>の間が必ずURLなので、そこだけを自動的に抽出したいのです。
各ページに自動的にアクセスしてデータを収集したいと思っているのですが、どういった方法が考えられるでしょうか。何かスクリプトを書けばいいと思うのですが、取っ掛かりがつかめません。
また、このような行為は検査エンジンと同じ事をするのだと思うのですが。モラル的にはどうでしょうか?その辺りの情報もご存知でしたらお教え頂きたいです。
希望環境が分からないのですが、
HTTPでページデータの取得
ページデータを正規表現で処理
というだけで基本的にはOKです。
似たような仕組みを、
PHPで、PEARのHTTP_Requestでデータを取得し、
preg_matchで対象文字列を取得する
という形でやったことはあります。
モラル的なことについては、
・アクセス頻度
・利用目的
に依存すると思いますが、そのサイトでその情報の利用について明示的に禁止していなければ、サーバ負荷に影響の出ない範囲であれば、よいかと思っています。法的によいという意味ではないですが、似たことを行っているという事例は何度か聞いたことがあります。
PEARのHTTP_Requestですデータを取得するのですね。例えば20ページほどのURLに連続的に接続して、データを解析して、DBに格納という事もできるのでしょうか。ちょっと色々と調べてみます。
回等ありがとうございます。些細なことでも構いませんので何かあったらまたよろしくお願いします。