ウェブサイトの一括スクレイピング方法


とあるウェブサイトのタイトルだけの取得を考えたとします。

例えば、PHPであればfile_get_htmlなどを使用するなどして、スクレイピングが可能です。
しかし、この方法ではウェブサイトのページを指定してスクレイピングすることはできても、ウェブサイトにあるデータをまとめて取得することはできません。
どれだけのデータが入っているかが不明なので、全てを指定することができません。

しかし、フリーソフトなどでは、一気に対象ウェブサイトからタイトルなどの希望データを取得できたりします。
特にデータベースを利用しているようなウェブサイトでは全体数もつかみ切れないのが通常だと思うのですが、これはどのような技術で実現しているのでしょうか?

回答の条件
  • 1人1回まで
  • 13歳以上
  • 登録:2014/09/18 01:35:21
  • 終了:2014/09/23 09:28:29

回答(3件)

id:Lhankor_Mhy No.2

Lhankor_Mhy回答回数779ベストアンサー獲得回数2312014/09/18 19:12:08

一般にクローラは、既知のHTML文書の新しいコピーを要求し、文書中に含まれるリンクをたどり別の文書を収集するという動作を繰り返す。新しい文書を見つけた場合はデータベースに登録する。また、既知のファイルが存在しないことを検出した場合はデータベースから削除する。

クローラ - Wikipedia
id:jamis

回答ありがとうございます。

2014/09/19 11:40:14
id:kazukichi_0914 No.3

かずきち。回答回数126ベストアンサー獲得回数82014/09/19 11:31:09

ポイント10pt

ノードを辿ります。
それかipアドレスにpingを投げて、その応答を見ます。

id:jamis

回答ありがとうございます。

2014/09/19 11:40:25
id:kazukichi_0914

クロラー作るならpythonでbeautifulsoupのライブラリはオススメです。

2014/09/19 12:55:00

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません