人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

はてなRSSやMyRSSなど別のサイトの情報を定期的に巡回して情報を集めていますが、これらのクローラは何言語で作成されているのでしょうか?

やはりWebサービスだから単純にPHPやPerlなどで組んでユーザーがアクセスして瞬間に情報を取得しているのでしょうか?

それともCやJavaなどでクローラを組んでプログラムが自ら定期的に情報を収集しているのでしょうか?

Googlebotなどの大規模な件ではなくちょっとしてWebサービスのために軽く情報を収集するためのクローラを前提にお願いします。

技術的な見解の元、アンサーお願いします。

●質問者: esecua
●カテゴリ:コンピュータ ウェブ制作
✍キーワード:Java Perl PHP Webサービス はてなRSS
○ 状態 :終了
└ 回答数 : 2/2件

▽最新の回答へ

1 ● ToMmY
●35ポイント

http://www.hyuki.com/yukiwiki/wiki.cgi?MagpieRSS

PHPで組めますよ

RSSはXMLファイルですので、それをPHPが読みに行って、その結果をHTMLとしてユーザに出力します。

XMLにはヘッドラインや全文など、設定によってさまざまな情報がありますが、それを取得し、ユーザが見やすいように加工して出すのがプログラムの主な仕事です。

◎質問者からの返答

↓のような回答をお願いしますね。


2 ● b-wind
●35ポイント

はてなRSSは「RSSリーダー」で、MyRSSは「RSS生成サービス」なので方向性が真逆だと思うのですが。


どちらにせよこういう Web サービスの場合アクセスした瞬間に逐次情報を取得する事はまずありません。コストがかかりすぎますから。

検索エンジンの bot 等と同じく定期的に対照のデータを取得して、パースした後自前のデータベースに蓄積するパターンが多いと思います。


RSS の情報でしたら単に RSS パーサーを使用しますし、RSS を提供していないサイトから情報を収集するには「スクレイピング」というテクニックを使います。

進化する“Webスクレイピング”技術の世界 - @IT

はてなアンテナや MyRSS はこちらですね。

これらの処理は特に言語に依存する部分ではないのでそれぞれのサービスで思い思いの言語を使っています。

はてなの各サービスの場合は Perl でクローリングでしょうね。

◎質問者からの返答

Perlで作成させた場合、どのようにして定期的に巡回させているのでしょうか?

単にcronを使用しているのでしょうか?

それともwindows機からURLを指定したブラウザをスケジュールソフトウエアで毎回実行している形なのでしょうか?

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ