やはりWebサービスだから単純にPHPやPerlなどで組んでユーザーがアクセスして瞬間に情報を取得しているのでしょうか?
それともCやJavaなどでクローラを組んでプログラムが自ら定期的に情報を収集しているのでしょうか?
Googlebotなどの大規模な件ではなくちょっとしてWebサービスのために軽く情報を収集するためのクローラを前提にお願いします。
技術的な見解の元、アンサーお願いします。
http://www.hyuki.com/yukiwiki/wiki.cgi?MagpieRSS
PHPで組めますよ
RSSはXMLファイルですので、それをPHPが読みに行って、その結果をHTMLとしてユーザに出力します。
XMLにはヘッドラインや全文など、設定によってさまざまな情報がありますが、それを取得し、ユーザが見やすいように加工して出すのがプログラムの主な仕事です。
はてなRSSは「RSSリーダー」で、MyRSSは「RSS生成サービス」なので方向性が真逆だと思うのですが。
どちらにせよこういう Web サービスの場合アクセスした瞬間に逐次情報を取得する事はまずありません。コストがかかりすぎますから。
検索エンジンの bot 等と同じく定期的に対照のデータを取得して、パースした後自前のデータベースに蓄積するパターンが多いと思います。
RSS の情報でしたら単に RSS パーサーを使用しますし、RSS を提供していないサイトから情報を収集するには「スクレイピング」というテクニックを使います。
はてなアンテナや MyRSS はこちらですね。
これらの処理は特に言語に依存する部分ではないのでそれぞれのサービスで思い思いの言語を使っています。
はてなの各サービスの場合は Perl でクローリングでしょうね。
Perlで作成させた場合、どのようにして定期的に巡回させているのでしょうか?
単にcronを使用しているのでしょうか?
それともwindows機からURLを指定したブラウザをスケジュールソフトウエアで毎回実行している形なのでしょうか?
↓のような回答をお願いしますね。