そのブログのRSSを取得して…という感じになるのでしょうか?
ただ少し、自分でやってみたところ、RSSでは最初の5件までしかデータが入っていないようなのですが…。
よろしくお願いします。
可能です。
はてなダイアリーの場合、
http://d.hatena.ne.jp/hogehoge/yyyymmdd/
に1日分のコンテンツが入っています。まず、このコンテンツを分析し、冒頭のみ抽出します。
Perlであれば、下記のようなモジュールにが役立つでしょう。
この1日分のページの最後に、「前の日」というキーワードがあります。このリンク先が前日のコンテンツですから、このチェーンをたどっていけば、ダイアリーの最初のページまでたどり着くことができます。
「前の日」の前後には特徴的なタグが並んでいるので、コンテンツ中から抽出することは、さほど難しくないと思います。
なお、ブログの記事は著作物です。その一部を切り出し引用する際は、著作者の許可を得てから行いましょう。
回答ありがとうございます。
Perlですかぁ…。できればPHPかJavaかJavaScript(JavaScriptのみでは無理なんですよね…?)
で実装したいのですが。。。
できればPHPかJavaかJavaScript(JavaScriptのみでは無理なんですよね…?)で実装したいのですが。。。
PHPやJavaでもできますよ。
たとえばPHPなら、「PHPで住所から緯度経度を求める」で、MapFanのサイトを解析して住所から緯度/経度を求めるスクリプトを紹介しています。
JavaScriptでもできないことはありません。IE限定になりますが、document.all で、いまアクセスしているHTMLを参照できますので。
いずれのアルゴリズムも#2に述べたものと同じです。
回答ありがとうございます。
すみません。プログラミング(特に通信を扱ったもの)初心者なので、少しピンと来ない
ところがあるのですが…。
例えば上のようなプログラムの処理は該当のhtmlをそのまま取得してそれを解析しているのでしょうか?
回答ありがとうございます。
一応
http://www.hyuki.com/yukiwiki/wiki.cgi?MagpieRSS
を参考に、ブログのアドレス/rss から取ってきました。