まず、はてなダイアリーの新着日記一覧から、オープンユーザーの全idを取得します。
2007年6月15日現在、約35万ユーザー(暫時減少中)のダイアリー更新情報が公開されています。およそ過去1年半分の更新情報が公開されていることになります。つまり、過去約1年半に1回以上更新しているユーザー(プライベートユーザーを含む)は必ずこのリストに含まれる、ということです。
この約35万ユーザーの更新情報を入手するには、下記のURL(7000ファイル)をすべてダウンロードしてください。(URLは展開式で記述しているので、irvine等でノーマルURLに展開させてください)
http://d.hatena.ne.jp/diarylist
http://d.hatena.ne.jp/diarylist?of=50
http://d.hatena.ne.jp/diarylist?of=[1-3500]00
http://d.hatena.ne.jp/diarylist?of=[1-3499]50
ダウンロードしたファイルのソースの中に約35万ユーザー分のファビコンのURLが記述されていますので、ここからファビコンのURLリストを抽出・作成できます。
ファビコンのURLリストを作成できたら、ファイル名のprofile_s.gifをprofile.gifに置き換えれば35万ユーザーのアイコンリストを入手できます。
たとえば、こういうファビコンのファイルのURLがあるとすると
http://www.hatena.ne.jp/users/00/[00で始まるユーザーID]/profile_s.gif
こういうふうにアイコンURLリストに書き換えます。
http://www.hatena.ne.jp/users/00/[00で始まるユーザーID]/profile.gif
あとはアイコンURLリストに従いアイコンをダウンロードするだけです。
ファビコン設定をしていないユーザーは、自動的にデフォルトの画像になっていますので、そういう画像を除く場合は、別途画像解析が必要になります。
画像解析が面倒なら、デフォルトのファビコンのサイズが166バイトですので、166バイトのファビコンだけ排除すれば、残りのファビコンは166バイトのオリジナルユーザーファビコン以外のオリジナルユーザーファビコンということになります。
前述した方法はあくまでも理論上の方法で、実際にはダウンロードの時にかなりの時間が経過しますし、はてな側でアクセスを制御しているようですので、入手できるデータは理論値よりも若干減ると思います。
念のために書いておきますが、アイコンにはそれぞれ財産権があります。利用は私的利用にとどめましょう。また、入手したユーザーIDなどの情報はスパムに利用されてしまうことがあり、使い方によっては「はてな」のシステムの低下をもたらしたりしますので、私的利用にとどめ、公開したり悪用はしないでください。
有り難うございました。