基本的にはuser-agentにgooglebot、msnbot、Yahoo!という文字があれば除外
ということでいいかとおもいます。
IP載っているサイトがあったのでリンクします。
http://www.hyperposition.com/msn/robot.html
MSN
http://www.hyperposition.com/google/robot.html
http://www.hyperposition.com/yahoo/robot.html
YST
http://www.hyperposition.com/google/robot.html
とりあえずGoogleだけ
User-Agentがログに残っていれば、ロボットらしき名前を除外するようにすれば良いです。
ログに残していない場合、力技ですがIPアドレスから名前を逆引き(nslookupなど)して検索サイトのドメインからのアクセスを除外するという手があります。
質問にあります通り、IPが欲しいんです。
MSNの場合
IP:msnbot.msn.com
UA:msnbot/1.0
Yahooの場合
IP:*.inktomisearch.com
UA:Mozilla/5.0
Googleの場合
IP:*.Googlebot.com
UA:Mozilla/5.0
質問もコメントも読んでないんですね・・。
http://www.google.co.jp/intl/ja/webmasters/bot.html#logs
> Googlebot が使用する IP アドレスは時々変更されます。 Googlebot のアクセスを確認する最も確実な方法は、ユーザー エージェント (Googlebot) を使用することです。
少なくともGoogleはIPアドレスは不定で、公開もされていないようです。
ログを取って経験的にIPアドレスを類推するしか無いのではないでしょうか。
えーっと・・なので、聞いております・・。
http://makegumi.jp/googlebot.txt
たとえば、以上が私が個人的に運用するwebサイトに来た"Googlebot"を名乗るアクセスです。約2年分です。
前述の理由で「yahoo、google、MSNのロボットをアクセスログから除外したい」という要件は叶えられそうにないのですが、それでもよければyahooとMSNのものもお調べしましょうか?
ありがとうございます&お願いします。
> http://makegumi.jp/googlebot.txt
whoisで調べるとNetRangeは..
64.68.80.0 - 64.68.87.255
66.249.64.0 - 66.249.95.255
http://makegumi.jp/blog/2006/06/httpip.html
というわけで、過去ログから類推と、登録上のIPアドレスレンジをwhoisで調べてまとめてみました。
繰り返しますが、このアドレスが必要十分な保証はどこにもありません。
↓これは消します。悪しからず。
いや、IPアドレスなんです。
こちらの情報は新しいものでしょうかねぇ。