robot.txtを無視する検索エンジンを教えてください。



よく「robot.txtを無視する行儀の悪い検索エンジンがあるから、robot.txtは万全ではない」という記述を目にしますが、具体的にどこかというのを見たことがありません。
今日の段階で、どこがあるのかを知りたいと思いましたので質問をたててみました。


「存在するのは確かです」というのではなく具体的な検索エンジン名をお願いします。
できれば、そうであることを確認できる記述があるページのURLをつけてもらえるとありがたいです。
日本のサーチエンジンでなくてもかまいません。

回答の条件
  • 1人2回まで
  • 13歳以上
  • 登録:2010/04/11 14:17:25
  • 終了:2010/04/18 04:57:01

回答(4件)

id:hanako393 No.1

hanako393回答回数1142ベストアンサー獲得回数872010/04/11 14:26:39

ポイント5pt

>かつて存在した(今もある?) ○-rex というロボットのアクセスは絨毯爆撃と呼ばれるほどひどいものでした。

http://tech.bayashi.net/pdmemo/robots.html

id:youichirou

ありがとうございます。

しかし、伏せ字なので具体的な検索エンジン名ではないですね。

「今日の段階で、どこがあるのかを知りたい」ので、今運営しているのかわからないのは目的と違います。

2010/04/11 14:40:37
id:syntaxerror No.2

syntaxerror回答回数354ベストアンサー獲得回数562010/04/11 14:55:51

ポイント29pt

百度が(今現在もそうなのかどうか確信はありませんが)robot.txtを無視しているそうです。


http://ja.wikipedia.org/wiki/%E7%99%BE%E5%BA%A6

2009年7月現在 BaiduImagespider、BaiduMobaider、が別途クロールしており、 特にBaiduMobaiderはRobot.txtを無視してクロールしている。

id:youichirou

ありがとうございます。

ぱっと見、モバイル向けページ用のクローラっぽいですが、モバイル向けでないページもヒットするんでしょうかね。

2010/04/12 00:56:17
id:rafting No.3

ラフティング回答回数2652ベストアンサー獲得回数1762010/04/11 15:34:48

ポイント29pt

Googleでもrobot.txtで制御していても、検索結果にURLだけ表示する場合もあるようです。

Googleは、決してrobots.txtを無視したり、理解できていなかったりするわけでありません。

ある条件のもとでは、 robots.txtでブロックされたページをSERPに表示することがあります。

たいていの場合は、ブロックページに多くのリンクが張られている場合です。

リンクが張られているということは、参照する(検索する)ユーザーが多いと考えられます。

Googleとしては、ユーザーが求めている情報を返すことが最重要です。

robots.txtでブロックされているとはいえ、そのページがもっとも関連性が高いとリンクによって判断できるのなら、結果として提示したいのです。

そこで、妥協案としてページはクロールしない代わりに、URLだけを見せるようにしました。

URLは、ページの中身を見なくてもリンクによって分かりますよね。

ページを見ないので、titleタグやmeta descriptionタグは読めません。

Yahoo! やBingも程度の差はあれ、同じような仕組みをとっているようです(完全に無視しているとしか思えないケースもありますが)。

http://www.suzukikenichi.com/blog/why-pages-blocked-by-robots-tx...

id:youichirou

ありがとうございます。

主旨とはちょっと違いますが参考にします。

2010/04/11 18:26:15
id:hanako393 No.4

hanako393回答回数1142ベストアンサー獲得回数872010/04/11 16:49:25

ポイント27pt

http://www.cade.com.br/

http://www.zhurnal.ru/search/engines.shtml

http://www.findlink.gr/

アクセスログからみるとこの3つは無視してます。

id:youichirou

ありがとうございます。海外は多いんでしょうかね。

cade.comはYahooが出てきますが、OEMみたいなものなのでしょうか。

2010/04/11 17:45:38
  • id:taknt
    >robot.txtを無視する行儀の悪い検索エンジン

    いつの間にかそんな変なルールが出来たんだ。

  • id:ardarim
    robots.txtが万全などというのは誤り。どこでそんな嘘知識を仕込まれてしまったんでしょうね。

    robots.txtは紳士協定、慣習に過ぎず、必ずしも守る義務は無い。
    まあ紳士協定ですから、守らないのは「行儀が悪い」とは言えますけどね。
    ただ守らなかったところで何らかのペナルティがあるわけでもなく、どうということもないです。
  • id:youichirou
    紳士協定に過ぎないので、それを考慮しない検索エンジンを知っておけたら、というのがこの質問の意図になります。

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません