人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

robot.txtを無視する検索エンジンを教えてください。


よく「robot.txtを無視する行儀の悪い検索エンジンがあるから、robot.txtは万全ではない」という記述を目にしますが、具体的にどこかというのを見たことがありません。
今日の段階で、どこがあるのかを知りたいと思いましたので質問をたててみました。


「存在するのは確かです」というのではなく具体的な検索エンジン名をお願いします。
できれば、そうであることを確認できる記述があるページのURLをつけてもらえるとありがたいです。
日本のサーチエンジンでなくてもかまいません。


●質問者: よーいち
●カテゴリ:インターネット ウェブ制作
✍キーワード:ROBOT txt URL サーチエンジン 存在
○ 状態 :終了
└ 回答数 : 4/4件

▽最新の回答へ

1 ● hanako393
●5ポイント

>かつて存在した(今もある?) ○-rex というロボットのアクセスは絨毯爆撃と呼ばれるほどひどいものでした。

http://tech.bayashi.net/pdmemo/robots.html

◎質問者からの返答

ありがとうございます。

しかし、伏せ字なので具体的な検索エンジン名ではないですね。

「今日の段階で、どこがあるのかを知りたい」ので、今運営しているのかわからないのは目的と違います。


2 ● syntaxerror
●29ポイント

百度が(今現在もそうなのかどうか確信はありませんが)robot.txtを無視しているそうです。


http://ja.wikipedia.org/wiki/%E7%99%BE%E5%BA%A6

2009年7月現在 BaiduImagespider、BaiduMobaider、が別途クロールしており、 特にBaiduMobaiderはRobot.txtを無視してクロールしている。

◎質問者からの返答

ありがとうございます。

ぱっと見、モバイル向けページ用のクローラっぽいですが、モバイル向けでないページもヒットするんでしょうかね。


3 ● ラフティング
●29ポイント

Googleでもrobot.txtで制御していても、検索結果にURLだけ表示する場合もあるようです。

Googleは、決してrobots.txtを無視したり、理解できていなかったりするわけでありません。

ある条件のもとでは、 robots.txtでブロックされたページをSERPに表示することがあります。

たいていの場合は、ブロックページに多くのリンクが張られている場合です。

リンクが張られているということは、参照する(検索する)ユーザーが多いと考えられます。

Googleとしては、ユーザーが求めている情報を返すことが最重要です。

robots.txtでブロックされているとはいえ、そのページがもっとも関連性が高いとリンクによって判断できるのなら、結果として提示したいのです。

そこで、妥協案としてページはクロールしない代わりに、URLだけを見せるようにしました。

URLは、ページの中身を見なくてもリンクによって分かりますよね。

ページを見ないので、titleタグやmeta descriptionタグは読めません。

Yahoo! やBingも程度の差はあれ、同じような仕組みをとっているようです(完全に無視しているとしか思えないケースもありますが)。

http://www.suzukikenichi.com/blog/why-pages-blocked-by-robots-tx...

◎質問者からの返答

ありがとうございます。

主旨とはちょっと違いますが参考にします。


4 ● hanako393
●27ポイント

http://www.cade.com.br/

http://www.zhurnal.ru/search/engines.shtml

http://www.findlink.gr/

アクセスログからみるとこの3つは無視してます。

◎質問者からの返答

ありがとうございます。海外は多いんでしょうかね。

cade.comはYahooが出てきますが、OEMみたいなものなのでしょうか。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ