http://www.google.co.jp/search?hl=ja&q=site%3Ad.hatena.ne.jp+inurl%3Asid%3D&start=10
↑site:d.hatena.ne.jp inurl:sid= で検索すると。
※ウイルスやスパイウエアに感染したPCがツールバーなどでgoogleに情報を送っているのかなぁ?気にしなくてもいいのかなぁ、、と思いつつ、気になったので質問してみました。
う~ん、なんだろう?
皆さんの予想・お見立てを聞かせてください。
site:d.hatena.ne.jp/ken3memo inurl:sid= と 自分のbolgをsidで検索すると
http://www.google.co.jp/search?q=site%3Ad.hatena.ne.jp%2Fken3memo+inurl%3Asid%3D
なぜかいっぱい 当然同じ内容のページが キャッシュされているのですが、
このsidってなんですか?ねぇ?
「SID」はおそらく「セッションID」の略称だと思われます。
http://e-words.jp/w/SID-2.html
一例ですが、Docomoなどの携帯電話からはてなにログインした際、URLの後にこの「sid=XXXXXXX」という値が付加されます。リンク移動の際にこの値を引き継がないとセッションが切れてしまうことになり、ログイン状態が保持できないことになります。
ちなみに以前はてなで使用されているセッションIDには脆弱性があり、これを悪用した不正アクセスでブックマークが改竄されるなどの被害が出たこともありました。
「はてなブックマーク モバイル版」の脆弱性を利用した不正アクセスに関するご報告 - はてなブックマーク日記 - 機能変更、お知らせなど
現在、この不具合は修正されているため、第三者が使い捨てられたセッションIDを使用しても問題は発生しないのではと思われます。
数字のみ、PC 版に付いている sid は、"sid=20070903162309" などで検索するとはてな外のページもたくさんヒットするので、どこかの外部サイトが付けたものだと思われます。
外部サイト自体を突き止められなかったのでコメント欄に書かせていただきました。
昔、アンテナの既読管理をリンクの色でしているようなシステムが結構あって、その時に好き勝手に URL の後ろにタイムスタンプをつけることが問題になっていたような覚えがありますが、それに似たような感じを覚えました。
sid,携帯でセッションを管理したりでつけているので、気にしなくていいみたいですね。
知りたがりのgoogleさんがそれを拾ってクローラーに渡しているんですね。
あるユーザーがページを表示したら、アドセンスが貼ってあって、それでsid付きのURLにクローラーがきたのかなぁ。
あとは勝手な妄想だけど、アドセンスの有無は検索には関係ない/切り離している と 建て前では言っているが、アドセンスで表示されたページのデータは何かしら検索側でも使っているんでしょうね。
アンテナの既読管理、同じような記事を昔読んだこと私もあるような。
常に最新のページを読み込むために
静的なページに対しても.htmlの後ろに、.html?xxx=20100917やシリアル値にするとか 裏技的な記事で。
そのURLを知りたがりのgoogle様がツールバーとアドセンス,その他の方法でGetして、収集したのかなぁ。
昨日あたりのアクセスログでsid=が目立ったので気になっただけで、気にしないようにします。
(※ウェブマスターツールでsid=を無効にして様子を見てみます)