ブログのページをクローラーが見たとアクセスログに記録があるのにインデックス化されないページがあります。
Google WebMaster Toolではインデックス数がsitemapで登録したurl数の1割ほどしかありません。
・インデックス化されるページ/されないページの違いは何でしょうか
・インデックス化に関し、Googleのクローラーは何をやっているのでしょうか
次のガイドラインに沿ってサイトを作成すると、Google のインデックスに登録されやすくなります。
ガイドラインの提案項目を導入しないサイトでも、Google の検索結果から削除されるなどのペナルティが課せられる可能性のある不正行為について記述されている「品質に関するガイドライン」には目を通されますよう、お願い致します。
ペナルティが課せられたサイトは、Google.co.jp や Google のパートナー サイトの検索結果に表示されなくなることがあります。
http://www.google.com/support/webmasters/bin/answer.py?hl=ja&answer=35769
インデックス化されたページからバックリンクが貼られているかという違いがあると思います。
SEO対策のブログによれば、ディープリンク対策を行い、複数の下層ページにリンクを集めることで、サイト全体のインデックスを促進することができるそうです。
主張の根拠に説明がありません。
http://bingoall.net/google/googlebot.html
全般的な情報はこちらが詳しかったです。
インデックスされる場合、されない場合についてはこちらが参考になりそうです。
http://affiliate.moo.jp/up-afirieito-akusesuappu-google-googlekuroru.html
データに基づき仮説を立て検証すると言う態度は好感が持てます。
しかし、2003年の情報は今のgoogleクローラに当てはまらない点が残念です。
2番目のURLはアクセスできませんでした。
3番目のURLの指摘する問題点は該当するものの、根拠のないあいまいな結論です。
「動的ページであると一度クローラーが来たぐらいではインデックスされないことも多いです。」
一部のレンタルサーバーは、一定時間にある程度以上botアクセスがあると、拒否をする設定になっています。
google webmaster tool の サイト設定 設定 クロール速度 カスタム クロール速度を設定 からgoogle botのアクセス数を変更するとインデックスされる場合があるようです。
仮説なのか経験則なのか噂なのか不明です。
逆効果になる懸念もあり、根拠のない方法は参考にできません。
1.Google WebMaster Toolではインデックスされてないと表示されていても実際にはインデックスされてる場合がある。
Google検索で「link:URL」で調べてみるのもよいでしょう
2.時間の問題
そのうちすべてインデックスされるようになる
3.ブログならサイドバーに過去記事の一覧などをつけて、相互に内部リンクが張られている状態にする
4.コンテンツの内容
極端に文字数がすくないなど
http://www.google.com/support/forum/p/webmasters/thread?tid=39df96656c431012&hl=ja
5.Googleのクローラーは何をやっているのでしょうか
動作は、企業秘密
自分で気が付くことは試しています。
「そのうちインデックスされるようになる」は先週末から本日で少し増えていることは確認していますがアクセス数に比べて数%にも達しません。しかし、「そのうちすべて」と言えるのでしょうか?
巡回とインデックスは別にやっているということでしょうか。
なお、Googleからのちゃんとした説明がないことは承知です。
「xxであることからxxと推測できます」との仮説を期待しています。
Googleの公式説明をお尋ねしたわけではありません。