一年近くたっても検索エンジンで全ページインデックスされていなかったり、
SEO対策で内容を変えてもロボットのクロールが追いつかず結果がすぐに知ることが出来なかったり
と悪いことだらけです。(1サイトをインデックスする上限数があるのでしょうか)
そこである種類のページ(全体の95%の数のファイル)をMETAタグにてnoindexしてインデックス
しないように記述しようと思っています。
noindexなどに従わないロボットもあるそうですので、主要エンジンについてだけ知りたいですが、
一旦インデックスされているページも、このMETAタグを次回のクロールで認識されれば、そのページはインデックスされなくなるのでしょうか?
もし無理なら、元はPHPなので、ロボットの場合だけ該当ページへのリンクをはずしたり、(すでにインデックスされているのがあるので)404エラーを装ったりしようと考えています。
全部インデックスされるに越したことはないのですが。。
1.検索エンジンのインデックスは、登録サイトの全ページのインデックスを作成しません。クロールはするのかも知れません。
上限は無いと思いますが、インデックス数を増やすのもSEOの一つですよ。
2.ロボットのクロールは申請から数週間かかります。よって、すぐ反映されたときはタイミングが良いだけかと。
3.大手検索エンジンからのインデックス削除
↓を参考にすれば削除できますが、巡回周期に合わないと削除まで時間がかかることが多いです。
http://help.yahoo.co.jp/help/jp/search/indexing/indexing-12....
http://www.google.co.jp/intl/ja/remove.html
http://search.msn.co.jp/docs/help.aspx?t=SEARCH_PROC_ClearYo...
4.404でもURLはインデックス作成されますので、対処は3を参考に。
次クロール時にはインデックスされなくても、わざわざデータベースからは削除しないと思います。
削除することによってエラーを招く場合もありますし、検索ユーザーにとっては多くの情報があるほうがいいわけですから、ストックすると思います。新たに行わないだけでしょう。
ロボットについてのことがあるので読んでみてはいかがでしょうか。
データベースからは削除しないけども、検索結果が表示されなくなるだけということでしょうか。
URLをじっくり読んでみます。
一旦インデックスしていても、METAタグで拒否すれば、次回からは削除されるんですね。
なるほど、404を出力しても、リンクが張られ一旦インデックスしているのでインデックス削除の対策が必要ということですね。
ありがとうございます。
追記ですが、アクセスを解析すると、クロールは大体のページでしてくれている(一日平均300のペースでも全ページ完了まで一年近くかかる)んですが、Googleの検索結果のキャッシュが異常に古かったり、インデックス数を調べる方法(site:www.hoge.com)で検索すると5千ぐらいしかヒットしなくて、ページランクが影響するのかとも考えます。