以下のように生成した、。URLがインデックス登録されません。
Googleのウェブマスターツールでは、
サイトマップにあるすべての URL:生成したURLの数を認識している。
サイトマップでインデックスに登録された URL:0
となってしまっている。
もしかしたら、locの部分のURLをエンコードしているのでいけないのでしょうか?
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://test.jp/search/%CC%B5%CE%C1+%C6%B0%B2%E8/</loc>
<lastmod>2009-08-18</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
</urlset>
やりたいことは、キーワードでのURLを動的に作成して
それを、インデックスしたいです。
キーワードの場合は、Googleで書いている、ニュース用のxmlにしないと
駄目なのでしょうか?
http://www.google.com/support/webmasters/bin/answer.py?hl=jp&answer=74288
わかる方が、いれば教えて頂けると助かります。
sitemap.xmlを登録したからとって、かならずしも Google 検索データベースに反映されるわけではありません。そのコンテンツが Google の登録ルールに合っているかどうかが肝要です。「ウェブマスターのためのガイドライン」を参考にしてください。
気になったのは、ご質問のページが静的なものか動的なものかという点です。
もし、"無料 動画" というキーワードの検索結果を表示させるものであったり、他ページにジャンプするようなものである場合、登録される可能性は低いです。
また、コンテンツ名としてスペースが含まれていることも、検索エンジンに登録されない原因と思われます。
サイトマップでクロールして欲しいURLを指定してもrobots.txtで拒否している場合はクロールされません。
大手のblogサービスでは、ラベルごとのアーカイブ等はクロールされないようにrobots.txtが設定されている場合が多いです。
ご自分のサイトのrobots.txtの内容を確認し
Disallow: /search
という記述があれば削除してください。
blogサービス等を利用し、自動でrobots.txtが設定されている場合は、Googleウエブマスターツールの、
サイト設定→クローラーのアクセス でrobots.txtの内容を確認できます。
robots.txtの内容を自由に設定できるかどうかは、blogサービスの仕様によります。
独自サーバですので、そこは問題なかったですね。
ありがとうございます。
一応、piblic_html配下にrobots.txtはありましたが
中身は、空でした。
サイトマップにあるすべての URL:生成したURLの数を認識している。
この時点で sitemap.xml 自体にはおおよそ問題は無いと見ていいだろう。
自分の場合、URL の問題ではなかったが、スパムサイトと認識されたのか
サイトの一切の URL がインデックス登録されなかったことがある。
それについて Google 側から説明は基本的にない。
アクセスログを確認してみた方がいい。
認識した URL にクローラーからのアクセスが無ければ同様のケースかもしれない。
この場合、再審査依頼を出すことは出来るが、結果は保証しない。
なるほどですね。
動的なページです。
スペースも入りますね・・
ありがとうございます。
やはり、静的なページを作成して
そこにキーワードでインデックスしてくれるような
ニュース用のXMLに変えたほうがよさげですね。