http://partners.dhw.co.jp/html_mail/newslink/030917/030917sugiya...
DIGITAL HOLLYWOOD PARTNERS / 今さら聞けないITビジネス用語入門
こちらの説明が分かりやすいと思います。
掲示板の文章も、検索対象になります。
検索エンジンのロボット避けには、こちらが参考になります。
http://www.google.com/intl/ja/webmasters/index.html
Google Webmaster Central
検索エンジンにも色々な種類がありますが、
Googleの場合は、自動でサイトを回りページ情報を取得して、
さらにそのページからリンクを見つけるとそちらにも行って・・・・
というような動作を繰り返すロボット型のデータ収集を行っています。
Googleのロボットはリンクをたどってどこまでも新しいサイトを探していきますから、
どんなサイトでもどこかからリンクされていれば、
ロボットはいつかそれを探し出してデータベースに加えます。
ですから、misacchiさんのサイトにも、おそらくGoogleは来ているわけです。
アクセス解析に「HTTP_USER_AGENT」というのが見られるようになっていたら、
Googlebotという名前のものがそのロボットです。
もちろん掲示板のようなCGIで出力されるページも
Googleは回って取得していきますよ。
ただ、そうしたアクティブに構成されるページは
リンクを深く潜って同じサーバにアクセスを繰り返すと
相手先サーバに多大な負荷をかけてしまいますから、
ちょこっとアクセスしてあとは深入りしない、
といった動作をさせています。
ですから、普通のhtmlで書かれたページは
巡回を拒否する指定がなされていないかぎり全て回っていきますが、
CGIで書かれたページは表面的な部分だけを回っていく、
と考えてください。
丁寧なコメントありがとうございます。分かりやすく助かりました。
googleなどのロボット型検索エンジンでは、基本的にアンカーによるリンクがあれば、ファイルの拡張子名にかかわらずたどろうとします。
ですから、cgiやaspなどの動的なページでも検索結果に含まれることになります。
ありがとうございます。じっくり読んでみます。
GOOGLEはURLを検索するもので、ページ内での各キーワードの位置を重視し、入力した用語を含むページのみを返します。検索結果から訪問されたとおもわれます。CGIやPHPも返します
そうなるまでの手順が知りたかったのです。質問が分かりづらくてすみません。
ありがとうございます。分かりやすくて助かります。