はてなははてなキーワードなど、うまいことネットワークを張り巡らせる仕組みがあり、検索エンジンに引っかかりやすい。アクセス数もあるのでクロール頻度も高い。
とか。
▽2
●
meefla ●180ポイント ベストアンサー |
Google の検索結果に動的ページが含まれるのには、1. の静的ページ経由のものもあるでしょうが、それだけでは説明がつかないようなものもあります。
これは「3. その他」にあたり、「Google の検索エンジンが検索結果(動的ページ)を収集するようにプログラミングされている」という事だと思われます。
動的ページは、通常の検索エンジンでは収集できないという事から、Deep Web(深層Web)と呼ばれます。
しかし、Google はこの Deep Web からも動的ページを拾ってインデックス化しているようです。
2008年と少し古い文献ですが、Google の技術者が発表した "Google’s DeepWeb"
http://www.cs.washington.edu/homes/alon/files/vldb08deepweb.pdf
によれば、この時点で Google は、世界50ヶ国語以上の700以上のドメインにおける、のべ数百万の検索フォームから、動的ページを収集しています。
この手法は、"surfacing"(日本語だと「表層化」でしょうか)と呼ばれています。
The results or our surfacing are currently enjoyed by millions of users per day world-wide, and cover content in over 700 domains, over 50 languages, and from several million forms.
(PDF 12ページ、CONCLUSION より)
技術的な詳細の解説は私の力量を超えていますが、例えばフォームに入力するキーワードのセットは、中核になるものをいくつか(言語ごとに)決めておき、検索結果として帰ってきたページからさらにキーワードを収集してキーワードセットの数を増やしていく、という事をしているようです。
一つのフォームにキーワードを500個くらい設定しています。
エラーページが帰ってきたら、キーワードのセットを組み替えるわけです。
また、一つの検索フォームに複数のキーワードを入力した場合、というのも考慮されています。
得られた動的ページを Google の検索結果ページに表示して、ユーザーがそのリンクをクリックしたらランクを上げる、というおなじみの手法も併用しているようです。
検索フォームからの動的ページの収集は全自動化されていて、Google の検索エンジン自体に組み込まれている、との事です。
以上、お役に立てることを祈りつつ。