google検索の疑問

『1万年と2千年前から愛してる』で検索すると
ウィキペディアの『創聖のアクエリオン - Wikipedia』が2番目に表示されるのですが、
どんな感じでこれが上位になってるんでしょう。
ちまちま人がやっているとは思えないのですが、検索エンジンが学習するってことなんでしょうか?

回答の条件
  • 1人5回まで
  • 登録:
  • 終了:2012/02/02 20:42:21

ベストアンサー

id:fut573 No.2

回答回数196ベストアンサー獲得回数55

Co-Occurrence(共起と訳すみたいですね)という概念があります。
これは同じページ内でよく一緒に使われるキーワードをセットで考えるというものです。
これを使えば、「1万年と2千年前から愛してる」とよく一緒に使われているキーワードが多いページを「関連性が高いページ」と判定することが出来ます。


しかしこのケースの場合はページ内に関連キーワードを多く含んでいますので、共起なしでも検索上位に上がる可能性は高いだろうと思われます。
f:id:fut573:20120131045906p:image
例えば以下のワンフレーズには "一万" "二千" "愛"というキーワードが含まれます。

OVA2巻限定蔵版に付属するCDドラマ「一万二千年の足跡」

こんな感じでページ内にキーワードが何度も出てきています。

キーワード出現数
一万二千14回
12000年9回
一万と二千1回
二千年14回
48回
31回
愛し3回


ポイントは以下のとおりです

  • アクエリオンのCDドラマのタイトルが「一万二千年の足跡」であること
  • それが愛蔵版に収録されたこと

これにより、創聖のアクエリオンのwikipediaページは『1万年と2千年前から愛してる』というフレーズの要素を網羅するものに仕上がっています。
これは検索エンジンの上位に来るのに十分な条件を満たしていると思われます。


もう一つおまけに、googleで二重引用符付きの検索をすると、フレーズと完全一致するページだけが検索できます。
試しに"一万年と二千年前から愛してる"で検索してみると 「創聖のアクエリオン - Wikipedia」がHITします。
ページ内に『一万年と二千年前から愛してる』というフレーズが無いのにも関わらず、です。
なぜこんなことが起こるかというと、wikipediaには 実は「一万年と二千年前から愛してる」というページがありまして、このページにアクセスすると「創聖のアクエリオン」のページに自動転送される設定になっているからです。
f:id:fut573:20120131054515p:image
これはリダイレクトという仕組みを使っていて、転送前のページの検索エンジン上の評価を受け継ぐことが出来ます。
要するに、「創聖のアクエリオン」のページは、wikipedia側から「一万年と二千年前から愛してる」と関連付けがされているのです。
その結果「一万年と二千年前から愛してる」での検索順位が向上したと考えられます。
この件についてはgoogleが検索エンジンが自動で学習したというよりも、wikipedia側から検索エンジンに手動で学習させた、可能性が高いと思われます。

id:grankoyama

おおぃぃっ。
もうちょっと、もやもやっとしたまま終わるのかと思ったら、
転送ページがあったとは。
『一万年と~』は、もはやフレーズとして定着しきったのですね。
リダイレクトがかかっているのなら何となく、問答無用で検索上位にくるのも
肯けます。
いや、程よい回答をありがとうございました。

2012/02/02 20:41:58

その他の回答3件)

id:yarukimedesu No.1

回答回数284ベストアンサー獲得回数48

 私も、二番目に表示されました。

 Googleの検索結果は、ページランクアルゴリズムという仕組みで表示されています。以下のような感じです。

ページランク・アルゴリズムでは、重要とされるページからリンクされている数を評価の基本とする。リンク元ページの重要度もページランクで決定されるため、そのアルゴリズムは再帰的になる。Googleはページランクだけでなく様々な指標を検索結果の順位付けに追加しており、今では200以上の異なる指標を使っているという。不当な順位の操作を防ぐためと、競合他社への優位を確保するため、詳細は秘密にされている。
Google検索 - Wikipedia


 秘密の部分もあるみたいなので、私なりの解釈も交えますが、そのページに含まれる内容と、そのページがリンクされている数が重要とされる他に、リンクされているページの内容も、判断の中に入っているのじゃないかと、想像します。

 「1万年と2千年前から愛してる」は、「創聖アクエリオン」の主題歌のサビの部分なので、当然、同時に「創聖のアクエリオン」という言葉が使われることが多いでしょう。また、作品名が「創聖のアクエリオン」で、歌のタイトルも「創聖のアクエリオン」なので、余計に、同時に使われることが多いでしょう。

 それらの情報から、Googleの検索エンジンが「1万年と2千年前から愛してる」というキーワードは「創聖のアクエリオン」に含まれる1部」と認識し、そして、インターネット上で「検索され力(≒ページランク)」の強い『Wikipedia』のページが検索上位に表示されているのだと推察します。
 
 同様な実験を『新世紀エヴァンゲリオン』の主題歌『残酷な天使のテーゼ』のサビの「残酷な天使のテーゼ」で、Googleで検索してみましたが、エヴァンゲリオンのWikipediaのページは、検索結果の1ページ目は出ませんでした。これは、サビと歌のタイトルが一緒だからでしょうね。

 Googleの中の人がやっていると思うのは、検索アルゴリズムの調整などだと思います。

id:grankoyama

おっしゃっていることは良くわかります。
同時に検索されたり、互いの検索結果ページに含まれているので(しかもタイトルとか
重要な箇所に)「「1万年と~」と「創聖~」が徐々に繋がっていったんですかね。
あまりにも鮮やかだったので、人間の手が介されているのでは……といぶかしんだところで質問したのです。

良い意見ありがとうございました。

2012/01/30 22:31:34
id:fut573 No.2

回答回数196ベストアンサー獲得回数55ここでベストアンサー

Co-Occurrence(共起と訳すみたいですね)という概念があります。
これは同じページ内でよく一緒に使われるキーワードをセットで考えるというものです。
これを使えば、「1万年と2千年前から愛してる」とよく一緒に使われているキーワードが多いページを「関連性が高いページ」と判定することが出来ます。


しかしこのケースの場合はページ内に関連キーワードを多く含んでいますので、共起なしでも検索上位に上がる可能性は高いだろうと思われます。
f:id:fut573:20120131045906p:image
例えば以下のワンフレーズには "一万" "二千" "愛"というキーワードが含まれます。

OVA2巻限定蔵版に付属するCDドラマ「一万二千年の足跡」

こんな感じでページ内にキーワードが何度も出てきています。

キーワード出現数
一万二千14回
12000年9回
一万と二千1回
二千年14回
48回
31回
愛し3回


ポイントは以下のとおりです

  • アクエリオンのCDドラマのタイトルが「一万二千年の足跡」であること
  • それが愛蔵版に収録されたこと

これにより、創聖のアクエリオンのwikipediaページは『1万年と2千年前から愛してる』というフレーズの要素を網羅するものに仕上がっています。
これは検索エンジンの上位に来るのに十分な条件を満たしていると思われます。


もう一つおまけに、googleで二重引用符付きの検索をすると、フレーズと完全一致するページだけが検索できます。
試しに"一万年と二千年前から愛してる"で検索してみると 「創聖のアクエリオン - Wikipedia」がHITします。
ページ内に『一万年と二千年前から愛してる』というフレーズが無いのにも関わらず、です。
なぜこんなことが起こるかというと、wikipediaには 実は「一万年と二千年前から愛してる」というページがありまして、このページにアクセスすると「創聖のアクエリオン」のページに自動転送される設定になっているからです。
f:id:fut573:20120131054515p:image
これはリダイレクトという仕組みを使っていて、転送前のページの検索エンジン上の評価を受け継ぐことが出来ます。
要するに、「創聖のアクエリオン」のページは、wikipedia側から「一万年と二千年前から愛してる」と関連付けがされているのです。
その結果「一万年と二千年前から愛してる」での検索順位が向上したと考えられます。
この件についてはgoogleが検索エンジンが自動で学習したというよりも、wikipedia側から検索エンジンに手動で学習させた、可能性が高いと思われます。

id:grankoyama

おおぃぃっ。
もうちょっと、もやもやっとしたまま終わるのかと思ったら、
転送ページがあったとは。
『一万年と~』は、もはやフレーズとして定着しきったのですね。
リダイレクトがかかっているのなら何となく、問答無用で検索上位にくるのも
肯けます。
いや、程よい回答をありがとうございました。

2012/02/02 20:41:58
id:yoshi777me No.3

回答回数119ベストアンサー獲得回数15

http://www.sem-r.com/sem/google/20030819131209.html


http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q141079269
http://ja.wikipedia.org/wiki/Google_Web_Accelerator#Google_Web_Accelerator

wikipediaにかいてあるようにページランクも使っていますが
他のものも使っているんじゃないだろうかという意見も
あるようです

つまり

いろいろ他のものとあわせて出しているんじゃないでしょうか

id:yasu_sinjuku No.4

回答回数71ベストアンサー獲得回数10

ホームページの制作会社を経営しております。
得意な分野は、SEOやSNSです。
Googleは、ユーザーの利便性を第一に有効な検索結果を表示する事を目指しています。
つまり、人工知能を目指していると言う事です。
詳細なロジックは公開されていませんが、概要は、ヘルプに記載されています。
また、検索エンジンの最高責任者のマットカツ氏のブログやストリームも閲覧することが出来ます。
そこでは、200以上のシグナルを判定し、検索結果に反映させていると言っています。
また、時にはスパム行為にあたるサイトに関しては、手動でもペナルティーを科すとしています。
ヘルプの日本語訳は、変なので、全て英文で読むことをお勧めします。

  • id:sibazyun
    わたしが今Googleで検索してみたら、100位までにウィキペディアは表示されませんでした。
    2位は「はてなキーワード」でした。
  • id:grankoyama
    グラ娘。 2012/01/30 22:28:05
    コメントありがとうございます。
    googleさんはヲキペディアを(検索から)使う人なのかそうでないのかくらいは、個別に把握してそうですよね。
    私のグーグルでは、自分のダイアリーや人力検索が優遇されているのでそれと似たような……。
    興味深いです。「はてなキーワード」は4位くらいにありました。

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません