Google Newsの仕組みが知りたいです。特に「関連記事 XXX 件 」とありますが、記事の関連をどのように判断・集約しているか知りたいです。


もちろん方法が公開されていないと思うし、相当複雑なことをしていると思いますが、できるだけヒントを得たいです。(文章と文書を自動で紐付けるサービスを開発中なのですが、苦戦しておりまして)

参考になるサイト、書籍等、なんでもいいので教えてください。

回答の条件
  • 1人5回まで
  • 登録:
  • 終了:2011/11/07 00:37:11
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

回答3件)

id:ATSUSHI0623 No.1

回答回数32ベストアンサー獲得回数2

ポイント34pt

多分言葉で判断してると思います。

例えば・・・

野球ドラフト指名選手からだとすると・・・

「巨人は14日、スカウト会議を開き、来季のドラフト会議で東海大の菅野智之投手(21)を1位指名すると決定した。菅野は原監督の"おい"にあたり、来ドラフトの目玉の本格派右腕。 清武英利球団代表は「きわめて異例な形だが、巨人として意思を鮮明にしたかった。メジャーの動きに対抗する意味もある」とこの時期の方針決定を説明した。菅野の海外流失を阻止するほか、獲得を目指す国内他球団を牽制する狙いもあると見られる。同代表は「150キロを超える速球に変化球も多彩。先発も抑えもできる。今年指名した沢村(中大)とともに双璧になってほしい」と述べた。巨人では、2009年9月に長野久義外野手(ホンダ)の1位指名を決め、方針通りに指名した例がある。また、ヤクルト、ロッテが斎藤佑樹投手(早大)の1位指名を今年1月に公表、実際に指名したが、抽選で日本ハムに敗れたようなケースもある。来ドラフトでは、菅野のほか、150キロ左腕の藤岡貴裕投手(東洋大)、広陵高3年時に夏の甲子園で準優勝した野村祐輔投手(明大)らが注目選手に挙がっている。」

これを大きなまとまりにすると・・・

巨人・スカウト会議・東海大・抽選・甲子園・注目選手などに分けられるだから

巨人といえば野球 野球はスポーツという感じだと思います。

すいません説明雑で・・・

id:nemutaiyo

なるほど。単純に単語だけでなくて、その関連も大事なんですね。非常に参考になります。

2011/10/31 21:23:32
id:a-kuma3 No.2

回答回数4974ベストアンサー獲得回数2154

ポイント33pt

こんなのがありました。

Google News Personalization: Scalable Onilne Collaborative Filtering … Google ドキュメント

http://www2007.org/papers/paper570.pdf … 元の PDF ファイル


それについて、ゼミで発表したらしい人が書いた、簡単な内容説明。

http://d.hatena.ne.jp/umekoumeda/20081214/1229292358


発表の内容はもしかしたら、コレ?




記事の類似度は、先のページに書かれている LSH (Local Sensitivity Hashing) を使って判定されているのだと思います。

通常のハッシュ関数は、元データが類似していても、なるべく大きく違う値を返すように設計されますが、

ここで使われているハッシュ関数は、元データが類似しているときには、なるべく近い値を返すように設計されているのでしょう。

多分、形態要素解析をした後のデータを使うのだと思います。


一度、代表値(ひとつとは限らない)が求まってしまえば、データをグルーピングするのは、

昔ながらのクラスタ分析を使えば良いでしょう。

また、全体をグループ分けするのではなく、あるデータに近いものを探すだけであれば、

判別分析で使われる「マハラノビスの距離」を求めて、

ある値よりも小さいものが類似したデータだ、と判定することもできます。


http://www.slideshare.net/takahi-i/hadoop-conference-japan-2011

↑にもある通り、LSH は、

全インスタンスの総当り比較が必要ないため高速に動作する

反面、代表値を使って類似度を判定しているだけなので、

精度はそれほどでもない

ということのようです。

id:nemutaiyo

おお!ありがとうございます。これをどこまで理解できるかわかりませんが、貴重な手がかりを頂きました。時間かけて読みます。

2011/10/31 21:25:19
id:TAK_TAK No.3

回答回数1136ベストアンサー獲得回数104

ポイント33pt

記事の類似度を計算だけなら実はそんなに難しくありません。

文書分類の方法

難しいのはそれよりも手前のレベル

データクレンジングとか、

形態素解析とか、

データベース構築とか、

だと思います。

id:nemutaiyo

いろんな手法があると思いますが、それらを俯瞰して、まずは一番やりやすい方法を採用したいです。貴重なコメントありがとうございます。

2011/10/31 21:27:06

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません