人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

Google Newsの仕組みが知りたいです。特に「関連記事 XXX 件 」とありますが、記事の関連をどのように判断・集約しているか知りたいです。

もちろん方法が公開されていないと思うし、相当複雑なことをしていると思いますが、できるだけヒントを得たいです。(文章と文書を自動で紐付けるサービスを開発中なのですが、苦戦しておりまして)

参考になるサイト、書籍等、なんでもいいので教えてください。

●質問者: nemutaiyo
●カテゴリ:コンピュータ インターネット
○ 状態 :終了
└ 回答数 : 3/3件

▽最新の回答へ

1 ● ホンダ ゴロウ?
●34ポイント

多分言葉で判断してると思います。

例えば・・・

野球ドラフト指名選手からだとすると・・・

「巨人は14日、スカウト会議を開き、来季のドラフト会議で東海大の菅野智之投手(21)を1位指名すると決定した。菅野は原監督の"おい"にあたり、来ドラフトの目玉の本格派右腕。 清武英利球団代表は「きわめて異例な形だが、巨人として意思を鮮明にしたかった。メジャーの動きに対抗する意味もある」とこの時期の方針決定を説明した。菅野の海外流失を阻止するほか、獲得を目指す国内他球団を牽制する狙いもあると見られる。同代表は「150キロを超える速球に変化球も多彩。先発も抑えもできる。今年指名した沢村(中大)とともに双璧になってほしい」と述べた。巨人では、2009年9月に長野久義外野手(ホンダ)の1位指名を決め、方針通りに指名した例がある。また、ヤクルト、ロッテが斎藤佑樹投手(早大)の1位指名を今年1月に公表、実際に指名したが、抽選で日本ハムに敗れたようなケースもある。来ドラフトでは、菅野のほか、150キロ左腕の藤岡貴裕投手(東洋大)、広陵高3年時に夏の甲子園で準優勝した野村祐輔投手(明大)らが注目選手に挙がっている。」

これを大きなまとまりにすると・・・

巨人・スカウト会議・東海大・抽選・甲子園・注目選手などに分けられるだから

巨人といえば野球 野球はスポーツという感じだと思います。

すいません説明雑で・・・


nemutaiyoさんのコメント
なるほど。単純に単語だけでなくて、その関連も大事なんですね。非常に参考になります。

2 ● a-kuma3
●33ポイント

こんなのがありました。

Google News Personalization: Scalable Onilne Collaborative Filtering … Google ドキュメント

http://www2007.org/papers/paper570.pdf … 元の PDF ファイル


それについて、ゼミで発表したらしい人が書いた、簡単な内容説明。

http://d.hatena.ne.jp/umekoumeda/20081214/1229292358


発表の内容はもしかしたら、コレ?




記事の類似度は、先のページに書かれている LSH (Local Sensitivity Hashing) を使って判定されているのだと思います。

通常のハッシュ関数は、元データが類似していても、なるべく大きく違う値を返すように設計されますが、

ここで使われているハッシュ関数は、元データが類似しているときには、なるべく近い値を返すように設計されているのでしょう。

多分、形態要素解析をした後のデータを使うのだと思います。


一度、代表値(ひとつとは限らない)が求まってしまえば、データをグルーピングするのは、

昔ながらのクラスタ分析を使えば良いでしょう。

また、全体をグループ分けするのではなく、あるデータに近いものを探すだけであれば、

判別分析で使われる「マハラノビスの距離」を求めて、

ある値よりも小さいものが類似したデータだ、と判定することもできます。


http://www.slideshare.net/takahi-i/hadoop-conference-japan-2011

↑にもある通り、LSH は、

全インスタンスの総当り比較が必要ないため高速に動作する

反面、代表値を使って類似度を判定しているだけなので、

精度はそれほどでもない

ということのようです。


nemutaiyoさんのコメント
おお!ありがとうございます。これをどこまで理解できるかわかりませんが、貴重な手がかりを頂きました。時間かけて読みます。

3 ● tak
●33ポイント

記事の類似度を計算だけなら実はそんなに難しくありません。

文書分類の方法

難しいのはそれよりも手前のレベル

データクレンジングとか、

形態素解析とか、

データベース構築とか、

だと思います。


nemutaiyoさんのコメント
いろんな手法があると思いますが、それらを俯瞰して、まずは一番やりやすい方法を採用したいです。貴重なコメントありがとうございます。
関連質問

●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ