もちろん方法が公開されていないと思うし、相当複雑なことをしていると思いますが、できるだけヒントを得たいです。(文章と文書を自動で紐付けるサービスを開発中なのですが、苦戦しておりまして)
参考になるサイト、書籍等、なんでもいいので教えてください。
多分言葉で判断してると思います。
例えば・・・
野球ドラフト指名選手からだとすると・・・
「巨人は14日、スカウト会議を開き、来季のドラフト会議で東海大の菅野智之投手(21)を1位指名すると決定した。菅野は原監督の"おい"にあたり、来ドラフトの目玉の本格派右腕。 清武英利球団代表は「きわめて異例な形だが、巨人として意思を鮮明にしたかった。メジャーの動きに対抗する意味もある」とこの時期の方針決定を説明した。菅野の海外流失を阻止するほか、獲得を目指す国内他球団を牽制する狙いもあると見られる。同代表は「150キロを超える速球に変化球も多彩。先発も抑えもできる。今年指名した沢村(中大)とともに双璧になってほしい」と述べた。巨人では、2009年9月に長野久義外野手(ホンダ)の1位指名を決め、方針通りに指名した例がある。また、ヤクルト、ロッテが斎藤佑樹投手(早大)の1位指名を今年1月に公表、実際に指名したが、抽選で日本ハムに敗れたようなケースもある。来ドラフトでは、菅野のほか、150キロ左腕の藤岡貴裕投手(東洋大)、広陵高3年時に夏の甲子園で準優勝した野村祐輔投手(明大)らが注目選手に挙がっている。」
これを大きなまとまりにすると・・・
巨人・スカウト会議・東海大・抽選・甲子園・注目選手などに分けられるだから
巨人といえば野球 野球はスポーツという感じだと思います。
すいません説明雑で・・・
こんなのがありました。
Google News Personalization: Scalable Onilne Collaborative Filtering … Google ドキュメント
http://www2007.org/papers/paper570.pdf … 元の PDF ファイル
それについて、ゼミで発表したらしい人が書いた、簡単な内容説明。
http://d.hatena.ne.jp/umekoumeda/20081214/1229292358
記事の類似度は、先のページに書かれている LSH (Local Sensitivity Hashing) を使って判定されているのだと思います。
通常のハッシュ関数は、元データが類似していても、なるべく大きく違う値を返すように設計されますが、
ここで使われているハッシュ関数は、元データが類似しているときには、なるべく近い値を返すように設計されているのでしょう。
多分、形態要素解析をした後のデータを使うのだと思います。
一度、代表値(ひとつとは限らない)が求まってしまえば、データをグルーピングするのは、
昔ながらのクラスタ分析を使えば良いでしょう。
また、全体をグループ分けするのではなく、あるデータに近いものを探すだけであれば、
判別分析で使われる「マハラノビスの距離」を求めて、
ある値よりも小さいものが類似したデータだ、と判定することもできます。
http://www.slideshare.net/takahi-i/hadoop-conference-japan-2011
↑にもある通り、LSH は、
全インスタンスの総当り比較が必要ないため高速に動作する
反面、代表値を使って類似度を判定しているだけなので、
精度はそれほどでもない
ということのようです。
おお!ありがとうございます。これをどこまで理解できるかわかりませんが、貴重な手がかりを頂きました。時間かけて読みます。
なるほど。単純に単語だけでなくて、その関連も大事なんですね。非常に参考になります。
2011/10/31 21:23:32