データや文章の分類、クラスタリング、類似性判断の最近の動向を教えて頂きたいと思います。
自分は研究者とかではないもので、Web上が基本的な学習の場なのですが、
分類やクラスタリングの手法を検索しても、2003年くらいの情報とか出てきます。
流石に古いのではないかと思います。
また、そうでなくても、様々な手法など書かれていますし、いったいどれが現在の主流であるのか判断がつきません。
教科書のような本に載っているのは、文書の類似性判断はユークリッド、コサイン類似度。
分類はナイーブベイズやサポートベクトル。
クラスタリングはk-means法やEMアルゴリズム。
しかし流石に、最近はもっと進化した手法を使っているのではないかと思います。
精度の面だけではなく、速度の面でも。
以前のものでも、k-means法もWillettのアルゴリズム、平均クラスタリング・アルゴリズムなど改良されたものがありました。
現在の動向、各ジャンルの主流の方法などについて教えていただけましたらありがたいです。
また、レポートやお勧めのサイトなどありましたらお願い致します。
よろしくお願いいたします。