趣味で、ブログエントリを形態素解析し語のTFIDFを取得して、NMFアルゴリズムで特徴を調べようとしています。

Question

kent013

19

18もっと見る

70pt

コンピュータインターネット

趣味で、ブログエントリを形態素解析し語のTFIDFを取得して、NMFアルゴリズムで特徴を調べようとしています。

しかし、エントリ数が6万、キーワード数が11万で、そのままメモリ上に展開して行列計算することができません。
ファイルに行列を落として計算してみましたが、遅すぎて使い物になりませんでした。

こういったメモリ上に展開して計算できないような行列計算を行う方法がありましたら、手がかりだけでもかまいませんので御教示ください。
よろしくお願いいたします。

回答の条件

1人5回まで

登録：2009/04/14 13:54:51
終了：2009/04/21 09:25:42

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

Hyperion64 2009/04/14 16:47:42

疎行列を2，3回乗算するくらいならば、疎行列に近いと思います。何十回とやっていると
ばらけてくるかもしれないですね。
もちろん対角行列同士ならそのまんまですし。

それとどんな行列も「ジョルダン標準形」という簡約形に変換できるのですが、それがお仕事の役に立つかどうか分かりません。
http://ja.wikipedia.org/wiki/%E3%82%B8%E3%83%A7%E3%83%AB%E3%83%80%E3%83%B3%E6%A8%99%E6%BA%96%E5%BD%A2

プログラミングの方は別の方のお知恵をお願いしたいところです。
kent013 2009/04/15 10:35:44

Hyperion64さん、コメントありがとうございます。
どのくらい非ゼロの要素が入っているのかを計算してみると、
1行(1エントリあたり)に、特徴語を5引いていますので、
6万*10万の要素中に6万*5の要素が含まれています。
0.004%です。

6万*10万の行列を1要素8バイトとして、そのままメモリ上に確保すると50G程度になりますが、
疎行列として確保すると、6万*5ですから、2.2MB程度になります。

ただ、NFMの計算は10回程度の反復が必要なので、もしかしたらデータ量が増えてしまうかもしれませんが、
とりあえず、やってみたいと思います。

ジョルダン標準形も調べてみます。

また、
http://ci.nii.ac.jp/naid/110002911587/
と言う論文を発見しました。
そもそも全体に対してNMFをかけるのではなく、
まずクラスタリングして母集団を小さくしてからNMFをかけるということです。

引き続き回答を受け付けておりますので、関係することなら何でもいいですので、情報をいただけたらと思います。

Paradigm Shift Design - 趣味プログラミング 2009-05-08 23:41:30

趣味プログラミング最近、忙しかったけど少しだけ余裕が見えてきました。ので久しぶりに記事を書こうかなと思ったけど、気合を入れちゃいそうなのでガス抜きに適当なエントリを書こ

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

Hyperion64 · Answer 1 · 2009-04-14T16:13:18+09:00

どの程度中身のある行列（ゼロでない要素がどうなっているかという意味です）か分からないのですが、仮にゼロ要素が多ければ「疎行列」として計算を簡易化する方法があります。

http://ja.wikipedia.org/wiki/%E7%96%8E%E8%A1%8C%E5%88%97

もう自分ではやっていないので、見当違いなことかもしれないですが、こちらのライブラリーなどを利用するなども選択肢の一つかと思います。

http://www.oishi.info.waseda.ac.jp/~oishi/FAQ/numtool.html

趣味で、ブログエントリを形態素解析し語のTFIDFを取得して、NMFアルゴリズムで特徴を調べようとしています。

回答（1件）

Hyperion64791842009/04/14 16:13:18

コメント（2件)

この質問への反応（ブックマークコメント）

トラックバック