人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

趣味で、ブログエントリを形態素解析し語のTFIDFを取得して、NMFアルゴリズムで特徴を調べようとしています。
しかし、エントリ数が6万、キーワード数が11万で、そのままメモリ上に展開して行列計算することができません。
ファイルに行列を落として計算してみましたが、遅すぎて使い物になりませんでした。

こういったメモリ上に展開して計算できないような行列計算を行う方法がありましたら、手がかりだけでもかまいませんので御教示ください。
よろしくお願いいたします。

●質問者: kent013
●カテゴリ:コンピュータ インターネット
✍キーワード:アルゴリズム エントリ キーワード ファイル メモリ
○ 状態 :終了
└ 回答数 : 1/1件

▽最新の回答へ

1 ● Hyperion64
●70ポイント

どの程度中身のある行列(ゼロでない要素がどうなっているかという意味です)か分からないのですが、仮にゼロ要素が多ければ「疎行列」として計算を簡易化する方法があります。

http://ja.wikipedia.org/wiki/%E7%96%8E%E8%A1%8C%E5%88%97

もう自分ではやっていないので、見当違いなことかもしれないですが、こちらのライブラリーなどを利用するなども選択肢の一つかと思います。

http://www.oishi.info.waseda.ac.jp/~oishi/FAQ/numtool.html

◎質問者からの返答

ありがとうございます。

あまりよくわかっていないのですが疎行列と疎行列の乗算の解は、疎行列なのでしょうか。

解が疎行列にならないようだと、最初の計算はオンメモリでできそうですが、その解を利用した計算ができなくなってしまうような気がします。

pythonのnumpyやscipyやなんかは、メモリに乗りきらないものを取り扱う機能があったりするのでしょうか。

参考リンク、見てみます。ありがとうございました。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ