人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

データマイニングについての質問です。購買者が特定できる履歴(会員システムなど)で、ある2人のペアが同じ日に同時に購買している頻度を計算するのにはどうするといいのでしょうか? 一人ひとり調べていくのは、計算量がかかります。計算量を減らすのにはどうするといいのでしょうか? データから連れで購買しているかどうかを調べたいのです。

●質問者: isogaya
●カテゴリ:ビジネス・経営 科学・統計資料
✍キーワード:いるか システム データ データマイニング 計算
○ 状態 :終了
└ 回答数 : 1/1件

▽最新の回答へ

1 ● crenlif
●60ポイント

コメントでの質疑を受けまして、以下の方法を提案いたします。

(1) 任意の日において購買を行った人の集合データ{A}を作成する

(2) 集合{A}内の購買者対を列挙し、[購買者1, 購買者2, 購買日]を要素とするリスト{B}を作成する。

(3) 購買者1,購買者2をそれぞれキーとし、[同日に購買した回数]を値とする

"ハッシュのハッシュ"{H}を作成する

(4) {H}を元に必要なデータを抽出する

購買者数Nが100,000程度ということでしたら

購買者IDを4バイトのデータに格納したとして

最大で(4*10^5)^2=160[GB]のデータが生成されます。

(実際にはデータが疎であると考えられるのでこれより数桁小さいと思われます)

実行時間としては、ディスクへデータを書き出す時間が主となり

このデータ量では全体の処理時間はさほど問題にならないかと思います。

>少しプログラミングするとできないことなさそうですね。従来のツールそのままでは難しいでしょうか?

ご指摘のように、実行時間に関しては無理のない範囲で可能かと思います。

なお、「従来のツール」が何を指すか不明瞭なのですが、

データ解析ソフトなどで上記の内容を行うことも可能であると思われます。

http://q.hatena.ne.jp/

◎質問者からの返答

ありがとうございます。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ