カイ二乗検定の標本数について質問です。

あるサイトへの曜日ごとのアクセス数をとったところ以下のようになりました。
月 34,338,110
火 37,967,879
水 40,065,867
木 39,542,476
金 39,011,719
土 35,854,147
日 30,785,493
全曜日の分布が一律としてカイ二乗検定を行ったところ、有意差があるとの結果になります。
しかしこの数字を10の倍数で割っていくと、2ケタ程度の数になると有意差がなくなります。
ここから以下の疑問が生まれました。

カイ二乗検定では標本数が大きいとほぼ確実に有意差が出るのではないか。また、例えばこの数字を生のアクセス数でなく、割合(%)にして2ケタ程度にした場合には有意差がなくなるのではないか。
カイ二乗の値の計算が分子は二乗しているから当然かと思うのですが、この場合はどのような値を用いて検定すればいいのでしょうか。
生データが上記の場合、各曜日で1000を超えたあたりから、カイ二乗の値が膨大になり、どうやっても有意差が出てしまいます。
何か勘違いしているところがありましたら申し訳ございません。

回答の条件
  • 1人50回まで
  • 13歳以上
  • 登録:2014/05/22 09:54:14
  • 終了:2014/05/29 09:55:07

回答(3件)

id:watercooler No.1

井戸端さん回答回数289ベストアンサー獲得回数512014/05/22 10:27:47

ポイント34pt

カイ二乗検定では標本数が大きいとほぼ確実に有意差が出るのではないか。また、例えばこの数字を生のアクセス数でなく、割合(%)にして2ケタ程度にした場合には有意差がなくなるのではないか。
カイ二乗の値の計算が分子は二乗しているから当然かと思うのですが、この場合はどのような値を用いて検定すればいいのでしょうか。

標本数が大きすぎると期待した結果は得られないの。だから期待度数で割った値を用いるの。
カイ2乗分布,カイ2乗検定

何か勘違い

全曜日の分布が一律として

類似性を有意差であらわすのが目的よ。たとえばだけど曜日別の新着記事数とアクセス数の関係をもとめるとかね。だから一律なんておかしいわ。比較対象が無いなら検定の意味すら存在しないのよ。最悪のばあい統計手法を学んで目的にあった手段を適切に選択するところから学び直しかも知れないわ。

他7件のコメントを見る
id:fuyuyude

はい、どうもWebページで見た「サイコロの例」が強く印象に残っているようで、それに当てはめよう当てはめようと考えが凝り固まっていたようです(まだ初心者です)。
もう少し理論的な部分も深めつつ、再度検討しようと思います。
この度はお付き合い本当にありがとうございます。

2014/05/22 13:07:46
id:watercooler

統計の値から得られる情報は理論よりも感覚的なものなの。
ためしに一週間分の折れ線を書いて数週間分重ねてみるといいわ。時間単位なら一日分で折れ線にして数日分重ねてみるの。
意外かもしれないけど小学校で習った棒グラフや折れ線グラフも統計資料として十分に有用なことがわかるはずよ。

統計は数字の見せ方を変えるだまし絵のような面もあるの。だから面白いの。でも目的と手段を取り違えて時間を無駄にしないでね。

2014/05/22 18:08:37
id:a-kuma3 No.2

a-kuma3回答回数4559ベストアンサー獲得回数19032014/05/22 12:11:45

ポイント33pt

ポイントは三つ(個人的な見解)。

  1. 適合度検定で使われるピアソンのχ二乗検定の欠点
  2. 「割合」について
  3. これは適合度検定か?


まず、「適合度検定で使われるピアソンのχ二乗検定の欠点」について。
標本数が少ないと帰無仮説が棄却されにくく、逆に多いと棄却されやすい、というのはこの検定の欠点です。
「標本数が少ないと...」というのは中心極限定理を使っているからなのですが、「多いと...」というのは統計的検定では一般的にみられる傾向です。
なのでピアソンのχ二乗検定に代わる検定方法を編み出そうとしている人たちがいたりします。
例えば、「一般化χ二乗検定」いうような方法とか。
http://jgss.daishodai.ac.jp/research/monographs/jgssm3/jgssm3_13.pdf



次に「割合」。
まず、カール・ピアソンが示したのは、「実測した度数と期待度数の差の2乗を、期待度数で割った量の合計が、χ二乗分布に従う」ということです。
数字の意味を変えちゃいけません。10で割ってもダメです。それは、標本の度数ではない。

後、「割合(%)にして2ケタ程度にした場合」で、2桁程度にする、というのはデータを丸めてしまっています。
これも標本値を使っていることにはならない。



最後に「これは適合度検定か?」ということ。

質問に書かれている度数分布は、総数ですか?
であれば、それは標本ではなくて、母集団。
で、その曜日ごとの割合というのは、期待度数です(同じ状況が続いている、と仮定して)。

適合度検定が適切なケースとしては、以下のような場合が考えられます。
「どうも、今年の一月はアクセス数の曜日分布がおかしいような気がする。いつもの曜日分布と同じだろうか」
今年の一月分のアクセス数の集計が「標本」。質問に書かれている総数が「母集団」です。

一般的な統計的検定で、例えば月曜のアクセス数の少なさについて調べるのであれば、平均値のt検定の方が良いんじゃないかと思います。
母集団の一日当たりの平均アクセス数は、総アクセス数から求まります。
全体のデータから、ある期間の月曜日だけ、という標本を取り出します。
その平均値が、標本の平均です(月曜日の一日当たりの平均アクセス数)。
帰無仮説を「月曜日の平均アクセス数は、全体の平均アクセス数と等しくない」とおいて、検定を行います。
平均値の検定については、ググればいくらでも見つかるので割愛。
http://www.aoni.waseda.jp/abek/document/t-test.html

他4件のコメントを見る
id:fuyuyude

詳しいご説明ありがとうございます。
いきなり高度な数学的な理解は難しいでしょうから、その辺も踏まえてなるべく実践的な参考書・サイトで詳しく当たってみたいと思います。

2014/05/22 17:21:05
id:a-kuma3

基本的に統計的検定の辺りは実用あるのみで、小難しい理論なんかは知らなくても大丈夫です。
ただ、基本的な考え方は知っておいた方が、寄り道(例えば、違うものの分布の相関性を適合度検定でやろうとするとか)をしなくて済むので ゴールが早いと思います。

2014/05/22 20:18:28
id:uunfo No.3

uunfo回答回数49ベストアンサー獲得回数32014/05/24 01:37:01

ポイント33pt

有意差というものの意味から自明なことですが、どんな検定でもデータの数が多ければ有意差は出ます。
そもそも有意差というのはその差が偶然生じたものではないということなのですから、これは何もおかしいことではありません。
サイコロの目が平等に出るかどうかを調べるのに10回だけ振っても偶然による偏りがあってよく分かりませんが、1000回振ればだいたい確認できますよね?10000回振ればもっと確実でしょう。
逆に言うと有意差があるかどうかというのは標本の数が十分かどうかの指標であるということです。

「10の倍数で割っていくと」とありますが、一日のアクセス数が1000000のサイトが1010000になるのと100のサイトが101になるのでは意味が違うことは分かりますよね?後者の場合は偶然の要素がかなり強いと推測できますよね。

有意差があればその差は偶然から生じたものではないと判断でき、その差の意味を考察することができます。
でもその考察の中で差に意味を見いだすかどうかと言うのはまた別の話です。


問題となっているデータですが、それだけの量があって曜日毎のばらつきもあれば有意差が出るのは当然だと思います。
そもそも何のために曜日毎のアクセス数を比較しようとしているのかが明確でないので、
まず自分がそのデータから何を読み取りたいのかを考えてみてはいかがでしょうか。

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません