カイ二乗検定では標本数が大きいとほぼ確実に有意差が出るのではないか。また、例えばこの数字を生のアクセス数でなく、割合(%)にして2ケタ程度にした場合には有意差がなくなるのではないか。
カイ二乗の値の計算が分子は二乗しているから当然かと思うのですが、この場合はどのような値を用いて検定すればいいのでしょうか。
標本数が大きすぎると期待した結果は得られないの。だから期待度数で割った値を用いるの。
カイ2乗分布,カイ2乗検定
何か勘違い
全曜日の分布が一律として
類似性を有意差であらわすのが目的よ。たとえばだけど曜日別の新着記事数とアクセス数の関係をもとめるとかね。だから一律なんておかしいわ。比較対象が無いなら検定の意味すら存在しないのよ。最悪のばあい統計手法を学んで目的にあった手段を適切に選択するところから学び直しかも知れないわ。
ポイントは三つ(個人的な見解)。
まず、「適合度検定で使われるピアソンのχ二乗検定の欠点」について。
標本数が少ないと帰無仮説が棄却されにくく、逆に多いと棄却されやすい、というのはこの検定の欠点です。
「標本数が少ないと...」というのは中心極限定理を使っているからなのですが、「多いと...」というのは統計的検定では一般的にみられる傾向です。
なのでピアソンのχ二乗検定に代わる検定方法を編み出そうとしている人たちがいたりします。
例えば、「一般化χ二乗検定」いうような方法とか。
http://jgss.daishodai.ac.jp/research/monographs/jgssm3/jgssm3_13.pdf
次に「割合」。
まず、カール・ピアソンが示したのは、「実測した度数と期待度数の差の2乗を、期待度数で割った量の合計が、χ二乗分布に従う」ということです。
数字の意味を変えちゃいけません。10で割ってもダメです。それは、標本の度数ではない。
後、「割合(%)にして2ケタ程度にした場合」で、2桁程度にする、というのはデータを丸めてしまっています。
これも標本値を使っていることにはならない。
最後に「これは適合度検定か?」ということ。
質問に書かれている度数分布は、総数ですか?
であれば、それは標本ではなくて、母集団。
で、その曜日ごとの割合というのは、期待度数です(同じ状況が続いている、と仮定して)。
適合度検定が適切なケースとしては、以下のような場合が考えられます。
「どうも、今年の一月はアクセス数の曜日分布がおかしいような気がする。いつもの曜日分布と同じだろうか」
今年の一月分のアクセス数の集計が「標本」。質問に書かれている総数が「母集団」です。
一般的な統計的検定で、例えば月曜のアクセス数の少なさについて調べるのであれば、平均値のt検定の方が良いんじゃないかと思います。
母集団の一日当たりの平均アクセス数は、総アクセス数から求まります。
全体のデータから、ある期間の月曜日だけ、という標本を取り出します。
その平均値が、標本の平均です(月曜日の一日当たりの平均アクセス数)。
帰無仮説を「月曜日の平均アクセス数は、全体の平均アクセス数と等しくない」とおいて、検定を行います。
平均値の検定については、ググればいくらでも見つかるので割愛。
http://www.aoni.waseda.jp/abek/document/t-test.html
有意差というものの意味から自明なことですが、どんな検定でもデータの数が多ければ有意差は出ます。
そもそも有意差というのはその差が偶然生じたものではないということなのですから、これは何もおかしいことではありません。
サイコロの目が平等に出るかどうかを調べるのに10回だけ振っても偶然による偏りがあってよく分かりませんが、1000回振ればだいたい確認できますよね?10000回振ればもっと確実でしょう。
逆に言うと有意差があるかどうかというのは標本の数が十分かどうかの指標であるということです。
「10の倍数で割っていくと」とありますが、一日のアクセス数が1000000のサイトが1010000になるのと100のサイトが101になるのでは意味が違うことは分かりますよね?後者の場合は偶然の要素がかなり強いと推測できますよね。
有意差があればその差は偶然から生じたものではないと判断でき、その差の意味を考察することができます。
でもその考察の中で差に意味を見いだすかどうかと言うのはまた別の話です。
問題となっているデータですが、それだけの量があって曜日毎のばらつきもあれば有意差が出るのは当然だと思います。
そもそも何のために曜日毎のアクセス数を比較しようとしているのかが明確でないので、
まず自分がそのデータから何を読み取りたいのかを考えてみてはいかがでしょうか。