人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

カイ二乗検定の標本数について質問です。
あるサイトへの曜日ごとのアクセス数をとったところ以下のようになりました。
月 34,338,110
火 37,967,879
水 40,065,867
木 39,542,476
金 39,011,719
土 35,854,147
日 30,785,493
全曜日の分布が一律としてカイ二乗検定を行ったところ、有意差があるとの結果になります。
しかしこの数字を10の倍数で割っていくと、2ケタ程度の数になると有意差がなくなります。
ここから以下の疑問が生まれました。

カイ二乗検定では標本数が大きいとほぼ確実に有意差が出るのではないか。また、例えばこの数字を生のアクセス数でなく、割合(%)にして2ケタ程度にした場合には有意差がなくなるのではないか。
カイ二乗の値の計算が分子は二乗しているから当然かと思うのですが、この場合はどのような値を用いて検定すればいいのでしょうか。
生データが上記の場合、各曜日で1000を超えたあたりから、カイ二乗の値が膨大になり、どうやっても有意差が出てしまいます。
何か勘違いしているところがありましたら申し訳ございません。

●質問者: fuyuyude
●カテゴリ:科学・統計資料
○ 状態 :終了
└ 回答数 : 3/3件

▽最新の回答へ

1 ● 井戸端さん
●34ポイント

カイ二乗検定では標本数が大きいとほぼ確実に有意差が出るのではないか。また、例えばこの数字を生のアクセス数でなく、割合(%)にして2ケタ程度にした場合には有意差がなくなるのではないか。
カイ二乗の値の計算が分子は二乗しているから当然かと思うのですが、この場合はどのような値を用いて検定すればいいのでしょうか。

標本数が大きすぎると期待した結果は得られないの。だから期待度数で割った値を用いるの。
カイ2乗分布,カイ2乗検定

何か勘違い

全曜日の分布が一律として

類似性を有意差であらわすのが目的よ。たとえばだけど曜日別の新着記事数とアクセス数の関係をもとめるとかね。だから一律なんておかしいわ。比較対象が無いなら検定の意味すら存在しないのよ。最悪のばあい統計手法を学んで目的にあった手段を適切に選択するところから学び直しかも知れないわ。


fuyuyudeさんのコメント
ご回答ありがとうございます。 「期待度数で割った値」の「期待度数」は二乗などの処理がない値ですよね。その一方で分子の値は二乗の差になっています。従いまして標本数が大きくなればなるほどカイ二乗の値が増えていきます(=有意差が出る)よね。 ではこれを補正する手法にはどのようなものがあるのか、というのも含めて質問の趣旨でした。明記されていなくて申し訳ございません。 個人的には生データを割合に落とし込むのがどうかと思いましたが、一千万単位のものをその一万分の一以下に落とすというのにかなり抵抗がありますし、数学的裏づけもわかりません。

fuyuyudeさんのコメント
追記です。申し訳ありません。 生データを用いた場合と、例えば割合データを用いた場合で、有意差が出る出ないの差が生まれてしまう可能性があり、そこに疑問を抱いたということです。

井戸端さんさんのコメント
生データは生データと割合データは割合データとの組み合わせよ。生データと割合データにするからおかしくなるのよ。

fuyuyudeさんのコメント
ああなるほど!そうですね! ちょっと色々と疑問があり混乱していました。 ありがとうございます。 でもそうなると、生データでは有意差あり、割合データでは有意差なし、となることもありえますが(上記の通りのカイ二乗値の特性から)、これについてはどう解釈すればいいのでしょう。

井戸端さんさんのコメント
>> カイ二乗値の特性 << だから期待度数で割ったりして調整してるの。

fuyuyudeさんのコメント
質問の仕方が悪いようで申し訳ありません。 期待度数で割って調整しても、ということです。 具体例を挙げます。 サイコロを600回振ったときの度数が (103,95,102,97,108,95) だったとします。 この場合はカイ二乗値は1.36となり有意差はありません。 しかしこれを100倍した値、すなわちサイコロを60000回振ったときの度数 (10300,9500,10200,9700,10800,9500) だったとき、カイ二乗の値は136です(計算式から当然です)。たちまち有意差ありとなります。 この理由と対処法について知りたいということです。

井戸端さんさんのコメント
有意水準は%よ。だから期待値100の1.36と期待値10000の136は同じ。 だけど一律なんておかしいって最初にいったわよね? 曜日によりアクセス数の違いはあるかについて調べたいなら月以上の長期スパンでの曜日ごとアクセス数を期待度数として。今週の曜日ごとのアクセス数との間で検定にかけてみたりするのよ。 今週も先週も先々週も基準と似通ってるなら曜日ごとの偏りとして採用できるけど、あまりにもばらばらだったら曜日じゃなくて日付での偏りってことも考慮しなくちゃならなくなるわ。統計は一面からだけみてると思った通りの結果を得られないわよ。だから統計手法を学んでって書いたの。もうわかってらえたかしら?

fuyuyudeさんのコメント
はい、どうもWebページで見た「サイコロの例」が強く印象に残っているようで、それに当てはめよう当てはめようと考えが凝り固まっていたようです(まだ初心者です)。 もう少し理論的な部分も深めつつ、再度検討しようと思います。 この度はお付き合い本当にありがとうございます。

井戸端さんさんのコメント
統計の値から得られる情報は理論よりも感覚的なものなの。 ためしに一週間分の折れ線を書いて数週間分重ねてみるといいわ。時間単位なら一日分で折れ線にして数日分重ねてみるの。 意外かもしれないけど小学校で習った棒グラフや折れ線グラフも統計資料として十分に有用なことがわかるはずよ。 統計は数字の見せ方を変えるだまし絵のような面もあるの。だから面白いの。でも目的と手段を取り違えて時間を無駄にしないでね。

2 ● a-kuma3
●33ポイント

ポイントは三つ(個人的な見解)。

  1. 適合度検定で使われるピアソンのχ二乗検定の欠点
  2. 「割合」について
  3. これは適合度検定か?


まず、「適合度検定で使われるピアソンのχ二乗検定の欠点」について。
標本数が少ないと帰無仮説が棄却されにくく、逆に多いと棄却されやすい、というのはこの検定の欠点です。
「標本数が少ないと...」というのは中心極限定理を使っているからなのですが、「多いと...」というのは統計的検定では一般的にみられる傾向です。
なのでピアソンのχ二乗検定に代わる検定方法を編み出そうとしている人たちがいたりします。
例えば、「一般化χ二乗検定」いうような方法とか。
http://jgss.daishodai.ac.jp/research/monographs/jgssm3/jgssm3_13.pdf



次に「割合」。
まず、カール・ピアソンが示したのは、「実測した度数と期待度数の差の2乗を、期待度数で割った量の合計が、χ二乗分布に従う」ということです。
数字の意味を変えちゃいけません。10で割ってもダメです。それは、標本の度数ではない。

後、「割合(%)にして2ケタ程度にした場合」で、2桁程度にする、というのはデータを丸めてしまっています。
これも標本値を使っていることにはならない。



最後に「これは適合度検定か?」ということ。

質問に書かれている度数分布は、総数ですか?
であれば、それは標本ではなくて、母集団。
で、その曜日ごとの割合というのは、期待度数です(同じ状況が続いている、と仮定して)。

適合度検定が適切なケースとしては、以下のような場合が考えられます。
「どうも、今年の一月はアクセス数の曜日分布がおかしいような気がする。いつもの曜日分布と同じだろうか」
今年の一月分のアクセス数の集計が「標本」。質問に書かれている総数が「母集団」です。

一般的な統計的検定で、例えば月曜のアクセス数の少なさについて調べるのであれば、平均値のt検定の方が良いんじゃないかと思います。
母集団の一日当たりの平均アクセス数は、総アクセス数から求まります。
全体のデータから、ある期間の月曜日だけ、という標本を取り出します。
その平均値が、標本の平均です(月曜日の一日当たりの平均アクセス数)。
帰無仮説を「月曜日の平均アクセス数は、全体の平均アクセス数と等しくない」とおいて、検定を行います。
平均値の検定については、ググればいくらでも見つかるので割愛。
http://www.aoni.waseda.jp/abek/document/t-test.html


fuyuyudeさんのコメント
1について確認いたしました。 そして2と3について、どうやら私はいろいろと定義を誤って(混乱して)いたようで、それに気づかせていただきありがとうございます。 井戸端さんとの回答とも併せ、そもそもカイ二乗検定(適合度検定)を行うということにそもそもの疑問があるということですね。知りたいのは(漠然とですが)「曜日によりアクセス数の違いはあるか」ということです。 先ほど出したサイコロの例のように、全ての曜日で同じアクセス数があると仮定して、得られたデータから、曜日ごとのアクセス分布は仮定の範疇かということを知りたかったのです。 頂いた回答をもとにもう少し手を動かして検討してみます。ありがとうございます。

a-kuma3さんのコメント
>> 知りたいのは(漠然とですが)「曜日によりアクセス数の違いはあるか」ということです。 << と思いましたので、回答の最後にアクセス数の平均値をt検定で検定してみる、という方法を提案しました。 母集団の平均に当たるものを、総アクセス数÷7として検定するのがよろしいかと。 サイコロの出目は適合度検定の教科書にもでてきますが、曜日によるアクセス数の偏りと対比させるには、ちょっとずれてます。 -母集団を求めようがない(記録を取ったときには、必ず標本) -それぞれの事象が独立している こんなところが教科書で挙げる例としてぴったりなのですが、曜日のアクセスでいうと(前者は回答に記載しました)、土曜日にアクセスした、という行為が月曜日のアクセスに影響がないか、とかは言い切れないわけで。 身も蓋もない言い方をしちゃうと、サイトにもよるでしょうが、アクセスしに来ているうちの人間によるものは、人間の生活パターンに左右されるわけで、大多数の人が平日と休日での生活パターンは違いますから、均等にはならないですよね。 データとしてみて面白そうだな、と思ったのが、月曜日の少なさ。 きっと、サイトの性格を表してるんじゃないかと、妄想してます <tt>:-)</tt>

fuyuyudeさんのコメント
追記ありがとうございます。上述していますが、ちょっと視野がまだ狭い(初心者です)ように思います。さらに検討をしてみます。 データとしてはさらに時間ごとのデータがあります。元に挙げたデータは1年分のもので、24時間×365日分のデータがあり、まずは簡単な曜日ごとの検討からはじめてみようと思った次第です。徐々にクロスなどもと思っていました。 このような対話的な機会がないと分からなかったことが分かり大変感謝しております。 ありがとうございます。

a-kuma3さんのコメント
統計的検定を使うときに忘れちゃいけない大事なことは、あくまでも<span style="font-size: large; color: red;">統計的</span>にやってる、ということ。 だから検定の結果は、「<tt>○○</tt>である」とは言わなくて、「<tt>○○</tt>であることは、★%の確率で正しそうだ」となります。 適合度検定をやったときに「有意水準」という値が出てきたと思います。5%とか1%ってやつ。 統計検定では、標本値から求められたある値が、何らかの確率分布に従う、という理屈を使います。 有意水準を5%と決めて帰無仮説を棄却する、ということは、その帰無仮説を<span style="color:red;">間違って</span>正しいとしてしまう確率が5%ということです。 くだいていうと、間違っている可能性が少ない、ということです。 例えば、「標本の平均値は、母集団の平均値と同じである」という帰無仮説を立てたとき、ごにょごにょ計算して求めたt値が、有意水準5%の値を超えた場合には、「有意水準5%で、『標本の平均値と母集団の平均が同じ』という仮説を捨てる」ということになります。 くだいていえば、標本の平均値と母集団の平均が違う<span style="color:red;">っぽい</span>や、となります。 このことを「標本と母集団の平均値に差があるのは有意だ」と言ったり、「標本と母集団の平均値には有意差がある」という言い方をします。 統計学の教科書に書いているレベルのことですが、やりたいのはアクセスの頻度やパターンの分析でしょうから、統計学の教科書を読め、ってのも的外れな気もします。 興味を持ったら読んでみると面白いよ、ってなとこでしょうか <tt>:-)</tt> それに、アクセス解析のような場面では、統計的検定よりも多変量解析の方が使い出がありそうな気もしますし。

fuyuyudeさんのコメント
詳しいご説明ありがとうございます。 いきなり高度な数学的な理解は難しいでしょうから、その辺も踏まえてなるべく実践的な参考書・サイトで詳しく当たってみたいと思います。

a-kuma3さんのコメント
基本的に統計的検定の辺りは実用あるのみで、小難しい理論なんかは知らなくても大丈夫です。 ただ、基本的な考え方は知っておいた方が、寄り道(例えば、違うものの分布の相関性を適合度検定でやろうとするとか)をしなくて済むので ゴールが早いと思います。

3 ● uunfo
●33ポイント

有意差というものの意味から自明なことですが、どんな検定でもデータの数が多ければ有意差は出ます。
そもそも有意差というのはその差が偶然生じたものではないということなのですから、これは何もおかしいことではありません。
サイコロの目が平等に出るかどうかを調べるのに10回だけ振っても偶然による偏りがあってよく分かりませんが、1000回振ればだいたい確認できますよね?10000回振ればもっと確実でしょう。
逆に言うと有意差があるかどうかというのは標本の数が十分かどうかの指標であるということです。

「10の倍数で割っていくと」とありますが、一日のアクセス数が1000000のサイトが1010000になるのと100のサイトが101になるのでは意味が違うことは分かりますよね?後者の場合は偶然の要素がかなり強いと推測できますよね。

有意差があればその差は偶然から生じたものではないと判断でき、その差の意味を考察することができます。
でもその考察の中で差に意味を見いだすかどうかと言うのはまた別の話です。


問題となっているデータですが、それだけの量があって曜日毎のばらつきもあれば有意差が出るのは当然だと思います。
そもそも何のために曜日毎のアクセス数を比較しようとしているのかが明確でないので、
まず自分がそのデータから何を読み取りたいのかを考えてみてはいかがでしょうか。

関連質問

●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ