ｶｲ二乗検定の標本数について質問です｡あるｻｲﾄへの曜日ごとのｱｸｾｽ数をとったところ以下のようになりました｡月 34,338,110 火 37,967,879 水 40,065,867 木 39,…

人力検索はてな

ﾓﾊﾞｲﾙ版を表示しています｡PC版はこちら

ｶｲ二乗検定の標本数について質問です｡
あるｻｲﾄへの曜日ごとのｱｸｾｽ数をとったところ以下のようになりました｡
月 34,338,110
火 37,967,879
水 40,065,867
木 39,542,476
金 39,011,719
土 35,854,147
日 30,785,493
全曜日の分布が一律としてｶｲ二乗検定を行ったところ､有意差があるとの結果になります｡
しかしこの数字を10の倍数で割っていくと､2ｹﾀ程度の数になると有意差がなくなります｡
ここから以下の疑問が生まれました｡

ｶｲ二乗検定では標本数が大きいとほぼ確実に有意差が出るのではないか｡また､例えばこの数字を生のｱｸｾｽ数でなく､割合(％)にして2ｹﾀ程度にした場合には有意差がなくなるのではないか｡
ｶｲ二乗の値の計算が分子は二乗しているから当然かと思うのですが､この場合はどのような値を用いて検定すればいいのでしょうか｡
生ﾃﾞｰﾀが上記の場合､各曜日で1000を超えたあたりから､ｶｲ二乗の値が膨大になり､どうやっても有意差が出てしまいます｡
何か勘違いしているところがありましたら申し訳ございません｡

●質問者: fuyuyude
●ｶﾃｺﾞﾘ:科学･統計資料
○ 状態 :終了
└ 回答数 : 3/3件

▽最新の回答へ

▽1 ● 井戸端さん
●34ﾎﾟｲﾝﾄ

ｶｲ二乗検定では標本数が大きいとほぼ確実に有意差が出るのではないか｡また､例えばこの数字を生のｱｸｾｽ数でなく､割合(％)にして2ｹﾀ程度にした場合には有意差がなくなるのではないか｡
ｶｲ二乗の値の計算が分子は二乗しているから当然かと思うのですが､この場合はどのような値を用いて検定すればいいのでしょうか｡

標本数が大きすぎると期待した結果は得られないの｡だから期待度数で割った値を用いるの｡
ｶｲ2乗分布，ｶｲ2乗検定

何か勘違い

全曜日の分布が一律として

類似性を有意差であらわすのが目的よ｡たとえばだけど曜日別の新着記事数とｱｸｾｽ数の関係をもとめるとかね｡だから一律なんておかしいわ｡比較対象が無いなら検定の意味すら存在しないのよ｡最悪のばあい統計手法を学んで目的にあった手段を適切に選択するところから学び直しかも知れないわ｡

fuyuyudeさんのｺﾒﾝﾄ
ご回答ありがとうございます｡｢期待度数で割った値｣の｢期待度数｣は二乗などの処理がない値ですよね｡その一方で分子の値は二乗の差になっています｡従いまして標本数が大きくなればなるほどｶｲ二乗の値が増えていきます(＝有意差が出る)よね｡ではこれを補正する手法にはどのようなものがあるのか､というのも含めて質問の趣旨でした｡明記されていなくて申し訳ございません｡個人的には生ﾃﾞｰﾀを割合に落とし込むのがどうかと思いましたが､一千万単位のものをその一万分の一以下に落とすというのにかなり抵抗がありますし､数学的裏づけもわかりません｡

fuyuyudeさんのｺﾒﾝﾄ
追記です｡申し訳ありません｡生ﾃﾞｰﾀを用いた場合と､例えば割合ﾃﾞｰﾀを用いた場合で､有意差が出る出ないの差が生まれてしまう可能性があり､そこに疑問を抱いたということです｡

井戸端さんさんのｺﾒﾝﾄ
生ﾃﾞｰﾀは生ﾃﾞｰﾀと割合ﾃﾞｰﾀは割合ﾃﾞｰﾀとの組み合わせよ｡生ﾃﾞｰﾀと割合ﾃﾞｰﾀにするからおかしくなるのよ｡

fuyuyudeさんのｺﾒﾝﾄ
ああなるほど！そうですね！ちょっと色々と疑問があり混乱していました｡ありがとうございます｡でもそうなると､生ﾃﾞｰﾀでは有意差あり､割合ﾃﾞｰﾀでは有意差なし､となることもありえますが(上記の通りのｶｲ二乗値の特性から)､これについてはどう解釈すればいいのでしょう｡

井戸端さんさんのｺﾒﾝﾄ
>> ｶｲ二乗値の特性 << だから期待度数で割ったりして調整してるの｡

fuyuyudeさんのｺﾒﾝﾄ
質問の仕方が悪いようで申し訳ありません｡期待度数で割って調整しても､ということです｡具体例を挙げます｡ｻｲｺﾛを600回振ったときの度数が (103,95,102,97,108,95) だったとします｡この場合はｶｲ二乗値は1.36となり有意差はありません｡しかしこれを100倍した値､すなわちｻｲｺﾛを60000回振ったときの度数 (10300,9500,10200,9700,10800,9500) だったとき､ｶｲ二乗の値は136です(計算式から当然です)｡たちまち有意差ありとなります｡この理由と対処法について知りたいということです｡

井戸端さんさんのｺﾒﾝﾄ
有意水準は％よ｡だから期待値100の1.36と期待値10000の136は同じ｡だけど一律なんておかしいって最初にいったわよね？曜日によりｱｸｾｽ数の違いはあるかについて調べたいなら月以上の長期ｽﾊﾟﾝでの曜日ごとｱｸｾｽ数を期待度数として｡今週の曜日ごとのｱｸｾｽ数との間で検定にかけてみたりするのよ｡今週も先週も先々週も基準と似通ってるなら曜日ごとの偏りとして採用できるけど､あまりにもばらばらだったら曜日じゃなくて日付での偏りってことも考慮しなくちゃならなくなるわ｡統計は一面からだけみてると思った通りの結果を得られないわよ｡だから統計手法を学んでって書いたの｡もうわかってらえたかしら？

fuyuyudeさんのｺﾒﾝﾄ
はい､どうもWebﾍﾟｰｼﾞで見た｢ｻｲｺﾛの例｣が強く印象に残っているようで､それに当てはめよう当てはめようと考えが凝り固まっていたようです(まだ初心者です)｡もう少し理論的な部分も深めつつ､再度検討しようと思います｡この度はお付き合い本当にありがとうございます｡

井戸端さんさんのｺﾒﾝﾄ
統計の値から得られる情報は理論よりも感覚的なものなの｡ためしに一週間分の折れ線を書いて数週間分重ねてみるといいわ｡時間単位なら一日分で折れ線にして数日分重ねてみるの｡意外かもしれないけど小学校で習った棒ｸﾞﾗﾌや折れ線ｸﾞﾗﾌも統計資料として十分に有用なことがわかるはずよ｡統計は数字の見せ方を変えるだまし絵のような面もあるの｡だから面白いの｡でも目的と手段を取り違えて時間を無駄にしないでね｡

▽2 ● a-kuma3
●33ﾎﾟｲﾝﾄ

ﾎﾟｲﾝﾄは三つ(個人的な見解)｡

適合度検定で使われるﾋﾟｱｿﾝのχ二乗検定の欠点
｢割合｣について
これは適合度検定か？

まず､｢適合度検定で使われるﾋﾟｱｿﾝのχ二乗検定の欠点｣について｡
標本数が少ないと帰無仮説が棄却されにくく､逆に多いと棄却されやすい､というのはこの検定の欠点です｡
｢標本数が少ないと...｣というのは中心極限定理を使っているからなのですが､｢多いと...｣というのは統計的検定では一般的にみられる傾向です｡
なのでﾋﾟｱｿﾝのχ二乗検定に代わる検定方法を編み出そうとしている人たちがいたりします｡
例えば､｢一般化χ二乗検定｣いうような方法とか｡
http://jgss.daishodai.ac.jp/research/monographs/jgssm3/jgssm3_13.pdf

次に｢割合｣｡
まず､ｶｰﾙ･ﾋﾟｱｿﾝが示したのは､｢実測した度数と期待度数の差の2乗を､期待度数で割った量の合計が､χ二乗分布に従う｣ということです｡
数字の意味を変えちゃいけません｡10で割ってもﾀﾞﾒです｡それは､標本の度数ではない｡

後､｢割合(％)にして2ｹﾀ程度にした場合｣で､2桁程度にする､というのはﾃﾞｰﾀを丸めてしまっています｡
これも標本値を使っていることにはならない｡

最後に｢これは適合度検定か？｣ということ｡

質問に書かれている度数分布は､総数ですか？
であれば､それは標本ではなくて､母集団｡
で､その曜日ごとの割合というのは､期待度数です(同じ状況が続いている､と仮定して)｡

適合度検定が適切なｹｰｽとしては､以下のような場合が考えられます｡
｢どうも､今年の一月はｱｸｾｽ数の曜日分布がおかしいような気がする｡いつもの曜日分布と同じだろうか｣
今年の一月分のｱｸｾｽ数の集計が｢標本｣｡質問に書かれている総数が｢母集団｣です｡

一般的な統計的検定で､例えば月曜のｱｸｾｽ数の少なさについて調べるのであれば､平均値のt検定の方が良いんじゃないかと思います｡
母集団の一日当たりの平均ｱｸｾｽ数は､総ｱｸｾｽ数から求まります｡
全体のﾃﾞｰﾀから､ある期間の月曜日だけ､という標本を取り出します｡
その平均値が､標本の平均です(月曜日の一日当たりの平均ｱｸｾｽ数)｡
帰無仮説を｢月曜日の平均ｱｸｾｽ数は､全体の平均ｱｸｾｽ数と等しくない｣とおいて､検定を行います｡
平均値の検定については､ｸﾞｸﾞればいくらでも見つかるので割愛｡
http://www.aoni.waseda.jp/abek/document/t-test.html

fuyuyudeさんのｺﾒﾝﾄ
1について確認いたしました｡そして2と3について､どうやら私はいろいろと定義を誤って(混乱して)いたようで､それに気づかせていただきありがとうございます｡井戸端さんとの回答とも併せ､そもそもｶｲ二乗検定(適合度検定)を行うということにそもそもの疑問があるということですね｡知りたいのは(漠然とですが)｢曜日によりｱｸｾｽ数の違いはあるか｣ということです｡先ほど出したｻｲｺﾛの例のように､全ての曜日で同じｱｸｾｽ数があると仮定して､得られたﾃﾞｰﾀから､曜日ごとのｱｸｾｽ分布は仮定の範疇かということを知りたかったのです｡頂いた回答をもとにもう少し手を動かして検討してみます｡ありがとうございます｡

a-kuma3さんのｺﾒﾝﾄ
>> 知りたいのは(漠然とですが)｢曜日によりｱｸｾｽ数の違いはあるか｣ということです｡ << と思いましたので､回答の最後にｱｸｾｽ数の平均値をt検定で検定してみる､という方法を提案しました｡母集団の平均に当たるものを､総ｱｸｾｽ数÷7として検定するのがよろしいかと｡ｻｲｺﾛの出目は適合度検定の教科書にもでてきますが､曜日によるｱｸｾｽ数の偏りと対比させるには､ちょっとずれてます｡ -母集団を求めようがない(記録を取ったときには､必ず標本) -それぞれの事象が独立しているこんなところが教科書で挙げる例としてぴったりなのですが､曜日のｱｸｾｽでいうと(前者は回答に記載しました)､土曜日にｱｸｾｽした､という行為が月曜日のｱｸｾｽに影響がないか､とかは言い切れないわけで｡身も蓋もない言い方をしちゃうと､ｻｲﾄにもよるでしょうが､ｱｸｾｽしに来ているうちの人間によるものは､人間の生活ﾊﾟﾀｰﾝに左右されるわけで､大多数の人が平日と休日での生活ﾊﾟﾀｰﾝは違いますから､均等にはならないですよね｡ﾃﾞｰﾀとしてみて面白そうだな､と思ったのが､月曜日の少なさ｡きっと､ｻｲﾄの性格を表してるんじゃないかと､妄想してます <tt>:-)</tt>

fuyuyudeさんのｺﾒﾝﾄ
追記ありがとうございます｡上述していますが､ちょっと視野がまだ狭い(初心者です)ように思います｡さらに検討をしてみます｡ﾃﾞｰﾀとしてはさらに時間ごとのﾃﾞｰﾀがあります｡元に挙げたﾃﾞｰﾀは1年分のもので､24時間×365日分のﾃﾞｰﾀがあり､まずは簡単な曜日ごとの検討からはじめてみようと思った次第です｡徐々にｸﾛｽなどもと思っていました｡このような対話的な機会がないと分からなかったことが分かり大変感謝しております｡ありがとうございます｡

a-kuma3さんのｺﾒﾝﾄ
統計的検定を使うときに忘れちゃいけない大事なことは､あくまでも統計的にやってる､ということ｡だから検定の結果は､｢<tt>○○</tt>である｣とは言わなくて､｢<tt>○○</tt>であることは､★％の確率で正しそうだ｣となります｡適合度検定をやったときに｢有意水準｣という値が出てきたと思います｡5％とか1％ってやつ｡統計検定では､標本値から求められたある値が､何らかの確率分布に従う､という理屈を使います｡有意水準を5％と決めて帰無仮説を棄却する､ということは､その帰無仮説を間違って正しいとしてしまう確率が5％ということです｡くだいていうと､間違っている可能性が少ない､ということです｡例えば､｢標本の平均値は､母集団の平均値と同じである｣という帰無仮説を立てたとき､ごにょごにょ計算して求めたt値が､有意水準5％の値を超えた場合には､｢有意水準5％で､『標本の平均値と母集団の平均が同じ』という仮説を捨てる｣ということになります｡くだいていえば､標本の平均値と母集団の平均が違うっぽいや､となります｡このことを｢標本と母集団の平均値に差があるのは有意だ｣と言ったり､｢標本と母集団の平均値には有意差がある｣という言い方をします｡統計学の教科書に書いているﾚﾍﾞﾙのことですが､やりたいのはｱｸｾｽの頻度やﾊﾟﾀｰﾝの分析でしょうから､統計学の教科書を読め､ってのも的外れな気もします｡興味を持ったら読んでみると面白いよ､ってなとこでしょうか <tt>:-)</tt> それに､ｱｸｾｽ解析のような場面では､統計的検定よりも多変量解析の方が使い出がありそうな気もしますし｡

fuyuyudeさんのｺﾒﾝﾄ
詳しいご説明ありがとうございます｡いきなり高度な数学的な理解は難しいでしょうから､その辺も踏まえてなるべく実践的な参考書･ｻｲﾄで詳しく当たってみたいと思います｡

a-kuma3さんのｺﾒﾝﾄ
基本的に統計的検定の辺りは実用あるのみで､小難しい理論なんかは知らなくても大丈夫です｡ただ､基本的な考え方は知っておいた方が､寄り道(例えば､違うものの分布の相関性を適合度検定でやろうとするとか)をしなくて済むのでｺﾞｰﾙが早いと思います｡

▽3 ● uunfo
●33ﾎﾟｲﾝﾄ

有意差というものの意味から自明なことですが､どんな検定でもﾃﾞｰﾀの数が多ければ有意差は出ます｡
そもそも有意差というのはその差が偶然生じたものではないということなのですから､これは何もおかしいことではありません｡
ｻｲｺﾛの目が平等に出るかどうかを調べるのに10回だけ振っても偶然による偏りがあってよく分かりませんが､1000回振ればだいたい確認できますよね？10000回振ればもっと確実でしょう｡
逆に言うと有意差があるかどうかというのは標本の数が十分かどうかの指標であるということです｡

｢10の倍数で割っていくと｣とありますが､一日のｱｸｾｽ数が1000000のｻｲﾄが1010000になるのと100のｻｲﾄが101になるのでは意味が違うことは分かりますよね？後者の場合は偶然の要素がかなり強いと推測できますよね｡

有意差があればその差は偶然から生じたものではないと判断でき､その差の意味を考察することができます｡
でもその考察の中で差に意味を見いだすかどうかと言うのはまた別の話です｡

問題となっているﾃﾞｰﾀですが､それだけの量があって曜日毎のばらつきもあれば有意差が出るのは当然だと思います｡
そもそも何のために曜日毎のｱｸｾｽ数を比較しようとしているのかが明確でないので､
まず自分がそのﾃﾞｰﾀから何を読み取りたいのかを考えてみてはいかがでしょうか｡