匿名質問者

データ分析で、相関関数と、p値のことで質問します。

例えば、相関関数が70%位なら相関が結構ある、といえますが、他方、p値が高いことがありえるようです。サンプルとして拾ったデータで「相関が高い」と導かれているのに、「p値が高い」とは、“相関が高い”という意味は一体なんだったのだろうか、と違和感があります。どう考えたらよいでしょうか。但し、サンプル数が少ないからということが唯一の理由だというならシックリきます。どうかご助言あると幸いです。

更に併せての質問です。p値を算出するのに当り、サンプル数(n)を用いますが、母集団の要素数(N)は使わないようです(誤解なら済みません)。母集団の要素数が膨大ならp値が高くなり、母集団の要素数が大変少ないならp値は低くなる、というならしっくりきます。しかし、サンプルを25個拾って推計する場合、母集団が40個の場合と、母集団が10000個の場合で、p値に差が生じないこととすると、違和感があるのです。つまり、nとNの差に無関係に、pが決まるということについて、シックリくる説明を頂けると幸いです。

回答の条件
  • 1人5回まで
  • 登録:
  • 終了:2015/09/08 00:55:07

回答1件)

匿名回答1号 No.1

相関関数というのは相関係数ではないでしょうか。

p値というのは「標本抽出による偶然によると言えるかどうか」を扱う問題であって、相関係数は「標本抽出による偶然によると言えるかどうか」を扱って這いません。

もっと分かりやすい例として、「選挙の投票率に男女で差があるかどうか」にp値も検定もありません。なぜならばこれは全数調査されているからです。ただし、「選挙の投票率に男女で差があるのが偶然かどうか」というのであれば考えられます。この場合は物(人)としての母集団は存在しません。単に抽象的に考えられる母集団を想定しているだけであって母集団の大きさ (N) などありません。強いて言えば無限大です。

匿名回答1号

扱って這いません。→扱ってはいません。

2015/10/11 09:41:10

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません