標準偏差の解釈に関して教えてください。学生の時にかじった程度で良く理解しておりません。


ある母集団(5万程度)の平均値が7000、標準偏差が10000だった場合、どのようにデータの分散を理解すれば宜しいのでしょうか?

記憶の中では、標準偏差とは平均値からのばらつきを示しており、標準偏差が平均値より大きくなることはないような気がしているのですが・・・。

回答の条件
  • 1人1回まで
  • 登録:2007/12/07 18:39:16
  • 終了:2007/12/14 18:40:07

回答(4件)

id:kappagold No.1

kappagold回答回数2710ベストアンサー獲得回数2482007/12/07 18:56:45

ポイント23pt

実際に、エクセルで計算して見ました。

簡単にするために、母集団を20にました。


平均を7000にあわせるために、14000を10個、0を10個で考えると、大体標準偏差は、7200ぐらいになります。母集団が5万で、0と14000が半分ずつなら、標準偏差はほぼ7000になります。


平均に比べて、最高値が非常に高い場合は、標準偏差が大きくなります。

上記の例で、140000が1個と、0が19個だと、標準偏差が30000を超えます。


20000が7個で、0が13個だと、標準偏差は約10000になります。


上記から言えることは、非常に多くの小さい値があり、中間の値が少なく、平均とかけ離れた非常に大きな値がある。

このような場合に、ある母集団(5万程度)の平均値が7000、標準偏差が10000という事が起こります。

id:AND0 No.2

AND0回答回数179ベストアンサー獲得回数102007/12/08 00:45:03

ポイント22pt

もし、もともとの集団が正規分布であれば、このような例は発生しません。

考えられることは2つです。

1.単なる計算ミス

2.5万個の母集団が正規分布から大きく外れたおかしな形をしている

1.の場合は計算し直せばいいのですが、2.の場合は厄介です。

まずはEXCEL等で母集団のヒストグラムを作成して、データのばらつきを見てください。

大抵、ピークが2つ以上存在していると思われます。

これは、本来いくつかに分けなければならない母集団を1つにしてしまったことが原因ですので、

母集団を何らかのパラメータによりいくつかに分け、それぞれで平均値と標準偏差を計算し直す必要があります。

分離ができないのであれば、標準偏差を解析結果に使用することは避けたほうが良いでしょう。

id:masashichan No.3

masashichan回答回数17ベストアンサー獲得回数12007/12/07 19:40:46

ポイント23pt

こんにちは。

すごく簡単な話をすると、テストで「平均点+標準偏差」の点を取った人は、偏差値60です。逆に、「平均点-標準偏差」の点を取ってしまった人は、偏差値40です。そして、偏差値40~60の人(平均点±標準偏差)は全体人数のうちの6割だか7割が入るようになってます。

なので、データにマイナスがないのであれば0~17000の間に、5万のうち3万だか3万5千だかが入っているってことです。

偏差値30~70(平均点±[標準偏差の2倍])だと、全体の9割以上が入ります。データにマイナスがなければ0~27000でしょうか?

データにマイナスがあるのなら、左右対称の正規分布をイメージしてもらえればいいのかなと思います(必ずしもそうとは限らないですが)

データにマイナスがないのなら、17000~27000の間に5万のうちの1万5千以上が入っているのに平均値が7000ということで、0に近い小さなデータがたくさんないと平均値は7000にまで下がらないですよね。小さい値が多い分布なのでしょう。

では。

id:idadi No.4

伊田匡嗣回答回数25ベストアンサー獲得回数22007/12/08 14:02:17

ポイント22pt

標準偏差っていうのは、ちらばりの広さを表す尺度のことです。べつに平均値よりも標準偏差のほうが大きい場合だってありますよ。

ちょっと具体的にしてみます。母集団の値がX1,X2,・・・・・,Xn(n個の値)と測定(計測?)されているとします。そのとき、平均mは

m=(X1+X2+・・・・・+Xn)/n

ですね。このとき、標準偏差sを計算してみます。めんどくさいので、sの二乗(s^2と書きます)を計算してみると、

s^2=((X1-m)^2+(X2-m)^2+・・・・・+(Xn-m)^2)/(n-1)

となります。細かいことを無視して考えてみると、

  • (Xi-m)^2は測定値X_iと平均値mとの差のおおきさ
  • 差の大きさを足して(n-1)で割るから、s^2は測定値と平均値との差の平均
  • 標準偏差はsだから、だいたい、測定値と平均値との差の平均

というイメージでしょう

平均値が7000、標準偏差が10000の場合、平均値付近の測定値は少ないのですが、平均値から離れた値がたくさん観測されたということです。どちらに偏っているとか、そこまでは言えません。件の数字からわかるのは、あくまで「平均から離れた値がたくさん観測される」ということくらいでしょう。

  • id:tsubo1
    3番(と4番)の方の回答でいいと思います。個人的には、平均値が7000で標準偏差が10000というデータがどのようなものかに興味があります。ひょ、ひょっとして、「分散(variance)」と「標準偏差」を間違ったりしてませんか?だとすると、大部分の値が6800-7200近辺におさまる、均質的できれいな集合が描かれます。まさかと思うのですが、僕が以前にやってしまったことがある間違いですので、一応。

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません