ある変数(たとえば身長など)の男女差を調べるとします。
通常は、t検定を行うと思うのですが、性別の変数を男=0,女=1などの2値変数に置き換え、身長と性別とでピアソンの積率相関係数を算出するという方法は不適切でしょうか。
不適切か否かと、その数学的な理由も教えてください。
もちろん、教科書的にはそのような使用法は紹介されておりませんし、片方の変数が2値変数だと、分布が不適切になるといった理由から不適切な気もします。
しかし、不適切であると確信できない理由としてピアソンの積率相関係数は、有意性検定の際にrをt値に置き換えるので、実質的にrとt値は可換関係にあるのではないかということを考えています。
むしろt検定の場合、効果量を算出しない限り、性差の「度合い」まではわかりませんが、相関係数を算出する場合、相関係数の大きさから関連の「度合い」を見ることができる気がしています。
そのため、この方法が不適切であるのか確証が持てません。
どなたかご存知の方がいらっしゃったら、ご教授いただけると幸いです。
>しかし、不適切であると確信できない理由としてピアソンの積率相関係数は、有意性検定の際にrをt値に置き換えるので、実質的にrとt値は可換関係にあるのではないかということを考えています。
それはそもそも大胆な仮定の下であって、2値しか取りえないことに対して用いることではありません。
まず、男女というカテゴリー分けは、名義尺度です。
第1回:尺度水準 | limone
相関分析は基本的にはパラメトリック検定です。
相関係数 - Wikipedia
パラメトリック検定は間隔尺度以上に適用します。
ですので、名義尺度である性別をパラメトリック検定にかけるのは不適切です。
絵で書くと、相関があるというのはこんな感じです。
身長と性別を散布図で表すとこんな感じでしょうか。
相関は2変数間での直線的な関係について記述するものなので、図を描いて実感としても理解できるのではないでしょうか。
コメント(0件)