京都育ち234人Aグループ、広島育ち128人Bグループについて、(全員25~57歳で、身体障害なし)年齢、性別2択、学歴4択、職種等(無職を含め7 区分から選択)、BMI値(数値データ)、酒が好きか3択、喫煙するか3択、運動するか3択、食事の好み3択、生活レベル意識(上中下3択)、昨年の預金等金融資産の純増加額(-100万円以上~+100万円以上を7区分で選択)、昨年の旅行延べ日数の11項目の調査結果があるとします。
全部の項目が独立変数と考えて調査したものですが、中には従属変数ではないものの関係が多少はある要因を調査している家もしれません。有無を問う2択はないですがそれに近い3択はあり、数値データの調査の代替であるものも混じっています。
この時、昨年の旅行延べ日数を目的変数として分析した場合に、Aグループ、Bグループに有意の差があるかどうかを判定したいと思ったとします。
① こうした分析をするにはどのような方法をとれば良いのでしょうか?
何を解析したいかがなんとなく分かっている状況
(≒はっきりとは疑問文を生成できていない状況)なのですね。
共分散分析のほか、マルチレベル分析も候補に挙がると思われます。
ピンポイントに学習を進めたいお気持ちもよく分かりますが、
関連領域の統計の総説をお読みになるのが結局は近道かもしれません。
高等教育研究における計量分析手法の応用(その1) ―マルチレベル分析―
村澤 昌崇
http://rihe.hiroshima-u.ac.jp/tmp_djvu.php?id=74108
は日本語で書かれており、読みやすいです。
共分散分析、マルチレベル、その他の解析手法の特徴が概説されていますので、
この中にうまくフィットするものが見つかるだろうと思います。
京都育ち、広島育ちからそれぞれ、ランダムに20人ずつとか同じ人数選んで、それぞれ旅行延べ日数の平均・分散を算出します。
両者の平均の差が、両者の分散の和(の平方根)と比べてどうかを調べると、ひとつの「有意性」の評価値が得られます。
例えば、京都育ちが平均1日分散1、広島育ちが平均2日分散4とすると、両者の差1日は、分散の和5の平方根2ちょいにくらべて小さい。つまり、ばらつきが大きすぎてあんまりたいしたこと言えないみたいだ。
‥とかいう手法が考えられますね。やれ5%だ1%だで「有意」だのどうのという議論には、この手の調査ではまずならないと思います。
分散分析とか、リサンプリングとかを調べてみてください。
ご回答をいただきありがとうございます。
なお、若干想定が違います。
サンプル数が234人のAグループは京都育ちの属性を持ち、サンプル数が128人Bグループは広島育ちの属性を持っていて、全サンプルについて11項目の調査結果が揃っているのです。この2つの標本集団に関して、調査結果の1項目である[昨年の旅行延べ日数]に他の10項目がどのように影響しているのかの傾向(因子分析のようなもの?)を分析すれば、[ABのグループで違った結果が出てくると思うのですが、その因子分析の結果の差は有意の差なのか、有意性がない単なる分析の計算上出てきた差でしかないのか、それを判定するにはどうしたら良いのでしょうか]という質問です。
調査の1項目である[昨年の旅行延べ日数]のABグループの平均や分散の差が有意かどうかを確認したいのでないのです。
米国北西部と米国南部でそれぞれ地元育ちの234人、128人を対象にあるアンケートをして、[住宅費にいくらをかけるのか]の【因子や重み】がこの234人と123人で有意の差があるのか、アンケートすればその程度の差はよくつく程度の差なのかを判定するような、因子分析や多変量解析の方法とその差の判定方法は、どのようなものが最もやりやすいのかを知りたいのです。
この手の調査で有意さを5%で判定すれば、(グループ間で差がない)という帰無仮説は棄却できないことになるのであれば、20%で判定する程度でもいいとした場合には、何か良い方法があるのでしょうか。
もしも、ABグループ間で因子の重み等に差があるかどうかの判定はできないとか、有意に差があるという判定は難しいのであるとすると、[あることについてサンプル調査して、それを因子分析して、母集団の特性を説明する]あるいは[あることについてサンプル調査してそれを1つの項目(目的項目)に関して10因子の分析して、その結果を利用して、サンプルになかったものについて10個の因子項目を調べて、1つの目的項目について推定する]のは、無茶なというか論理的にはおかしなことをしていることになるのでしょうか。
例えば、喫煙、飲酒、塩分摂取などの食事内容を調べて、その人が高血圧になる危険性を述べるのは、天につばする行為に近いのでしょうか。
こうしたことを言う人が多いのは、確率に基づいた推計をしてよい論理的に納得できる分析方法や、調査した集合に属さないものにも適用しても不合理とは言えないという判定法があるからだと思います。
http://q.hatena.ne.jp/1284647868 に記載しましたが、また何度目かの挑戦で推計とか統計の勉強をしたいのですが、闇雲にやるとこれまでと同様に挫折しそうなので、この方法を理解すれば良いのだと目標をはっきりとさせたいのです。
『分散分析とか、リサンプリングとか』という程度ではなくて、もう少し目標として具体的で、それを勉強すれば何とか最終目標が達成できそうな気持ちが起きる形で、お教え下さい。 よろしくお願いいたします。
はじめに、
各変数は説明変数との間で直線性があり、
各連続量の分布は正規分布に近いことを確認しておきます。
A群とB群の目的変数に差があるかどうかの検定
「京都人と広島人ではどちらが旅行好きか?」
について、健康や経済状態の影響を調整して比較したいのであれば、
基本的には重回帰分析で良いでしょう。
出身地A/Bを区分するダミー変数のp値を見るのが良いと思います。
ただし、各説明変数がA/B群いずれにおいても同様の効果を持っていることが前提で、
・京都の金持ちは旅行好きだが、広島の金持ちは旅に出ない
・京都では男が女より旅行好きなら、広島では男は女ほど旅行しない
では困ります。
A群とB群における各説明変数の回帰係数に差があるかどうかの検定
「京都の金持ちは旅行好きだが、広島の金持ちはもっと旅行好きだ、この差は有意か?」
を検証するには、共分散分析が必要です。
ただし、説明変数と在住地は独立であることが前提で、
広島貯金がたまると、みんな京都に引っ越してしまう、ならば困ります。
ありがとうございます。
ただ若干、私がやりたいこととズレがあります。
>> 「京都人と広島人ではどちらが旅行好きか?」を健康や経済状態の影響を調整して比較したい
のではありません。
>> ・京都の金持ちは旅行好きだが、広島の金持ちは旅に出ない
>> ・京都では男が女より旅行好きだが、広島では男は女ほど旅行しない
という様な、説明変数(旅行の度合い)に対するABグループで因子が違う効果も持つことの検証などの方法を知りたいのです。
>> A群とB群における各説明変数の回帰係数に差があるかどうかの検定
をしたいのかもしれません。
http://antlers.rd.dnc.ac.jp/~otsu/Komaba2005/Komaba05Oct.pdf のP9に1.7.1に共分散分析の例が載っていますが、このような分析をする場合に(妊娠期間⇒出生時体重)(母親妊娠前体重⇒出生時体重)の係数が喫煙母親、非喫煙母親で有意に違うか否かの検証ができるのかどうかが、わからないでいます。
http://homepage2.nifty.com/nandemoarchive/GLM/6_ANCOVA.htm に『交互作用項が有意である場合、それは水準ごとに異なる増加量を持っているということである。言いかえれば、これは水準ごとに異なる傾きを持つということで、図に表すとそれらは平行ではなくなる』との説明とグラフ図が表示されていますが、この赤線/青線の傾斜や切片をどう決めるのかの方法や、それが有意の差であるかどうかの判定方法が、この説明の中でうかがえません。
http://www.ibaraki-kodomo.com/toukei/ancova.html には『上左図では3群の回帰直線はほぼ平行なので共分散分析可能であるが、上右図ではC群の傾きがA、B群と異なっている、つまり交互作用が存在するため分析不能である。厳密には回帰の平行性の検定をする。
また、回帰直線が有意でない、つまり出生体重とLVEDdの間に関連がなければ共分散分析をする意味がなくなってしまう。これらの条件を満たした場合、群間の差の検定を行う。もし、有意差があった場合にはどの群間に差があるのかを知りたい。その場合には多重比較をおこなう』という説明もあります。
基礎から一歩一歩勉強するのが本来だと思うのですが、何度も挫折しているので、この方法を習得するとやりたいことができるということを確認してから、その方法に目標を絞りたいのです。 よろしくアドバイスとか、参考になるURLをお教え下さい。
何を解析したいかがなんとなく分かっている状況
(≒はっきりとは疑問文を生成できていない状況)なのですね。
共分散分析のほか、マルチレベル分析も候補に挙がると思われます。
ピンポイントに学習を進めたいお気持ちもよく分かりますが、
関連領域の統計の総説をお読みになるのが結局は近道かもしれません。
高等教育研究における計量分析手法の応用(その1) ―マルチレベル分析―
村澤 昌崇
http://rihe.hiroshima-u.ac.jp/tmp_djvu.php?id=74108
は日本語で書かれており、読みやすいです。
共分散分析、マルチレベル、その他の解析手法の特徴が概説されていますので、
この中にうまくフィットするものが見つかるだろうと思います。
ありがとうございます。
まだしっかりと内容を読んでいないのですが、勉強してみたい感じがしました。
webを検索したら、マルチレベルについて随分と出てきて、本も(高いのが難点ですが)多く
あることがわかりました。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
実は、共分散分析を勉強しようかなと始め懸かった(の手前くらい)だったのですが、
どうも??が多くて
母集団データを1万くらい作って、任意に100~200データのサンプリングをしたものを
分析して標本から分析した結果を20~30作り)、(母集団を分析した結果)と照らし合わせ
ながら、因子分析や共分散分析がどういう結果を示すのか実感するしかないと思い始めていたところです。
(母集団データを作るときには、とりあえず4因子程度で作り、それぞれの因子の直線的な係数を決め、
1万のデータの母集団は各因子の係数から決まる値を平均値としたおおむね正規分布となるようにします。
やってみないとわからないのですが、
サンプルデータを200程度母集団からランダムに引き出してサンプル集合を作ったにしても、
各因子に決めた分散(標準偏差)の具合では、かなり偏ったサンプル集合になると思えるので(想像)、
サンプル集合を分析した結果で出てくる各因子の係数は相当に怪しいものになるケースが頻発する
ような気がしてなりません。
(サンプル集合の平均値や分散を、似た様な試行で、サンプリングごとにどうなるか試したときの経験です)
サンプリングごとに違う結果を出すし、大きく違うことも結構ある(5%と言うのは、あくまで平均なので
試行すると感覚的に5回に1回程度とんでもない結果を出しているように見えても、それで5%水準ですよね)
マルチレベルというのは、全く知らなかったので、これから勉強させていただきます。
共分散分析は、マルチレベルの概説をいくつか見てからにします。
ありがとうございました。
回答者 | 回答 | 受取 | ベストアンサー | 回答時間 | |
---|---|---|---|---|---|
1 | ![]() |
89回 | 12回 | 0回 | 2010-09-19 14:44:23 |
ありがとうございます。
まだしっかりと内容を読んでいないのですが、勉強してみたい感じがしました。
webを検索したら、マルチレベルについて随分と出てきて、本も(高いのが難点ですが)多く
あることがわかりました。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
実は、共分散分析を勉強しようかなと始め懸かった(の手前くらい)だったのですが、
どうも??が多くて
母集団データを1万くらい作って、任意に100~200データのサンプリングをしたものを
分析して標本から分析した結果を20~30作り)、(母集団を分析した結果)と照らし合わせ
ながら、因子分析や共分散分析がどういう結果を示すのか実感するしかないと思い始めていたところです。
(母集団データを作るときには、とりあえず4因子程度で作り、それぞれの因子の直線的な係数を決め、
1万のデータの母集団は各因子の係数から決まる値を平均値としたおおむね正規分布となるようにします。
やってみないとわからないのですが、
サンプルデータを200程度母集団からランダムに引き出してサンプル集合を作ったにしても、
各因子に決めた分散(標準偏差)の具合では、かなり偏ったサンプル集合になると思えるので(想像)、
サンプル集合を分析した結果で出てくる各因子の係数は相当に怪しいものになるケースが頻発する
ような気がしてなりません。
(サンプル集合の平均値や分散を、似た様な試行で、サンプリングごとにどうなるか試したときの経験です)
サンプリングごとに違う結果を出すし、大きく違うことも結構ある(5%と言うのは、あくまで平均なので
試行すると感覚的に5回に1回程度とんでもない結果を出しているように見えても、それで5%水準ですよね)
マルチレベルというのは、全く知らなかったので、これから勉強させていただきます。
共分散分析は、マルチレベルの概説をいくつか見てからにします。
ありがとうございました。