統計か検証か そうした方法を教えて下さい。  質問文が長いので4問に分かれています。

 
京都育ち234人Aグループ、広島育ち128人Bグループについて、(全員25~57歳で、身体障害なし)年齢、性別2択、学歴4択、職種等(無職を含め7 区分から選択)、BMI値(数値データ)、酒が好きか3択、喫煙するか3択、運動するか3択、食事の好み3択、生活レベル意識(上中下3択)、昨年の預金等金融資産の純増加額(-100万円以上~+100万円以上を7区分で選択)、昨年の旅行延べ日数の11項目の調査結果があるとします。
 全部の項目が独立変数と考えて調査したものですが、中には従属変数ではないものの関係が多少はある要因を調査している家もしれません。有無を問う2択はないですがそれに近い3択はあり、数値データの調査の代替であるものも混じっています。
この時、昨年の旅行延べ日数を目的変数として分析した場合に、Aグループ、Bグループに有意の差があるかどうかを判定したいと思ったとします。
 
① こうした分析をするにはどのような方法をとれば良いのでしょうか?

回答の条件
  • 1人3回まで
  • 登録:
  • 終了:2010/09/21 22:23:12
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

ベストアンサー

id:iikai No.4

回答回数267ベストアンサー獲得回数13

ポイント60pt

何を解析したいかがなんとなく分かっている状況

(≒はっきりとは疑問文を生成できていない状況)なのですね。

共分散分析のほか、マルチレベル分析も候補に挙がると思われます。


ピンポイントに学習を進めたいお気持ちもよく分かりますが、

関連領域の統計の総説をお読みになるのが結局は近道かもしれません。


高等教育研究における計量分析手法の応用(その1) ―マルチレベル分析―

村澤 昌崇

http://rihe.hiroshima-u.ac.jp/tmp_djvu.php?id=74108


は日本語で書かれており、読みやすいです。

共分散分析、マルチレベル、その他の解析手法の特徴が概説されていますので、

この中にうまくフィットするものが見つかるだろうと思います。

id:hathi

ありがとうございます。

 まだしっかりと内容を読んでいないのですが、勉強してみたい感じがしました。

 webを検索したら、マルチレベルについて随分と出てきて、本も(高いのが難点ですが)多く

 あることがわかりました。

 

 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

実は、共分散分析を勉強しようかなと始め懸かった(の手前くらい)だったのですが、

どうも??が多くて

  母集団データを1万くらい作って、任意に100~200データのサンプリングをしたものを

  分析して標本から分析した結果を20~30作り)、(母集団を分析した結果)と照らし合わせ

  ながら、因子分析や共分散分析がどういう結果を示すのか実感するしかないと思い始めていたところです。

  (母集団データを作るときには、とりあえず4因子程度で作り、それぞれの因子の直線的な係数を決め、

  1万のデータの母集団は各因子の係数から決まる値を平均値としたおおむね正規分布となるようにします。

  やってみないとわからないのですが、

  サンプルデータを200程度母集団からランダムに引き出してサンプル集合を作ったにしても、

  各因子に決めた分散(標準偏差)の具合では、かなり偏ったサンプル集合になると思えるので(想像)、

  サンプル集合を分析した結果で出てくる各因子の係数は相当に怪しいものになるケースが頻発する

  ような気がしてなりません。 

 (サンプル集合の平均値や分散を、似た様な試行で、サンプリングごとにどうなるか試したときの経験です)

  サンプリングごとに違う結果を出すし、大きく違うことも結構ある(5%と言うのは、あくまで平均なので

  試行すると感覚的に5回に1回程度とんでもない結果を出しているように見えても、それで5%水準ですよね)

 

マルチレベルというのは、全く知らなかったので、これから勉強させていただきます。

  共分散分析は、マルチレベルの概説をいくつか見てからにします。

 

ありがとうございました。

2010/09/21 22:18:10

その他の回答4件)

id:akumasyougun666 No.1

回答回数94ベストアンサー獲得回数0

大変申し訳ございませんが、あなたはこの質問に回答することはできません。

http://q.hatena.ne.jp

id:cappin No.2

回答回数89ベストアンサー獲得回数3

ポイント30pt

京都育ち、広島育ちからそれぞれ、ランダムに20人ずつとか同じ人数選んで、それぞれ旅行延べ日数の平均・分散を算出します。

両者の平均の差が、両者の分散の和(の平方根)と比べてどうかを調べると、ひとつの「有意性」の評価値が得られます。

例えば、京都育ちが平均1日分散1、広島育ちが平均2日分散4とすると、両者の差1日は、分散の和5の平方根2ちょいにくらべて小さい。つまり、ばらつきが大きすぎてあんまりたいしたこと言えないみたいだ。

‥とかいう手法が考えられますね。やれ5%だ1%だで「有意」だのどうのという議論には、この手の調査ではまずならないと思います。

分散分析とか、リサンプリングとかを調べてみてください。

id:hathi

ご回答をいただきありがとうございます。

なお、若干想定が違います。

 サンプル数が234人のAグループは京都育ちの属性を持ち、サンプル数が128人Bグループは広島育ちの属性を持っていて、全サンプルについて11項目の調査結果が揃っているのです。この2つの標本集団に関して、調査結果の1項目である[昨年の旅行延べ日数]に他の10項目がどのように影響しているのかの傾向(因子分析のようなもの?)を分析すれば、[ABのグループで違った結果が出てくると思うのですが、その因子分析の結果の差は有意の差なのか、有意性がない単なる分析の計算上出てきた差でしかないのか、それを判定するにはどうしたら良いのでしょうか]という質問です。

調査の1項目である[昨年の旅行延べ日数]のABグループの平均や分散の差が有意かどうかを確認したいのでないのです。

米国北西部と米国南部でそれぞれ地元育ちの234人、128人を対象にあるアンケートをして、[住宅費にいくらをかけるのか]の【因子や重み】がこの234人と123人で有意の差があるのか、アンケートすればその程度の差はよくつく程度の差なのかを判定するような、因子分析や多変量解析の方法とその差の判定方法は、どのようなものが最もやりやすいのかを知りたいのです。

この手の調査で有意さを5%で判定すれば、(グループ間で差がない)という帰無仮説は棄却できないことになるのであれば、20%で判定する程度でもいいとした場合には、何か良い方法があるのでしょうか。

もしも、ABグループ間で因子の重み等に差があるかどうかの判定はできないとか、有意に差があるという判定は難しいのであるとすると、[あることについてサンプル調査して、それを因子分析して、母集団の特性を説明する]あるいは[あることについてサンプル調査してそれを1つの項目(目的項目)に関して10因子の分析して、その結果を利用して、サンプルになかったものについて10個の因子項目を調べて、1つの目的項目について推定する]のは、無茶なというか論理的にはおかしなことをしていることになるのでしょうか。

例えば、喫煙、飲酒、塩分摂取などの食事内容を調べて、その人が高血圧になる危険性を述べるのは、天につばする行為に近いのでしょうか。

こうしたことを言う人が多いのは、確率に基づいた推計をしてよい論理的に納得できる分析方法や、調査した集合に属さないものにも適用しても不合理とは言えないという判定法があるからだと思います。

 

 http://q.hatena.ne.jp/1284647868 に記載しましたが、また何度目かの挑戦で推計とか統計の勉強をしたいのですが、闇雲にやるとこれまでと同様に挫折しそうなので、この方法を理解すれば良いのだと目標をはっきりとさせたいのです。

 

『分散分析とか、リサンプリングとか』という程度ではなくて、もう少し目標として具体的で、それを勉強すれば何とか最終目標が達成できそうな気持ちが起きる形で、お教え下さい。 よろしくお願いいたします。

2010/09/18 22:40:20
id:iikai No.3

回答回数267ベストアンサー獲得回数13

ポイント40pt

はじめに、

各変数は説明変数との間で直線性があり、

各連続量の分布は正規分布に近いことを確認しておきます。


A群とB群の目的変数に差があるかどうかの検定

「京都人と広島人ではどちらが旅行好きか?」

について、健康や経済状態の影響を調整して比較したいのであれば、

基本的には重回帰分析で良いでしょう。

出身地A/Bを区分するダミー変数のp値を見るのが良いと思います。


ただし、各説明変数がA/B群いずれにおいても同様の効果を持っていることが前提で、

・京都の金持ちは旅行好きだが、広島の金持ちは旅に出ない

・京都では男が女より旅行好きなら、広島では男は女ほど旅行しない

では困ります。



A群とB群における各説明変数の回帰係数に差があるかどうかの検定

「京都の金持ちは旅行好きだが、広島の金持ちはもっと旅行好きだ、この差は有意か?」

を検証するには、共分散分析が必要です。


ただし、説明変数と在住地は独立であることが前提で、

広島貯金がたまると、みんな京都に引っ越してしまう、ならば困ります。

id:hathi

ありがとうございます。

 

ただ若干、私がやりたいこととズレがあります。

>> 「京都人と広島人ではどちらが旅行好きか?」を健康や経済状態の影響を調整して比較したい

のではありません。

>> ・京都の金持ちは旅行好きだが、広島の金持ちは旅に出ない

>> ・京都では男が女より旅行好きだが、広島では男は女ほど旅行しない

という様な、説明変数(旅行の度合い)に対するABグループで因子が違う効果も持つことの検証などの方法を知りたいのです。

 

>> A群とB群における各説明変数の回帰係数に差があるかどうかの検定

をしたいのかもしれません。

 

http://antlers.rd.dnc.ac.jp/~otsu/Komaba2005/Komaba05Oct.pdf のP9に1.7.1に共分散分析の例が載っていますが、このような分析をする場合に(妊娠期間⇒出生時体重)(母親妊娠前体重⇒出生時体重)の係数が喫煙母親、非喫煙母親で有意に違うか否かの検証ができるのかどうかが、わからないでいます。

 

http://homepage2.nifty.com/nandemoarchive/GLM/6_ANCOVA.htm に『交互作用項が有意である場合、それは水準ごとに異なる増加量を持っているということである。言いかえれば、これは水準ごとに異なる傾きを持つということで、図に表すとそれらは平行ではなくなる』との説明とグラフ図が表示されていますが、この赤線/青線の傾斜や切片をどう決めるのかの方法や、それが有意の差であるかどうかの判定方法が、この説明の中でうかがえません。

 

http://www.ibaraki-kodomo.com/toukei/ancova.html には『上左図では3群の回帰直線はほぼ平行なので共分散分析可能であるが、上右図ではC群の傾きがA、B群と異なっている、つまり交互作用が存在するため分析不能である。厳密には回帰の平行性の検定をする。

また、回帰直線が有意でない、つまり出生体重とLVEDdの間に関連がなければ共分散分析をする意味がなくなってしまう。これらの条件を満たした場合、群間の差の検定を行う。もし、有意差があった場合にはどの群間に差があるのかを知りたい。その場合には多重比較をおこなう』という説明もあります。

 

基礎から一歩一歩勉強するのが本来だと思うのですが、何度も挫折しているので、この方法を習得するとやりたいことができるということを確認してから、その方法に目標を絞りたいのです。 よろしくアドバイスとか、参考になるURLをお教え下さい。

2010/09/19 18:35:52
id:iikai No.4

回答回数267ベストアンサー獲得回数13ここでベストアンサー

ポイント60pt

何を解析したいかがなんとなく分かっている状況

(≒はっきりとは疑問文を生成できていない状況)なのですね。

共分散分析のほか、マルチレベル分析も候補に挙がると思われます。


ピンポイントに学習を進めたいお気持ちもよく分かりますが、

関連領域の統計の総説をお読みになるのが結局は近道かもしれません。


高等教育研究における計量分析手法の応用(その1) ―マルチレベル分析―

村澤 昌崇

http://rihe.hiroshima-u.ac.jp/tmp_djvu.php?id=74108


は日本語で書かれており、読みやすいです。

共分散分析、マルチレベル、その他の解析手法の特徴が概説されていますので、

この中にうまくフィットするものが見つかるだろうと思います。

id:hathi

ありがとうございます。

 まだしっかりと内容を読んでいないのですが、勉強してみたい感じがしました。

 webを検索したら、マルチレベルについて随分と出てきて、本も(高いのが難点ですが)多く

 あることがわかりました。

 

 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

実は、共分散分析を勉強しようかなと始め懸かった(の手前くらい)だったのですが、

どうも??が多くて

  母集団データを1万くらい作って、任意に100~200データのサンプリングをしたものを

  分析して標本から分析した結果を20~30作り)、(母集団を分析した結果)と照らし合わせ

  ながら、因子分析や共分散分析がどういう結果を示すのか実感するしかないと思い始めていたところです。

  (母集団データを作るときには、とりあえず4因子程度で作り、それぞれの因子の直線的な係数を決め、

  1万のデータの母集団は各因子の係数から決まる値を平均値としたおおむね正規分布となるようにします。

  やってみないとわからないのですが、

  サンプルデータを200程度母集団からランダムに引き出してサンプル集合を作ったにしても、

  各因子に決めた分散(標準偏差)の具合では、かなり偏ったサンプル集合になると思えるので(想像)、

  サンプル集合を分析した結果で出てくる各因子の係数は相当に怪しいものになるケースが頻発する

  ような気がしてなりません。 

 (サンプル集合の平均値や分散を、似た様な試行で、サンプリングごとにどうなるか試したときの経験です)

  サンプリングごとに違う結果を出すし、大きく違うことも結構ある(5%と言うのは、あくまで平均なので

  試行すると感覚的に5回に1回程度とんでもない結果を出しているように見えても、それで5%水準ですよね)

 

マルチレベルというのは、全く知らなかったので、これから勉強させていただきます。

  共分散分析は、マルチレベルの概説をいくつか見てからにします。

 

ありがとうございました。

2010/09/21 22:18:10

質問者が未読の回答一覧

 回答者回答受取ベストアンサー回答時間
1 MEl-ZA-YU 89 12 0 2010-09-19 14:44:23
  • id:seble
    質問文が長すぎる場合はコメントへ入れて下さい。
  • id:hathi
    なるほど そのように記載するのですか。アドバイスをありがとうございました。
     
    コメント欄が使えるかなと一瞬思ったのですが、質問欄を500文字に制限しているのには、何か理由があるのだろうと想像して、質問を4問の連続型にすればいいのかと思ってしまいました。
    今後は、コメント欄を使うように考えてみます。
  • id:mkonomi
    質問内容とは関係ありませんが、ちょっと失礼します・・・
    id:akumasyougun666は不適切な回答を繰り返しているようですので、オープンしなくてもいいと思います。
     
    http://q.hatena.ne.jp/akumasyougun666/answerlist で約80件確認
     
    ページ右上の「設定」メニューから「回答拒否ユーザー」に設定する事で、今後このユーザーからの回答を拒否する事ができます。(※知っているかもしれませんが・・・)
    http://hatenaquestion.g.hatena.ne.jp/keyword/%E5%A5%BD%E3%81%BE%E3%81%97%E3%81%8F%E3%81%AA%E3%81%84%E5%9B%9E%E7%AD%94%E8%80%85%E3%82%92%E6%8B%92%E5%90%A6%E3%81%99%E3%82%8B
     
    ※上記の設定をしていただけますと、「他ユーザーの設定による回答拒否」を設定している質問者が、今後このユーザーによる被害を受けなくて済みます。
     
  • id:hathi
    mkonomi さん ありがとうございます。

     akumasyougun666さんの回答をあける前に、akumasyougun666さんのプロフィールと回答履歴で
     既に開かれた回答を見てみました。 で、これは回答を見るまでもなさそうだと思いました。
     ですが、回答拒否の方法を知らなかったので、ちょっとやり方を調べるのに手間取りました。
     どうやら一度は回答を開く必要があるらしいので、1問だけ回答を開いて、
     akumasyougun666さんからは今後の回答を拒否させていただきました。
     
     どうやら、「他ユーザーの設定による回答拒否」がある方を一律に避ける方法をとると、
     到着前に拒否できるようなのですが、他の方が全く個人的な好悪で単に【気に入らない回答だ】と
     回答を拒否されてしまうと、本当は有用で是非欲しかった回答を拒否してしまう危険性があるので、
     今回akumasyougun666さんだけを拒否にしました。
     
     akumasyougun666さんが今後有用な回答を下さるようになったとしても、私にはそれがわからず
     門前払いになるので、それで良いのだろうかとも、少し気になっています。
  • id:cappin
    京都育ち群の因子分析結果というか、1属性(旅行日数)を結果とみたときの他の多数の属性(=原因と仮定している)の重み(ベクトルというかタプルというか)と、広島育ち群の同じ重みベクトルとを比較したら、その2ベクトルの向いている方向について「角度」が求まるだろうから、その角度が十分か(有意か?)どうかを知りたい、ということでしょうか。

    どうも、だいぶ「宗派」あるいは「目的」が混ざっている疑問のようで、ちょっと書きにくいのですが‥なるべく元の要請を尊重しますと、

    一般に、差の評価がしたければ、差の単位(尺度、ものさし)をどこかで定義しないといけません。統計では普通「分散」を差の単位に使うわけですが、この場合は何がベストでしょう。

    たぶん、上記のそれぞれのベクトルの方向のばらつき(=円錐形?)が算出できれば、それぞれのばらつきに対する角度の大きさの妥当性は出せるように思います。つまりそこで検討するのは、京都のばらつき(円錐)の中に広島(ベクトル)はどのくらいの確信度で存在し得るか。逆はどうか、といったことになると思います。

    因子分析結果のばらつきの出し方は‥頭がそっち系なので、やっぱりリサンプリングの手法を使うことを考えてしまうようです。

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません