分析の方法について、誰かご教授ください!!
質問は大変長いため、補足の欄に記します。。
分かりづらい文章です、ゴメンナサイ・・・
誰か、助けてクダサイ(:_;)
論文で使用する分析について、教えてください!
以下、論文の簡単な説明と現状の問題を書いています.....
長くなります、、しかもかなり分かりづらいです。。
ご容赦くださいm(__)m
私は論文で大学財務を対象とし、分析しています。
こまかい説明は省きますが、「教育費」の推移を考察しています(「教育費」は大学の会計科目から私が独自で定義しています)。
その分析の過程で国立大学の財務を85校全て収集し、統計的な分析も行うこととなりました。
分析では、「教育費の増減」において、「(1)どのような学校種で増減が発生しているのか」ということと「(2)どのような要因によって増減が発生しているのか」という点を分析する必要があります。
「(1)どのような学校種で増減が発生しているのか」というのは、学校種(たとえば、単科大か総合大か、また文系学部を有しているか、など)と、教育費の増減の関係をみるという形です。
「(2)どのような要因によって増減が発生しているのか」というのは、教育費の増減をもたらしている要因(これは、「総支出の増加」と「総支出に対する教育費の割合の増加」の2つです)と、教育費の増減との関係を考えるものです。
当初、(1)と(2)でそれぞれ別に、教育費の増減との重回帰分析を行いました。
ところが、教授から「(1)と(2)の関係を明らかにし、それをもって最終的に教育費との関係を考えるように」と指摘されました。
特に、「総支出の増加」と「総支出に対する教育費の割合の増加」の2つの要因について、それぞれ学校種による関係を分析し、それによって最終的に教育費の増減を説明せよ、という指摘です。
しかも教授の説明では、(2)の2つの要因から教育費の増減の計算式が(回帰式的にではなく、数理的に)作れるので、それと(1)を関連付けて、教育費の式を考えてみてと言われました。。
その教授が指摘した教育費の計算式は以下の通りです。
D1-D0=(G1-G0)*P0+(P1-P0)*G0+(P1-P0)(G1-G0)
D…教育費
G…総支出
P…教育費の割合
「1」と「0」は、比較をする時期です。
式のうち、一項目は経費そのものが増えたことによる効果、二項目は教育費の割合が増えたことによる効果、三項目は両方による効果です。
私としては、先生が指摘した意味と、この式の意味は分かります(分かっているつもりです(笑))。
ただ、上の式に(1)の要因をどう関わらせるかが全く分かりません!!!!
特に理解できないこととしては、
上の式において、教育費を2つの要因で既に数理的に説明されているものに、重回帰などによる(1)の要因分析を加えることができるのか。できるのであれば、どういう風な手法や計算によってやるのか。
という点です...(*o*)
私は統計も数理的な分析も全くのど素人です。。
(言い訳をさせていただけるのであれば、当初統計的な分析など予定にありませんでした・・教授の気まぐれで、1か月前になって突然やることに・・・泣)
だれか、なにかいい分析手法をご存じの方や、分析の工夫の仕方を思いつく方がいれば、ぜひこのアホな私にご教授いただけませんでしょうか!!
上の文章自体が分かりづらいし、研究の詳細をかけていないので、そもそも質問をハッキリお伝えできていないのは十分承知の上でございますm(__)m
なんとなくのご提案でも十分ありがたいです。。
だれか、私を助けてください(:_;)
よろしくお願いします!!
こんにちは~。内容はよくわかりましたよ。
教授が言ってる事の意図や理由もわかりましたし,あなたがどれぐらい統計を理解しているのかも文面から大体わかりました。
ただ,正解は一通りに定まらず,いろんなアプローチがありますので
どう研究するかは自由です。
ですので,下記はご参考までに。
■重回帰分析の前提
重回帰分析とは,複数の変数の一次式を使って,ある値の変動を表現することです。
だから,重回帰分析の実行によって得られるものは,一次式の係数ですね。
今回のケースだと,教育費増減値について,複数の要因の,原因としての重み(比重)を係数として算出している事になります。
例えばもし「文系学部の数が多い」の係数が大きければ,それが要因として比重が高いという事になります。
複数の要因について,どいつのせいなのか,責任の所在を係数でわりふっているわけです。
これはOKでしょうか。
(この点を理解した上で重回帰分析しておられるのでしょうか?)
■なぜ教授からつっこまれたのか
(1)は,大学の特徴を要因として,各特徴に対して係数を求めています。
(2)は,会計上の項目を要因として,それぞれに対して係数を求めています。
ところが,(2)には,要因の候補が2つしかありません。
>「総支出の増加」と「総支出に対する教育費の割合の増加」の2つ
これだと,まともな回帰ができません。
物事が変動する原因はたくさんあるわけですから,ある程度多くないと,あんまり良い回帰はできないんですよね。多変数で精密に解析すべきです。
この場合,2変数だけの重回帰分析では,NGが下るわけです。
変数が少ないか,または,回帰というツールを使うべきシーンではないか
のどちらかです。
だから,(2)で回帰的に式を求めるのはもうやめて,
数理的に「仮説」を立てて,経費とかの変動で説明できないか考えてみなさい
と言われたわけですね。
ここまでは理解できましたか?教授が言うのももっともだ,と納得しましたか?
■教授が提示した数式の意味
そして,回帰的な方法は採用できないから,数理的にアプローチしよう。
という方針になった結果,そこで提示された「数理的な計算式」が
>D1-D0=(G1-G0)*P0+(P1-P0)*G0+(P1-P0)(G1-G0)
であるという事ですね。
3項ありますけど実際には各項に対して未知の係数が必要でしょう。
このままの式だと,係数が何もついてませんから,
経費のせいなのか・それとも教育費の割合の増減のせいなのか
という要因の割り出しができていません。
重回帰分析のときのように,各項に対して適切な係数をわりふってあげる事で,
どの項が主な原因なのか,どの項の影響は少ないのか
といった重みづけをする事ができるわけですね。
教授が提示した数理的な式には,その係数がありません。
逆に言うと,その係数を作れ,という事です。
そして,係数を作るために(1)のデータを活用しなさい,と。
ここまでOKでしょうか?
教授が作ってくれた数式は,あくまで仮説に過ぎず,その式が全部のデータに必ず当てはまるわけではありませんよね?(実際に数値を代入してみればわかることですが)
だから,多数存在するデータに対して最もこの数式が近くなってくれるように,
適切な係数を探してあげる必要があるんです。
そこをなるほど,と悟れるかどうかで,
あなたが重回帰分析の意味を理解して使っているかどうかが判明してしまいます。
統計の基本に立ち返ると,教授はあなたにそこを考えさせたいんでしょう。
わかって回帰やってる?という点です。
教授があなたに考えさせたい点を具体的に理解できましたか?
■数理的な数式を(1)に適用させる方法
教授が提示してくれた数式をよく観察して頂きたいのですが,
ご丁寧な事に,1年おきに計算を実行できるようになっています。
今年と来年だけが含まれた式なので,複数年にわたって何度もこの数式を計算できるわけです。
ということは,ある大学の複数年間のデータを逐次代入してゆけば,
その1つの大学について,この計算式の「係数」が算出できるわけですよね。
で,教授が言った事は
>(2)の2つの要因から教育費の増減の計算式が(回帰式的にではなく、数理的に)作れるので、それと(1)を関連付けて、教育費の式を考えてみて
という事なんですね。
つまり,モデルとして2つ考え得るわけです。
(A)教授が作ってくれた(2)の数理的な仮説の数式。
(B)あなたが(1)で実行したような,大学の特徴を要因とした回帰モデルの数式。
そして,教授の提案は,(A)と(B)を関連付けなさい,と言っています。
よって,(B)の数式 +(A)の一次式 という式(Cと呼びます)で考えなさい,という事ですね。
この(C)式を使って,回帰をし直せばいいんですよ。
そうすれば(C)式の各項の係数が求められます。
ということは,
大学の特徴だけでなく,大学の会計状況も加味した上で,
それら全部を要因の候補として挙げておいて,重回帰分析にかけたので,
教育費の増減の「責任の所在」がどの項にあるのかが,総合的にわかる
という事になりますよね。
要は,
あなたは(1)と(2)で別個に回帰しようとしたけど,
それだと回帰の前提となる変数の数が少ないから,
両方を合わせて合体させて回帰するんです。
そうすれば,合体した式について各項の係数が求められますから,
「(1)と(2)を関連付けた教育費の式を考えてみて」という要望にもこたえられますね。
これが,(1)と(2)を関連付けた式を算出する方法です。
■最後に何をしたらよいか
そして,あなたがすべきことは,
最終的に得られた式の中で係数を観察して,
・大きい係数については,この項のせいで影響が大きい,と述べて,何かしら現実的な理由を挙げる。
・小さい係数についても,この項の影響は少ない,と述べて,やはり現実の世の中で起こっている出来事と比較して理由を述べる。
・係数がマイナスになっている項についても同様の作業を行なう。
最後に,もし,ここで作成した仮説の(C)式が世の中の現状とうまくかみ合わない部分があれば,論文の最後の「今後の展望」とかのページに
考慮すべき対象として~~も変数に加えてみればよかったのかもしれない,そのために誤差が生じたと思われる,
とか述べておけばよいです。
以上で,質問にある作業は終わりです。
ひとつひとつ前提となる所から理解して,上から順に理解を確かめていかないと無理ですよ。
焦らず,重回帰分析のイメージをつかんでから,作業に取り掛かって下さい。
こんにちは~。内容はよくわかりましたよ。
教授が言ってる事の意図や理由もわかりましたし,あなたがどれぐらい統計を理解しているのかも文面から大体わかりました。
ただ,正解は一通りに定まらず,いろんなアプローチがありますので
どう研究するかは自由です。
ですので,下記はご参考までに。
■重回帰分析の前提
重回帰分析とは,複数の変数の一次式を使って,ある値の変動を表現することです。
だから,重回帰分析の実行によって得られるものは,一次式の係数ですね。
今回のケースだと,教育費増減値について,複数の要因の,原因としての重み(比重)を係数として算出している事になります。
例えばもし「文系学部の数が多い」の係数が大きければ,それが要因として比重が高いという事になります。
複数の要因について,どいつのせいなのか,責任の所在を係数でわりふっているわけです。
これはOKでしょうか。
(この点を理解した上で重回帰分析しておられるのでしょうか?)
■なぜ教授からつっこまれたのか
(1)は,大学の特徴を要因として,各特徴に対して係数を求めています。
(2)は,会計上の項目を要因として,それぞれに対して係数を求めています。
ところが,(2)には,要因の候補が2つしかありません。
>「総支出の増加」と「総支出に対する教育費の割合の増加」の2つ
これだと,まともな回帰ができません。
物事が変動する原因はたくさんあるわけですから,ある程度多くないと,あんまり良い回帰はできないんですよね。多変数で精密に解析すべきです。
この場合,2変数だけの重回帰分析では,NGが下るわけです。
変数が少ないか,または,回帰というツールを使うべきシーンではないか
のどちらかです。
だから,(2)で回帰的に式を求めるのはもうやめて,
数理的に「仮説」を立てて,経費とかの変動で説明できないか考えてみなさい
と言われたわけですね。
ここまでは理解できましたか?教授が言うのももっともだ,と納得しましたか?
■教授が提示した数式の意味
そして,回帰的な方法は採用できないから,数理的にアプローチしよう。
という方針になった結果,そこで提示された「数理的な計算式」が
>D1-D0=(G1-G0)*P0+(P1-P0)*G0+(P1-P0)(G1-G0)
であるという事ですね。
3項ありますけど実際には各項に対して未知の係数が必要でしょう。
このままの式だと,係数が何もついてませんから,
経費のせいなのか・それとも教育費の割合の増減のせいなのか
という要因の割り出しができていません。
重回帰分析のときのように,各項に対して適切な係数をわりふってあげる事で,
どの項が主な原因なのか,どの項の影響は少ないのか
といった重みづけをする事ができるわけですね。
教授が提示した数理的な式には,その係数がありません。
逆に言うと,その係数を作れ,という事です。
そして,係数を作るために(1)のデータを活用しなさい,と。
ここまでOKでしょうか?
教授が作ってくれた数式は,あくまで仮説に過ぎず,その式が全部のデータに必ず当てはまるわけではありませんよね?(実際に数値を代入してみればわかることですが)
だから,多数存在するデータに対して最もこの数式が近くなってくれるように,
適切な係数を探してあげる必要があるんです。
そこをなるほど,と悟れるかどうかで,
あなたが重回帰分析の意味を理解して使っているかどうかが判明してしまいます。
統計の基本に立ち返ると,教授はあなたにそこを考えさせたいんでしょう。
わかって回帰やってる?という点です。
教授があなたに考えさせたい点を具体的に理解できましたか?
■数理的な数式を(1)に適用させる方法
教授が提示してくれた数式をよく観察して頂きたいのですが,
ご丁寧な事に,1年おきに計算を実行できるようになっています。
今年と来年だけが含まれた式なので,複数年にわたって何度もこの数式を計算できるわけです。
ということは,ある大学の複数年間のデータを逐次代入してゆけば,
その1つの大学について,この計算式の「係数」が算出できるわけですよね。
で,教授が言った事は
>(2)の2つの要因から教育費の増減の計算式が(回帰式的にではなく、数理的に)作れるので、それと(1)を関連付けて、教育費の式を考えてみて
という事なんですね。
つまり,モデルとして2つ考え得るわけです。
(A)教授が作ってくれた(2)の数理的な仮説の数式。
(B)あなたが(1)で実行したような,大学の特徴を要因とした回帰モデルの数式。
そして,教授の提案は,(A)と(B)を関連付けなさい,と言っています。
よって,(B)の数式 +(A)の一次式 という式(Cと呼びます)で考えなさい,という事ですね。
この(C)式を使って,回帰をし直せばいいんですよ。
そうすれば(C)式の各項の係数が求められます。
ということは,
大学の特徴だけでなく,大学の会計状況も加味した上で,
それら全部を要因の候補として挙げておいて,重回帰分析にかけたので,
教育費の増減の「責任の所在」がどの項にあるのかが,総合的にわかる
という事になりますよね。
要は,
あなたは(1)と(2)で別個に回帰しようとしたけど,
それだと回帰の前提となる変数の数が少ないから,
両方を合わせて合体させて回帰するんです。
そうすれば,合体した式について各項の係数が求められますから,
「(1)と(2)を関連付けた教育費の式を考えてみて」という要望にもこたえられますね。
これが,(1)と(2)を関連付けた式を算出する方法です。
■最後に何をしたらよいか
そして,あなたがすべきことは,
最終的に得られた式の中で係数を観察して,
・大きい係数については,この項のせいで影響が大きい,と述べて,何かしら現実的な理由を挙げる。
・小さい係数についても,この項の影響は少ない,と述べて,やはり現実の世の中で起こっている出来事と比較して理由を述べる。
・係数がマイナスになっている項についても同様の作業を行なう。
最後に,もし,ここで作成した仮説の(C)式が世の中の現状とうまくかみ合わない部分があれば,論文の最後の「今後の展望」とかのページに
考慮すべき対象として~~も変数に加えてみればよかったのかもしれない,そのために誤差が生じたと思われる,
とか述べておけばよいです。
以上で,質問にある作業は終わりです。
ひとつひとつ前提となる所から理解して,上から順に理解を確かめていかないと無理ですよ。
焦らず,重回帰分析のイメージをつかんでから,作業に取り掛かって下さい。
コメント(4件)
お役に立てたかどうか,
逆にどこがわかりづらかったか
など,お時間のある時にフィードバックを書きこんでいただければ嬉しいです。
指摘を頂ければ,こちらも改善の助けになり,もっとわかりやすく説明する事ができますので。
さらに大幅にご連絡が遅くなりましたことを心からお詫び申し上げます。
インフルエンザにかかってしまい、一週間完全にダウンしておりました…
解答は拝見させていただき、またなんとか理解に努めました(笑)
本文でご指摘いただいた、以下の点が少し分かりません。
「D1-D0=(G1-G0)*P0+(P1-P0)*G0+(P1-P0)(G1-G0)
であるという事ですね。
3項ありますけど実際には各項に対して未知の係数が必要でしょう。
このままの式だと,係数が何もついてませんから,
経費のせいなのか・それとも教育費の割合の増減のせいなのか
という要因の割り出しができていません。」
D、G、Pは全大学でそれぞれ既に算出しており、式に当てはめれば数値が完全に合致します。
つまり、私の見方ですと、式に未知の係数はない(入れると式が合わない)と考えます。
うまく言えませんが、この点が引っ掛かりました。。
しかし、これは質問の情報だけでは上手く伝わらないことであり、やはりこのような質問の仕方が悪かったと思います・・
おそらく、lang_and_engineさんに直接聞ければ、すぐ解決しそうです(笑)
lang_and_engineさんが指摘されていることは全体を通じて正しいです。
私は重回帰分析のイメージがつかめていないのだと思います。
エクセルの数字をいじって、ながめて、考えているだけで、時間ばかり過ぎているように感じます・・m(__)m
なお、今後についてですが、
今考えているのは、一項目、二項目、三項目のそれぞれの額を実際に算出し、そのそれぞれと学校種との重回帰分析する方法です。
これによって教育費を増加させる要因それぞれに対し影響を与える学校種が算出できます。
そして教育費の増減と学校種との重回帰分析も行い、最終的に調べたい教育費の増減に与える学校種の影響も算出しようと考えています。
実際にやって、教授にご連絡しています(が、返信なし…)。
この方法では各要因に与える学校種の影響を分析できますが、一方でそれを最終的な教育費の増減と関連付けることはできていません(2つを別の分析として行っている)。
またlang_and_engineさんや先生からは他の問題も指摘されるかもしれません(おそらくそうなる…)。
改めて、丁寧な指導をいただきありがとうございました!
お忙しい中ご指導くださり、本当に感謝しています。
また連絡が遅くなり大変申し訳ありませんでした。。
論文は期限が近付いておりかなり危機的状況ですが、最後まで頑張ります。
今後も質問させていただく機会があれば、ぜひご指導のほどよろしくお願いシマス(^o^)☆
元の現象が線形なのかどうか、モデルを検討した方がいい気がします。
ご指摘ありがとうございます!
そもそものところですよね。。
改めて考えてみますm(__)m