下記のCを独立変数、Pを従属変数とした回帰分析を行う場合、皆さんはどのような予測式を立てますか。


1列目のNはサンプル番号(西暦+月)
2列目は目的変数で、当該月における東電の発電量(万kWh/日)
3列目は説明変数で、当該月における東京の平均気温(摂氏)

https://docs.google.com/open?id=0B5vg7Ma7Fb_cUmE0eTVOWk1oSEU

特に、
・間隔尺度のまま2乗や3乗すべきか。
・仮に、1乗から8乗まで取り入れる場合、80個以上のサンプルが必要か。またその際VIFは無視していいか。
・最高次数まで1次からすべて取り入れる必要はなく、P値次第で、その次数の項は除外すべきか。
など分かりません。

答えは一つではないかもしれませんが、皆さんの考える
「最適モデル」を教えてください。
お願いします。

僕は、
K=C+273.15
として
K,K^2,K^3…と10乗くらいまで用意。
すべて偏回帰係数がP<.05を満たす組み合わせのうち
AIC最小のものを選びました。

(モデル式はメモし忘れ今は提示できませんが、Rで試したところ8乗まで、1乗や6乗が除外されたと思います)
皆様の知恵を分けてください。よろしくお願いします。

回答の条件
  • 1人5回まで
  • 登録:
  • 終了:2012/09/04 09:55:03
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

回答2件)

id:Baku7770 No.1

回答回数2832ベストアンサー獲得回数181

ポイント250pt

こう答えてしまうと身も蓋も無い回答になってしまいますが、私ならこのデータで回帰分析は行ないません。理由は単純で一番肝心な8月のデータとしても不備があり、説明変数が不足しているからと考えるからです。

東京電力の発電量というよりも電力消費量で考えるべきだとは思いますが、
東京電力管内の総電力消費量=東京電力管内の企業における電力消費量+東京電力管内の家庭における総電力消費量+その他東京電力管内の社会インフラによる電力消費量

8月が何が問題かというと、所謂お盆休みとか夏休みがありますので工場までもが休むんですね。さらに帰省をしますので人口も影響を受けます。

さらに、家庭でエアコンを使うかどうかは体感温度の影響を受けますから段々暑くなっていく春先から夏場にかけてと、その逆で段々寒くなっていく秋口から冬にかけて同じモデルが使えるとは思えません。

どうしても、ここにあるデータだけを使って回帰分析をするというのなら各年の同じ月別にモデリングする。といった手法を使います。

その際は一次でいいでしょう。

また、本来の質問に戻りますが、10次など高次の計算式を当てはめようとすると補間はまだよしとしても、補外の場合で発散することが多いので私は薦めません。

id:crystalsky No.2

回答回数6ベストアンサー獲得回数1

ポイント250pt

温度と発電量の関係を考えると2次式くらいの関係だと予想できます。つまり温度が低い時(冬)と高い時(夏)に消費量が上がる。この予想を前提に考えると、使用するのは2次式までに留めるのが無難だと思います。3次式などを使用して統計結果として良い結果が出ても、それは統計上の偶然の数字と解釈され、科学上の意味を持ちません。

温度と発電量で散布図を書いてみたらどうですか?その散布図を見て、その図の上に更に予想される曲線をRなどのソフトで書けば分析案が見えると思います。

高次(例えば8乗とか)まで入れた場合にサンプル数が80しかなければ統計上の偶然の数字でしか無いと思います。また温度と発電量のような関係を考える際にサンプル数を増やしたところで高次の統計結果を説明できるようには通常はなりません。

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません