重回帰分析について質問です。

基本的には、R^2(決定係数)が高くなるように独立変数をどんどん追加していくべきなのでしょうか?
独立変数を増やしすぎると、分析に使用しているデータに対しての当てはまり度合いは高くなるけれども、特定データの特徴を反映しすぎるので、他のデータに対しての当てはまり度合いが逆に低下してしまうと聞いたことがあります。
R^2がどれくらいの値になればよいのでしょうか?

回答の条件
  • 1人2回まで
  • 登録:2006/06/26 14:57:52
  • 終了:2006/06/29 15:17:01

ベストアンサー

id:sami624 No.3

sami624回答回数5245ベストアンサー獲得回数432006/06/26 20:40:26

ポイント27pt

http://phi.ypu.jp/statlib/l11-2003.pdf#search='%E8%AA%AC%E6%98%8...

説明変数が増加すれば、その分だけ説明変数間相関が強くなる可能性があります。

説明変数間の相関を下げるため、最小二乗法ではなく、コクランオーカットでの分析をした場合は、当然に決定係数が低下するため、目標が達成できなくなります。

あくまでも被説明変数がどの説明変数により影響を受けているかが重要であり、説明変数が増加すれば、当然個々の説明変数が被説明変数に与える影響は小さくなり、事象の説明が困難になるだけではないでしょうか。

例えば自動車の売れ行きは、価格による影響が大きく、性の相関がある。というのと、自動車の売れ行きは、車輌価格・ガソリン価格・高速料金・物価上昇率・円ドル相場・アメリカビッグスリーの価格状況・物価上昇率の影響を受け、99%の確立で立証できる。というのでは、聞き手がどちらに興味を持ち、説得力があるかです。

id:akdamar

ありがとうございます。

なるほど、説明変数を多くすることの弊害としては「過学習」以外にも、説明変数間の相関が強くなってしまうということがあるのですね。

2006/06/28 00:07:28

その他の回答(2件)

id:Dursan No.1

Dursan回答回数98ベストアンサー獲得回数62006/06/26 15:48:57

ポイント27pt

下記URLだと

決定係数(R^2)の評価は

個々の分散の説明の度合いをどう考えるかとのことです。

http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc022/129.html

個人的には各パラメタの解釈の容易性と、説明量との兼ね合いだと思っています。つまり、オーバーフィッティングでも説明できなきゃだめだということです。

id:akdamar

ありがとうございます。

恥ずかしながら、トレランス(分散拡大係数)という概念を知りませんでした。

要するに個々の独立変数がどれだけ互いに独立しているかという指標なのでしょうか?

>個人的には各パラメタの解釈の容易性と、説明量との兼ね合いだと思っています。

これは私もそう思います。ただ、個々のパラメータの解釈の容易性はどの回帰式を選ぶかに確かに影響するのですが、ある先生からは、回帰式は全体をひとつの式として見なければならないのであって、個々のパラメータにどれだけの重みがかかっているかに引きずられるべきではない、とも教わりました。確かに、パラメータをひとつ外したとたん、それまで+だった別のパラメータが-になってしまうのはよくあることで、個々のパラメータの重みはあくまで当該回帰式の中で他のパラメータとの兼ね合いで決まっているのかな・・・と思います。

2006/06/26 16:15:14
id:zuzun No.2

zuzun回答回数11ベストアンサー獲得回数02006/06/26 17:52:19

ポイント27pt

R^2だけ見ていては、そのモデルの性能を測ることはできません。おっしゃる通りR^2を高くしようとがんばると、過学習状態になってしまいます。モデルは複雑になればなるほど、他のデータに当てはめた場合に、性能が悪くなる可能性を高めます。他のデータに当てはめた場合にパフォーマンスが最大になるようにするためには、学習データに対する性能と、モデルのシンプルさを両立させたものでなければなりません。

そのための指標としては、AICやMallowsのCp統計量なんかがあります。要はこれらの統計量が小さくなるよう、説明変数の数を調整していけばよいのです。

id:akdamar

ありがとうございます。

>AICやMallowsのCp統計量

これらの指標についてよく勉強してみます。

2006/06/28 00:04:09
id:sami624 No.3

sami624回答回数5245ベストアンサー獲得回数432006/06/26 20:40:26ここでベストアンサー

ポイント27pt

http://phi.ypu.jp/statlib/l11-2003.pdf#search='%E8%AA%AC%E6%98%8...

説明変数が増加すれば、その分だけ説明変数間相関が強くなる可能性があります。

説明変数間の相関を下げるため、最小二乗法ではなく、コクランオーカットでの分析をした場合は、当然に決定係数が低下するため、目標が達成できなくなります。

あくまでも被説明変数がどの説明変数により影響を受けているかが重要であり、説明変数が増加すれば、当然個々の説明変数が被説明変数に与える影響は小さくなり、事象の説明が困難になるだけではないでしょうか。

例えば自動車の売れ行きは、価格による影響が大きく、性の相関がある。というのと、自動車の売れ行きは、車輌価格・ガソリン価格・高速料金・物価上昇率・円ドル相場・アメリカビッグスリーの価格状況・物価上昇率の影響を受け、99%の確立で立証できる。というのでは、聞き手がどちらに興味を持ち、説得力があるかです。

id:akdamar

ありがとうございます。

なるほど、説明変数を多くすることの弊害としては「過学習」以外にも、説明変数間の相関が強くなってしまうということがあるのですね。

2006/06/28 00:07:28

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません