基本的には、R^2(決定係数)が高くなるように独立変数をどんどん追加していくべきなのでしょうか?
独立変数を増やしすぎると、分析に使用しているデータに対しての当てはまり度合いは高くなるけれども、特定データの特徴を反映しすぎるので、他のデータに対しての当てはまり度合いが逆に低下してしまうと聞いたことがあります。
R^2がどれくらいの値になればよいのでしょうか?
http://phi.ypu.jp/statlib/l11-2003.pdf#search='%E8%AA%AC%E6%98%8...
説明変数が増加すれば、その分だけ説明変数間相関が強くなる可能性があります。
説明変数間の相関を下げるため、最小二乗法ではなく、コクランオーカットでの分析をした場合は、当然に決定係数が低下するため、目標が達成できなくなります。
あくまでも被説明変数がどの説明変数により影響を受けているかが重要であり、説明変数が増加すれば、当然個々の説明変数が被説明変数に与える影響は小さくなり、事象の説明が困難になるだけではないでしょうか。
例えば自動車の売れ行きは、価格による影響が大きく、性の相関がある。というのと、自動車の売れ行きは、車輌価格・ガソリン価格・高速料金・物価上昇率・円ドル相場・アメリカビッグスリーの価格状況・物価上昇率の影響を受け、99%の確立で立証できる。というのでは、聞き手がどちらに興味を持ち、説得力があるかです。
下記URLだと
決定係数(R^2)の評価は
個々の分散の説明の度合いをどう考えるかとのことです。
http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc022/129.html
個人的には各パラメタの解釈の容易性と、説明量との兼ね合いだと思っています。つまり、オーバーフィッティングでも説明できなきゃだめだということです。