エクセルの折れ線グラフで、近似曲線を使う場合、R-2乗値は1に近いほど信頼性が高いとのことですがどのくらいでまでであれば適正であり、どのくらいより採用すべきではないのでしょうか?

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:2007/10/09 08:58:40
  • 終了:2007/10/16 09:00:04

回答(3件)

id:Dursan No.1

Dursan回答回数98ベストアンサー獲得回数62007/10/09 19:02:10

ポイント10pt

http://www.yc.musashi-tech.ac.jp/~masako/sda/p11.html

URLはほぼダミーです。学際で回帰分析を使う場合のR2乗値の目安は、専門で異なりますので一概には言えませんが、心理学、データベースマーケティングの分野の観点で見るとは0.9欲しいところです。

統計解析の場合0.95とか0.99が基準になっている場合が多かったのですが、近年は算出された値とその発生確率をそのまま載せるというのが一般的になってきています。

おそらく大事なのはその式から導かれる推論が、聞き手を納得させられるかだと思います。

id:tsubo1 No.3

tsubo1回答回数44ベストアンサー獲得回数32007/10/15 13:04:40

ポイント10pt

質問の確認ですが、「説明変数(X)がひとつ、目的変数(Y)がひとつで、曲線を用いて2変数を近似した場合に、R二乗をどのように解釈したら良いか?」ということですね。


これに対する答えは、どのようなスタンスでR二乗を使うかによります。


統計学的なスタンスの答えとしては、「そのR二乗値に対して統計的検定を行い、有意であるとなったらモデルが適正であるとみなす」です。分散分析をもちいた検定を行うので、観測値の数と説明変数の数によって有意となるかどうかが変化します。検定の手順は一般的な線形重回帰分析とほとんど同じです.


一般的には、統計ソフトを用いて回帰分析でR二乗を算出したときに、R二乗値のF値というものと、そのF値に対するP値が出力されてきます(エクセルでどうなのかはちょっとわかりません)。このときP値がある一定以下の場合(通常、0.05か0.01)、このモデルが適正であるとみなします。


その後、個別の説明変数の係数に関して、その説明変数が重要であるかの検定をおこないます。さきほどの回帰分析の出力画面で、個別の説明変数に関してt値と、そのp値が出力されているはずなので、R二乗値の場合と同様に、p値が一定以下である説明変数の項をのみ最終的なモデルに採用します。

Rなら http://www1.doshisha.ac.jp/~mjin/R/14.pdf

エクセルなら http://www.nsspirit-cashf.com/logical/kaiki_bunseki.html

(googleの検索ワードで「(重)回帰分析、曲線、非線形」なんかが有効だと思います)


さて、冒頭の問いに対するもう一つのスタンスは、上記のような数学的/統計的な厳密さにこだわらないというものです。この場合、どのくらいの値を適正さの境目とするかは、分野として異なってきます。たとえば、今、説明を使用としている対象が社会科学的/行動学的なデータの場合、ぶっちゃけ0.3くらい以上の値ならおっけー、というので許されている感じがあります。生物学、物理学、などの場合は、もうすこし高い値が望まれる事になるでしょう。R二乗は「出力変数全体のばらつきに対して、そのモデルによって説明が可能なデータのばらつき」を示す訳ですから、このR二乗値の意味に従って、適正さを判断していることになります(社会学的なデータはもともとバラツキがデカイので、あるモデルで30%もデータが説明できれば、納得してくれる人がおおい、というそういうお話)。

  • id:rhai
    大変ありがとうございました。
  • id:tsubo1
    >rhaiさん 
    rhai 2007-10-20 20:02:38
    大変ありがとうございました。

    質問をキャンセルした上で、ご本人が回答オープンしたわけですか?そのやり方だと、質問者は支払うポイントが規定より少なくて済むけど、回答者の側はポイントがもらえないわけで。

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません