ランダムフォレストについて教えてください。


ランダムフォレスト(回帰)を行う場合、
最後に説明変数の推定値をそれぞれの木の「平均」を取ると思うのですが、
ここでの「平均」の意味をどう解釈すれば良いか教えてください。

(ランダムフォレスト)
http://ja.wikipedia.org/wiki/Random_forest
http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm
http://mjin.doshisha.ac.jp/R/200905_70.pdf


ランダムなサンプル、説明変数での決定木群での推定値の「平均」となるとすごいばらつきが大きく、直感的には精度が悪い気がするのですが、一般的にはこの方法が精度が高いとされており、どうも理解が進みません。


アルゴリズムや理論的にこうすると効率的であるとか、直感的な理解としてこのように理解すると、精度が高いことがわかるなど、ここでの「平均」が「なぜ」「どういう意味で」取られているのかを知りたいです。


よろしくお願いします。

回答の条件
  • 1人2回まで
  • 13歳以上
  • 登録:2012/10/11 18:21:26
  • 終了:2012/10/18 18:25:02

回答(1件)

id:oil999 No.1

oil999回答回数1728ベストアンサー獲得回数3202012/10/11 20:05:40

ポイント200pt

説明変数の平均を考える前に、ランダムフォレストが機械学習の一種であることを思いだしてください。

たとえば、ランダムフォレストで迷惑メールの判定を行うことを考えます。
受信トレイに1000通のメールがあるとして、それから100通をランダムに取り出して迷惑メールかどうかの判定を行い、ランダムフォレストに登録していきます。すると、101通目からは、“かなりの確からしさ”で機械的に迷惑メールの判定を行うことができるようになります。
ただし最初に抽出した100通が、極端な話、全部迷惑メールだったとしたら、101通目が正常メールであっても迷惑メールだと判定する可能性が高くなります。
これは人間が相手でも同じ事です。何が正常で何が迷惑なのかを経験的に教え込むには、サンプルとして選ぶ標本の性質がランダムで、十分に大きなN数のサンプルを見せてやる必要があるからです。

こうして出来たランダムフォレストのツリーにぶら下がっているセットの平均をとると、ツリーが大きくなればなるほど確かに自動判定ができるようになっているという結果になります。

id:hiddy216

ランダムかつ大きなサンプルによることが信頼性につながることは理解できます(中心極限定理もそんな感じですね)。しかし、この説明ではなぜ平均なのかがよくわかりませんでした。判別の問題(1/0)は多数決で、それは直感的に意味が分かる(それぞれの木でどれだけ支持されたかなので)のですが、「平均」の意味をもっと直接的に知りたいです。

2012/10/15 09:53:31

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません