人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

ランダムフォレストについて教えてください。

ランダムフォレスト(回帰)を行う場合、
最後に説明変数の推定値をそれぞれの木の「平均」を取ると思うのですが、
ここでの「平均」の意味をどう解釈すれば良いか教えてください。

(ランダムフォレスト)
http://ja.wikipedia.org/wiki/Random_forest
http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm
http://mjin.doshisha.ac.jp/R/200905_70.pdf


ランダムなサンプル、説明変数での決定木群での推定値の「平均」となるとすごいばらつきが大きく、直感的には精度が悪い気がするのですが、一般的にはこの方法が精度が高いとされており、どうも理解が進みません。


アルゴリズムや理論的にこうすると効率的であるとか、直感的な理解としてこのように理解すると、精度が高いことがわかるなど、ここでの「平均」が「なぜ」「どういう意味で」取られているのかを知りたいです。


よろしくお願いします。

●質問者: hiddy216
●カテゴリ:学習・教育 科学・統計資料
○ 状態 :終了
└ 回答数 : 1/1件

▽最新の回答へ

1 ● oil999
●200ポイント

説明変数の平均を考える前に、ランダムフォレストが機械学習の一種であることを思いだしてください。

たとえば、ランダムフォレストで迷惑メールの判定を行うことを考えます。
受信トレイに1000通のメールがあるとして、それから100通をランダムに取り出して迷惑メールかどうかの判定を行い、ランダムフォレストに登録していきます。すると、101通目からは、“かなりの確からしさ”で機械的に迷惑メールの判定を行うことができるようになります。
ただし最初に抽出した100通が、極端な話、全部迷惑メールだったとしたら、101通目が正常メールであっても迷惑メールだと判定する可能性が高くなります。
これは人間が相手でも同じ事です。何が正常で何が迷惑なのかを経験的に教え込むには、サンプルとして選ぶ標本の性質がランダムで、十分に大きなN数のサンプルを見せてやる必要があるからです。

こうして出来たランダムフォレストのツリーにぶら下がっているセットの平均をとると、ツリーが大きくなればなるほど確かに自動判定ができるようになっているという結果になります。


hiddy216さんのコメント
ランダムかつ大きなサンプルによることが信頼性につながることは理解できます(中心極限定理もそんな感じですね)。しかし、この説明ではなぜ平均なのかがよくわかりませんでした。判別の問題(1/0)は多数決で、それは直感的に意味が分かる(それぞれの木でどれだけ支持されたかなので)のですが、「平均」の意味をもっと直接的に知りたいです。
関連質問

●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ