Wikipediaを読むと「情報理論におけるエントロピーにあたる」と書いてあるのですが、このエントロピーというのは物理学のエントロピーとどう違うのですか?
(単なる検索結果へのリンクはいりません。本当に理解している方に自分の言葉で説明していただければ幸いです)
AとBが、以下のように順番に並んでいたとします。
AAAABBAABABAABBBB
これはどこに分岐を入れるべきでしょうか。いくつか考えられます。
AAAA|BBAA BA BA BBBB = A4B0 | A4B8
AAAA BBAA|BA BA BBBB = A6B2 | A2B6
AAAA BBAA BA|BA BBBB = A7B3 | A1B5
AAAA BBAA BA BA|BBBB = A8B4 | A0B4
右側に書いたのは、分岐の左右でのAとBの頻度です。これらの候補からどれを選ぶかの基準として登場するのがinformation gainです。
Wikiにもあるように、AxByなら、p=x/(x+y) として - p log p - (1-p)log(1-p)で計算します。これが小さい分け方を選択します。
極端な例では、こんな並びの属性があれば、そこには自明な分岐があって、
AAA | BBB = A3B0 | A0B3
information gainは最小の0となっています。
同様に、どの属性(特徴量、変数)で分岐すべきかを選択するにも、この値の小さい属性&分岐から選択するのが基本的な方法です。
物理のエントロピーとは「乱雑さの指標である」という概念的共通点があるだけと思っていますが、物理のエントロピーは記憶の彼方です、すいません。
>>このpは分岐の左右それぞれについて計算することになるのでしょうか。
そうなります。両側のエントロピーの和が、分岐のよしあしになります。
>>左のハコがp=4/(4+0)=1
>>右のハコがp=4/(4+8)=0.333
>>という理解でよいのでしょうか。
はい。
>>それから、ここでつかわれているlog xは底が2の対数ということでよろしいのでしょうか。
はい。2が普通です。