■ - Ijies555の105歳までにすること

決定木の数式を理解したい

回帰とニューラルネットワークについては、イメージがつくが、決定木については、中々イメージが付かない。もう少し、ググってみる。

基準となる特徴量やしきい値はどう決めるのか?

(分割前の不純度) - (分割後の不純度)

が最大になるように、分割の基準を決定する。つまり、(分割後の不純度)が最小になるような分割を行う。「不純度」とは、簡単にいうと、どれだけいろいろなクラスの観測値が混じり合っているかを表す指標。分類問題の場合は、1つのノードに1つのクラスの観測値のみがあるのが理想(不純度=0)。

数式で考えると

Nm個の観測値を持つ領域Rｍにおけるクラスｋの観測値の割合を次のように書く。

$$\hat{P}_mk =1/N_m

\sum_{x_i\in R_i}I(y_i = k)$$

$$1 -\sum{k=1}^K\hat{P}mk²$$

$$- \sum{k+1}^K\hat{P}mk\log\hat{P}_mk$$

左: gini = 0.168, samples = 54, value [0, 49, 5], class = versicolor

右: gini = 0.043, samples = 46, value = [0, 1, 45], class = virgica

左　

$$1- \Biggl(\frac{0}{54}\Biggr)² - \Biggl(\frac{49}{54}\Biggr)² - \Biggl(\frac{49}{54}\Biggr)² \approx 0.168 $$

右　

$$1- \Biggl(\frac{0}{46}\Biggr)² - \Biggl(\frac{1}{46}\Biggr)² - \Biggl(\frac{45}{46}\Biggr)² \approx 0.043 $$

よって、全体の不純度は、

$$\frac{54}{100}\times0.168 + \frac{46}{100}\times0.043 \approx 0.111$$

メリット 1. 理解が容易である(ホワイトボックス)。 1. 分類・回帰のいずれにも適用できる。 1. あらゆる問題に広く適用できる。

デメリット 1. 分散が大きい(外れ値の影響を受けやすい)。 2. 過学習しやすい(ノンパラメトリックモデル)。 3. 予測面が滑らかではない。

回帰問題の場合、コスト関数を以下のように定義する。

$$\hat{c}_mk =1/N_m

\sum_{x_i\in R_i}y_i$$

$$Q_m(T) =1/N_m

\sum{x_i\in R_i}(y_i - \hat{c}m)²$$

$\hat{c}_m$はその領域に含まれる観測値の平均を表している。よって、このコスト関数は平均2乗誤差である。2つに分割したそれぞれの領域の平均2乗誤差の重み付き和が最小になるように分割を行う。