决策树测试案例更新完成

This commit is contained in:
jiangzhonglian
2017-02-28 19:05:27 +08:00
parent 7da5afed05
commit a4bcdf74c3
3 changed files with 231 additions and 26 deletions

View File

@@ -1,5 +1,6 @@
# 3) 决策树
<script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=default"></script>
* 决策树是什么?
* 顾名思义,是一种树,一种依托于策略抉择而建立起来的树。
@@ -17,7 +18,8 @@
* 划分数据集的最大原则是:将无序的数据变得更加有序。
* 集合信息的度量称为`香农熵`或者简称`熵`(名字来源于信息论之父`克劳德·香农`)
* 公式:
* l(x_i) = -log_2 P(x_i)
* <img src="http://chart.googleapis.com/chart?cht=tx&chl=\Large x=\frac{-b\pm\sqrt{b^2-4ac}}{2a}" style="border:none;">
* \\(p(x_i)\\) 表示该label分类的概率
* \\(l(x_i) = - \log_2p(x_i)\\) 表示符号\\(x_i\\)的信息定义
* \\(H = -\sum_{i=0}^np(x_i)\log_2p(x_i)\\) 表示香农熵,用于计算信息熵
* 基尼不纯度(Gini impurity) [本书不做过多的介绍]
* 简单来说:就是从一个数据集中随机选取子项,度量其被错误分类到其他分组里的概率。