更新完AdaBoost的测试代码和案例

This commit is contained in:
jiangzhonglian
2017-03-15 20:04:27 +08:00
parent 12a19d1d6e
commit 6c2d2ac329
8 changed files with 466 additions and 54 deletions

View File

@@ -24,4 +24,4 @@
* 基尼不纯度(Gini impurity) [本书不做过多的介绍]
* 简单来说:就是从一个数据集中随机选取子项,度量其被错误分类到其他分组里的概率。
* 流程介绍图
* ![决策树流程介绍图](./3.决策树流程介绍图.jpg)
* ![决策树流程介绍图](./3.决策树流程介绍图.jpg)

BIN
docs/7.ROC曲线.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 319 KiB

BIN
docs/7.代价函数.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 130 KiB

View File

@@ -28,3 +28,20 @@
* 训练算法: 基于错误提升分类器的性能
* 基于单层决策树构建弱分类器
* 单层决策树(decision stump, 也称决策树桩)是一种简单的决策树。
* 过拟合(overfitting, 也称为过学习)
* 发现测试错误率在达到一个最小值之后有开始上升,这种现象称为过拟合。
* ![过拟合](./7.过拟合.png)
* 非均衡分类问题
* 现象:
* 判断马是否能继续生存
* 过滤垃圾邮件
* ROC曲线: 最佳的分类器应该尽可能地处于左上角
* ![ROC曲线](./7.ROC曲线.png)
* 对不同的ROC曲线进行比较的一个指标是曲线下的面积(Area Unser the Curve, AUC).
* AUC给出的是分类器的平均性能值当然它并不能完全代替对整条曲线的观察。
* 一个完美分类器的AUC为1而随机猜测的AUC则为0.5。
* 基于代价函数的分类器决策控制:`TP*(-5)+FN*1+FP*50+TN*0`
* ![代价函数](./7.代价函数.png)
* 过欠抽样(undersampling)或者过抽样(oversampling)
* 过欠抽样: 意味着复制样例(重复使用)
* 过抽样: 意味着删除样例

BIN
docs/7.过拟合.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 153 KiB