更新完AdaBoost的测试代码和案例

2026-05-08 14:52:28 +08:00 · 2017-03-15 20:04:27 +08:00
parent 12a19d1d6e
commit 6c2d2ac329
8 changed files with 466 additions and 54 deletions
--- a/docs/3.决策树.md
+++ b/docs/3.决策树.md
@@ -24,4 +24,4 @@
    * 基尼不纯度(Gini impurity)  [本书不做过多的介绍]
        * 简单来说：就是从一个数据集中随机选取子项，度量其被错误分类到其他分组里的概率。
 * 流程介绍图
-* ![决策树流程介绍图](./3.决策树流程介绍图.jpg)
+* ![决策树流程介绍图](./3.决策树流程介绍图.jpg)
--- a/docs/7.ROC曲线.png
+++ b/docs/7.ROC曲线.png
--- a/docs/7.代价函数.png
+++ b/docs/7.代价函数.png
--- a/docs/7.利用AdaBoost元算法提高分类.md
+++ b/docs/7.利用AdaBoost元算法提高分类.md
@@ -28,3 +28,20 @@
    * 训练算法： 基于错误提升分类器的性能
    * 基于单层决策树构建弱分类器
        * 单层决策树(decision stump, 也称决策树桩)是一种简单的决策树。
+    * 过拟合(overfitting, 也称为过学习)
+        * 发现测试错误率在达到一个最小值之后有开始上升，这种现象称为过拟合。
+    * ![过拟合](./7.过拟合.png)
+* 非均衡分类问题
+    * 现象：
+        * 判断马是否能继续生存
+        * 过滤垃圾邮件
+    * ROC曲线: 最佳的分类器应该尽可能地处于左上角
+    * ![ROC曲线](./7.ROC曲线.png)
+        * 对不同的ROC曲线进行比较的一个指标是曲线下的面积(Area Unser the Curve, AUC). 
+        * AUC给出的是分类器的平均性能值，当然它并不能完全代替对整条曲线的观察。
+        * 一个完美分类器的AUC为1，而随机猜测的AUC则为0.5。
+    * 基于代价函数的分类器决策控制：`TP*(-5)+FN*1+FP*50+TN*0`
+    * ![代价函数](./7.代价函数.png)
+    * 过欠抽样(undersampling)或者过抽样(oversampling)
+        * 过欠抽样: 意味着复制样例(重复使用)
+        * 过抽样: 意味着删除样例
--- a/docs/7.过拟合.png
+++ b/docs/7.过拟合.png