mirror of
https://github.com/apachecn/ailearning.git
synced 2026-05-08 14:52:28 +08:00
更新完AdaBoost的测试代码和案例
This commit is contained in:
@@ -24,4 +24,4 @@
|
||||
* 基尼不纯度(Gini impurity) [本书不做过多的介绍]
|
||||
* 简单来说:就是从一个数据集中随机选取子项,度量其被错误分类到其他分组里的概率。
|
||||
* 流程介绍图
|
||||
* 
|
||||
* 
|
||||
|
||||
BIN
docs/7.ROC曲线.png
Normal file
BIN
docs/7.ROC曲线.png
Normal file
Binary file not shown.
|
After Width: | Height: | Size: 319 KiB |
BIN
docs/7.代价函数.png
Normal file
BIN
docs/7.代价函数.png
Normal file
Binary file not shown.
|
After Width: | Height: | Size: 130 KiB |
@@ -28,3 +28,20 @@
|
||||
* 训练算法: 基于错误提升分类器的性能
|
||||
* 基于单层决策树构建弱分类器
|
||||
* 单层决策树(decision stump, 也称决策树桩)是一种简单的决策树。
|
||||
* 过拟合(overfitting, 也称为过学习)
|
||||
* 发现测试错误率在达到一个最小值之后有开始上升,这种现象称为过拟合。
|
||||
* 
|
||||
* 非均衡分类问题
|
||||
* 现象:
|
||||
* 判断马是否能继续生存
|
||||
* 过滤垃圾邮件
|
||||
* ROC曲线: 最佳的分类器应该尽可能地处于左上角
|
||||
* 
|
||||
* 对不同的ROC曲线进行比较的一个指标是曲线下的面积(Area Unser the Curve, AUC).
|
||||
* AUC给出的是分类器的平均性能值,当然它并不能完全代替对整条曲线的观察。
|
||||
* 一个完美分类器的AUC为1,而随机猜测的AUC则为0.5。
|
||||
* 基于代价函数的分类器决策控制:`TP*(-5)+FN*1+FP*50+TN*0`
|
||||
* 
|
||||
* 过欠抽样(undersampling)或者过抽样(oversampling)
|
||||
* 过欠抽样: 意味着复制样例(重复使用)
|
||||
* 过抽样: 意味着删除样例
|
||||
|
||||
BIN
docs/7.过拟合.png
Normal file
BIN
docs/7.过拟合.png
Normal file
Binary file not shown.
|
After Width: | Height: | Size: 153 KiB |
Reference in New Issue
Block a user