更新7.AdaBoost注解

This commit is contained in:
jiangzhonglian
2017-03-24 23:42:00 +08:00
parent 2d00b0516f
commit 1c0a890490
2 changed files with 99 additions and 52 deletions

View File

@@ -5,17 +5,12 @@
* 概念:是对其他算法进行组合的一种形式。
* 通俗来说: 当做重要决定时,大家可能都会考虑吸取多个专家而不只是一个人的意见。
机器学习处理问题时又何尝不是如此? 这就是元算法(meta-algorithm)背后的思想。
* AdaBoost(adaptive boosting: 自适应boosting)
* 能否使用弱分类器和多个实例来构建一个强分类器? 这是一个非常有趣的理论问题。
* 优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调节。
* 缺点:对离群点敏感。
* 适用数据类型:数值型和标称型数据。
* bagging基于数据随机重抽样的分类起构造方法
* 自举汇聚法(bootstrap aggregating)也称为bagging方法是在从原始数据集选择S次后得到S个新数据集的一种技术。
* 1. 新数据集和原数据集的大小相等。
* 2. 每个数据集都是通过在原始数据集中随机选择一个样本来进行替换(替换:意味着可以多次选择同一个样本,也就有重复值)而得到的。
* 3. 该算法作用的数据集就会得到S个分类器与此同时选择分类器投票结果中最多的类别作为最后的分类结果。
* 4. 例如:随森林(random forest)
* 4. 例如:随森林(random forest)
* boosting
* boosting是一种与bagging很类似的技术。不论是boosting还是bagging当中所使用的多个分类器的类型都是一致的。
* 区别是什么?
@@ -24,6 +19,11 @@
* 3. 由于boosting分类的结果是基于所有分类器的加权求和结果的因此boosting与bagging不太一样。
* 4. bagging中的分类器权重是相等的而boosting中的分类器权重并不相等每个权重代表的是其对应分类器在上一轮迭代中的成功度。
* 目前boosting方法最流行的版本是 AdaBoost。
* AdaBoost(adaptive boosting: 自适应boosting)
* 能否使用弱分类器和多个实例来构建一个强分类器? 这是一个非常有趣的理论问题。
* 优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调节。
* 缺点:对离群点敏感。
* 适用数据类型:数值型和标称型数据。
* AdaBoost的一般流程
* 训练算法: 基于错误提升分类器的性能
* 基于单层决策树构建弱分类器
@@ -42,6 +42,6 @@
* 一个完美分类器的AUC为1而随机猜测的AUC则为0.5。
* 基于代价函数的分类器决策控制:`TP*(-5)+FN*1+FP*50+TN*0`
* ![代价函数](./7.代价函数.png)
* 欠抽样(undersampling)或者过抽样(oversampling)
* 欠抽样: 意味着复制样例(重复使用)
* 过抽样: 意味着删除样例
* 欠抽样(undersampling)或者过抽样(oversampling)
* 欠抽样: 意味着删除样例
* 过抽样: 意味着复制样例(重复使用)