mirror of
https://github.com/apachecn/ailearning.git
synced 2026-05-11 00:58:19 +08:00
更新7.AdaBoost注解
This commit is contained in:
@@ -5,17 +5,12 @@
|
||||
* 概念:是对其他算法进行组合的一种形式。
|
||||
* 通俗来说: 当做重要决定时,大家可能都会考虑吸取多个专家而不只是一个人的意见。
|
||||
机器学习处理问题时又何尝不是如此? 这就是元算法(meta-algorithm)背后的思想。
|
||||
* AdaBoost(adaptive boosting: 自适应boosting)
|
||||
* 能否使用弱分类器和多个实例来构建一个强分类器? 这是一个非常有趣的理论问题。
|
||||
* 优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调节。
|
||||
* 缺点:对离群点敏感。
|
||||
* 适用数据类型:数值型和标称型数据。
|
||||
* bagging:基于数据随机重抽样的分类起构造方法
|
||||
* 自举汇聚法(bootstrap aggregating),也称为bagging方法,是在从原始数据集选择S次后得到S个新数据集的一种技术。
|
||||
* 1. 新数据集和原数据集的大小相等。
|
||||
* 2. 每个数据集都是通过在原始数据集中随机选择一个样本来进行替换(替换:意味着可以多次选择同一个样本,也就有重复值)而得到的。
|
||||
* 3. 该算法作用的数据集就会得到S个分类器,与此同时,选择分类器投票结果中最多的类别作为最后的分类结果。
|
||||
* 4. 例如:随即森林(random forest)
|
||||
* 4. 例如:随机森林(random forest)
|
||||
* boosting
|
||||
* boosting是一种与bagging很类似的技术。不论是boosting还是bagging当中,所使用的多个分类器的类型都是一致的。
|
||||
* 区别是什么?
|
||||
@@ -24,6 +19,11 @@
|
||||
* 3. 由于boosting分类的结果是基于所有分类器的加权求和结果的,因此boosting与bagging不太一样。
|
||||
* 4. bagging中的分类器权重是相等的,而boosting中的分类器权重并不相等,每个权重代表的是其对应分类器在上一轮迭代中的成功度。
|
||||
* 目前boosting方法最流行的版本是: AdaBoost。
|
||||
* AdaBoost(adaptive boosting: 自适应boosting)
|
||||
* 能否使用弱分类器和多个实例来构建一个强分类器? 这是一个非常有趣的理论问题。
|
||||
* 优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调节。
|
||||
* 缺点:对离群点敏感。
|
||||
* 适用数据类型:数值型和标称型数据。
|
||||
* AdaBoost的一般流程
|
||||
* 训练算法: 基于错误提升分类器的性能
|
||||
* 基于单层决策树构建弱分类器
|
||||
@@ -42,6 +42,6 @@
|
||||
* 一个完美分类器的AUC为1,而随机猜测的AUC则为0.5。
|
||||
* 基于代价函数的分类器决策控制:`TP*(-5)+FN*1+FP*50+TN*0`
|
||||
* 
|
||||
* 过欠抽样(undersampling)或者过抽样(oversampling)
|
||||
* 过欠抽样: 意味着复制样例(重复使用)
|
||||
* 过抽样: 意味着删除样例
|
||||
* 欠抽样(undersampling)或者过抽样(oversampling)
|
||||
* 欠抽样: 意味着删除样例
|
||||
* 过抽样: 意味着复制样例(重复使用)
|
||||
|
||||
Reference in New Issue
Block a user