From 1fa389e973f040d772ef6e47b40d649fc82f23ac Mon Sep 17 00:00:00 2001 From: jiangzhonglian Date: Thu, 17 Aug 2017 00:23:32 +0800 Subject: [PATCH] =?UTF-8?q?=E6=9B=B4=E6=96=B0=20=E6=9C=BA=E5=99=A8?= =?UTF-8?q?=E5=AD=A6=E4=B9=A0=E5=9F=BA=E7=A1=80=E7=9A=84md=E5=86=85?= =?UTF-8?q?=E5=AE=B9?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- docs/1.机器学习基础.md | 66 +++++++++++++-------------- docs/7.集成方法-随机森林和AdaBoost.md | 2 +- 2 files changed, 33 insertions(+), 35 deletions(-) diff --git a/docs/1.机器学习基础.md b/docs/1.机器学习基础.md index c3950409..d8c545d0 100644 --- a/docs/1.机器学习基础.md +++ b/docs/1.机器学习基础.md @@ -9,14 +9,15 @@ 1. 获取海量的数据 2. 从海量数据中获取有用的信息 +我们会利用计算机来彰显数据背后的真实含义,这才是`机器学习`的真实含义。 ## 机器学习 场景 ``` -例如:动物猫 -模式识别:人通过经验,得到:这个就是猫。 -机器学习:人通过大量的书籍来学习,得到:这个就是猫 -深度学习:人通过大量的书籍,然后先对书籍内容:文字/图片/视频,进行特征提取,特征强化,降维,得到:这个就是猫。 +例如:识别动物猫 +模式识别(官方标准):人们通过大量的经验,得到结论,从而判断它就是猫。 +机器学习(数据学习):人通过阅读进行学习,观察它会叫、小眼睛、两只耳朵、四条腿、一条尾巴,得到结论,从而判断它就是猫。 +深度学习(深入数据):人通过深度了解它,发现它会'喵喵'的叫、与同类的猫科动物很类似,得到结论,从而判断它就是猫。(深度学习常用领域:语音、图形) 模式识别(pattern recognition): 模式识别是最古老的(作为一个术语而言,可以说是很过时的)。 我们把环境与客体统称为“模式”,识别是对模式的一种认知,是如何让一个计算机程序去做一些看起来很“智能”的事情。 @@ -33,68 +34,65 @@ http://www.csdn.net/article/2015-03-24/2824301 http://baike.baidu.com/link?url=76P-uA4EBrC3G-I__P1tqeO7eoDS709Kp4wYuHxc7GNkz_xn0NxuAtEohbpey7LUa2zUQLJxvIKUx4bnrEfOmsWLKbDmvG1PCoRkJisMTQka6-QReTrIxdYY3v93f55q ``` -我们会利用计算机来彰显数据背后的真实含义,这才是`机器学习`的真实含义。 - > 机器学习已应用于多个领域,远远超出大多数人的想象,横跨:计算机科学、工程技术和统计学等多个学科。 -* 搜索引擎,根据你的搜索点击,优化你下次的搜索结果。 -* 垃圾邮件,会自动的过滤垃圾广告邮件到垃圾箱内。 -* 超市优惠券,你会发现,你在购买小孩子尿布的时候,售货员会赠送你一张优惠券可以兑换6罐啤酒。 -* 邮局邮寄,手写软件自动识别寄送贺卡的地址。 -* 申请贷款 或 进入赌场,通过你最近的金融活动信息进行综合评定,决定你是否合格。 +* 搜索引擎: 根据你的搜索点击,优化你下次的搜索结果。 +* 垃圾邮件: 会自动的过滤垃圾广告邮件到垃圾箱内。 +* 超市优惠券: 你会发现,你在购买小孩子尿布的时候,售货员会赠送你一张优惠券可以兑换6罐啤酒。 +* 邮局邮寄: 手写软件自动识别寄送贺卡的地址。 +* 申请贷款 或 进入赌场: 通过你最近的金融活动信息进行综合评定,决定你是否合格。 -## 机器学习 主要任务 +## 机器学习 组成 -> 机器学习的主要任务就是分类和回归 +### 主要任务 * 分类:将实例数据划分到合适的类别中。 * 回归:主要用于预测数值型数据。(示例:数据通过给定数据点来拟合最优曲线) -* 目标变量 - * 目标变量是机器学习预测算法的测试结果。 - * 在分类算法中目标变量的类型通常是标称型(如:真与假),而在回归算法中通常是连续型(如:1~100)。 -* 机器学习的训练过程
-![机器学习训练过程图](/images/1.MLFoundation/机器学习基础训练过程.png) +### 监督学习 -> 监督学习 - -* 必须知道预测什么,即必须知道目标变量的分类信息。分类和回归属于监督学习。 +* 必须确定目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。 (包括:分类和回归) * 样本集:训练数据 + 测试数据 - * 训练样本 = 特征(feature) + 目标变量(label) - * 训练样本的集合称为训练样本集,训练样本集必须确定目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。 -* 特征(feature-是否有缺失情况) + 目标变量(分类-离散值/回归-连续值<0~100、 -999~999>) - * 特征或者属性通常是训练样本集的列,它们是独立测量得到的结果,多个特征联系在一起共同组成一个训练样本。 -* `知识表示`:(例如-机器已经学会如何识别鸟类的过程) + * 训练样本 = 特征(feature) + 目标变量(label: 分类-离散值/回归-连续值) + * 特征通常是训练样本集的列,它们是独立测量得到的。 + * 目标变量: 目标变量是机器学习预测算法的测试结果。 + * 在分类算法中目标变量的类型通常是标称型(如:真与假),而在回归算法中通常是连续型(如:1~100)。 +* `知识表示`: 1. 可以采用规则集的形式【例如:数学成绩大于90分为优秀】 2. 可以采用概率分布的形式【例如:通过统计分布发现,90%的同学数学成绩,在70分以下,那么大于70分定为优秀】 3. 可以使用训练样本集中的一个实例【例如:通过样本集合,我们训练出一个模型实例,得出 年轻,数学成绩中高等,谈吐优雅,我们认为是优秀】 -> 非监督学习 +### 非监督学习 * 数据没有类别信息,也不会给定目标值。 -* 聚类:在无监督学习中,将数据集合分成由类似的对象组成多个类的过程称为聚类。 +* 聚类:在无监督学习中,将数据集分成由类似的对象组成多个类的过程称为聚类。 * 密度估计:将寻找描述数据统计值的过程称之为密度估计。【就是:根据训练样本确定x的概率分布】 * 此外,无监督学习还可以减少数据特征的维度,以便我们可以使用二维或三维图形更加直观地展示数据信息。 -> 算法汇总 +### 训练过程 + +![机器学习训练过程图](/images/1.MLFoundation/机器学习基础训练过程.png) + +### 算法汇总 ![算法汇总](/images/1.MLFoundation/ml_algorithm.jpg) -## 机器学习 学习 +## 机器学习 使用 > 选择算法需要考虑的两个问题 -1. 使用机器学习算法的目的 - * 想要完成何种任务,比如是预测明天下雨的概率还是对投票者按照兴趣分组;如果想要预测目标变量的值,则可以选择监督学习算法,否则可以选择无监督学习算法。 -2. 需要分析或收集的数据是什么 +1. 算法场景 + * 预测明天是否下雨,可以选择监督学习算法 + * 给一群陌生的人进行分组,可以选择无监督学习算法。 +2. 需要收集或分析的数据是什么 > 举例 ![选择算法图](/images/1.MLFoundation/机器学习基础-选择算法.jpg) -> 机器学习 开发步骤 +> 机器学习 开发流程 ``` * 收集数据: 收集样本数据 diff --git a/docs/7.集成方法-随机森林和AdaBoost.md b/docs/7.集成方法-随机森林和AdaBoost.md index 30296be3..2df1e7a1 100644 --- a/docs/7.集成方法-随机森林和AdaBoost.md +++ b/docs/7.集成方法-随机森林和AdaBoost.md @@ -81,7 +81,7 @@ ![AdaBoost 工作原理](/images/7.AdaBoost/adaboost_illustration.png "AdaBoost 工作原理") -> AdaBoost 一般流程 +> AdaBoost 开发流程 ``` 收集数据:可以使用任意方法