From 1fa389e973f040d772ef6e47b40d649fc82f23ac Mon Sep 17 00:00:00 2001
From: jiangzhonglian <jiang-s@163.com>
Date: Thu, 17 Aug 2017 00:23:32 +0800
Subject: [PATCH] =?UTF-8?q?=E6=9B=B4=E6=96=B0=20=E6=9C=BA=E5=99=A8?=
 =?UTF-8?q?=E5=AD=A6=E4=B9=A0=E5=9F=BA=E7=A1=80=E7=9A=84md=E5=86=85?=
 =?UTF-8?q?=E5=AE=B9?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 docs/1.机器学习基础.md                | 66 +++++++++++++--------------
 docs/7.集成方法-随机森林和AdaBoost.md |  2 +-
 2 files changed, 33 insertions(+), 35 deletions(-)

diff --git a/docs/1.机器学习基础.md b/docs/1.机器学习基础.md
index c3950409..d8c545d0 100644
--- a/docs/1.机器学习基础.md
+++ b/docs/1.机器学习基础.md
@@ -9,14 +9,15 @@
 1. 获取海量的数据
 2. 从海量数据中获取有用的信息
 
+我们会利用计算机来彰显数据背后的真实含义，这才是`机器学习`的真实含义。
 
 ## 机器学习 场景
 
 ```
-例如：动物猫
-模式识别：人通过经验，得到：这个就是猫。
-机器学习：人通过大量的书籍来学习，得到：这个就是猫
-深度学习：人通过大量的书籍，然后先对书籍内容：文字／图片／视频，进行特征提取，特征强化，降维，得到：这个就是猫。
+例如：识别动物猫
+模式识别（官方标准）：人们通过大量的经验，得到结论，从而判断它就是猫。
+机器学习（数据学习）：人通过阅读进行学习，观察它会叫、小眼睛、两只耳朵、四条腿、一条尾巴，得到结论，从而判断它就是猫。
+深度学习（深入数据）：人通过深度了解它，发现它会'喵喵'的叫、与同类的猫科动物很类似，得到结论，从而判断它就是猫。（深度学习常用领域：语音、图形）
 
 模式识别（pattern recognition）: 模式识别是最古老的（作为一个术语而言，可以说是很过时的）。
     我们把环境与客体统称为“模式”，识别是对模式的一种认知，是如何让一个计算机程序去做一些看起来很“智能”的事情。
@@ -33,68 +34,65 @@ http://www.csdn.net/article/2015-03-24/2824301
 http://baike.baidu.com/link?url=76P-uA4EBrC3G-I__P1tqeO7eoDS709Kp4wYuHxc7GNkz_xn0NxuAtEohbpey7LUa2zUQLJxvIKUx4bnrEfOmsWLKbDmvG1PCoRkJisMTQka6-QReTrIxdYY3v93f55q
 ```
 
-我们会利用计算机来彰显数据背后的真实含义，这才是`机器学习`的真实含义。
-
 > 机器学习已应用于多个领域，远远超出大多数人的想象，横跨：计算机科学、工程技术和统计学等多个学科。
 
-* 搜索引擎，根据你的搜索点击，优化你下次的搜索结果。
-* 垃圾邮件，会自动的过滤垃圾广告邮件到垃圾箱内。
-* 超市优惠券，你会发现，你在购买小孩子尿布的时候，售货员会赠送你一张优惠券可以兑换6罐啤酒。
-* 邮局邮寄，手写软件自动识别寄送贺卡的地址。
-* 申请贷款 或 进入赌场，通过你最近的金融活动信息进行综合评定，决定你是否合格。
+* 搜索引擎: 根据你的搜索点击，优化你下次的搜索结果。
+* 垃圾邮件: 会自动的过滤垃圾广告邮件到垃圾箱内。
+* 超市优惠券: 你会发现，你在购买小孩子尿布的时候，售货员会赠送你一张优惠券可以兑换6罐啤酒。
+* 邮局邮寄: 手写软件自动识别寄送贺卡的地址。
+* 申请贷款 或 进入赌场: 通过你最近的金融活动信息进行综合评定，决定你是否合格。
 
 
-## 机器学习 主要任务
+## 机器学习 组成
 
-> 机器学习的主要任务就是分类和回归
+### 主要任务
 
 * 分类：将实例数据划分到合适的类别中。
 * 回归：主要用于预测数值型数据。（示例：数据通过给定数据点来拟合最优曲线）
-* 目标变量
-    * 目标变量是机器学习预测算法的测试结果。
-    * 在分类算法中目标变量的类型通常是标称型(如：真与假)，而在回归算法中通常是连续型(如：1~100)。
 
-* 机器学习的训练过程<br/>
-![机器学习训练过程图](/images/1.MLFoundation/机器学习基础训练过程.png)
+### 监督学习
 
-> 监督学习
-
-* 必须知道预测什么，即必须知道目标变量的分类信息。分类和回归属于监督学习。
+* 必须确定目标变量的值，以便机器学习算法可以发现特征和目标变量之间的关系。 (包括：分类和回归)
 * 样本集：训练数据 + 测试数据
-    * 训练样本 = 特征(feature) + 目标变量(label)
-    * 训练样本的集合称为训练样本集，训练样本集必须确定目标变量的值，以便机器学习算法可以发现特征和目标变量之间的关系。
-* 特征(feature-是否有缺失情况) + 目标变量(分类-离散值<A/B/C、 是/否>/回归-连续值<0~100、 -999～999>)
-    * 特征或者属性通常是训练样本集的列，它们是独立测量得到的结果，多个特征联系在一起共同组成一个训练样本。
-* `知识表示`：(例如-机器已经学会如何识别鸟类的过程)
+    * 训练样本 = 特征(feature) + 目标变量(label: 分类-离散值/回归-连续值)
+    * 特征通常是训练样本集的列，它们是独立测量得到的。
+    * 目标变量: 目标变量是机器学习预测算法的测试结果。
+        * 在分类算法中目标变量的类型通常是标称型(如：真与假)，而在回归算法中通常是连续型(如：1~100)。
+* `知识表示`：
     1. 可以采用规则集的形式【例如：数学成绩大于90分为优秀】
     2. 可以采用概率分布的形式【例如：通过统计分布发现，90%的同学数学成绩，在70分以下，那么大于70分定为优秀】
     3. 可以使用训练样本集中的一个实例【例如：通过样本集合，我们训练出一个模型实例，得出 年轻，数学成绩中高等，谈吐优雅，我们认为是优秀】
 
-> 非监督学习
+### 非监督学习
 
 * 数据没有类别信息，也不会给定目标值。
-* 聚类：在无监督学习中，将数据集合分成由类似的对象组成多个类的过程称为聚类。
+* 聚类：在无监督学习中，将数据集分成由类似的对象组成多个类的过程称为聚类。
 * 密度估计：将寻找描述数据统计值的过程称之为密度估计。【就是：根据训练样本确定x的概率分布】
 * 此外，无监督学习还可以减少数据特征的维度，以便我们可以使用二维或三维图形更加直观地展示数据信息。
 
-> 算法汇总
+### 训练过程
+
+![机器学习训练过程图](/images/1.MLFoundation/机器学习基础训练过程.png)
+
+### 算法汇总
 
 ![算法汇总](/images/1.MLFoundation/ml_algorithm.jpg)
 
 
-## 机器学习 学习
+## 机器学习 使用
 
 > 选择算法需要考虑的两个问题
 
-1. 使用机器学习算法的目的
-    * 想要完成何种任务，比如是预测明天下雨的概率还是对投票者按照兴趣分组；如果想要预测目标变量的值，则可以选择监督学习算法，否则可以选择无监督学习算法。
-2. 需要分析或收集的数据是什么
+1. 算法场景
+    * 预测明天是否下雨，可以选择监督学习算法
+    * 给一群陌生的人进行分组，可以选择无监督学习算法。
+2. 需要收集或分析的数据是什么
 
 > 举例
 
 ![选择算法图](/images/1.MLFoundation/机器学习基础-选择算法.jpg)
 
-> 机器学习 开发步骤
+> 机器学习 开发流程
 
 ```
 * 收集数据: 收集样本数据
diff --git a/docs/7.集成方法-随机森林和AdaBoost.md b/docs/7.集成方法-随机森林和AdaBoost.md
index 30296be3..2df1e7a1 100644
--- a/docs/7.集成方法-随机森林和AdaBoost.md
+++ b/docs/7.集成方法-随机森林和AdaBoost.md
@@ -81,7 +81,7 @@
 
 ![AdaBoost 工作原理](/images/7.AdaBoost/adaboost_illustration.png "AdaBoost 工作原理")
 
-> AdaBoost 一般流程
+> AdaBoost 开发流程
 
 ```
 收集数据：可以使用任意方法