Merge branch 'master' of https://github.com/apachecn/MachineLearning

# Conflicts: # docs/5.Logistic回归.md
2026-02-12 14:55:51 +08:00 · 2017-03-08 18:37:30 +08:00
parent c10d797c58 512891beab
commit c1fa2ee4e4
19 changed files with 1985 additions and 10 deletions
--- a/docs/1.机器学习基础.md
+++ b/docs/1.机器学习基础.md
@@ -5,6 +5,8 @@
    * 把无序的数据转换成有用的信息。
 * 机器学习的意义
    * 我们利用计算机来彰显数据背后的真实含义。
+* 机器学习的任务
+    * 机器学习的主要任务就是分类。
 * 监督学习
    * 样本集：训练数据 + 测试数据
    * 特征(feature-是否有缺失情况) + 目标变量(分类-离散值<A/B/C、 是/否>/回归-连续值<0~100、 -999～999>)
--- a/docs/3.决策树.md
+++ b/docs/3.决策树.md
@@ -23,3 +23,5 @@
            * \\(H = -\sum_{i=0}^np(x_i)\log_2p(x_i)\\) 表示香农熵，用于计算信息熵
    * 基尼不纯度(Gini impurity)  [本书不做过多的介绍]
        * 简单来说：就是从一个数据集中随机选取子项，度量其被错误分类到其他分组里的概率。
+* 流程介绍图
+* ![决策树流程介绍图](./3.决策树流程介绍图.jpg)
--- a/docs/3.决策树流程介绍图.jpg
+++ b/docs/3.决策树流程介绍图.jpg
--- a/docs/9.树回归.md
+++ b/docs/9.树回归.md
@@ -0,0 +1,13 @@
+
+# 9) 树回归
+
+* 树回归是什么？
+    * 分类回归树(Classification and Regression Tree，CART)是一种典型的决策树算法，CART算法不仅可以应用于分类问题，而且可以用于回归问题。
+    * CART算法构建的回归树并介绍其中的树剪枝技术(该技术主要的目的是防止数的过拟合)
+* 树回归的构建
+    * 优点：可以对复杂和非线性的数据建模。
+    * 缺点：结果不易理解。
+    * 适用数据类型：数值型和标称型数据。
+* 那么问题来了，如何计算连续型数值的混乱度呢？
+    * `误差`：也就是计算平均差的总值(总方差=方差*样本数)
+    * 二元切分方式