# Conflicts:
#	docs/5.Logistic回归.md
This commit is contained in:
yangjifei
2017-03-08 18:37:30 +08:00
19 changed files with 1985 additions and 10 deletions

View File

@@ -5,6 +5,8 @@
* 把无序的数据转换成有用的信息。
* 机器学习的意义
* 我们利用计算机来彰显数据背后的真实含义。
* 机器学习的任务
* 机器学习的主要任务就是分类。
* 监督学习
* 样本集:训练数据 + 测试数据
* 特征(feature-是否有缺失情况) + 目标变量(分类-离散值<A/B/C、 是/否>/回归-连续值<0~100、 -999999>)

View File

@@ -23,3 +23,5 @@
* \\(H = -\sum_{i=0}^np(x_i)\log_2p(x_i)\\) 表示香农熵,用于计算信息熵
* 基尼不纯度(Gini impurity) [本书不做过多的介绍]
* 简单来说:就是从一个数据集中随机选取子项,度量其被错误分类到其他分组里的概率。
* 流程介绍图
* ![决策树流程介绍图](./3.决策树流程介绍图.jpg)

Binary file not shown.

After

Width:  |  Height:  |  Size: 56 KiB

13
docs/9.树回归.md Normal file
View File

@@ -0,0 +1,13 @@
# 9) 树回归
* 树回归是什么?
* 分类回归树(Classification and Regression TreeCART)是一种典型的决策树算法CART算法不仅可以应用于分类问题而且可以用于回归问题。
* CART算法构建的回归树并介绍其中的树剪枝技术(该技术主要的目的是防止数的过拟合)
* 树回归的构建
* 优点:可以对复杂和非线性的数据建模。
* 缺点:结果不易理解。
* 适用数据类型:数值型和标称型数据。
* 那么问题来了,如何计算连续型数值的混乱度呢?
* `误差`:也就是计算平均差的总值(总方差=方差*样本数)
* 二元切分方式