diff --git a/docs/3.决策树.md b/docs/3.决策树.md index 7863a28c..e4a57698 100644 --- a/docs/3.决策树.md +++ b/docs/3.决策树.md @@ -4,35 +4,29 @@ ![决策树_首页](/images/3.DecisionTree/DecisionTree_headpage_xy.png "决策树首页") -## 决策树简介 +## 决策树 概述 + +`决策树(Decision Tree)算法主要用来处理分类问题,是最经常使用的数据挖掘算法之一。` + +## 决策树 场景 + +一个叫做 "二十个问题" 的游戏,游戏的规则很简单:参与游戏的一方在脑海中想某个事物,其他参与者向他提问,只允许提 20 个问题,问题的答案也只能用对或错回答。问问题的人通过推断分解,逐步缩小待猜测事物的范围,最后得到游戏的答案。 + +一个邮件分类系统,大致工作流程如下: ![决策树-流程图](/images/3.DecisionTree/决策树-流程图.jpg "决策树示例流程图") -* 引入 +``` +首先检测发送邮件域名地址。如果地址为 myEmployer.com, 则将其放在分类 "无聊时需要阅读的邮件"中。 +如果邮件不是来自这个域名,则检测邮件内容里是否包含单词 "曲棍球" , 如果包含则将邮件归类到 "需要及时处理的朋友邮件", +如果不包含则将邮件归类到 "无需阅读的垃圾邮件" 。 +``` - 你是否玩过一个叫做 "二十个问题" 的游戏,游戏的规则很简单:参与游戏的一方在脑海中想某个事物,其他参与者向他提问,只允许提 20 个问题,问题的答案也只能用对或错回答。问问题的人通过推断分解,逐步缩小待猜测事物的范围。决策树的工作原理与 20 个问题类似,用户输入一系列数据,然后给出游戏的答案。 +## 决策树 原理 -* 简要介绍 +### 决策树 须知概念 - 根据一些 feature 进行分类,每个节点提一个问题,通过判断,将数据分为两类,再继续提问。这些数据是根据已有数据学习出来的,再投入新数据的时候,就可以根据这棵树上的问题,将数据划分到合适的叶子上。 - -* 决策树的任务 - - 第二章的 k-近邻算法可以完成很多分类任务,但是它最大的缺点就是无法给出数据的内在含义。决策树的主要优势就在于数据形式非常容易理解。 - - 接下来构造的决策树算法能够读取数据集合,构建类似于上图的决策树。决策树的一个重要任务是为了理解数据中所蕴含的知识信息,因此决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,这些机器根据数据集创建规则的过程,就是机器学习的过程。 - - 专家系统中经常使用决策树,而且决策树给出结果往往可以匹敌在当前领域具有几十年工作经验的人类专家。 - -* 决策树的特点 - - 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。 - - 缺点:可能会产生过度匹配问题。 - - 适用数据类型:数值型和标称型。 - -## 在数据集中度量一致性 +在数据集中度量一致性 划分数据集的最大原则是: 将无序的数据变得更加有序。我们可以使用多种方法划分数据集,但是每种方法都有各自的优缺点。组织杂乱无章数据的一种方法就是使用信息论度量信息,信息论是量化处理信息的分支科学。我们可以在划分数据之前或之后使用信息论量化度量信息的内容。 @@ -40,93 +34,122 @@ 学习了如何度量数据集的无序程度之后,分类算法除了需要测量信息熵,还需要划分数据集,度量划分数据集的熵,以便判断当前是否正确地划分了数据集。我们将对每个特征划分数据集的结果计算一次信息熵,然后判断按照哪个特征划分数据集是最好的划分方式。 -## 使用递归构造决策树 -> 构造决策树时需要解决的第一个问题 +### 决策树 工作原理 -``` - 在构造决策树时,我们需要解决的第一个问题就是,当前的数据集上哪个特征在划分数据分类时起决定性作用。 -为了找到决定性的特征,划分出最好的结果,我们必须评估每个特征。完成测试之后,原始数据集就被划分为几个数据子集。 -这些数据子集会分布在第一个决策点的所有分支上。如果某个分支下的数据属于同一类型,则当前无需阅读的垃圾邮件已经正确地划分数据分类, -无需进一步对数据集进行分割。如果数据子集内的数据不属于同一类型,则需要重复划分数据子集的过程。划分数据子集的算法和划分原始数据集的方法相同, -直到所有具有相同类型的数据均在一个数据子集内。 +1. 检测数据集中的每个子项是否属于同一分类: + 1. 如果属于同一分类,返回对应的类别标签 label + 2. 如果不属于同一分类: + 1. 寻找划分数据集的最好特征 + 2. 划分数据集 + 3. 创建分支节点 + * 对于每个划分的子集,调用函数 createBranch (创建分支的函数)并增加返回结果到分支节点中 + 4. return 分支节点 + +### 决策树 一般流程 + +1. 收集数据:可以使用任何方法。 +2. 准备数据:树构造算法只适用于标称型数据,因此数值型数据必须离散化。 +3. 分析数据:可以使用任何方法,构造树完成之后,我们应该检查图形是否符合预期。 +4. 训练算法:构造树的数据结构。 +5. 测试算法:使用经验树计算错误率。 +6. 使用算法:此步骤可以适用于任何监督学习算法,而使用决策树可以更好地理解数据的内在含义。 + +### 决策树 算法特点 + +* 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。 +* 缺点:可能会产生过度匹配问题。 +* 适用数据类型:数值型和标称型。 + +## 决策树 项目实战 + +### 项目实战1: 判定鱼类和非鱼类 + +#### 概述 + +根据以下 2 个特征,将动物分成两类:鱼类和非鱼类。 + +特征: +1. 不浮出水面是否可以生存 +2. 是否有脚蹼 + +#### 已知数据 + +![海洋生物数据](/images/3.DecisionTree/DT_海洋生物数据.png) + +* 计算给定数据集的香农熵 + +```Python +def calcShannonEnt(dataSet): + # 求list的长度,表示计算参与训练的数据量 + numEntries = len(dataSet) + # 计算分类标签label出现的次数 + labelCounts = {} + # the the number of unique elements and their occurance + for featVec in dataSet: + # 将当前实例的标签存储,即每一行数据的最后一个数据代表的是标签 + currentLabel = featVec[-1] + # 为所有可能的分类创建字典,如果当前的键值不存在,则扩展字典并将当前键值加入字典。每个键值都记录了当前类别出现的次数。 + if currentLabel not in labelCounts.keys(): + labelCounts[currentLabel] = 0 + labelCounts[currentLabel] += 1 + + # 对于label标签的占比,求出label标签的香农熵 + shannonEnt = 0.0 + for key in labelCounts: + # 使用所有类标签的发生频率计算类别出现的概率。 + prob = float(labelCounts[key])/numEntries + # 计算香农熵,以 2 为底求对数 + shannonEnt -= prob * log(prob, 2) + return shannonEnt ``` -> 创建分支的伪代码函数createBranch() +* 按照给定特征划分数据集 -``` - 检测数据集中的每个子项是否属于同一分类: - If so return 类标签 - Else - 寻找划分数据集的最好特征 - 划分数据集 - 创建分支节点 - for 每个划分的子集 - 调用函数 createBranch 并增加返回结果到分支节点中 - return 分支节点 +```Python +def splitDataSet(dataSet, axis, value): + retDataSet = [] + for featVec in dataSet: + if featVec[axis] == value: + reducedFeatVec = featVec[:axis] + reducedFeatVec.extend(featVec[axis+1:]) + retDataSet.append(reducedFeatVec) + return retDataSet ``` -> 决策树的一般流程 +[完整代码地址](https://github.com/apachecn/MachineLearning/blob/master/src/python/3.DecisionTree/DecisionTree.py): -``` - (1)收集数据:可以使用任何方法。 - (2)准备数据:树构造算法只适用于标称型数据,因此数值型数据必须离散化。 - (3)分析数据:可以使用任何方法,构造树完成之后,我们应该检查图形是否符合预期。 - (4)训练算法:构造树的数据结构。 - (5)测试算法:使用经验树计算错误率。 - (6)使用算法:此步骤可以适用于任何监督学习算法,而使用决策树可以更好地理解数据的内在含义。 +### 项目实战2: 使用决策树预测隐形眼镜类型 + +#### 概述 + +隐形眼镜类型包括应材质、软材质以及不适合佩戴隐形眼镜。我们需要使用决策树预测患者需要佩戴的隐形眼镜类型。 + +#### 流程 + +1. 收集数据: 提供的文本文件。 +2. 解析数据: 解析 tab 键分隔的数据行 +3. 分析数据: 快速检查数据,确保正确地解析数据内容,使用 createPlot() 函数绘制最终的树形图。 +4. 训练算法: 使用 createTree() 函数。 +5. 测试算法: 编写测试函数验证决策树可以正确分类给定的数据实例。 +6. 使用算法: 存储树的数据结构,以便下次使用时无需重新构造树。 + +* 使用 pickle 模块存储决策树 + +```Python +def storeTree(inputTree, filename): + impory pickle + fw = open(filename, 'w') + pickle.dump(inputTree, fw) + fw.close() + +def grabTree(filename): + import pickle + fr = open(filename) + return pickle.load(fr) ``` -> 划分数据集时的数据路径 - -``` - 得到原始数据集,然后基于最好的属性值划分数据集,由于特征值可能多于两个,因此可能存在大于两个分支的数据集划分。 - 第一次划分之后,数据将被向下传递到树分支的下一个节点,在这个节点上,我们可以再次划分数据。因此我们可以采用递归的原则处理数据集。 - 递归结束的条件是:程序遍历完所有划分数据集的属性,或者每个分支下的所有实例都具有相同的分类。如果所有实例具有相同的分类, - 则得到一个叶子节点或者终止块。任何到达叶子节点的数据必然属于叶子节点的分类,如下图所示: -``` - -![决策树划分数据集时的数据路径](/images/3.DecisionTree/决策树划分数据集时的数据路径.png) - -## 使用Matplotlib绘制树形图 - -> Matplotlib绘制树形图示例 - -![Matplotlib绘制树形图示例](/images/3.DecisionTree/Matplotlib绘制树形图.png) - -## 决策树小结 - -* 决策树是什么? - * 顾名思义,是一种树,一种依托于策略抉择而建立起来的树。 - * 从数据产生决策树的机器学习技术叫做决策树学习, 通俗点说就是决策树。 -* 决策树目前的情况: - * 1.最经常使用的数据挖掘算法。(流行的原因:不需要了解机器学习的知识,就能搞明白决策树是如何工作的) - * 2.数据形式【决策过程只有:是/否】和数据内在含义非常容易理解。 - * 3.决策树给出的结果往往可以匹敌在当前领域具有几十年工作经验的人类专家。 -* 决策树的构造: - * 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。 - * 缺点:可能会产生过度匹配问题。 - * 适用数据类型:数值型和标称型【标称型:其实就是离散型数据,变量的结果只在`有限`目标集中取值(例如:分类特征 A/B/C 类其中一种)】。 -* 如何找出第一个分支点呢? - * 信息增益: - * 划分数据集的最大原则是:将无序的数据变得更加有序。 - * 集合信息的度量称为`香农熵`或者简称`熵`(名字来源于信息论之父`克劳德·香农`) - * 公式: - * \\(p(x_i)\\) 表示该 label 分类的概率 - * \\(l(x_i) = - \log_2p(x_i)\\) 表示符号\\(x_i\\)的信息定义 - * \\(H = -\sum_{i=0}^np(x_i)\log_2p(x_i)\\) 表示香农熵,用于计算信息熵 - * 基尼不纯度(Gini impurity) [本书不做过多的介绍] - * 简单来说:就是从一个数据集中随机选取子项,度量其被错误分类到其他分组里的概率。 -* 流程介绍图 - -![决策树流程介绍图](/images/3.DecisionTree/决策树流程介绍图.jpg) - -``` - 决策树分类器就像带有终止块的流程图,终止块表示分类结果。 - 开始处理数据集时,我们首先需要测量集合中数据的不一致性,也就是熵,然后寻找最优方案划分数据集,直到数据集中的所有数据属于同一分类。 - ID3算法可以用于划分标称型数据集。构建决策树时,我们通常采用递归的方法将数据集转化为决策树。一般我们并不构造新的数据结构,而是使用 - Python 中内嵌的数据结构字典存储树节点信息。 -``` +[完整代码地址](https://github.com/apachecn/MachineLearning/blob/master/src/python/3.DecisionTree/DecisionTree.py): * * * diff --git a/images/3.DecisionTree/DT_海洋生物数据.png b/images/3.DecisionTree/DT_海洋生物数据.png new file mode 100644 index 00000000..e9866068 Binary files /dev/null and b/images/3.DecisionTree/DT_海洋生物数据.png differ