更新贝叶斯理论的文档

2026-05-10 08:12:00 +08:00 · 2017-09-01 10:32:02 +08:00
parent fe4d339c24
commit cc718b5503
1 changed files with 12 additions and 9 deletions
--- a/docs/4.朴素贝叶斯.md
+++ b/docs/4.朴素贝叶斯.md
@@ -13,6 +13,7 @@
 ### 贝叶斯理论

 我们现在有一个数据集，它由两类数据组成，数据分布如下图所示：
+
 ![朴素贝叶斯示例数据分布](/images/4.NaiveBayesian/朴素贝叶斯示例数据分布.png "参数已知的概率分布")

 我们现在用 p1(x,y) 表示数据点 (x,y) 属于类别 1（图中用圆点表示的类别）的概率，用 p2(x,y) 表示数据点 (x,y) 属于类别 2（图中三角形表示的类别）的概率，那么对于一个新数据点 (x,y)，可以用下面的规则来判断它的类别：
@@ -33,7 +34,7 @@

 ![7块石头放入两个桶中](/images/4.NaiveBayesian/NB_3.png)

-计算 P(white) 或者 P(black) ，如果事先我们知道石头所在桶的信息是会改变结果的。这就是所谓的条件概率（conditional probablity）。假定计算的是从 B 桶取到白色石头的概率，这个概率可以记作 P(white|bucketB) ，我们称之为“在已知石头出自 B 桶的条件下，取出白色石头的概率”。不难得到，P(white|bucketA) 值为 2/4 ，P(white|bucketB) 的值为 1/3 。
+计算 P(white) 或者 P(black) ，如果事先我们知道石头所在桶的信息是会改变结果的。这就是所谓的条件概率（conditional probablity）。假定计算的是从 B 桶取到白色石头的概率，这个概率可以记作 P(white|bucketB) ，我们称之为“在已知石头出自 B 桶的条件下，取出白色石头的概率”。很容易得到，P(white|bucketA) 值为 2/4 ，P(white|bucketB) 的值为 1/3 。

 条件概率的计算公式如下：

@@ -51,7 +52,7 @@ P(white|bucketB) = P(white and bucketB) / P(bucketB)
 * 如果 p1(x, y) > p2(x, y), 那么属于类别 1;
 * 如果 p2(x, y) > p1(X, y), 那么属于类别 2.

-这并不是贝叶斯决策理论的所有内容。使用 p1() 和 p2() 只是为了尽可能简化描述，而真正需要计算和比较的是 p(c1|x, y) 和 p(c2|x, y) .这些符号所代表的具体意义是: 给定某个由 x、y 表示的数据点，那么该数据点来自类别 c1 的概率是多少？数据点来自类别 c2 的概率又是多少？注意这些概率与刚才给出的概率 p(x, y|c1) 并不一样，不过可以使用贝叶斯准则来交换概率中条件与结果。具体地，应用贝叶斯准则得到: 
+这并不是贝叶斯决策理论的所有内容。使用 p1() 和 p2() 只是为了尽可能简化描述，而真正需要计算和比较的是 p(c1|x, y) 和 p(c2|x, y) .这些符号所代表的具体意义是: 给定某个由 x、y 表示的数据点，那么该数据点来自类别 c1 的概率是多少？数据点来自类别 c2 的概率又是多少？注意这些概率与概率 p(x, y|c1) 并不一样，不过可以使用贝叶斯准则来交换概率中条件与结果。具体地，应用贝叶斯准则得到: 

 ![应用贝叶斯准则](/images/4.NaiveBayesian/NB_5.png)

@@ -59,9 +60,9 @@ P(white|bucketB) = P(white and bucketB) / P(bucketB)
 * 如果 P(c1|x, y) > P(c2|x, y), 那么属于类别 c1;
 * 如果 P(c2|x, y) > P(c1|x, y), 那么属于类别 c2.

-在文档分类中，整个文档（如一封电子邮件）是实例，而电子邮件中的某些元素则构成特征。我们可以观察文档中出现的词，并把每个词的出现或者不出现作为一个特征，这样得到的特征数目就会跟词汇表中的数目一样多。
+在文档分类中，整个文档（如一封电子邮件）是实例，而电子邮件中的某些元素则构成特征。我们可以观察文档中出现的词，并把每个词作为一个特征，而每个词的出现或者不出现作为该特征的值，这样得到的特征数目就会跟词汇表中的词的数目一样多。

-我们假设特征之间<b>相互独立</b>。所谓 <b>独立(independence)</b> 指的是统计意义上的独立，即一个特征或者单词出现的可能性与它和其他单词相邻没有关系。这个假设正是朴素贝叶斯分类器中 朴素(naive) 一词的含义。朴素贝叶斯分类器中的另一个假设是，<b>每个特征同等重要</b>。
+我们假设特征之间  **相互独立** 。所谓 <b>独立(independence)</b> 指的是统计意义上的独立，即一个特征或者单词出现的可能性与它和其他单词相邻没有关系，比如说，“我们”中的“我”和“们”出现的概率与这两个字相邻没有任何关系。这个假设正是朴素贝叶斯分类器中 朴素(naive) 一词的含义。朴素贝叶斯分类器中的另一个假设是，<b>每个特征同等重要</b>。

 <b>Note:</b> 朴素贝叶斯分类器通常有两种实现方式: 一种基于伯努利模型实现，一种基于多项式模型实现。这里采用前一种实现方式。该实现方式中并不考虑词在文档中出现的次数，只考虑出不出现，因此在这个意义上相当于假设词是等权重的。

@@ -69,7 +70,7 @@ P(white|bucketB) = P(white and bucketB) / P(bucketB)

 机器学习的一个重要应用就是文档的自动分类。

-在文档分类中，整个文档（如一封电子邮件）是实例，而电子邮件中的某些元素则构成特征。例如，我们可以观察文档中出现的词，并把每个词的出现或者不出现作为一个特征，这样得到的特征数目就会跟词汇表中的词目一样多。
+在文档分类中，整个文档（如一封电子邮件）是实例，而电子邮件中的某些元素则构成特征。我们可以观察文档中出现的词，并把每个词作为一个特征，而每个词的出现或者不出现作为该特征的值，这样得到的特征数目就会跟词汇表中的词的数目一样多。

 朴素贝叶斯是上面介绍的贝叶斯分类器的一个扩展，是用于文档分类的常用算法。下面我们会进行一些朴素贝叶斯分类的实践项目。

@@ -78,15 +79,17 @@ P(white|bucketB) = P(white and bucketB) / P(bucketB)
 ### 朴素贝叶斯 工作原理

 ```
+提取所有文档中的词条并进行去重
+获取文档的所有类别
 计算每个类别中的文档数目
 对每篇训练文档: 
    对每个类别: 
-        如果词条出现在文档中-->增加该词条的计数值
-        增加所有词条的计数值
+        如果词条出现在文档中-->增加该词条的计数值（for循环或者矩阵相加）
+        增加所有词条的计数值（此类别下词条总数）
 对每个类别: 
    对每个词条: 
-        将该词条的数目除以总词条数目得到的条件概率
-返回每个类别的条件概率
+        将该词条的数目除以总词条数目得到的条件概率（P(词条|类别)）
+返回该文档属于每个类别的条件概率（P(类别|文档的所有词条)）
 ```

 ### 朴素贝叶斯 开发流程