Merge pull request #132 from chenyyx/master

去除朴素贝叶斯文档中的特殊字符
2026-06-30 18:26:14 +08:00 · 2017-09-01 10:48:19 +08:00
parent 3f1bda76c8 67b3618000
commit 01a64426f3
1 changed files with 2 additions and 2 deletions
--- a/docs/4.朴素贝叶斯.md
+++ b/docs/4.朴素贝叶斯.md
@@ -60,7 +60,7 @@ P(white|bucketB) = P(white and bucketB) / P(bucketB)
 * 如果 P(c1|x, y) > P(c2|x, y), 那么属于类别 c1;
 * 如果 P(c2|x, y) > P(c1|x, y), 那么属于类别 c2.

-在文档分类中，整个文档（如一封电子邮件）是实例，而电子邮件中的某些元素则构成特征。我们可以观察文档中出现的词，并把每个词作为一个特征，而每个词的出现或者不出现作为该特征的值，这样得到的特征数目就会跟词汇表中的词的数目一样多。
+在文档分类中，整个文档（如一封电子邮件）是实例，而电子邮件中的某些元素则构成特征。我们可以观察文档中出现的词，并把每个词作为一个特征，而每个词的出现或者不出现作为该特征的值，这样得到的特征数目就会跟词汇表中的词的数目一样多。

 我们假设特征之间  **相互独立** 。所谓 <b>独立(independence)</b> 指的是统计意义上的独立，即一个特征或者单词出现的可能性与它和其他单词相邻没有关系，比如说，“我们”中的“我”和“们”出现的概率与这两个字相邻没有任何关系。这个假设正是朴素贝叶斯分类器中 朴素(naive) 一词的含义。朴素贝叶斯分类器中的另一个假设是，<b>每个特征同等重要</b>。

@@ -70,7 +70,7 @@ P(white|bucketB) = P(white and bucketB) / P(bucketB)

 机器学习的一个重要应用就是文档的自动分类。

-在文档分类中，整个文档（如一封电子邮件）是实例，而电子邮件中的某些元素则构成特征。我们可以观察文档中出现的词，并把每个词作为一个特征，而每个词的出现或者不出现作为该特征的值，这样得到的特征数目就会跟词汇表中的词的数目一样多。
+在文档分类中，整个文档（如一封电子邮件）是实例，而电子邮件中的某些元素则构成特征。我们可以观察文档中出现的词，并把每个词作为一个特征，而每个词的出现或者不出现作为该特征的值，这样得到的特征数目就会跟词汇表中的词的数目一样多。

 朴素贝叶斯是上面介绍的贝叶斯分类器的一个扩展，是用于文档分类的常用算法。下面我们会进行一些朴素贝叶斯分类的实践项目。