mirror of
https://github.com/apachecn/ailearning.git
synced 2026-02-11 14:26:04 +08:00
修改 k-近邻算法.md文件
This commit is contained in:
@@ -73,7 +73,7 @@
|
||||
|
||||
尽管发现了上述规律,但是海伦依然无法将约会网站推荐的匹配对象归入恰当的类别。她觉得可以在周一到周五约会那些魅力一般的人,而周末则更喜欢与那些极具魅力的人为伴。海伦希望我们的分类软件可以更好地帮助她将匹配对象划分到确切的分类中。此外海伦还收集了一些约会网站未曾记录的数据信息。她认为这些数据更有助于匹配对象的归类。
|
||||
|
||||
海伦收集约会数据已经有一段时间,她把这些数据存放在文本文件 datingTestSet2.txt 文件中,每个样本数据占据一行,总共有 1000 行。海伦的样本主要包含以下 3 中特征:
|
||||
海伦收集约会数据已经有一段时间,她把这些数据存放在文本文件 datingTestSet2.txt 文件中,每个样本数据占据一行,总共有 1000 行。海伦的样本主要包含以下 3 种特征:
|
||||
|
||||
* 每年获得的飞行常客里程数
|
||||
* 玩视频游戏所耗时间百分比
|
||||
@@ -88,7 +88,7 @@
|
||||
训练算法:此步骤不适用于 k-近邻算法
|
||||
测试算法:使用海伦提供的部分数据作为测试样本。
|
||||
测试样本和非测试样本的区别在于:
|
||||
测试样本是意境完成分类的数据,如果预测分类与实际类别不同,则标记为一个错误。
|
||||
测试样本是已经完成分类的数据,如果预测分类与实际类别不同,则标记为一个错误。
|
||||
使用算法:产生简单的命令行程序,然后海伦可以输入一些特征数据以判断对方是否为自己喜欢的类型。
|
||||
```
|
||||
|
||||
@@ -144,8 +144,8 @@ $$\sqrt{(0-67)^2 + (20000-32000)^2 + (1.1-0.1)^2 }$$
|
||||
* k-近邻算法其实就是根据空间两个向量距离来判断类别,关键的是引入 k 值,保证了一定的稳定性,很明显的缺点就是每次都要与所有样本数据进行对比。
|
||||
* 文中处理约会数据时,归一化的方法是对于消除影响十分重要的
|
||||
* 阅读本章之前建议阅读一下 numpy 的文档
|
||||
* [numpy英文文档](https://docs.scipy.org/doc/numpy-dev/user/quickstart.html "NumPy 英文文档")
|
||||
* [numpy中文文档](http://old.sebug.net/paper/books/scipydoc/numpy_intro.html "NumPy 中文文档")
|
||||
* [numpy 英文文档](https://docs.scipy.org/doc/numpy-dev/user/quickstart.html "NumPy 英文文档")
|
||||
* [numpy 中文文档](http://old.sebug.net/paper/books/scipydoc/numpy_intro.html "NumPy 中文文档")
|
||||
|
||||
* * *
|
||||
|
||||
|
||||
Reference in New Issue
Block a user