some data

This commit is contained in:
yinkanglong_lab
2021-03-20 21:47:48 +08:00
parent 3cfd4f47c5
commit 90e4065120
2888 changed files with 93356 additions and 237 deletions

View File

@@ -1,19 +1,11 @@
# 1.6. 最近邻
校验者:
        [@DataMonk2017](https://github.com/DataMonk2017)
        [@Veyron C](https://github.com/caopeirui)
        [@舞空](https://github.com/pan8664716)
        [@Loopy](https://github.com/loopyme)
[@qinhanmin2014](https://github.com/qinhanmin2014)
翻译者:
        [@那伊抹微笑](https://github.com/wangyangting)
[`sklearn.neighbors`](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.neighbors) 提供了 neighbors-based (基于邻居的) 无监督学习以及监督学习方法的功能。 无监督的最近邻是许多其它学习方法的基础,尤其是 manifold learning (流形学习) 和 spectral clustering (谱聚类)。 neighbors-based (基于邻居的) 监督学习分为两种: [classification](#162-最近邻分类) (分类)针对的是具有离散标签的数据,[regression](#163-最近邻回归) (回归)针对的是具有连续标签的数据。
最近邻方法背后的原理是从训练样本中找到与新点在距离上最近的预定数量的几个点,然后从这些点中预测标签。 这些点的数量可以是用户自定义的常量K-最近邻学习), 也可以根据不同的点的局部密度(基于半径的最近邻学习)确定。距离通常可以通过任何度量来衡量: standard Euclidean distance标准欧式距离是最常见的选择。Neighbors-based基于邻居的方法被称为 *非泛化* 机器学习方法, 因为它们只是简单地”记住”了其所有的训练数据(可能转换为一个快速索引结构,如 [Ball Tree](#1643-ball-树) 或 [KD Tree](#1642-k-d-树))。
尽管它简单,但最近邻算法已经成功地适用于很多的分类和回归问题,例如手写数字或卫星图像的场景。 作为一个 non-parametric非参数化方法它经常成功地应用于决策边界非常不规则的分类情景下。
尽管它简单,但最近邻算法已经成功地适用于很多的分类和回归问题,例如手写数字或卫星图像的场景。 作为一个 **non-parametric非参数化** 方法,它经常成功地应用于决策边界非常不规则的分类情景下。
[`sklearn.neighbors`](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.neighbors) 可以处理 Numpy 数组或 `scipy.sparse` 矩阵作为其输入。 对于密集矩阵,大多数可能的距离度量都是支持的。对于稀疏矩阵,支持搜索任意的 Minkowski 度量。