From fbf1c0032ae4309d319ccaac08568f7ce89792d4 Mon Sep 17 00:00:00 2001 From: jiangzhonglian Date: Fri, 7 Apr 2017 13:54:18 +0800 Subject: [PATCH] =?UTF-8?q?=E6=9B=B4=E6=96=B0=E5=AE=8C=2013.PCA.md?= =?UTF-8?q?=E6=96=87=E6=A1=A3?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- docs/13.利用PCA来简化数据.md | 18 +++++++++++++++--- 1 file changed, 15 insertions(+), 3 deletions(-) diff --git a/docs/13.利用PCA来简化数据.md b/docs/13.利用PCA来简化数据.md index a5e1bad9..80ae0466 100644 --- a/docs/13.利用PCA来简化数据.md +++ b/docs/13.利用PCA来简化数据.md @@ -7,7 +7,7 @@ * 人们实时的将显示器上的百万像素转换成为一个三维图像,该图像就给出运动场上球的位置。 * 在这个过程中,人们已经将数据从一百万维降至了三维。这就被称为`降维(dimensionality reduction)` -## 1 将维技术 +## 1.降维技术 > 数据显示并非大规模特征下的唯一难题,对数据进行简化还有如下一系列的原因: @@ -46,7 +46,7 @@ * 假设数据为多个数据源的混合观察结果,这些数据源之间在统计上是相互独立的,而在PCA中只假设数据是不相关的。 * 同因子分析一样,如果数据源的数目少于观察数据的数目,则可以实现降维过程。 -## 2 主成分分析(PCA) +## 2.主成分分析(PCA) > PCA的优缺点 @@ -64,7 +64,7 @@ * 例如下图: * ![应用PCA降维](/images/13.PCA/应用PCA降维.png) -## 3 对半导体数据进行降维处理 +## 3.对半导体数据进行降维处理 ``` 半导体是在一些极为先进的工厂中制造出来的。设备的生命早期有限,并且话费极其巨大。 @@ -76,3 +76,15 @@ 对于数据的缺失值的问题,我们有一些处理方法(参考第5章) 目前该章节处理的方案是:将缺失值NaN(Not a Number缩写),全部用平均值来替代(如果用0来处理的策略就太差劲了)。 ``` + +## 4.本章小节 + +``` +降维技术使得数据变的更易使用,并且它们往往能够去除数据中的噪音,使得其他机器学习任务更加精确。 +降维往往作为与处理步骤,在数据应用到其他算法之前清洗数据。 +比较流行的降维技术: 独立主成分分析、因子分析 和 主成分分析, 其中又以主成分分析应用最广泛。 + +本章中的PCA将所有的数据集都调入了内存,如果无法做到,就需要其他的方法来寻找其特征值。 +如果使用在线PCA分析的方法,你可以参考一篇优秀的论文 "Incremental Eigenanalysis for Classification"。 +下一章要讨论的奇异值分解方法也可以用于特征值分析。 +```