更新完 13.PCA.md文档

2026-07-01 10:46:11 +08:00 · 2017-04-07 13:54:18 +08:00
parent 735d03d3a2
commit fbf1c0032a
1 changed files with 15 additions and 3 deletions
--- a/docs/13.利用PCA来简化数据.md
+++ b/docs/13.利用PCA来简化数据.md
@@ -7,7 +7,7 @@
 * 人们实时的将显示器上的百万像素转换成为一个三维图像，该图像就给出运动场上球的位置。
 * 在这个过程中，人们已经将数据从一百万维降至了三维。这就被称为`降维(dimensionality reduction)`

-## 1 将维技术
+## 1.降维技术

 > 数据显示并非大规模特征下的唯一难题，对数据进行简化还有如下一系列的原因：

@@ -46,7 +46,7 @@
    * 假设数据为多个数据源的混合观察结果，这些数据源之间在统计上是相互独立的，而在PCA中只假设数据是不相关的。
    * 同因子分析一样，如果数据源的数目少于观察数据的数目，则可以实现降维过程。

-## 2 主成分分析(PCA)
+## 2.主成分分析(PCA)

 > PCA的优缺点

@@ -64,7 +64,7 @@
 * 例如下图：
 * ![应用PCA降维](/images/13.PCA/应用PCA降维.png)

-## 3 对半导体数据进行降维处理
+## 3.对半导体数据进行降维处理

 ```
 半导体是在一些极为先进的工厂中制造出来的。设备的生命早期有限，并且话费极其巨大。
@@ -76,3 +76,15 @@
 对于数据的缺失值的问题，我们有一些处理方法(参考第5章)
 目前该章节处理的方案是：将缺失值NaN(Not a Number缩写)，全部用平均值来替代(如果用0来处理的策略就太差劲了)。
 ```
+
+## 4.本章小节
+
+```
+降维技术使得数据变的更易使用，并且它们往往能够去除数据中的噪音，使得其他机器学习任务更加精确。
+降维往往作为与处理步骤，在数据应用到其他算法之前清洗数据。
+比较流行的降维技术： 独立主成分分析、因子分析 和 主成分分析， 其中又以主成分分析应用最广泛。
+
+本章中的PCA将所有的数据集都调入了内存，如果无法做到，就需要其他的方法来寻找其特征值。
+如果使用在线PCA分析的方法，你可以参考一篇优秀的论文 "Incremental Eigenanalysis for Classification"。 
+下一章要讨论的奇异值分解方法也可以用于特征值分析。
+```