mirror of
https://github.com/apachecn/ailearning.git
synced 2026-05-09 07:31:53 +08:00
更新完 13.PCA.md文档
This commit is contained in:
@@ -7,7 +7,7 @@
|
||||
* 人们实时的将显示器上的百万像素转换成为一个三维图像,该图像就给出运动场上球的位置。
|
||||
* 在这个过程中,人们已经将数据从一百万维降至了三维。这就被称为`降维(dimensionality reduction)`
|
||||
|
||||
## 1 将维技术
|
||||
## 1.降维技术
|
||||
|
||||
> 数据显示并非大规模特征下的唯一难题,对数据进行简化还有如下一系列的原因:
|
||||
|
||||
@@ -46,7 +46,7 @@
|
||||
* 假设数据为多个数据源的混合观察结果,这些数据源之间在统计上是相互独立的,而在PCA中只假设数据是不相关的。
|
||||
* 同因子分析一样,如果数据源的数目少于观察数据的数目,则可以实现降维过程。
|
||||
|
||||
## 2 主成分分析(PCA)
|
||||
## 2.主成分分析(PCA)
|
||||
|
||||
> PCA的优缺点
|
||||
|
||||
@@ -64,7 +64,7 @@
|
||||
* 例如下图:
|
||||
* 
|
||||
|
||||
## 3 对半导体数据进行降维处理
|
||||
## 3.对半导体数据进行降维处理
|
||||
|
||||
```
|
||||
半导体是在一些极为先进的工厂中制造出来的。设备的生命早期有限,并且话费极其巨大。
|
||||
@@ -76,3 +76,15 @@
|
||||
对于数据的缺失值的问题,我们有一些处理方法(参考第5章)
|
||||
目前该章节处理的方案是:将缺失值NaN(Not a Number缩写),全部用平均值来替代(如果用0来处理的策略就太差劲了)。
|
||||
```
|
||||
|
||||
## 4.本章小节
|
||||
|
||||
```
|
||||
降维技术使得数据变的更易使用,并且它们往往能够去除数据中的噪音,使得其他机器学习任务更加精确。
|
||||
降维往往作为与处理步骤,在数据应用到其他算法之前清洗数据。
|
||||
比较流行的降维技术: 独立主成分分析、因子分析 和 主成分分析, 其中又以主成分分析应用最广泛。
|
||||
|
||||
本章中的PCA将所有的数据集都调入了内存,如果无法做到,就需要其他的方法来寻找其特征值。
|
||||
如果使用在线PCA分析的方法,你可以参考一篇优秀的论文 "Incremental Eigenanalysis for Classification"。
|
||||
下一章要讨论的奇异值分解方法也可以用于特征值分析。
|
||||
```
|
||||
|
||||
Reference in New Issue
Block a user