mirror of
https://github.com/Estom/notes.git
synced 2026-04-02 02:20:25 +08:00
矩阵和主成分分析
This commit is contained in:
@@ -0,0 +1,138 @@
|
||||
# 主成分分析
|
||||
|
||||
## 1 总体主成分分析
|
||||
### 概述
|
||||
多元统计分析,解释多元变量的各项指标之间的相关关系。对多元总体,协方差矩阵和相关矩阵是反映各个指标之间相关程度的统计特征。
|
||||
|
||||
主成分分析是一种通过将为方法把多像相关指标化为少数几个不相关的综合指标的多元数据处理技术。
|
||||
|
||||
### 数学模型
|
||||
> 描述了压缩的目的,和基本的方法。
|
||||
1. 总体特征
|
||||
$$
|
||||
p元总体x=(x_1,\cdots,x_n)'\\
|
||||
E(x)=\mu,Var(x)=\Sigma=(\sigma_{ij})\\
|
||||
$$
|
||||
|
||||
2. 维度压缩
|
||||
|
||||
压缩为一维
|
||||
$$
|
||||
y_1=\mu'x\\
|
||||
var(y_1)=\mu'\Sigma\mu
|
||||
$$
|
||||
|
||||
3. 标准化
|
||||
|
||||
$$
|
||||
\mu'\mu=1的条件下,选择合适的\mu使Var(y_1)=\mu'\Sigma\mu 最大
|
||||
$$
|
||||
|
||||
### 定理1
|
||||
> 给出了上述数学模型的一个解的定理
|
||||
* 条件
|
||||
|
||||
$$
|
||||
协方差矩阵\Sigma,特征值\lambda_1,\cdots,\lambda_p\geq 0\\
|
||||
单位正交向量a_1,\cdots,a_p\\
|
||||
$$
|
||||
* 结论
|
||||
$$
|
||||
在\mu'\mu=1的条件下,\mu'\Sigma\mu在\mu=a_1处取的最大值\lambda_1\\
|
||||
在\mu'\mu=1和\mu'a_i=0(i=1,\cdots,k)的条件下,\\ \mu'\Sigma\mu在\mu=a_k处取的最大值\lambda_1
|
||||
$$
|
||||
|
||||
### 求解步骤
|
||||
> 根据定理完成主城分析的过程
|
||||
1. 从x的协方差矩阵$\Sigma$出发,求出特征值,从大到小排序$\lambda_1\geq\lambda_2\geq\cdots\geq 0$
|
||||
2. 求解特征值的单位正交特征向量$a_1,\cdots,a_p$
|
||||
3. 可以获得x的p个主成分,$y_k=a'_kx,Var(y_k)=\lambda_k$,其中$a_k$称为x的第k个主轴
|
||||
|
||||
### 性质1:主成分的变换
|
||||
|
||||
$$
|
||||
主成分y=(y_1,\cdots,y_p)'是对x的正交变换。\\
|
||||
若\Gamma=(a_1,\cdots,a_p)=\begin{bmatrix}
|
||||
a_{11}& \cdots&a_{p1}\\
|
||||
\vdots& & \vdots\\
|
||||
a_{p_1}&\cdots&a_{pp}
|
||||
\end{bmatrix}\\
|
||||
则\Gamma\Gamma'=1,y=\Gamma'x
|
||||
$$
|
||||
|
||||
### 性质2:相似对角化
|
||||
$$
|
||||
Var(y)=\Gamma'\Sigma\Gamma=diag(\lambda_1,\cdots,\lambda_p)
|
||||
$$
|
||||
|
||||
### 性质3:矩阵的迹(对角元素之和)
|
||||
|
||||
$$
|
||||
tr(\Sigma)=\sum_{i=1}^p\sigma_{ij}=\sum_{i=1}^p\lambda_i
|
||||
$$
|
||||
|
||||
### 性质4:累计方差贡献率
|
||||
|
||||
$$
|
||||
\frac{\lambda_1+\cdots+\lambda_k}{\lambda_1+\cdots+\lambda_p}
|
||||
$$
|
||||
|
||||
## 2 主成分的进一步分析
|
||||
|
||||
### 定义:前k个主成分对原始分量的贡献率
|
||||
|
||||
$$
|
||||
Cov(x_j,y_i)=\lambda_Ia_{ij}\\
|
||||
\rho(x_j,y_i)=\frac{Cov(x_i,y_i)}{\sqrt{Var(x_i)Var(y_i)}}=\sqrt{\frac{\lambda_i}{\sigma_{jj}}}a_{ij}
|
||||
$$
|
||||
|
||||
$$
|
||||
\sum_{i=1}^k\rho^2(x_j,y_i)=\sum_{i=1}^k\frac{\lambda_i}{\sigma_{jj}}a_{ij}^2
|
||||
$$
|
||||
|
||||
### 定义:原始变量对主成分的影响
|
||||
|
||||
$$
|
||||
y_i=a'_ix
|
||||
$$
|
||||
$a_{ik}$反映了x对y的直接影响,称y_i在第k个原始变量x_k上的载荷
|
||||
|
||||
## 3 从相关矩阵触发求主成分
|
||||
|
||||
### 对原始数据进行标准化
|
||||
|
||||
$$
|
||||
x_j^*=\frac{x_j-\mu_j}{\sqrt{\sigma_{jj}}},j=1,\cdots,p\\
|
||||
x^*=(x_1^*,\cdots,x_p^*)\\
|
||||
x^*的协方差矩阵R是x的相关矩阵\\
|
||||
y^*=(\Gamma^*)'x^*=\Gamma^*y^*
|
||||
$$
|
||||
|
||||
### 性质1:主成分特征
|
||||
$$
|
||||
E(y^*)=0,Var(y^*)=\Lambda=diag(\lambda_1^*,\cdots,\lambda_p^*)
|
||||
$$
|
||||
|
||||
### 性质2:矩阵的迹
|
||||
$$
|
||||
\sum_{i=1}^p=tr(\Lambda)=tr(R)=p
|
||||
$$
|
||||
|
||||
### 性质3:累计方差贡献率
|
||||
$$
|
||||
y_i^*的方差共享率\lambda^*/p\\
|
||||
累计方差贡献率\frac{\lambda_1^*+\cdots+\lambda_k^*}{p}
|
||||
$$
|
||||
|
||||
### 性质4:相关系数
|
||||
$$
|
||||
\rho(x_j^*,y_i^*)=\sqrt{\lambda_i^*}a_{ij}^*
|
||||
$$
|
||||
|
||||
### 性质5:主成分对原始数据贡献率
|
||||
|
||||
$$
|
||||
\rho^2_{j}=\sum_{i=1}^k\rho^2(x_j^*,y_i^*)=\sum_{i=1}^k(a_ij^*)^2\lambda_i^*
|
||||
$$
|
||||
|
||||
## 4 样本的主成分分析(例题)
|
||||
@@ -170,5 +170,3 @@ $$
|
||||
2. 对$k_i$重特征值$\lambda_i$,求方程$A-\lambda E=0$的解,得到$k_i$个线性无关的特征向量。把向量正交化,单位化。得到$k_i$个两两正交的单位特征向量。
|
||||
3. 把n个正交的单位特征向量构成正交阵P,则可以通过$P^{-1}AP=P^TAP=\Lambda$实现相似对角化。
|
||||
|
||||
|
||||
## 5 二次型及标准型
|
||||
@@ -1,2 +1,80 @@
|
||||
# 二次型
|
||||
> 二次方程组的矩阵表示,及化简,变为标准型。
|
||||
# 二次型及标准型
|
||||
> 二次方程组的矩阵表示,及化简,变为标准型。
|
||||
|
||||
## 1 二次型
|
||||
|
||||
### 定义1:二次型
|
||||
* 条件
|
||||
$$
|
||||
f(x_1,\cdots,x_n)=a_{11}x_1^2+\cdots+a_{nn}x_n^2\\
|
||||
2a_{12}x_1x_2+\cdots+2a_{n(n-1)}x_nx_{n-1}\\
|
||||
= \sum_{i,j=1}^na_{ij}x_ix_j
|
||||
$$
|
||||
含有n个变量的二次其次函数称为二次型。
|
||||
|
||||
### 定义2:标准型
|
||||
* 条件
|
||||
$$
|
||||
f=k_1y_1^2+\cdots+k_ny_n^2
|
||||
$$
|
||||
只含有平方项的二次型称为标准型。
|
||||
|
||||
### 定义3:规范型
|
||||
* 条件
|
||||
$$
|
||||
f=(+|-)y_1^2+\cdots+(+|-)y_n^2
|
||||
$$
|
||||
标准型的系数只能在0,-1,1三个数中取值时,称为规范型
|
||||
|
||||
### 定义4:二次型的矩阵表示
|
||||
|
||||
$$
|
||||
f=x^TAx\\
|
||||
x=\begin{bmatrix}
|
||||
x_1\\
|
||||
\vdots\\
|
||||
x_n
|
||||
\end{bmatrix}
|
||||
A=\begin{bmatrix}
|
||||
a_{11} & \cdots & a_{1n}\\
|
||||
\vdots & & \vdots\\
|
||||
a_{n1} & \cdots & a_{nn}
|
||||
\end{bmatrix}
|
||||
$$
|
||||
其中A为对称矩阵。对称阵和二次型一一对应。
|
||||
|
||||
### 定义5:合同变换
|
||||
|
||||
* 条件
|
||||
$$
|
||||
A,B是n阶矩阵\\
|
||||
C是可逆矩阵\\
|
||||
B=C^TAC
|
||||
$$
|
||||
* 结论
|
||||
$$
|
||||
矩阵A与矩阵B合同。
|
||||
$$
|
||||
### 性质:合同变换
|
||||
|
||||
* $R(A)=R(B)$合同变换秩相等
|
||||
* 若A为对称阵,则B也为对称阵。
|
||||
|
||||
### 定理1:相似对角化
|
||||
|
||||
给定二次型
|
||||
$$f= \sum_{i,j=1}^na_{ij}x_ix_j$$
|
||||
总有正交变换$x=Py,$使$f$变为标准型
|
||||
|
||||
$$
|
||||
f=\lambda_1y_1^2+\cdots+\lambda_ny_n^2
|
||||
$$
|
||||
其中$\lambda$是矩阵A的特征值。
|
||||
|
||||
### 定理2:相似对角化
|
||||
|
||||
对于给定的二次型
|
||||
$$
|
||||
f(x)=x^TAx
|
||||
$$
|
||||
总有可逆变换使$f(Cz)$为规范型
|
||||
Reference in New Issue
Block a user