矩阵和主成分分析

This commit is contained in:
estomm
2019-12-30 13:52:18 +08:00
parent 700a7b5e5b
commit da7f851344
3 changed files with 218 additions and 4 deletions

View File

@@ -0,0 +1,138 @@
# 主成分分析
## 1 总体主成分分析
### 概述
多元统计分析,解释多元变量的各项指标之间的相关关系。对多元总体,协方差矩阵和相关矩阵是反映各个指标之间相关程度的统计特征。
主成分分析是一种通过将为方法把多像相关指标化为少数几个不相关的综合指标的多元数据处理技术。
### 数学模型
> 描述了压缩的目的,和基本的方法。
1. 总体特征
$$
p元总体x=(x_1,\cdots,x_n)'\\
E(x)=\mu,Var(x)=\Sigma=(\sigma_{ij})\\
$$
2. 维度压缩
压缩为一维
$$
y_1=\mu'x\\
var(y_1)=\mu'\Sigma\mu
$$
3. 标准化
$$
\mu'\mu=1的条件下选择合适的\mu使Var(y_1)=\mu'\Sigma\mu 最大
$$
### 定理1
> 给出了上述数学模型的一个解的定理
* 条件
$$
协方差矩阵\Sigma,特征值\lambda_1,\cdots,\lambda_p\geq 0\\
单位正交向量a_1,\cdots,a_p\\
$$
* 结论
$$
在\mu'\mu=1的条件下,\mu'\Sigma\mu在\mu=a_1处取的最大值\lambda_1\\
在\mu'\mu=1和\mu'a_i=0(i=1,\cdots,k)的条件下,\\ \mu'\Sigma\mu在\mu=a_k处取的最大值\lambda_1
$$
### 求解步骤
> 根据定理完成主城分析的过程
1. 从x的协方差矩阵$\Sigma$出发,求出特征值,从大到小排序$\lambda_1\geq\lambda_2\geq\cdots\geq 0$
2. 求解特征值的单位正交特征向量$a_1,\cdots,a_p$
3. 可以获得x的p个主成分$y_k=a'_kx,Var(y_k)=\lambda_k$,其中$a_k$称为x的第k个主轴
### 性质1主成分的变换
$$
主成分y=(y_1,\cdots,y_p)'是对x的正交变换。\\
若\Gamma=(a_1,\cdots,a_p)=\begin{bmatrix}
a_{11}& \cdots&a_{p1}\\
\vdots& & \vdots\\
a_{p_1}&\cdots&a_{pp}
\end{bmatrix}\\
则\Gamma\Gamma'=1,y=\Gamma'x
$$
### 性质2相似对角化
$$
Var(y)=\Gamma'\Sigma\Gamma=diag(\lambda_1,\cdots,\lambda_p)
$$
### 性质3矩阵的迹对角元素之和
$$
tr(\Sigma)=\sum_{i=1}^p\sigma_{ij}=\sum_{i=1}^p\lambda_i
$$
### 性质4累计方差贡献率
$$
\frac{\lambda_1+\cdots+\lambda_k}{\lambda_1+\cdots+\lambda_p}
$$
## 2 主成分的进一步分析
### 定义前k个主成分对原始分量的贡献率
$$
Cov(x_j,y_i)=\lambda_Ia_{ij}\\
\rho(x_j,y_i)=\frac{Cov(x_i,y_i)}{\sqrt{Var(x_i)Var(y_i)}}=\sqrt{\frac{\lambda_i}{\sigma_{jj}}}a_{ij}
$$
$$
\sum_{i=1}^k\rho^2(x_j,y_i)=\sum_{i=1}^k\frac{\lambda_i}{\sigma_{jj}}a_{ij}^2
$$
### 定义:原始变量对主成分的影响
$$
y_i=a'_ix
$$
$a_{ik}$反映了x对y的直接影响称y_i在第k个原始变量x_k上的载荷
## 3 从相关矩阵触发求主成分
### 对原始数据进行标准化
$$
x_j^*=\frac{x_j-\mu_j}{\sqrt{\sigma_{jj}}},j=1,\cdots,p\\
x^*=(x_1^*,\cdots,x_p^*)\\
x^*的协方差矩阵R是x的相关矩阵\\
y^*=(\Gamma^*)'x^*=\Gamma^*y^*
$$
### 性质1主成分特征
$$
E(y^*)=0,Var(y^*)=\Lambda=diag(\lambda_1^*,\cdots,\lambda_p^*)
$$
### 性质2矩阵的迹
$$
\sum_{i=1}^p=tr(\Lambda)=tr(R)=p
$$
### 性质3累计方差贡献率
$$
y_i^*的方差共享率\lambda^*/p\\
累计方差贡献率\frac{\lambda_1^*+\cdots+\lambda_k^*}{p}
$$
### 性质4相关系数
$$
\rho(x_j^*,y_i^*)=\sqrt{\lambda_i^*}a_{ij}^*
$$
### 性质5主成分对原始数据贡献率
$$
\rho^2_{j}=\sum_{i=1}^k\rho^2(x_j^*,y_i^*)=\sum_{i=1}^k(a_ij^*)^2\lambda_i^*
$$
## 4 样本的主成分分析(例题)

View File

@@ -170,5 +170,3 @@ $$
2. 对$k_i$重特征值$\lambda_i$,求方程$A-\lambda E=0$的解,得到$k_i$个线性无关的特征向量。把向量正交化,单位化。得到$k_i$个两两正交的单位特征向量。
3. 把n个正交的单位特征向量构成正交阵P则可以通过$P^{-1}AP=P^TAP=\Lambda$实现相似对角化。
## 5 二次型及标准型

View File

@@ -1,2 +1,80 @@
# 二次型
> 二次方程组的矩阵表示,及化简,变为标准型。
# 二次型及标准型
> 二次方程组的矩阵表示,及化简,变为标准型。
## 1 二次型
### 定义1二次型
* 条件
$$
f(x_1,\cdots,x_n)=a_{11}x_1^2+\cdots+a_{nn}x_n^2\\
2a_{12}x_1x_2+\cdots+2a_{n(n-1)}x_nx_{n-1}\\
= \sum_{i,j=1}^na_{ij}x_ix_j
$$
含有n个变量的二次其次函数称为二次型。
### 定义2标准型
* 条件
$$
f=k_1y_1^2+\cdots+k_ny_n^2
$$
只含有平方项的二次型称为标准型。
### 定义3规范型
* 条件
$$
f=(+|-)y_1^2+\cdots+(+|-)y_n^2
$$
标准型的系数只能在0-11三个数中取值时称为规范型
### 定义4二次型的矩阵表示
$$
f=x^TAx\\
x=\begin{bmatrix}
x_1\\
\vdots\\
x_n
\end{bmatrix}
A=\begin{bmatrix}
a_{11} & \cdots & a_{1n}\\
\vdots & & \vdots\\
a_{n1} & \cdots & a_{nn}
\end{bmatrix}
$$
其中A为对称矩阵。对称阵和二次型一一对应。
### 定义5:合同变换
* 条件
$$
A,B是n阶矩阵\\
C是可逆矩阵\\
B=C^TAC
$$
* 结论
$$
矩阵A与矩阵B合同。
$$
### 性质:合同变换
* $R(A)=R(B)$合同变换秩相等
* 若A为对称阵则B也为对称阵。
### 定理1相似对角化
给定二次型
$$f= \sum_{i,j=1}^na_{ij}x_ix_j$$
总有正交变换$x=Py,$使$f$变为标准型
$$
f=\lambda_1y_1^2+\cdots+\lambda_ny_n^2
$$
其中$\lambda$是矩阵A的特征值。
### 定理2相似对角化
对于给定的二次型
$$
f(x)=x^TAx
$$
总有可逆变换使$f(Cz)$为规范型