Files
ailearning/docs/linalg/chapter21.md
2021-05-07 10:20:42 +08:00

71 lines
7.8 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 第二十一讲:特征值和特征向量
## 特征值、特征向量的由来
给定矩阵$A$,矩阵$A$乘以向量$x$,就像是使用矩阵$A$作用在向量$x$上,最后得到新的向量$Ax$。在这里,矩阵$A$就像是一个函数,接受一个向量$x$作为输入,给出向量$Ax$作为输出。
在这一过程中,我们对一些特殊的向量很感兴趣,他们在输入($x$)输出($Ax$)的过程中始终保持同一个方向,这是比较特殊的,因为在大多情况下,$Ax$与$x$指向不同的方向。在这种特殊的情况下,$Ax$平行于$x$,我们把满足这个条件的$x$成为特征向量Eigen vector。这个平行条件用方程表示就是
$$Ax=\lambda x\tag{1}$$
* 对这个式子,我们试着计算特征值为$0$的特征向量,此时有$Ax=0$,也就是特征值为$0$的特征向量应该位于$A$的零空间中。
也就是说,如果矩阵是奇异的,那么它将有一个特征值为$\lambda = 0$。
* 我们再来看投影矩阵$P=A(A^TA)^{-1}A^T$的特征值和特征向量。用向量$b$乘以投影矩阵$P$得到投影向量$Pb$,在这个过程中,只有当$b$已经处于投影平面(即$A$的列空间)中时,$Pb$与$b$才是同向的,此时$b$投影前后不变($Pb=1\cdot b$)。
即在投影平面中的所有向量都是投影矩阵的特征向量,而他们的特征值均为$1$。
再来观察投影平面的法向量,也就是投影一讲中的$e$向量。我们知道对于投影,因为$e\bot C(A)$,所以$Pe=0e$,即特征向量$e$的特征值为$0$。
于是,投影矩阵的特征值为$\lambda=1, 0$。
* 再多讲一个例子,二阶置换矩阵$A=\begin{bmatrix}0&1\\1&0\end{bmatrix}$,经过这个矩阵处理的向量,其元素会互相交换。
那么特征值为$1$的特征向量(即经过矩阵交换元素前后仍然不变)应该型为$\begin{bmatrix}1\\1\end{bmatrix}$。
特征值为$-1$的特征向量(即经过矩阵交换元素前后方向相反)应该型为$\begin{bmatrix}1\\-1\end{bmatrix}$。
再提前透露一个特征值的性质:对于一个$n\times n$的矩阵,将会有$n$个特征值而这些特征值的和与该矩阵对角线元素的和相同因此我们把矩阵对角线元素称为矩阵的迹trace。$$\sum_{i=1}^n \lambda_i=\sum_{i=1}^n a_{ii}$$
在上面二阶转置矩阵的例子中,如果我们求得了一个特征值$1$,那么利用迹的性质,我们就可以直接推出另一个特征值是$-1$。
## 求解$Ax=\lambda x$
对于方程$Ax=\lambda x$,有两个未知数,我们需要利用一些技巧从这一个方程中一次解出两个未知数,先移项得$(A-\lambda I)x=0$。
观察$(A-\lambda I)x=0$,右边的矩阵相当于将$A$矩阵平移了$\lambda$个单位,而如果方程有解,则这个平移后的矩阵$(A-\lambda I)$一定是奇异矩阵。根据前面学到的行列式的性质,则有$$\det{(A-\lambda{I})}=0\tag{2}$$
这样一来,方程中就没有$x$了这个方程也叫作特征方程characteristic equation。有了特征值代回$(A-\lambda I)x=0$,继续求$(A-\lambda I)$的零空间即可。
* 现在计算一个简单的例子,$A=\begin{bmatrix}3&1\\1&3\end{bmatrix}$,再来说一点题外话,这是一个对称矩阵,我们将得到实特征值,前面还有置换矩阵、投影矩阵,矩阵越特殊,则我们得到的特征值与特征向量也越特殊。看置换矩阵中的特征值,两个实数$1, -1$,而且它们的特征向量是正交的。
回到例题,计算$\det{(A-\lambda{I})}=\begin{vmatrix}3-\lambda&1\\1&3-\lambda\end{vmatrix}$,也就是对角矩阵平移再取行列式。原式继续化简得$(3-\lambda)^2-1=\lambda^2-6\lambda+8=0, \lambda_1=4,\lambda_2=2$。可以看到一次项系数$-6$与矩阵的迹有关,常数项与矩阵的行列式有关。
继续计算特征向量,$A-4I=\begin{bmatrix}-1&1\\1&-1\end{bmatrix}$,显然矩阵是奇异的(如果是非奇异说明特征值计算有误),解出矩阵的零空间$x_1=\begin{bmatrix}1\\1\end{bmatrix}$;同理计算另一个特征向量,$A-2I=\begin{bmatrix}1&1\\1&1\end{bmatrix}$,解出矩阵的零空间$x_2=\begin{bmatrix}1\\-1\end{bmatrix}$。
回顾前面转置矩阵的例子,对矩阵$A'=\begin{bmatrix}0&1\\1&0\end{bmatrix}$有$\lambda_1=1, x_1=\begin{bmatrix}1\\1\end{bmatrix}, \lambda_2=-1, x_2=\begin{bmatrix}-1\\1\end{bmatrix}$。看转置矩阵$A'$与本例中的对称矩阵$A$有什么联系。
易得$A=A'+3I$,两个矩阵特征值相同,而其特征值刚好相差$3$。也就是如果给一个矩阵加上$3I$,则它的特征值会加$3$,而特征向量不变。这也很容易证明,如果$Ax=\lambda x$,则$(A+3I)x=\lambda x+3x=(\lambda+3)x$,所以$x$还是原来的$x$,而$\lambda$变为$\lambda+3$。
接下来,看一个关于特征向量认识的误区:已知$Ax=\lambda x, Bx=\alpha x$,则有$(A+B)x=(\lambda+\alpha)x$,当$B=3I$时,在上例中我们看到,确实成立,但是如果$B$为任意矩阵,则推论**不成立**,因为这两个式子中的特征向量$x$并不一定相同,所以两个式子的通常情况是$Ax=\lambda x, By=\alpha y$,它们也就无从相加了。
* 再来看旋转矩阵的例子,旋转$90^\circ$的矩阵$Q=\begin{bmatrix}\cos 90&-\sin 90\\\sin 90&\cos 90\end{bmatrix}=\begin{bmatrix}0&-1\\1&0\end{bmatrix}$(将每个向量旋转$90^\circ$,用$Q$表示因为旋转矩阵是正交矩阵中很重要的例子)。
上面提到特征值的一个性质:特征值之和等于矩阵的迹;现在有另一个性质:特征值之积等于矩阵的行列式。$$\prod_{i=1}^n\lambda_i=\det A$$
对于$Q$矩阵,有$\begin{cases}\lambda_1+\lambda_2&=0\\\lambda_1\cdot\lambda_2&=1\end{cases}$,再来思考特征值与特征向量的由来,哪些向量旋转$90^\circ$后与自己平行,于是遇到了麻烦,并没有这种向量,也没有这样的特征值来满足前面的方程组。
我们来按部就班的计算,$\det(Q-\lambda I)=\begin{vmatrix}\lambda&-1\\1&\lambda\end{vmatrix}=\lambda^2+1=0$,于是特征值为$\lambda_1=i, \lambda_2=-i$,我们看到这两个值满足迹与行列式的方程组,即使矩阵全是实数,其特征值也可能不是实数。本例中即出现了一对共轭负数,我们可以说,如果矩阵越接近对称,那么特征值就是实数。如果矩阵越不对称,就像本例,$Q^T=-Q$,这是一个反对称的矩阵,于是我得到了纯虚的特征值,这是极端情况,通常我们见到的矩阵是介于对称与反对称之间的。
于是我们看到,对于好的矩阵(置换矩阵)有实特征值及正交的特征向量,对于不好的矩阵($90^\circ$旋转矩阵)有纯虚的特征值。
* 再来看一个更糟的情况,$A=\begin{bmatrix}3&1\\0&3\end{bmatrix}$,这是一个三角矩阵,我们可以直接得出其特征值,即对角线元素。来看如何得到这一结论的:$\det(A-\lambda I)=\begin{vmatrix}3-\lambda&1\\0&3-\lambda\end{vmatrix}=(3-\lambda)^2=0$,于是$\lambda_1=3, \lambda_2=3$。而我们说这是一个糟糕的状况,在于它的特征向量。
带入特征值计算特征向量,带入$\lambda_1=3$得$(A-\lambda I)x=\begin{bmatrix}0&1\\0&0\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix}=\begin{bmatrix}0\\0\end{bmatrix}$,算出一个特征值$x_1=\begin{bmatrix}1\\0\end{bmatrix}$,当我们带入第二个特征值$\lambda_1=3$时,我们无法得到另一个与$x_1$线性无关的特征向量了。
而本例中的矩阵$A$是一个退化矩阵degenerate matrix重复的特征值在特殊情况下可能导致特征向量的短缺。
这一讲我们看到了足够多的“不好”的矩阵,下一讲会介绍一般情况下的特征值与特征向量。