把矩阵看作一个算子——从几何角度解释对称矩阵的三个最重要性质( 二 )


x?x是一个欧几里得范数( Euclidean norm) , 其定义如下:

  • 公式1.4
在二维欧几里得空间中 , 它是一个坐标为(x_1 , ... , x_n)的向量的长度 。 然后我们可以把公式1.3写成:
  • 公式1.5
由于共轭转置(算子H)与普通转置(算子T)的原理相同 , 我们可以利用x?A=(Ax)?的特性 。
  • 公式1.6
(Ax)?等于什么?这里我们将再次使用Ax = λx的关系 , 但这次(Ax)?将留给λ的复共轭 , 在λ上加一横表示共轭 。
  • 式1.7
我们在式1.3中见过x?x , 代欧几里得范数后得到:
  • 式1.8
这导致了λ和它的复共轭相等:
  • 式1.9
只有在一种情况下 , 式1.9才有效 , 即λ是实数 。 这样一来 , 我们就完成了证明 。
性质2. 特征值所对应的特征向量是正交的
这个证明也是一个直接的形式证明 , 但很简单 。 首先我们需要清楚目标 , 即:
  • 式1.10
考虑一个对称矩阵A , x_1和x_2是A的特征向量 , 对应于不同的特征向量(我们需要这个条件的原因将在稍后解释) 。 根据特征值和对称矩阵的定义 , 我们可以得到以下公式:
【|把矩阵看作一个算子——从几何角度解释对称矩阵的三个最重要性质】
  • 式1.11和式1.12
现在我们需要证明式1.10 。 让我们试着把x_1和x_2放在一起- 。 在左边用 (Ax?)?乘以x??:
  • 式1.13
在式1.13中 , 除了对称矩阵的特性外 , 还用到了另外两个事实 。
  1. 矩阵乘法符合结合律(可以用结合律运算)
  2. 矩阵-标量乘法是可交换的(可以自由移动标量) 。
然后 , 由于点积是可交换的 , 这意味着x??x?和x??x?是等价的 , 所以我们有:
  • 式1.14
其中x_1?x_2表示点积 。 如果λ_1≠λ_ , 那么x_1?x_1=0 , 这意味着这两个特征向量是正交的 。 如果λ_1 = λ_2 , 则有两个不同的特征向量对应于同一个特征值 。 由于特征向量在(A-λI)的零空间(表示为N(A-λI)) , 当一个特征向量对应于多个特征向量时 , N(A-λI)的维数大于1 。 在这种情况下 , 我们对这些特征向量有无限多的选择 , 我们总是可以选择它们是正交的 。
显然 , 有些情况下 , 实数矩阵有复数特征值 。 这发生在旋转矩阵上 。 为什么会这样呢?假设Q是一个旋转矩阵 。 我们知道 , 特征向量在被Q作用后不会改变方向 。 但如果Q是一个旋转矩阵 , 如果x是一个非零向量 , x怎么可能不改变方向呢?结论是 , 特征向量必须是复数(好好想一想吧) 。
二维空间中的旋转矩阵R(θ)如下所示:
  • 旋转矩阵
R(θ)将一个向量逆时针旋转一个角度θ , 它是一个具有复数特征值和特征向量的实矩阵 。
性质3. 对称矩阵总是可对角化的(谱定理)
这也与对称矩阵的其他两个特性有关 。 这个定理的名字可能让人困惑 。 事实上 , 一个矩阵的所有特征值的集合被称为谱( spectrum) 。 另外 , 我们可以这样想 。

特征值-特征向量对告诉我们 , 在给定的线性变换之后 , 一个向量在哪个方向上被扭曲 。
如下图所示 , 经过变换后 , 在v_1的方向上 , 图形被拉伸了很多 , 但在v_2的方向上却没有很大的拉伸 。
一个可对角线化的矩阵意味着存在一个对角线矩阵D(对角线以外的所有元素都是零) , 使得P-1AP=D , 其中P是一个可逆矩阵 。 我们也可以说 , 如果一个矩阵可以写成A=PDP-1的形式 , 那么该矩阵就是可对角的 。
分解通常不是唯一的 , 但只有D中对角线上的元素的排列和P中特征向量的标量乘法才是唯一的 。 另外我们需要注意的是 , 无论矩阵是否对称 , 对角线化都等同于找到特征向量和特征值 。 然而 , 对于非对称矩阵 , D不一定是正交矩阵 。
这两个定义是等价的 , 但可以有不同的解释(这种分解使得求矩阵的幂非常方便) 。 第二个定义 , A=PDP-1 , 告诉我们A如何被分解 , 与此同时 , 第一个定义 , P-1AP=D , 是告诉我们A可以被对角化 。 它告诉我们 , 有可能将标准基(由单位矩阵给出)与特征向量对齐(align) 。 这是由特征向量的正交性决定的 , 这在性质2中显示 。

推荐阅读