矩阵论专栏：专栏（文章按照顺序排序）

Schur分解、特征值分解、奇异值分解是三种联系十分紧密的矩阵分解，它们的关系是 S c h u r → E V D → S V D Schur\rightarrow{}EVD\rightarrow{}SVD Schur→EVD→SVD，也就是说由Schur分解可以推导出EVD，再推导出SVD。本篇博客和下篇博客按照主线 S c h u r → E V D → S V D Schur\rightarrow{}EVD\rightarrow{}SVD Schur→EVD→SVD依次介绍这三种矩阵分解，同时也通过一些例子介绍它们各自在理论上的应用（能够解决矩阵论中的哪些问题，推出哪些结论）。

本篇博客讨论Schur分解以及利用Schur分解能够解决的若干问题。下篇博客（链接）讨论特征值分解EVD和奇异值分解SVD的相关内容。

本文内容以线性代数知识为基础（主要是特征值和相似的知识）：

矩阵论（零）：线性代数基础知识整理（1）——逆矩阵、初等变换、满秩分解

矩阵论（零）：线性代数基础知识整理（2）——矩阵的秩与向量组的秩

矩阵论（零）：线性代数基础知识整理（3）——矩阵的秩与向量组的秩

矩阵论（零）：线性代数基础知识整理（4）——线性空间与线性变换

矩阵论（零）：线性代数基础知识整理（5）——特征值与相似

Schur分解
- Schur定理
- Schur分解与矩阵的特征值
- Schur分解与矩阵的可逆性
- Schur分解与矩阵的幂
  - 幂零矩阵
  - 方阵幂的秩
  - 收敛矩阵
- Schur分解与矩阵的多项式/级数
  - Hamilton-Cayley定理
  - Neumann级数
- 实矩阵的Schur分解（拓展内容）

Schur分解（任意方阵）

Schur定理

Schur分解是最基本的矩阵分解之一，在矩阵分析中作为重要的理论工具，能够将一般方阵转化成上三角矩阵来研究。Schur分解可以用来求解非对称矩阵的特征值，求不可对角化方阵的幂等。此外，Schur分解也是推导EVD和SVD的一个有效途径。

下面是酋矩阵的基本性质，是理解Schur分解的证明所必须掌握的。

如果A是一个n阶酋矩阵，那么 [ 1 0 T 0 A ] \begin{bmatrix}1&0^T\\0&A\end{bmatrix} [100TA]是一个 n + 1 n+1 n+1阶酋矩阵（由列向量组单位正交就可以证明）
如果A和B是同阶酋矩阵，则 A B AB AB也是酋矩阵（由酋矩阵的定义即证）

现在，我们就来看任意方阵存在Schur分解是如何证明的：

定理1（Schur定理）：设 A ∈ C n × n A\in{C^{n\times{n}}} A∈Cn×n，则存在n阶上三角矩阵T和n阶酋矩阵U使得 U H A U = T U^HAU=T UHAU=T

证明：（对A的阶数n进行归纳）

当n=1时，A本身就是一个上三角矩阵，取1阶酋矩阵 [ 1 ] \begin{bmatrix}1\end{bmatrix} [1]即知结论成立。假定结论对n-1阶方阵成立，下面证明结论对n阶方阵也成立。

取A的特征值 λ 1 \lambda_1 λ1和对应的单位特征向量 u 1 u_1 u1，即 A u 1 = λ 1 u 1 Au_1=\lambda_1u_1 Au1=λ1u1且 ∣ ∣ u 1 ∣ ∣ 2 = 1 ||u_1||_2=1 ∣∣u1∣∣2=1。由扩充定理及Gram-schmidt正交化方法知，可将 u 1 u_1 u1扩充为 C n C^n Cn的一组标准正交基，以这组基为矩阵 U 1 U_1 U1的列向量组，其中 u 1 u_1 u1为第一列，则 U 1 U_1 U1是酋矩阵。计算可得 U 1 H A U 1 = [ λ 1 ⋯ 0 A 1 ] U_1^HAU_1=\begin{bmatrix}\lambda_1&\cdots\\0&A_1\end{bmatrix} U1HAU1=[λ10⋯A1]其中 A 1 A_1 A1是一个n-1阶方阵。根据归纳假设，存在n-1阶酋矩阵 W W W使得 W H A 1 W = [ λ 2 ⋯ ∗ ⋱ ⋮ λ n ] W^HA_1W=\begin{bmatrix}\lambda_2&\cdots&*\\&\ddots&\vdots\\&&\lambda_n\end{bmatrix} WHA1W=⎣⎢⎡λ2⋯⋱∗⋮λn⎦⎥⎤设 U 2 = [ 1 0 T 0 W ] U_2=\begin{bmatrix}1&0^T\\0&W\end{bmatrix} U2=[100TW]，则 U 2 U_2 U2是酋矩阵。设 U = U 1 U 2 U=U_1U_2 U=U1U2，则U也是酋矩阵。计算可得 U H A U = U 2 H ( U 1 H A U 1 ) U 2 = [ 1 0 T 0 W H ] [ λ 1 ⋯ 0 A 1 ] [ 1 0 T 0 W ] = [ λ 1 ⋯ ∗ ⋱ ⋮ λ n ] U^HAU=U_2^H(U_1^HAU_1)U_2\\=\begin{bmatrix}1&0^T\\0&W^H\end{bmatrix}\begin{bmatrix}\lambda_1&\cdots\\0&A_1\end{bmatrix}\begin{bmatrix}1&0^T\\0&W\end{bmatrix}=\begin{bmatrix}\lambda_1&\cdots&*\\&\ddots&\vdots\\&&\lambda_n\end{bmatrix} UHAU=U2H(U1HAU1)U2=[100TWH][λ10⋯A1][100TW]=⎣⎢⎡λ1⋯⋱∗⋮λn⎦⎥⎤得证。

Schur分解与矩阵的特征值

定理2：设n阶方阵A的Schur分解为 A = U T U H A=UTU^H A=UTUH，则 λ \lambda λ是A的特征值的充要条件为 λ \lambda λ在T的主对角线上，且A的每一个特征值的代数重数等于其在T的主对角线上出现的次数

证：

注意到A与T相似（酋相似是相似的一种特殊情况），故A的特征值都是T的特征值，T的特征值也都是A的特征值，且A和T的同一个特征值的代数重数相等。又因为T是上三角矩阵，取T的全部主对角元就得到了A的全部特征值，且A的任意特征值的代数重数就等于该特征值在T的主对角线上出现的次数。

需要知道的一点是，设 A ∈ C n × n A\in C^{n\times n} A∈Cn×n的全部特征值为 λ 1 , λ 2 , . . . , λ n \lambda_1,\lambda_2,...,\lambda_n λ1,λ2,...,λn，则对这 n n n个特征值的任意排列顺序 λ i 1 , λ i 2 , . . . , λ i n \lambda_{i_1},\lambda_{i_2},...,\lambda_{i_n} λi1,λi2,...,λin（ i 1 , i 2 , . . . , i n i_1,i_2,...,i_n i1,i2,...,in是 1 , 2 , . . . , n 1,2,...,n 1,2,...,n的一个排列），都存在上三角阵 T T T以及相应的酋矩阵 U U U使得 A = U T U H A=UTU^H A=UTUH，满足 T T T的主对角线元素从上到下依次为 λ i 1 , λ i 2 , . . . , λ i n \lambda_{i_1},\lambda_{i_2},...,\lambda_{i_n} λi1,λi2,...,λin。

这一点可以从定理1的证明过程中看出来。在构造酋矩阵 U 1 U_1 U1时，我们是先选取了A的一个特征值 λ 1 \lambda_1 λ1和对应的单位特征向量 u 1 u_1 u1，而这里 λ 1 \lambda_1 λ1选择的是 A A A的哪个特征值都无所谓，我们当然可以选择 λ i 1 \lambda_{i_1} λi1作为这里的 λ 1 \lambda_1 λ1。同理，在递归地进行 n − 1 n-1 n−1阶方阵 A 1 A_1 A1的Schur分解构造时，我们也会选择 A 1 A_1 A1的一个特征值（注意根据式 U 1 H A U 1 = [ λ 1 ⋯ 0 A 1 ] U_1^HAU_1=\begin{bmatrix}\lambda_1&\cdots\\0&A_1\end{bmatrix} U1HAU1=[λ10⋯A1]可知 A A A的特征值是 λ 1 \lambda_1 λ1加上 A 1 A_1 A1的n-1个特征值），此时选择 λ i 2 \lambda_{i_2} λi2就可以了。如此归纳地选择下去即可。

定理3：设 A ∈ C n × n A\in C^{n\times n} A∈Cn×n， A A A的n个特征值（重特征值按重数算）为 λ 1 , λ 2 , . . . , λ n \lambda_1,\lambda_2,...,\lambda_n λ1,λ2,...,λn，则 A k ( k = 1 , 2 , . . . ) A^k(k=1,2,...) Ak(k=1,2,...)的n个特征值为 λ 1 k , λ 2 k , . . . , λ n k \lambda_1^k,\lambda_2^k,...,\lambda_n^k λ1k,λ2k,...,λnk

证：

设 A A A的一个Schur分解为 A = U T U H A=UTU^H A=UTUH，上三角矩阵 T T T的主对角元依次为 λ 1 , λ 2 , . . . , λ n \lambda_1,\lambda_2,...,\lambda_n λ1,λ2,...,λn。则由 A k = ( U T U H ) k = U T k U H A^k=(UTU^H)^k=UT^kU^H Ak=(UTUH)k=UTkUH知， A k A^k Ak的n个特征值为 λ 1 k , λ 2 k , . . . , λ n k \lambda_1^k,\lambda_2^k,...,\lambda_n^k λ1k,λ2k,...,λnk。

【注】这个定理的重要意义在于说明方阵 A A A的特征值 λ \lambda λ的代数重数与 A k A^k Ak的特征值 λ k \lambda^k λk的代数重数是有关系的。例如，若 A A A的特征值为 2 , 2 , 3 2,2,3 2,2,3，则由上述定理可得 A 3 A^3 A3的特征值为 2 3 , 2 3 , 3 3 2^3,2^3,3^3 23,23,33，其中 A 3 A^3 A3的特征值 2 3 2^3 23的代数重数是2，恰好等于 A A A的特征值 2 2 2的代数重数。但需要注意的是， A A A和 A k A^k Ak的相应特征值的代数重数并不总是相等。例如，若 A A A的特征值为 − 2 , 2 , 3 -2,2,3 −2,2,3，则 A 2 A^2 A2的特征值为 4 , 4 , 9 4,4,9 4,4,9， A A A有三个不同的特征值，但 A 2 A^2 A2只有两个不同的特征值。
定理4：设 A ∈ C n × n A\in C^{n\times n} A∈Cn×n，则 A A A的任意特征值 λ \lambda λ的几何重数小于等于代数重数

证：

设 A A A的一个Schur分解为 A = U T U H A=UTU^H A=UTUH， λ \lambda λ是 A A A的一个代数重数为 m 1 m_1 m1的特征值，其几何重数为 m 2 m_2 m2。考虑线性方程组 ( λ I − A ) x = 0 (\lambda I-A)x=0 (λI−A)x=0，即 U ( λ I − T ) U H x = 0 U(\lambda I-T)U^Hx=0 U(λI−T)UHx=0，由于 λ I − T \lambda I-T λI−T的对角线上恰有 m 1 m_1 m1个0，即有 n − m 1 n-m_1 n−m1个元素非零，故 r ( λ I − T ) ⩾ n − m 1 r(\lambda I-T)\geqslant n-m_1 r(λI−T)⩾n−m1，于是 ( λ I − A ) x = 0 (\lambda I-A)x=0 (λI−A)x=0的基础解系有 n − r ( λ I − A ) = n − r ( λ I − T ) ⩽ m 1 n-r(\lambda I-A)=n-r(\lambda I-T)\leqslant m_1 n−r(λI−A)=n−r(λI−T)⩽m1个向量，即 λ \lambda λ的几何重数小于等于代数重数。

【注】该定理是方阵特征值的基本性质之一，线性代数教材中常用的方法是使用扩充定理将特征子空间的基扩充为 C n C^n Cn的基，以基向量为列构造可逆矩阵 P P P，将原问题转化为探讨 P − 1 A P P^{-1}AP P−1AP的特征值的重数问题。个人认为Schur分解给出了一个更直观的角度。

Schur分解与矩阵的可逆性

【注】使用特征多项式讨论特征值，也能得到下面的结果。

定理5： ∀ A ∈ C n × n , ∃ t 0 ∈ R , ∀ t > t 0 \forall{A}\in{C^{n\times{n}}},\exist{t_0\in{R}},\forall{t\gt{t_0}} ∀A∈Cn×n,∃t0∈R,∀t>t0有 t I + A tI+A tI+A可逆

证：

设A的Schur分解为 A = U T U H A=UTU^H A=UTUH，记T的主对角元中实部最小的是 λ \lambda λ（即A的所有特征值中实部最小的），令 t 0 = − R e { λ } t_0=-Re\{\lambda\} t0=−Re{λ}。因为 t I + A = U ( t I + T ) U H tI+A=U(tI+T)U^H tI+A=U(tI+T)UH，且上三角矩阵 t I + T tI+T tI+T的主对角元的实部均不小于 t + R e { λ } t+Re\{\lambda\} t+Re{λ}，而 t + R e { λ } > t 0 + R e { λ } = 0 t+Re\{\lambda\}\gt{}t_0+Re\{\lambda\}=0 t+Re{λ}>t0+Re{λ}=0，故 t I + T tI+T tI+T的主对角元均不为零，故 t I + T tI+T tI+T的行列式不为零，故 t I + T tI+T tI+T可逆，故 t I + A tI+A tI+A可逆。

上述定理说明只要常数t取得充分大，就能使得 t I + A tI+A tI+A可逆，即使A本身是不可逆的。实际上，不但t可以取得充分大，t还可以取得充分小：

定理6： ∀ A ∈ C n × n , ∃ t 0 > 0 , ∀ 0 < t < t 0 \forall{A}\in{C^{n\times{n}}},\exist{t_0>0},\forall{0\lt{t}\lt{t_0}} ∀A∈Cn×n,∃t0>0,∀0<t<t0有 t I + A tI+A tI+A可逆

证：

设A的Schur分解为 A = U T U H A=UTU^H A=UTUH，A的特征值为 λ 1 , ⋯ , λ n \lambda_1,\cdots,\lambda_n λ1,⋯,λn满足 R e { λ 1 } ⩽ ⋯ ⩽ R e { λ n } 。 Re\{\lambda_1\}\leqslant{}\cdots\leqslant{}Re\{\lambda_n\}。 Re{λ1}⩽⋯⩽Re{λn}。若 R e { λ 1 } = ⋯ = R e { λ n } = 0 Re\{\lambda_1\}=\cdots=Re\{\lambda_n\}=0 Re{λ1}=⋯=Re{λn}=0，则任取 t 0 > 0 t_0>0 t0>0结论都成立；否则，设 R e { λ 1 } ⩽ ⋯ ⩽ R e { λ i − 1 } < R e { λ i } = ⋯ = R e { λ j } = 0 < R e { λ j + 1 } ⩽ ⋯ ⩽ R e { λ n } Re\{\lambda_1\}\leqslant{}\cdots\leqslant{}Re\{\lambda_{i-1}\}\lt{}Re\{\lambda_i\}=\cdots=Re\{\lambda_j\}=0\lt{}Re\{\lambda_{j+1}\}\leqslant{}\cdots\leqslant{}Re\{\lambda_n\} Re{λ1}⩽⋯⩽Re{λi−1}<Re{λi}=⋯=Re{λj}=0<Re{λj+1}⩽⋯⩽Re{λn}，满足 i = 1 i=1 i=1和 j = n j=n j=n至少有一个不成立，取 t 0 = m i n { ∣ R e { λ k } ∣ ∣ 1 ⩽ k < i ∨ j < k ⩽ n } t_0=min\left\{|Re\{\lambda_k\}|\mid{}1\leqslant{k}\lt{i}\lor{}j\lt{k}\leqslant{n}\right\} t0=min{∣Re{λk}∣∣1⩽k<i∨j<k⩽n}，则上三角矩阵 t I + T tI+T tI+T的主对角元均不为零，故 t I + T tI+T tI+T可逆，故 t I + A = U ( t I + T ) U H tI+A=U(tI+T)U^H tI+A=U(tI+T)UH可逆。

在计算机上求矩阵的逆时，由于数值计算的精度等限制，即使拿一个理论上可逆的矩阵有时也会遇到求不出逆的情况，常用的一个解决方案是将一个很小的正数t加到A的对角线上去，就能求出逆了。由于t很小，所以这种办法求出的逆矩阵与A的实际逆矩阵差别不大。定理6证明了这样做的可行性。另外，在分析学中，定理6是以矩阵为自变量的函数的连续性理论的基础。

Schur分解与矩阵的幂

在计算方阵 A A A的幂 A k A^k Ak之前，若知道 A A A的schur分解 A = U T U H = U T U − 1 A=UTU^H=UTU^{-1} A=UTUH=UTU−1，则有 A k = U T k U H A^k=UT^kU^H Ak=UTkUH，这就将方阵的幂运算转换成了上三角阵的幂运算。计算两个上三角阵的积的远算量比计算同阶的两个方阵的积的运算量要少的多，因此，schur分解能够加快矩阵幂的计算（当然，计算一般方阵的schur分解本身也不是容易的事，可能对于很大的幂指数，才有真正的加速效果）。

谈到矩阵的幂，Schur分解还能提供解决某些问题的思路，如幂零矩阵的指数、矩阵幂的秩、收敛矩阵的充要条件等。

幂零矩阵

引理1：设 A ∈ C n × n A\in C^{n\times n} A∈Cn×n为严格上三角阵（主对角线元素全部为零的上三角阵），则 A n = O A^n=O An=O

证明是显然的，通过计算即可发现规律：每当 A k A^k Ak的指数 k k k增加1，就会新出现一条斜边，其上的元素全部为零。举个4阶矩阵的例子： A = [ 0 1 1 1 0 0 1 1 0 0 0 1 0 0 0 0 ] A 2 = [ 0 0 1 2 0 0 0 1 0 0 0 0 0 0 0 0 ] A 3 = [ 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 ] A 4 = O A=\begin{bmatrix}0&1&1&1\\0&0&1&1\\0&0&0&1\\0&0&0&0\end{bmatrix}A^2=\begin{bmatrix}0&0&1&2\\0&0&0&1\\0&0&0&0\\0&0&0&0\end{bmatrix}A^3=\begin{bmatrix}0&0&0&1\\0&0&0&0\\0&0&0&0\\0&0&0&0\end{bmatrix}A^4=O A=⎣⎢⎢⎡0000100011001110⎦⎥⎥⎤A2=⎣⎢⎢⎡0000000010002100⎦⎥⎥⎤A3=⎣⎢⎢⎡0000000000001000⎦⎥⎥⎤A4=O
定义：设 A ∈ C n × n A\in{C^{n\times n}} A∈Cn×n，若存在正整数 k k k使得 A k = O A^k=O Ak=O，则称 A A A为幂零矩阵，并把满足 A m = O A^m=O Am=O的最小正整数 m m m称为 A A A的幂零指数（简称指数）

（显然，零矩阵的幂零指数是1；由引理1知任意 n n n阶严格上三角阵都是幂零矩阵，其幂零指数不大于 n n n）
定理7：设 A ∈ C n × n A\in{C^{n\times n}} A∈Cn×n，则 A A A是幂零阵的充要条件为 A A A只有零特征值

证：

设 A A A的一个schur分解为 A = U T U H A=UTU^H A=UTUH，其中 T T T为上三角阵。

必要性：任意正整数 m m m，有 A m = U T m U H A^m=UT^mU^H Am=UTmUH。假设 T T T的主对角线上存在非零元素 λ \lambda λ（即 A A A有非零特征值 λ \lambda λ），则 T m T^m Tm的主对角线上有非零元素 λ m \lambda^m λm，故 T m ≠ O T^m\neq O Tm=O，由 U U U可逆知 A m ≠ O A^m\neq O Am=O。这与 A A A是幂零矩阵相矛盾，故 A A A只有零特征值。

充分性：若 A A A只有零特征值，则 T T T的主对角线上元素均为零， T T T是一严格上三角阵。由引理1， T n = O T^n=O Tn=O，故 A n = U T n U H = O A^n=UT^nU^H=O An=UTnUH=O。根据幂零矩阵的定义知 A A A是幂零矩阵。
定理8：设 A ∈ C n × n A\in{C^{n\times n}} A∈Cn×n是一幂零矩阵，则 A A A的指数 t ⩽ n t\leqslant n t⩽n

证明：

从定理7充分性的证明可以得知。

方阵幂的秩

在前面的博客中（链接，“关于公式9的进一步讨论”），我们曾对方阵幂的秩随幂指数的变化规律做了初步的讨论。当时讨论的主要结果贴在下面作为引理：

引理2：设 A ∈ F n × n A\in F^{n\times n} A∈Fn×n， r ( A ) = r r(A)=r r(A)=r，则存在正整数 p 0 ⩽ r + 1 p_0\leqslant r+1 p0⩽r+1，使得 r ( A ) > r ( A 2 ) > . . . > r ( A p 0 ) = r ( A p 0 + 1 ) = r ( A p 0 + 2 ) = . . . r(A)>r(A^2)>...>r(A^{p_0})=r(A^{p_0+1})=r(A^{p_0+2})=... r(A)>r(A2)>...>r(Ap0)=r(Ap0+1)=r(Ap0+2)=...；特别地，若 p 0 = r + 1 p_0=r+1 p0=r+1，则对 k = 1 , 2 , . . . , r k=1,2,...,r k=1,2,...,r有 r ( A k ) = r − k + 1 r(A^k)=r-k+1 r(Ak)=r−k+1，且 0 = r ( A r + 1 ) = r ( A r + 2 ) = r ( A r + 3 ) = . . . 0=r(A^{r+1})=r(A^{r+2})=r(A^{r+3})=... 0=r(Ar+1)=r(Ar+2)=r(Ar+3)=...

把这个引理应用到幂零矩阵上，可以得到比定理8更强的结论：

定理9：设 A ∈ C n × n A\in{C^{n\times n}} A∈Cn×n是一幂零矩阵，则幂零指数 t ⩽ r ( A ) + 1 t\leqslant r(A)+1 t⩽r(A)+1，且 r ( A ) > r ( A 2 ) > . . . > r ( A t − 1 ) > r ( A t ) = 0 r(A)>r(A^2)>...>r(A^{t-1})>r(A^t)=0 r(A)>r(A2)>...>r(At−1)>r(At)=0

证：

由幂零矩阵的定义知，存在正整数 m m m使得 A m = O A^m=O Am=O， r ( A m ) = 0 r(A^m)=0 r(Am)=0。设 r ( A ) = r r(A)=r r(A)=r。若 m ⩽ r + 1 m\leqslant r+1 m⩽r+1，则根据幂零指数的定义知 t ⩽ r + 1 t\leqslant r+1 t⩽r+1。若 m > r + 1 m>r+1 m>r+1，根据引理2，有 r ( A r + 1 ) = r ( A r + 2 ) = . . . = r ( A m ) = 0 r(A^{r+1})=r(A^{r+2})=...=r(A^m)=0 r(Ar+1)=r(Ar+2)=...=r(Am)=0，故 A r + 1 = O A^{r+1}=O Ar+1=O，根据幂零指数的定义知 t ⩽ r + 1 t\leqslant r+1 t⩽r+1。

根据幂零指数的定义， A t − 1 ≠ O A^{t-1}\neq O At−1=O且 A t = O A^t=O At=O，故 r ( A t − 1 ) > r ( A t ) = 0 r(A^{t-1})>r(A^t)=0 r(At−1)>r(At)=0。根据引理2知 r ( A ) > r ( A 2 ) > . . . > r ( A t − 1 ) > r ( A t ) = 0 r(A)>r(A^2)>...>r(A^{t-1})>r(A^t)=0 r(A)>r(A2)>...>r(At−1)>r(At)=0。

【注】这个定理还说明，对幂零矩阵 A A A而言，引理2中的那个正整数 p 0 p_0 p0就是 A A A的幂零指数。

接下来我们利用Shur分解对方阵幂的秩进行讨论，得到一个比引理2更强的结论。

定理10：设 A ∈ C n × n A\in{C^{n\times n}} A∈Cn×n， r ( A ) = r r(A)=r r(A)=r， A A A的零特征值的代数重数为 s s s。则存在非负整数 p ⩽ min ⁡ { r + 1 , s } p\leqslant \min\{r+1,s\} p⩽min{r+1,s}，使得 r ( A ) > r ( A 2 ) > . . . > r ( A p ) r(A)>r(A^2)>...>r(A^p) r(A)>r(A2)>...>r(Ap)，且 n − s = r ( A p ) = r ( A p + 1 ) = r ( A p + 2 ) = . . . n-s=r(A^p)=r(A^{p+1})=r(A^{p+2})=... n−s=r(Ap)=r(Ap+1)=r(Ap+2)=...

证：

设 A ∈ C n × n A\in{C^{n\times n}} A∈Cn×n， A A A的一个Schur分解为 A = U T U H A=UTU^H A=UTUH，其中上三角阵 T T T的主对角线的前 n − s n-s n−s个元素是 A A A的非零特征值，后 s s s个元素是 A A A的零特征值。将 T T T分块为如下形式： T = [ C B O D ] T=\begin{bmatrix}C&B\\O&D\end{bmatrix} T=[COBD]其中 C C C是 n − s n-s n−s阶上三角阵， D D D是 s s s阶严格上三角阵。因为 C C C的主对角线上元素均非零，所以 C C C可逆。计算可知，对任意正整数 k k k， T k T^k Tk具备如下形式： T k = [ C k ∗ O D k ] T^k=\begin{bmatrix}C^k&*\\O&D^k\end{bmatrix} Tk=[CkO∗Dk]由 C k C^k Ck可逆，我们可以利用分块初等变换计算 T k T^k Tk的秩： r ( T k ) = r [ C k ∗ O D k ] = 列变换 r [ C k O O D k ] = r ( C k ) + r ( D k ) r(T^k)=r\begin{bmatrix}C^k&*\\O&D^k\end{bmatrix}\overset{列变换}{=}r\begin{bmatrix}C^k&O\\O&D^k\end{bmatrix}=r(C^k)+r(D^k) r(Tk)=r[CkO∗Dk]=列变换r[CkOODk]=r(Ck)+r(Dk)于是 r ( A k ) = r ( U T k U H ) = r ( T k ) = r ( C k ) + r ( D k ) = n − s + r ( D k ) r(A^k)=r(UT^kU^H)=r(T^k)=r(C^k)+r(D^k)=n-s+r(D^k) r(Ak)=r(UTkUH)=r(Tk)=r(Ck)+r(Dk)=n−s+r(Dk)。注意严格上三角阵 D D D是幂零矩阵（引理1），设它的幂零指数为 t t t，则根据定理9知 t ⩽ r ( D ) + 1 t\leqslant r(D)+1 t⩽r(D)+1，且 r ( D ) > r ( D 2 ) > . . . > r ( D t − 1 ) > r ( D t ) = 0 r(D)>r(D^2)>...>r(D^{t-1})>r(D^t)=0 r(D)>r(D2)>...>r(Dt−1)>r(Dt)=0。于是 r ( A ) > r ( A 2 ) > . . . > r ( A t ) r(A)>r(A^2)>...>r(A^t) r(A)>r(A2)>...>r(At)，且 n − s = r ( A t ) = r ( A t + 1 ) = r ( A t + 2 ) = . . . n-s=r(A^t)=r(A^{t+1})=r(A^{t+2})=... n−s=r(At)=r(At+1)=r(At+2)=...。显然 r ( D ) ⩽ s − 1 r(D)\leqslant s-1 r(D)⩽s−1，又根据 r ( A ) = n − s + r ( D ) r(A)=n-s+r(D) r(A)=n−s+r(D)可知 r ( D ) ⩽ r ( A ) r(D)\leqslant r(A) r(D)⩽r(A)，因此 t ⩽ r ( D ) + 1 ⩽ min ⁡ { r ( A ) + 1 , s } t\leqslant r(D)+1\leqslant \min\{r(A)+1,s\} t⩽r(D)+1⩽min{r(A)+1,s}。取 p = t p=t p=t，证毕。

上面的定理已经告诉我们，随着幂指数 k k k增加， r ( A k ) r(A^k) r(Ak)最终将取值为 n − s n-s n−s，其中 s s s是零特征值的代数重数。但是，如果要知道 r ( A k ) r(A^k) r(Ak)在每一个 k k k处的取值，那么就需要借助Jordan标准形的相关结论。有一篇中文论文给出了详细的讨论：链接。

收敛矩阵

幂零矩阵是收敛矩阵的特例，使用shur分解还可以证明收敛矩阵的充要条件。为此先给出矩阵分析的几个最基本的概念。

首先是将数列的极限/向量序列的极限的定义推广到矩阵序列上，使用经典的 ϵ − N \epsilon-N ϵ−N定义。

定义：设在数域 F F F下（ F F F是 R R R或 C C C），有一矩阵序列 { A ( k ) } \{A^{(k)}\} {A(k)}以及矩阵 A A A，若 ∀ ϵ > 0 \forall \epsilon>0 ∀ϵ>0， ∃ N ∈ N + \exist N\in N_+ ∃N∈N+，使得 ∀ n > N \forall n>N ∀n>N有 ∣ ∣ A ( n ) − A ∣ ∣ F < ϵ ||A^{(n)}-A||_F\lt \epsilon ∣∣A(n)−A∣∣F<ϵ成立，其中 ∣ ∣ ∙ ∣ ∣ F ||\bullet||_F ∣∣∙∣∣F为Frobenius范数，就称矩阵序列 { A ( k ) } \{A^{(k)}\} {A(k)}收敛于 A A A，记作 lim ⁡ k → ∞ A ( k ) = A \lim_{k\rightarrow \infty}A^{(k)}=A limk→∞A(k)=A

根据以上定义，容易建立矩阵序列的极限与矩阵的每个元素的数列极限之间的关系（如下）。实际上，由于这两种表述的等价性，很多教材直接将矩阵的每个元素收敛定义成矩阵收敛。

定理11：设在数域 F F F下（ F F F是 R R R或 C C C），有一矩阵序列 { A ( k ) } \{A^{(k)}\} {A(k)}以及矩阵 A A A，其中 A ( k ) = ( a i j ( k ) ) m × n A^{(k)}=(a_{ij}^{(k)})_{m\times n} A(k)=(aij(k))m×n， A = ( a i j ) m × n A=(a_{ij})_{m\times n} A=(aij)m×n，则 lim ⁡ k → ∞ A ( k ) = A \lim_{k\rightarrow \infty}A^{(k)}=A limk→∞A(k)=A的充要条件为对任意下标 1 ⩽ i ⩽ m , 1 ⩽ j ⩽ n 1\leqslant i\leqslant m,1\leqslant j\leqslant n 1⩽i⩽m,1⩽j⩽n有 lim ⁡ k → ∞ a i j ( k ) = a i j \lim_{k\rightarrow \infty}a_{ij}^{(k)}=a_{ij} limk→∞aij(k)=aij

证：

必要性可通过不等式 0 ⩽ ∣ a i j ( k ) − a i j ∣ ⩽ ∑ i , j ∣ a i j ( k ) − a i j ∣ 2 = ∣ ∣ A ( k ) − A ∣ ∣ F 0\leqslant |a_{ij}^{(k)}-a_{ij}|\leqslant\sqrt{\sum_{i,j}|a_{ij}^{(k)}-a_{ij}|^2}=||A^{(k)}-A||_F 0⩽∣aij(k)−aij∣⩽∑i,j∣aij(k)−aij∣2

=∣∣A(k)−A∣∣F以及数列极限的定义得到。充分性可通过 ∣ a i j ( k ) − a i j ∣ < ϵ ⟹ ∑ i , j ∣ a i j ( k ) − a i j ∣ 2 < m n ϵ |a_{ij}^{(k)}-a_{ij}|\lt \epsilon\implies\sqrt{\sum_{i,j}|a_{ij}^{(k)}-a_{ij}|^2}\lt \sqrt{mn} \epsilon ∣aij(k)−aij∣<ϵ⟹∑i,j∣aij(k)−aij∣2

<mn

ϵ得到。

矩阵序列的极限和数列极限类似，也有加法、乘法等基本运算性质，本文略去证明，直接使用。收敛矩阵就是无穷次幂为零的矩阵，显然幂零矩阵只是收敛矩阵的特例。下文中 ρ ( A ) \rho(A) ρ(A)表示 A A A的谱半径， C ( i , j ) C(i,j) C(i,j)表示 C C C的第i行第j列元素。

定义：设 A ∈ F n × n ( F = R 或 C ) A\in F^{n\times n}(F=R或C) A∈Fn×n(F=R或C)，若 lim ⁡ k → ∞ A k = O \lim_{k\rightarrow \infty}A^k=O limk→∞Ak=O，则称 A A A为收敛矩阵
引理3：设 A = ( a i j ) n × n ∈ F n × n A=(a_{ij})_{n\times n}\in F^{n\times n} A=(aij)n×n∈Fn×n， B = ( ∣ a i j ∣ ) n × n ∈ R n × n B=(|a_{ij}|)_{n\times n}\in R^{n\times n} B=(∣aij∣)n×n∈Rn×n，其中 F = R 或 C F=R或C F=R或C，若 B B B是收敛矩阵，则 A A A也是收敛矩阵

证：

根据矩阵乘法的定义可知 A k ( i , j ) = ∑ i 1 , i 2 , . . . , i k − 1 a i , i 1 a i 1 , i 2 . . . a i k − 1 , j A^k(i,j)=\sum_{i_1,i_2,...,i_{k-1}}a_{i,i_1}a_{i_1,i_2}...a_{i_{k-1},j} Ak(i,j)=∑i1,i2,...,ik−1ai,i1ai1,i2...aik−1,j， B k ( i , j ) = ∑ i 1 , i 2 , . . . , i k − 1 ∣ a i , i 1 ∣ ∣ a i 1 , i 2 ∣ . . . ∣ a i k − 1 , j ∣ B^k(i,j)=\sum_{i_1,i_2,...,i_{k-1}}|a_{i,i_1}||a_{i_1,i_2}|...|a_{i_{k-1},j}| Bk(i,j)=∑i1,i2,...,ik−1∣ai,i1∣∣ai1,i2∣...∣aik−1,j∣，于是由模的三角不等式知 ∣ A k ( i , j ) ∣ ⩽ ∣ B k ( i , j ) ∣ |A^k(i,j)|\leqslant |B^k(i,j)| ∣Ak(i,j)∣⩽∣Bk(i,j)∣。根据定理11， B B B是收敛矩阵就意味着 l i m k → ∞ B k ( i , j ) = 0 lim_{k\rightarrow \infty}B^k(i,j)=0 limk→∞Bk(i,j)=0，从而由不等式关系以及夹逼定理知 l i m k → ∞ A k ( i , j ) = 0 lim_{k\rightarrow \infty}A^k(i,j)=0 limk→∞Ak(i,j)=0，从而 A A A是收敛矩阵。
引理4：设 T ∈ F n × n ( F = R 或 C ) T\in F^{n\times n}(F=R或C) T∈Fn×n(F=R或C)为上三角阵，且 ρ ( T ) < 1 \rho(T)<1 ρ(T)<1，则 T T T是收敛矩阵

证：

若 ρ ( T ) = 0 \rho(T)=0 ρ(T)=0，则由引理1知 T T T是幂零矩阵，结论显然成立，接下来证明 ρ ( T ) > 0 \rho(T)>0 ρ(T)>0的情况。设 T = ( t i j ) n × n , T ′ = ( ∣ t i j ∣ ) n × n T=(t_{ij})_{n\times n},T'=(|t_{ij}|)_{n\times n} T=(tij)n×n,T′=(∣tij∣)n×n，由引理3知，若能证明 T ′ T' T′是收敛矩阵，就得到 T T T是收敛矩阵。 ρ ( T ) \rho(T) ρ(T)是 T ′ T' T′的主对角线元素的最大值。设 T ′ T' T′的主对角线元素依次为 λ 1 , λ 2 , . . . , λ n \lambda_1,\lambda_2,...,\lambda_n λ1,λ2,...,λn，根据谱半径的定义， ρ ( T ) = max ⁡ { λ 1 , λ 2 , . . . , λ n } \rho(T)=\max\{\lambda_1,\lambda_2,...,\lambda_n\} ρ(T)=max{λ1,λ2,...,λn}。令 T ′ ′ = T ′ − d i a g ( λ 1 , λ 2 , . . . , λ n ) T''=T'-diag(\lambda_1,\lambda_2,...,\lambda_n) T′′=T′−diag(λ1,λ2,...,λn)， S = δ I + T ′ ′ S=\delta I+T'' S=δI+T′′，其中 0 < δ = ρ ( T ) < 1 0<\delta=\rho(T)<1 0<δ=ρ(T)<1。 S S S和 T ′ T' T′都是实上三角阵，且任意下标 i , j i,j i,j均有 0 ⩽ T ′ ( i , j ) ⩽ S ( i , j ) 0\leqslant T'(i,j)\leqslant S(i,j) 0⩽T′(i,j)⩽S(i,j)，使用引理3类似证法就知道，若 S S S是收敛矩阵，则 T ′ T' T′是收敛矩阵。接下来证明 S S S是收敛矩阵。根据二项式展开，当 k ⩾ n k\geqslant n k⩾n时， S k = ( δ I + T ′ ′ ) k = ∑ j = 0 k ( k j ) δ k − j T ′ ′ j S^k=(\delta I+T'')^k=\sum_{j=0}^k\begin{pmatrix}k\\j\end{pmatrix}\delta^{k-j}T''^j Sk=(δI+T′′)k=∑j=0k(kj)δk−jT′′j。由于 T ′ ′ T'' T′′是严格上三角矩阵，根据引理1，当 j ⩾ n j\geqslant n j⩾n时有 T ′ ′ j = O T''^j=O T′′j=O，于是 S k = ∑ j = 0 n − 1 ( k j ) δ k − j T ′ ′ j S^k=\sum_{j=0}^{n-1}\begin{pmatrix}k\\j\end{pmatrix}\delta^{k-j}T''^j Sk=∑j=0n−1(kj)δk−jT′′j。两端令 k → ∞ k\rightarrow \infty k→∞就得到 l i m k → ∞ S k = ∑ j = 0 n − 1 ( l i m k → ∞ ( k j ) δ k − j ) T ′ ′ j = ∑ j = 0 n − 1 ( l i m k → ∞ k ( k − 1 ) . . . ( k − j + 1 ) j ! ( 1 δ ) k − j ) T ′ ′ j = O lim_{k\rightarrow \infty}S^k=\sum_{j=0}^{n-1}\left(lim_{k\rightarrow \infty}\begin{pmatrix}k\\j\end{pmatrix}\delta^{k-j}\right)T''^j=\sum_{j=0}^{n-1}\left(lim_{k\rightarrow \infty}\frac{k(k-1)...(k-j+1)}{j!(\frac{1}{\delta})^{k-j}}\right)T''^j=O limk→∞Sk=∑j=0n−1(limk→∞(kj)δk−j)T′′j=∑j=0n−1(limk→∞j!(δ1)k−jk(k−1)...(k−j+1))T′′j=O。证毕。
定理12：设 A ∈ F n × n ( F = R 或 C ) A\in F^{n\times n}(F=R或C) A∈Fn×n(F=R或C)，则 A A A为收敛矩阵的充要条件为 ρ ( A ) < 1 \rho(A)<1 ρ(A)<1

证：

必要性：任取 A A A的一个特征值 λ ∈ C \lambda\in C λ∈C和对应的一个特征向量 x ∈ C n x\in C^n x∈Cn，有 A x = λ x , x ≠ 0 Ax=\lambda x,x\neq 0 Ax=λx,x=0，归纳可知 ∀ k ∈ N + , A k x = λ k x \forall k\in N_+,A^kx=\lambda^k x ∀k∈N+,Akx=λkx，两端令 k → ∞ k\rightarrow \infty k→∞就有 lim ⁡ k → ∞ ( λ k x ) = 0 \lim_{k\rightarrow \infty}(\lambda^kx)=0 limk→∞(λkx)=0。由于 x x x非零，故 x x x至少有一个非零元素 x j x_j xj，则由定理11知 lim ⁡ k → ∞ ( λ k x j ) = 0 \lim_{k\rightarrow \infty}(\lambda^kx_j)=0 limk→∞(λkxj)=0，于是 lim ⁡ k → ∞ λ k = 1 x j lim ⁡ k → ∞ ( λ k x j ) = 0 \lim_{k\rightarrow \infty}\lambda^k=\frac{1}{x_j}\lim_{k\rightarrow \infty}(\lambda^kx_j)=0 limk→∞λk=xj1limk→∞(λkxj)=0。对复数 λ \lambda λ而言，这就意味着 ∣ λ ∣ < 1 |\lambda|<1 ∣λ∣<1，从而由谱半径的定义得 ρ ( A ) < 1 \rho(A)<1 ρ(A)<1。

充分性：设 A A A的一个schur分解为 A = U T U H A=UTU^H A=UTUH，其中 U U U为酋阵， T T T为上三角阵，归纳可得 A k = U T k U H A^k=UT^kU^H Ak=UTkUH。注意 T T T和 A A A有相同的特征值，故由 ρ ( A ) < 1 \rho(A)<1 ρ(A)<1知 ρ ( T ) < 1 \rho(T)<1 ρ(T)<1，于是由引理4得 l i m k → ∞ T k = O lim_{k\rightarrow\infty}T^k=O limk→∞Tk=O，故 l i m k → ∞ A k = U ( l i m k → ∞ T k ) U H = O lim_{k\rightarrow\infty}A^k=U(lim_{k\rightarrow\infty}T^k)U^H=O limk→∞Ak=U(limk→∞Tk)UH=O，得证。

以上证明收敛矩阵充要条件的思路是，通过不等式放缩将证明所有谱半径小于1的矩阵是收敛矩阵的问题归结为只证明某一类谱半径小于1的矩阵是收敛矩阵的问题，这一类矩阵就是主对角线元素相等的非负上三角矩阵。收敛矩阵是矩阵级数理论中的一个基本结论，很多教材的证法是利用Jordan分解，不过Jordan分解属于矩阵论中比较高阶的内容了，本文的目的是尽可能用简单的事实进行论证。

Schur分解与矩阵的多项式/级数

前面已经讨论了Schur分解在矩阵的幂相关的问题上的应用。矩阵的多项式是不同次数矩阵幂的线性和，下面发掘一下Schur分解在矩阵多项式相关问题上的潜力。

什么是矩阵的多项式？我们在初中学的多项式属于初等数学范畴，在抽象代数中，多项式是指这样的对象，其具有形式 a 0 + a 1 x + . . . + a n x n a_0+a_1x+...+a_nx^n a0+a1x+...+anxn，其中“系数” a i ∈ R a_i\in R ai∈R， R R R是一给定的环，并且这些对象之间定义了适当的运算，使它们整体上也构成了一个环（多项式环）。“变元” x x x只是一个形式上的记号，为了使多项式看起来是我们熟悉的多项式的那个样子。我们甚至可以抛弃所有的形式符号，用 ( a 0 , a 1 , . . . , a n ) (a_0,a_1,...,a_n) (a0,a1,...,an)表示多项式，并建立起多项式的理论。不过，我们要研究的矩阵的多项式比它更具体一点：矩阵多项式具有形式 a 0 I + a 1 A + . . . + a n A n a_0I+a_1A+...+a_nA^n a0I+a1A+...+anAn，其中 + + +就是矩阵的加法， A j A^j Aj就是 A A A的 j j j次幂（所以 A A A必须是方阵）， a j A j a_jA^j ajAj就是 a j a_j aj和 A j A^j Aj之间的数乘运算， I I I是方阵乘法的单位元（单位矩阵）。

Hamilton-Cayley定理

定理13：设 A ∈ F n × n A\in F^{n\times n} A∈Fn×n， f ( λ ) = d e t ( λ I − A ) f(\lambda)=det(\lambda I-A) f(λ)=det(λI−A)是 A A A的特征多项式，则 f ( λ ) f(\lambda) f(λ)是 A A A的零化多项式，即 f ( A ) = O f(A)=O f(A)=O

【注1】这里矩阵多项式 f ( A ) f(A) f(A)，就是在 f ( λ ) f(\lambda) f(λ)的展开式 f ( λ ) = a 0 + a 1 λ + . . . + a n λ n f(\lambda)=a_0+a_1\lambda+...+a_n\lambda^n f(λ)=a0+a1λ+...+anλn的形式下，把变元 λ \lambda λ替换成 A A A，并按照上述矩阵多项式的概念去解释它。

【注2】一个常见的荒谬错误是把 A A A“代入” f ( λ ) = d e t ( λ I − A ) f(\lambda)=det(\lambda I-A) f(λ)=det(λI−A)得到 f ( A ) = d e t ( A I − A ) = d e t ( O ) = 0 f(A)=det(AI-A)=det(O)=0 f(A)=det(AI−A)=det(O)=0。

证：

设 A A A的一个Schur分解为 A = U T U H = U T U − 1 A=UTU^H=UTU^{-1} A=UTUH=UTU−1， T T T的主对角线上元素依次为 λ 1 , λ 2 , . . . , λ n \lambda_1,\lambda_2,...,\lambda_n λ1,λ2,...,λn。特征多项式 f ( λ ) f(\lambda) f(λ)可以分解为 f ( λ ) = ( λ − λ 1 ) ( λ − λ 2 ) . . . ( λ − λ n ) f(\lambda)=(\lambda-\lambda_1)(\lambda-\lambda_2)...(\lambda-\lambda_n) f(λ)=(λ−λ1)(λ−λ2)...(λ−λn)，则 U − 1 f ( A ) U = U − 1 ( A − λ 1 I ) ( A − λ 2 I ) . . . ( A − λ n I ) U = U − 1 ( A − λ 1 I ) U U − 1 ( A − λ 2 I ) U U − 1 . . . ( A − λ n I ) U = ( U − 1 A U − λ 1 I ) ( U − 1 A U − λ 2 I ) . . . ( U − 1 A U − λ n I ) = ( T − λ 1 I ) ( T − λ 2 I ) . . . ( T − λ n I ) \begin{aligned}U^{-1}f(A)U&=U^{-1}(A-\lambda_1 I)(A-\lambda_2 I)...(A-\lambda_n I)U\\&=U^{-1}(A-\lambda_1 I)UU^{-1}(A-\lambda_2 I)UU^{-1}...(A-\lambda_n I)U\\&=(U^{-1}AU-\lambda_1 I)(U^{-1}AU-\lambda_2 I)...(U^{-1}AU-\lambda_n I)\\&=(T-\lambda_1 I)(T-\lambda_2 I)...(T-\lambda_n I)\end{aligned} U−1f(A)U=U−1(A−λ1I)(A−λ2I)...(A−λnI)U=U−1(A−λ1I)UU−1(A−λ2I)UU−1...(A−λnI)U=(U−1AU−λ1I)(U−1AU−λ2I)...(U−1AU−λnI)=(T−λ1I)(T−λ2I)...(T−λnI)注意 ( T − λ 1 I ) (T-\lambda_1 I) (T−λ1I)的第一列全为零， ( T − λ 1 I ) ( T − λ 2 I ) (T-\lambda_1 I)(T-\lambda_2 I) (T−λ1I)(T−λ2I)的第一列和第二列全为零，以此类推， ( T − λ 1 I ) ( T − λ 2 I ) . . . ( T − λ n I ) (T-\lambda_1 I)(T-\lambda_2 I)...(T-\lambda_n I) (T−λ1I)(T−λ2I)...(T−λnI)的第 1 , 2 , . . . , n 1,2,...,n 1,2,...,n列全为零，即 U − 1 f ( A ) U = O U^{-1}f(A)U=O U−1f(A)U=O，故 f ( A ) = O f(A)=O f(A)=O，证毕。

Neumann级数

矩阵级数与高等数学中数项级数的定义是一致的。

定义：设在数域 F F F下（ F F F是 R R R或 C C C），有一矩阵序列 { A ( k ) } \{A^{(k)}\} {A(k)}。我们称序列中前 m m m项的和 S ( m ) = ∑ k = 1 m A ( k ) S^{(m)}=\sum_{k=1}^mA^{(k)} S(m)=∑k=1mA(k)为部分和，称极限 lim ⁡ m → ∞ ∑ k = 1 m A ( k ) \lim_{m\rightarrow\infty}\sum_{k=1}^mA^{(k)} limm→∞∑k=1mA(k)为矩阵级数，并记作 ∑ k = 0 ∞ A ( k ) = lim ⁡ m → ∞ ∑ k = 1 m A ( k ) \sum_{k=0}^\infty A^{(k)}=\lim_{m\rightarrow\infty}\sum_{k=1}^mA^{(k)} ∑k=0∞A(k)=limm→∞∑k=1mA(k)。如果矩阵序列 { S ( m ) } \{S^{(m)}\} {S(m)}收敛于矩阵 A A A，我们就称级数 ∑ k = 0 ∞ A ( k ) \sum_{k=0}^\infty A^{(k)} ∑k=0∞A(k)收敛，且它的和为 ∑ k = 0 ∞ A ( k ) = A \sum_{k=0}^\infty A^{(k)}=A ∑k=0∞A(k)=A。

方阵 A A A的Neumann级数是指 ∑ k = 0 ∞ A k \sum_{k=0}^\infty A^k ∑k=0∞Ak。Neumann级数是定理12的一个简单推论。

定理14：设 A ∈ F n × n ( F = R 或 C ) A\in F^{n\times n}(F=R或C) A∈Fn×n(F=R或C)， ∑ k = 0 ∞ A k \sum_{k=0}^\infty A^k ∑k=0∞Ak收敛的充要条件为 ρ ( A ) < 1 \rho(A)<1 ρ(A)<1

证：

必要性：若 ∑ k = 0 ∞ A k \sum_{k=0}^\infty A^k ∑k=0∞Ak收敛，则令式 A m = ∑ k = 0 m A k − ∑ k = 0 m − 1 A k A^m=\sum_{k=0}^{m}A^k-\sum_{k=0}^{m-1}A^k Am=∑k=0mAk−∑k=0m−1Ak两端 m → ∞ m\rightarrow \infty m→∞就得到 l i m m → ∞ A n = ∑ k = 0 ∞ A k − ∑ k = 0 ∞ A k = O lim_{m\rightarrow \infty}A^n=\sum_{k=0}^\infty A^k-\sum_{k=0}^\infty A^k=O limm→∞An=∑k=0∞Ak−∑k=0∞Ak=O。根据定理12便知 ρ ( A ) < 1 \rho(A)<1 ρ(A)<1。

充分性：注意下式 ( ∑ k = 0 m A k ) ( I − A ) = I − A m + 1 \left(\sum_{k=0}^{m}A^k\right)(I-A)=I-A^{m+1} (k=0∑mAk)(I−A)=I−Am+1由 ρ ( A ) < 1 \rho(A)<1 ρ(A)<1知 1 1 1一定不是 A A A的特征值，因此 I − A I-A I−A必可逆，给上式两端右乘 ( I − A ) − 1 (I-A)^{-1} (I−A)−1得到 ∑ k = 0 m A k = ( I − A m + 1 ) ( I − A ) − 1 \sum_{k=0}^{m}A^k=(I-A^{m+1})(I-A)^{-1} k=0∑mAk=(I−Am+1)(I−A)−1根据定理12知 A A A是收敛矩阵，因此上式两端令 m → ∞ m\rightarrow\infty m→∞就有 ∑ k = 0 ∞ A k = ( I − A ) − 1 \sum_{k=0}^{\infty}A^k=(I-A)^{-1} ∑k=0∞Ak=(I−A)−1。

实矩阵的Schur分解（拓展内容）

定理1的Schur分解是针对复矩阵而言的，如果将数域缩小到实数域，schur分解就不适用了。

假命题：设 A ∈ R n × n A\in R^{n\times n} A∈Rn×n，则存在实正交矩阵 U U U和实上三角矩阵 T T T使得 A = U T U T A=UTU^T A=UTUT

实际上，只要方阵 A A A的特征值不全为实数，就不存在上述分解。然而，虽然不能将任意实矩阵正交相似上三角化，但我们可以放宽要求，将任意实矩阵正交相似拟上三角化。拟上三角阵具有如下形式： [ R 11 R 12 ⋯ R 1 m R 22 ⋯ R 2 m ⋱ ⋮ R m m ] \begin{bmatrix}R_{11}&R_{12}&\cdots&R_{1m}\\&R_{22}&\cdots&R_{2m}\\&&\ddots&\vdots\\&&&R_{mm}\end{bmatrix} ⎣⎢⎢⎢⎡R11R12R22⋯⋯⋱R1mR2m⋮Rmm⎦⎥⎥⎥⎤其中对角子块 R i i R_{ii} Rii是 1 × 1 1\times 1 1×1或 2 × 2 2\times 2 2×2方块。拟上三角阵是特殊的分块上三角阵，分块上三角阵也具有上述形式，只是对角子块 R i i R_{ii} Rii不一定必须是 1 × 1 1\times 1 1×1或 2 × 2 2\times 2 2×2方块，只要是方块就行。

（下文用 i i i表示虚数单位。注意虚数是指不是实数的复数，虚特征值一定不是实数）

引理5：设 x = c + i d ∈ C n x=c+id\in C^n x=c+id∈Cn，其中 c , d ∈ R n c,d\in R^n c,d∈Rn线性无关，则存在 λ = a + b i ∈ C \lambda=a+bi\in C λ=a+bi∈C，其中 a , b ∈ R a,b\in R a,b∈R，使得 λ x \lambda x λx的实部和虚部非零且正交

证：

计算可得 λ x = ( a c − b d ) + i ( a d + b c ) \lambda x=(ac-bd)+i(ad+bc) λx=(ac−bd)+i(ad+bc)。原命题等价于关于 a , b a,b a,b的方程 ( a c − b d ) T ( a d + b c ) = c T d ( a 2 − b 2 ) + ( c T c − d T d ) a b = 0 (ac-bd)^T(ad+bc)=c^Td(a^2-b^2)+(c^Tc-d^Td)ab=0 (ac−bd)T(ad+bc)=cTd(a2−b2)+(cTc−dTd)ab=0有实数解 a 0 , b 0 a_0,b_0 a0,b0，满足 a 0 , b 0 a_0,b_0 a0,b0不全为零。令 b = 1 b=1 b=1，则方程变为关于 a a a的二次方程 c T d a 2 + ( c T c − d T d ) a − c T d = 0 c^Tda^2+(c^Tc-d^Td)a-c^Td=0 cTda2+(cTc−dTd)a−cTd=0，根据判别式可知该二次方程有实数解。得证。
定理15：设 A ∈ R n × n A\in R^{n\times n} A∈Rn×n，则存在正交矩阵 U ∈ R n × n U\in R^{n\times n} U∈Rn×n和实矩阵 T ∈ R n × n T\in R^{n\times n} T∈Rn×n使得 A = U T U T A=UTU^T A=UTUT，其中， T T T是一满足如下要求的拟上三角阵： T = [ R 11 R 12 ⋯ R 1 m R 22 ⋯ R 2 m ⋱ ⋮ R m m ] T=\begin{bmatrix}R_{11}&R_{12}&\cdots&R_{1m}\\&R_{22}&\cdots&R_{2m}\\&&\ddots&\vdots\\&&&R_{mm}\end{bmatrix} T=⎣⎢⎢⎢⎡R11R12R22⋯⋯⋱R1mR2m⋮Rmm⎦⎥⎥⎥⎤其中对角子块 R i i R_{ii} Rii是 1 × 1 1\times1 1×1矩阵或有一对共轭的虚特征值的 2 × 2 2\times 2 2×2矩阵

证：（也是使用归纳法，但构造较繁琐）

设 A A A的阶数为 k k k。对 k = 1 k=1 k=1， A A A本身就是拟上三角矩阵，取1阶正交矩阵 [ 1 ] [1] [1]即知结论成立。对 k = 2 k=2 k=2， A A A有实特征值的情形可以根据下面的归纳得出，此处讨论 A A A只有虚特征值的情形： A A A的特征多项式是实系数多项式，因此根据虚根成对定理知 A A A有一对共轭的虚特征值，取2阶正交矩阵 I 2 I_2 I2（单位矩阵）便知结论成立。

假定结论对 k ⩽ n − 1 k\leqslant n-1 k⩽n−1阶方阵成立，现证明结论对 k = n k=n k=n阶方阵成立：

若 A A A有一实特征值 λ \lambda λ，取对应的一个单位实特征向量 x x x，由扩充定理及Gram-schmidt正交化方法知，可构造以 x x x为第一列的正交矩阵 U 1 U_1 U1，计算可得 U 1 T A U 1 = [ R 11 ⋯ 0 A 1 ] U_1^TAU_1=\begin{bmatrix}R_{11}&\cdots\\0&A_1\end{bmatrix} U1TAU1=[R110⋯A1]其中 R 11 = [ λ ] R_{11}=[\lambda] R11=[λ]为 1 × 1 1\times 1 1×1矩阵。由归纳假设，存在 n − 1 n-1 n−1阶实正交矩阵 W W W使得 W T A 1 W = [ R 22 ⋯ ∗ ⋱ ⋮ R n n ] W^TA_1W=\begin{bmatrix}R_{22}&\cdots&*\\&\ddots&\vdots\\&&R_{nn}\end{bmatrix} WTA1W=⎣⎢⎡R22⋯⋱∗⋮Rnn⎦⎥⎤为一满足要求的拟上三角阵。设 U 2 = [ 1 0 T 0 W ] U_2=\begin{bmatrix}1&0^T\\0&W\end{bmatrix} U2=[100TW]， U = U 1 U 2 U=U_1U_2 U=U1U2，则U是正交矩阵。计算可得 U T A U = U 2 T ( U 1 T A U 1 ) U 2 = [ R 11 ⋯ ∗ ⋱ ⋮ R n n ] U^TAU=U_2^T(U_1^TAU_1)U_2=\begin{bmatrix}R_{11}&\cdots&*\\&\ddots&\vdots\\&&R_{nn}\end{bmatrix} UTAU=U2T(U1TAU1)U2=⎣⎢⎡R11⋯⋱∗⋮Rnn⎦⎥⎤为一满足要求的拟上三角阵。

若 A A A没有实特征值，任取 A A A的一个虚特征值 λ \lambda λ，并设 A x = λ x , 0 ≠ x ∈ C n Ax=\lambda x,0\neq x\in C^n Ax=λx,0=x∈Cn，该式两端取共轭得 A x ‾ = λ ‾ x ‾ A\overline{x}=\overline{\lambda} \overline{x} Ax=λx，于是知 λ ‾ \overline{\lambda} λ也是 A A A的一个特征值， x ‾ \overline{x} x是对应的特征向量。又 λ ≠ λ ‾ \lambda\neq \overline{\lambda} λ=λ，故 x , x ‾ x,\overline{x} x,x是线性无关的，进一步易证 x x x的实部和虚部是线性无关的。根据引理5，存在 k ∈ C k\in C k∈C使 y = k x y=kx y=kx的实部和虚部非零且正交。注意 y y y也是 A A A对应于特征值 λ \lambda λ的一个特征向量。设 λ = a + b i , a , b ∈ R \lambda=a+bi,a,b\in R λ=a+bi,a,b∈R， y = c + d i , c , d ∈ R n y=c+di,c,d\in R^n y=c+di,c,d∈Rn，其中 i i i是虚数单位，则 b ≠ 0 , c , d ≠ 0 , c T d = 0 b\neq 0,c,d\neq 0,c^Td=0 b=0,c,d=0,cTd=0，且由 A y = λ y Ay=\lambda y Ay=λy可得 A c = a c − b d , A d = a d + b c Ac=ac-bd,Ad=ad+bc Ac=ac−bd,Ad=ad+bc。令 K = [ c d ] K=\begin{bmatrix}c&d\end{bmatrix} K=[cd]，计算易知 A K = K D AK=KD AK=KD其中 D = [ a b − b a ] D=\begin{bmatrix}a&b\\-b&a\end{bmatrix} D=[a−bba]有特征值 λ , λ ‾ \lambda,\overline{\lambda} λ,λ。令对角阵 P = [ ∣ ∣ c ∣ ∣ 2 − 1 0 0 ∣ ∣ d ∣ ∣ 2 − 1 ] P=\begin{bmatrix}||c||_2^{-1}&0\\0&||d||_2^{-1}\end{bmatrix} P=[∣∣c∣∣2−100∣∣d∣∣2−1]，则 A ( K P ) = K D P = ( K P ) P − 1 D P A(KP)=KDP=(KP)P^{-1}DP A(KP)=KDP=(KP)P−1DP其中 K P = [ c ∣ ∣ c ∣ ∣ 2 d ∣ ∣ d ∣ ∣ 2 ] KP=\begin{bmatrix}\frac{c}{||c||_2}&\frac{d}{||d||_2}\end{bmatrix} KP=[∣∣c∣∣2c∣∣d∣∣2d]的列向量组是单位正交向量组， P − 1 D P P^{-1}DP P−1DP与 D D D相似，特征值为 λ , λ ‾ \lambda,\overline{\lambda} λ,λ。由扩充定理及Gram-schmidt正交化方法知，可构造正交矩阵 U 1 = [ K P ∗ ] U_1=\begin{bmatrix}KP&*\end{bmatrix} U1=[KP∗]，计算可得 U 1 T A U 1 = [ R 11 ⋯ 0 A 1 ] U_1^TAU_1=\begin{bmatrix}R_{11}&\cdots\\0&A_1\end{bmatrix} U1TAU1=[R110⋯A1]其中 R 11 = P − 1 D P R_{11}=P^{-1}DP R11=P−1DP为 2 × 2 2\times 2 2×2矩阵，有一对共轭的虚特征值 λ , λ ‾ \lambda,\overline{\lambda} λ,λ。由归纳假设，存在 n − 2 n-2 n−2阶实正交矩阵 W W W使得 W T A 1 W = [ R 22 ⋯ ∗ ⋱ ⋮ R n n ] W^TA_1W=\begin{bmatrix}R_{22}&\cdots&*\\&\ddots&\vdots\\&&R_{nn}\end{bmatrix} WTA1W=⎣⎢⎡R22⋯⋱∗⋮Rnn⎦⎥⎤为一满足要求的拟上三角阵。设 U 2 = [ I 2 O T O W ] U_2=\begin{bmatrix}I_2&O^T\\O&W\end{bmatrix} U2=[I2OOTW]， U = U 1 U 2 U=U_1U_2 U=U1U2，则U是正交矩阵。计算可得 U T A U = U 2 T ( U 1 T A U 1 ) U 2 = [ R 11 ⋯ ∗ ⋱ ⋮ R n n ] U^TAU=U_2^T(U_1^TAU_1)U_2=\begin{bmatrix}R_{11}&\cdots&*\\&\ddots&\vdots\\&&R_{nn}\end{bmatrix} UTAU=U2T(U1TAU1)U2=⎣⎢⎡R11⋯⋱∗⋮Rnn⎦⎥⎤为一满足要求的拟上三角阵。证毕。

从特征多项式的角度（或从上述定理的证明过程）可以看出，实矩阵 A A A的特征值就是的对角子块 R i i R_{ii} Rii的特征值，当 R i i R_{ii} Rii是一阶矩阵时，其本身就是 A A A的一个特征值，当 R i i R_{ii} Rii是二阶矩阵时，其共轭的一对虚特征值是 A A A的特征值。

矩阵论（三）：矩阵分解—从Schur分解、特征值分解EVD到奇异值分解SVD（上）Schur分解（任意方阵）

Schur分解（任意方阵）

Schur定理

Schur分解与矩阵的特征值

Schur分解与矩阵的可逆性

Schur分解与矩阵的幂

幂零矩阵

方阵幂的秩

收敛矩阵

Schur分解与矩阵的多项式/级数

Hamilton-Cayley定理

Neumann级数

实矩阵的Schur分解（拓展内容）

继续阅读

K-近邻算法以及图像分类应用

weka之NB算法

使用weka的select attribute

weka中分类器算法

在weka中集成自己的算法

【多变量线性回归】学习记录序思路实现终

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

GSL 系列 6 — 线性代数 5 — 完全正交分解

GSL 系列 6 — 线性代数 1 — 背景知识 1

GSL 系列 6 — 线性代数 3 — QR 分解

【趋高机器视觉】机器视觉技术原理解析及解决方案

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告