天天看點

矩陣論(三):矩陣分解—從Schur分解、特征值分解EVD到奇異值分解SVD(上)Schur分解(任意方陣)

矩陣論專欄:專欄(文章按照順序排序)

Schur分解、特征值分解、奇異值分解是三種聯系十分緊密的矩陣分解,它們的關系是 S c h u r → E V D → S V D Schur\rightarrow{}EVD\rightarrow{}SVD Schur→EVD→SVD,也就是說由Schur分解可以推導出EVD,再推導出SVD。本篇部落格和下篇部落格按照主線 S c h u r → E V D → S V D Schur\rightarrow{}EVD\rightarrow{}SVD Schur→EVD→SVD依次介紹這三種矩陣分解,同時也通過一些例子介紹它們各自在理論上的應用(能夠解決矩陣論中的哪些問題,推出哪些結論)。

本篇部落格讨論Schur分解以及利用Schur分解能夠解決的若幹問題。下篇部落格(連結)讨論特征值分解EVD和奇異值分解SVD的相關内容。

本文内容以線性代數知識為基礎(主要是特征值和相似的知識):

矩陣論(零):線性代數基礎知識整理(1)——逆矩陣、初等變換、滿秩分解

矩陣論(零):線性代數基礎知識整理(2)——矩陣的秩與向量組的秩

矩陣論(零):線性代數基礎知識整理(3)——矩陣的秩與向量組的秩

矩陣論(零):線性代數基礎知識整理(4)——線性空間與線性變換

矩陣論(零):線性代數基礎知識整理(5)——特征值與相似

  • Schur分解
    • Schur定理
    • Schur分解與矩陣的特征值
    • Schur分解與矩陣的可逆性
    • Schur分解與矩陣的幂
      • 幂零矩陣
      • 方陣幂的秩
      • 收斂矩陣
    • Schur分解與矩陣的多項式/級數
      • Hamilton-Cayley定理
      • Neumann級數
    • 實矩陣的Schur分解(拓展内容)

Schur分解(任意方陣)

Schur定理

Schur分解是最基本的矩陣分解之一,在矩陣分析中作為重要的理論工具,能夠将一般方陣轉化成上三角矩陣來研究。Schur分解可以用來求解非對稱矩陣的特征值,求不可對角化方陣的幂等。此外,Schur分解也是推導EVD和SVD的一個有效途徑。

下面是酋矩陣的基本性質,是了解Schur分解的證明所必須掌握的。

  • 如果A是一個n階酋矩陣,那麼 [ 1 0 T 0 A ] \begin{bmatrix}1&0^T\\0&A\end{bmatrix} [10​0TA​]是一個 n + 1 n+1 n+1階酋矩陣(由列向量組機關正交就可以證明)
  • 如果A和B是同階酋矩陣,則 A B AB AB也是酋矩陣(由酋矩陣的定義即證)

現在,我們就來看任意方陣存在Schur分解是如何證明的:

  • 定理1(Schur定理):設 A ∈ C n × n A\in{C^{n\times{n}}} A∈Cn×n,則存在n階上三角矩陣T和n階酋矩陣U使得 U H A U = T U^HAU=T UHAU=T

    證明:(對A的階數n進行歸納)

    當n=1時,A本身就是一個上三角矩陣,取1階酋矩陣 [ 1 ] \begin{bmatrix}1\end{bmatrix} [1​]即知結論成立。假定結論對n-1階方陣成立,下面證明結論對n階方陣也成立。

    取A的特征值 λ 1 \lambda_1 λ1​和對應的機關特征向量 u 1 u_1 u1​,即 A u 1 = λ 1 u 1 Au_1=\lambda_1u_1 Au1​=λ1​u1​且 ∣ ∣ u 1 ∣ ∣ 2 = 1 ||u_1||_2=1 ∣∣u1​∣∣2​=1。由擴充定理及Gram-schmidt正交化方法知,可将 u 1 u_1 u1​擴充為 C n C^n Cn的一組标準正交基,以這組基為矩陣 U 1 U_1 U1​的列向量組,其中 u 1 u_1 u1​為第一列,則 U 1 U_1 U1​是酋矩陣。計算可得 U 1 H A U 1 = [ λ 1 ⋯ 0 A 1 ] U_1^HAU_1=\begin{bmatrix}\lambda_1&\cdots\\0&A_1\end{bmatrix} U1H​AU1​=[λ1​0​⋯A1​​]其中 A 1 A_1 A1​是一個n-1階方陣。根據歸納假設,存在n-1階酋矩陣 W W W使得 W H A 1 W = [ λ 2 ⋯ ∗ ⋱ ⋮ λ n ] W^HA_1W=\begin{bmatrix}\lambda_2&\cdots&*\\&\ddots&\vdots\\&&\lambda_n\end{bmatrix} WHA1​W=⎣⎢⎡​λ2​​⋯⋱​∗⋮λn​​⎦⎥⎤​設 U 2 = [ 1 0 T 0 W ] U_2=\begin{bmatrix}1&0^T\\0&W\end{bmatrix} U2​=[10​0TW​],則 U 2 U_2 U2​是酋矩陣。設 U = U 1 U 2 U=U_1U_2 U=U1​U2​,則U也是酋矩陣。計算可得 U H A U = U 2 H ( U 1 H A U 1 ) U 2 = [ 1 0 T 0 W H ] [ λ 1 ⋯ 0 A 1 ] [ 1 0 T 0 W ] = [ λ 1 ⋯ ∗ ⋱ ⋮ λ n ] U^HAU=U_2^H(U_1^HAU_1)U_2\\=\begin{bmatrix}1&0^T\\0&W^H\end{bmatrix}\begin{bmatrix}\lambda_1&\cdots\\0&A_1\end{bmatrix}\begin{bmatrix}1&0^T\\0&W\end{bmatrix}=\begin{bmatrix}\lambda_1&\cdots&*\\&\ddots&\vdots\\&&\lambda_n\end{bmatrix} UHAU=U2H​(U1H​AU1​)U2​=[10​0TWH​][λ1​0​⋯A1​​][10​0TW​]=⎣⎢⎡​λ1​​⋯⋱​∗⋮λn​​⎦⎥⎤​得證。

Schur分解與矩陣的特征值

  • 定理2:設n階方陣A的Schur分解為 A = U T U H A=UTU^H A=UTUH,則 λ \lambda λ是A的特征值的充要條件為 λ \lambda λ在T的主對角線上,且A的每一個特征值的代數重數等于其在T的主對角線上出現的次數

    證:

    注意到A與T相似(酋相似是相似的一種特殊情況),故A的特征值都是T的特征值,T的特征值也都是A的特征值,且A和T的同一個特征值的代數重數相等。又因為T是上三角矩陣,取T的全部主對角元就得到了A的全部特征值,且A的任意特征值的代數重數就等于該特征值在T的主對角線上出現的次數。

需要知道的一點是,設 A ∈ C n × n A\in C^{n\times n} A∈Cn×n的全部特征值為 λ 1 , λ 2 , . . . , λ n \lambda_1,\lambda_2,...,\lambda_n λ1​,λ2​,...,λn​,則對這 n n n個特征值的任意排列順序 λ i 1 , λ i 2 , . . . , λ i n \lambda_{i_1},\lambda_{i_2},...,\lambda_{i_n} λi1​​,λi2​​,...,λin​​( i 1 , i 2 , . . . , i n i_1,i_2,...,i_n i1​,i2​,...,in​是 1 , 2 , . . . , n 1,2,...,n 1,2,...,n的一個排列),都存在上三角陣 T T T以及相應的酋矩陣 U U U使得 A = U T U H A=UTU^H A=UTUH,滿足 T T T的主對角線元素從上到下依次為 λ i 1 , λ i 2 , . . . , λ i n \lambda_{i_1},\lambda_{i_2},...,\lambda_{i_n} λi1​​,λi2​​,...,λin​​。

這一點可以從定理1的證明過程中看出來。在構造酋矩陣 U 1 U_1 U1​時,我們是先選取了A的一個特征值 λ 1 \lambda_1 λ1​和對應的機關特征向量 u 1 u_1 u1​,而這裡 λ 1 \lambda_1 λ1​選擇的是 A A A的哪個特征值都無所謂,我們當然可以選擇 λ i 1 \lambda_{i_1} λi1​​作為這裡的 λ 1 \lambda_1 λ1​。同理,在遞歸地進行 n − 1 n-1 n−1階方陣 A 1 A_1 A1​的Schur分解構造時,我們也會選擇 A 1 A_1 A1​的一個特征值(注意根據式 U 1 H A U 1 = [ λ 1 ⋯ 0 A 1 ] U_1^HAU_1=\begin{bmatrix}\lambda_1&\cdots\\0&A_1\end{bmatrix} U1H​AU1​=[λ1​0​⋯A1​​]可知 A A A的特征值是 λ 1 \lambda_1 λ1​加上 A 1 A_1 A1​的n-1個特征值),此時選擇 λ i 2 \lambda_{i_2} λi2​​就可以了。如此歸納地選擇下去即可。

  • 定理3:設 A ∈ C n × n A\in C^{n\times n} A∈Cn×n, A A A的n個特征值(重特征值按重數算)為 λ 1 , λ 2 , . . . , λ n \lambda_1,\lambda_2,...,\lambda_n λ1​,λ2​,...,λn​,則 A k ( k = 1 , 2 , . . . ) A^k(k=1,2,...) Ak(k=1,2,...)的n個特征值為 λ 1 k , λ 2 k , . . . , λ n k \lambda_1^k,\lambda_2^k,...,\lambda_n^k λ1k​,λ2k​,...,λnk​

    證:

    設 A A A的一個Schur分解為 A = U T U H A=UTU^H A=UTUH,上三角矩陣 T T T的主對角元依次為 λ 1 , λ 2 , . . . , λ n \lambda_1,\lambda_2,...,\lambda_n λ1​,λ2​,...,λn​。則由 A k = ( U T U H ) k = U T k U H A^k=(UTU^H)^k=UT^kU^H Ak=(UTUH)k=UTkUH知, A k A^k Ak的n個特征值為 λ 1 k , λ 2 k , . . . , λ n k \lambda_1^k,\lambda_2^k,...,\lambda_n^k λ1k​,λ2k​,...,λnk​。

    【注】這個定理的重要意義在于說明方陣 A A A的特征值 λ \lambda λ的代數重數與 A k A^k Ak的特征值 λ k \lambda^k λk的代數重數是有關系的。例如,若 A A A的特征值為 2 , 2 , 3 2,2,3 2,2,3,則由上述定理可得 A 3 A^3 A3的特征值為 2 3 , 2 3 , 3 3 2^3,2^3,3^3 23,23,33,其中 A 3 A^3 A3的特征值 2 3 2^3 23的代數重數是2,恰好等于 A A A的特征值 2 2 2的代數重數。但需要注意的是, A A A和 A k A^k Ak的相應特征值的代數重數并不總是相等。例如,若 A A A的特征值為 − 2 , 2 , 3 -2,2,3 −2,2,3,則 A 2 A^2 A2的特征值為 4 , 4 , 9 4,4,9 4,4,9, A A A有三個不同的特征值,但 A 2 A^2 A2隻有兩個不同的特征值。

  • 定理4:設 A ∈ C n × n A\in C^{n\times n} A∈Cn×n,則 A A A的任意特征值 λ \lambda λ的幾何重數小于等于代數重數

    證:

    設 A A A的一個Schur分解為 A = U T U H A=UTU^H A=UTUH, λ \lambda λ是 A A A的一個代數重數為 m 1 m_1 m1​的特征值,其幾何重數為 m 2 m_2 m2​。考慮線性方程組 ( λ I − A ) x = 0 (\lambda I-A)x=0 (λI−A)x=0,即 U ( λ I − T ) U H x = 0 U(\lambda I-T)U^Hx=0 U(λI−T)UHx=0,由于 λ I − T \lambda I-T λI−T的對角線上恰有 m 1 m_1 m1​個0,即有 n − m 1 n-m_1 n−m1​個元素非零,故 r ( λ I − T ) ⩾ n − m 1 r(\lambda I-T)\geqslant n-m_1 r(λI−T)⩾n−m1​,于是 ( λ I − A ) x = 0 (\lambda I-A)x=0 (λI−A)x=0的基礎解系有 n − r ( λ I − A ) = n − r ( λ I − T ) ⩽ m 1 n-r(\lambda I-A)=n-r(\lambda I-T)\leqslant m_1 n−r(λI−A)=n−r(λI−T)⩽m1​個向量,即 λ \lambda λ的幾何重數小于等于代數重數。

    【注】該定理是方陣特征值的基本性質之一,線性代數教材中常用的方法是使用擴充定理将特征子空間的基擴充為 C n C^n Cn的基,以基向量為列構造可逆矩陣 P P P,将原問題轉化為探讨 P − 1 A P P^{-1}AP P−1AP的特征值的重數問題。個人認為Schur分解給出了一個更直覺的角度。

Schur分解與矩陣的可逆性

【注】使用特征多項式讨論特征值,也能得到下面的結果。

  • 定理5: ∀ A ∈ C n × n , ∃ t 0 ∈ R , ∀ t > t 0 \forall{A}\in{C^{n\times{n}}},\exist{t_0\in{R}},\forall{t\gt{t_0}} ∀A∈Cn×n,∃t0​∈R,∀t>t0​有 t I + A tI+A tI+A可逆

    證:

    設A的Schur分解為 A = U T U H A=UTU^H A=UTUH,記T的主對角元中實部最小的是 λ \lambda λ(即A的所有特征值中實部最小的),令 t 0 = − R e { λ } t_0=-Re\{\lambda\} t0​=−Re{λ}。因為 t I + A = U ( t I + T ) U H tI+A=U(tI+T)U^H tI+A=U(tI+T)UH,且上三角矩陣 t I + T tI+T tI+T的主對角元的實部均不小于 t + R e { λ } t+Re\{\lambda\} t+Re{λ},而 t + R e { λ } > t 0 + R e { λ } = 0 t+Re\{\lambda\}\gt{}t_0+Re\{\lambda\}=0 t+Re{λ}>t0​+Re{λ}=0,故 t I + T tI+T tI+T的主對角元均不為零,故 t I + T tI+T tI+T的行列式不為零,故 t I + T tI+T tI+T可逆,故 t I + A tI+A tI+A可逆。

上述定理說明隻要常數t取得充分大,就能使得 t I + A tI+A tI+A可逆,即使A本身是不可逆的。實際上,不但t可以取得充分大,t還可以取得充分小:

  • 定理6: ∀ A ∈ C n × n , ∃ t 0 > 0 , ∀ 0 < t < t 0 \forall{A}\in{C^{n\times{n}}},\exist{t_0>0},\forall{0\lt{t}\lt{t_0}} ∀A∈Cn×n,∃t0​>0,∀0<t<t0​有 t I + A tI+A tI+A可逆

    證:

    設A的Schur分解為 A = U T U H A=UTU^H A=UTUH,A的特征值為 λ 1 , ⋯   , λ n \lambda_1,\cdots,\lambda_n λ1​,⋯,λn​滿足 R e { λ 1 } ⩽ ⋯ ⩽ R e { λ n } 。 Re\{\lambda_1\}\leqslant{}\cdots\leqslant{}Re\{\lambda_n\}。 Re{λ1​}⩽⋯⩽Re{λn​}。若 R e { λ 1 } = ⋯ = R e { λ n } = 0 Re\{\lambda_1\}=\cdots=Re\{\lambda_n\}=0 Re{λ1​}=⋯=Re{λn​}=0,則任取 t 0 > 0 t_0>0 t0​>0結論都成立;否則,設 R e { λ 1 } ⩽ ⋯ ⩽ R e { λ i − 1 } < R e { λ i } = ⋯ = R e { λ j } = 0 < R e { λ j + 1 } ⩽ ⋯ ⩽ R e { λ n } Re\{\lambda_1\}\leqslant{}\cdots\leqslant{}Re\{\lambda_{i-1}\}\lt{}Re\{\lambda_i\}=\cdots=Re\{\lambda_j\}=0\lt{}Re\{\lambda_{j+1}\}\leqslant{}\cdots\leqslant{}Re\{\lambda_n\} Re{λ1​}⩽⋯⩽Re{λi−1​}<Re{λi​}=⋯=Re{λj​}=0<Re{λj+1​}⩽⋯⩽Re{λn​},滿足 i = 1 i=1 i=1和 j = n j=n j=n至少有一個不成立,取 t 0 = m i n { ∣ R e { λ k } ∣ ∣ 1 ⩽ k < i ∨ j < k ⩽ n } t_0=min\left\{|Re\{\lambda_k\}|\mid{}1\leqslant{k}\lt{i}\lor{}j\lt{k}\leqslant{n}\right\} t0​=min{∣Re{λk​}∣∣1⩽k<i∨j<k⩽n},則上三角矩陣 t I + T tI+T tI+T的主對角元均不為零,故 t I + T tI+T tI+T可逆,故 t I + A = U ( t I + T ) U H tI+A=U(tI+T)U^H tI+A=U(tI+T)UH可逆。

在計算機上求矩陣的逆時,由于數值計算的精度等限制,即使拿一個理論上可逆的矩陣有時也會遇到求不出逆的情況,常用的一個解決方案是将一個很小的正數t加到A的對角線上去,就能求出逆了。由于t很小,是以這種辦法求出的逆矩陣與A的實際逆矩陣差别不大。定理6證明了這樣做的可行性。另外,在分析學中,定理6是以矩陣為自變量的函數的連續性理論的基礎。

Schur分解與矩陣的幂

在計算方陣 A A A的幂 A k A^k Ak之前,若知道 A A A的schur分解 A = U T U H = U T U − 1 A=UTU^H=UTU^{-1} A=UTUH=UTU−1,則有 A k = U T k U H A^k=UT^kU^H Ak=UTkUH,這就将方陣的幂運算轉換成了上三角陣的幂運算。計算兩個上三角陣的積的遠算量比計算同階的兩個方陣的積的運算量要少的多,是以,schur分解能夠加快矩陣幂的計算(當然,計算一般方陣的schur分解本身也不是容易的事,可能對于很大的幂指數,才有真正的加速效果)。

談到矩陣的幂,Schur分解還能提供解決某些問題的思路,如幂零矩陣的指數、矩陣幂的秩、收斂矩陣的充要條件等。

幂零矩陣
  • 引理1:設 A ∈ C n × n A\in C^{n\times n} A∈Cn×n為嚴格上三角陣(主對角線元素全部為零的上三角陣),則 A n = O A^n=O An=O

    證明是顯然的,通過計算即可發現規律:每當 A k A^k Ak的指數 k k k增加1,就會新出現一條斜邊,其上的元素全部為零。舉個4階矩陣的例子: A = [ 0 1 1 1 0 0 1 1 0 0 0 1 0 0 0 0 ] A 2 = [ 0 0 1 2 0 0 0 1 0 0 0 0 0 0 0 0 ] A 3 = [ 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 ] A 4 = O A=\begin{bmatrix}0&1&1&1\\0&0&1&1\\0&0&0&1\\0&0&0&0\end{bmatrix}A^2=\begin{bmatrix}0&0&1&2\\0&0&0&1\\0&0&0&0\\0&0&0&0\end{bmatrix}A^3=\begin{bmatrix}0&0&0&1\\0&0&0&0\\0&0&0&0\\0&0&0&0\end{bmatrix}A^4=O A=⎣⎢⎢⎡​0000​1000​1100​1110​⎦⎥⎥⎤​A2=⎣⎢⎢⎡​0000​0000​1000​2100​⎦⎥⎥⎤​A3=⎣⎢⎢⎡​0000​0000​0000​1000​⎦⎥⎥⎤​A4=O

  • 定義:設 A ∈ C n × n A\in{C^{n\times n}} A∈Cn×n,若存在正整數 k k k使得 A k = O A^k=O Ak=O,則稱 A A A為幂零矩陣,并把滿足 A m = O A^m=O Am=O的最小正整數 m m m稱為 A A A的幂零指數(簡稱指數)

    (顯然,零矩陣的幂零指數是1;由引理1知任意 n n n階嚴格上三角陣都是幂零矩陣,其幂零指數不大于 n n n)

  • 定理7:設 A ∈ C n × n A\in{C^{n\times n}} A∈Cn×n,則 A A A是幂零陣的充要條件為 A A A隻有零特征值

    證:

    設 A A A的一個schur分解為 A = U T U H A=UTU^H A=UTUH,其中 T T T為上三角陣。

    必要性:任意正整數 m m m,有 A m = U T m U H A^m=UT^mU^H Am=UTmUH。假設 T T T的主對角線上存在非零元素 λ \lambda λ(即 A A A有非零特征值 λ \lambda λ),則 T m T^m Tm的主對角線上有非零元素 λ m \lambda^m λm,故 T m ≠ O T^m\neq O Tm​=O,由 U U U可逆知 A m ≠ O A^m\neq O Am​=O。這與 A A A是幂零矩陣相沖突,故 A A A隻有零特征值。

    充分性:若 A A A隻有零特征值,則 T T T的主對角線上元素均為零, T T T是一嚴格上三角陣。由引理1, T n = O T^n=O Tn=O,故 A n = U T n U H = O A^n=UT^nU^H=O An=UTnUH=O。根據幂零矩陣的定義知 A A A是幂零矩陣。

  • 定理8:設 A ∈ C n × n A\in{C^{n\times n}} A∈Cn×n是一幂零矩陣,則 A A A的指數 t ⩽ n t\leqslant n t⩽n

    證明:

    從定理7充分性的證明可以得知。

方陣幂的秩

在前面的部落格中(連結,“關于公式9的進一步讨論”),我們曾對方陣幂的秩随幂指數的變化規律做了初步的讨論。當時讨論的主要結果貼在下面作為引理:

  • 引理2:設 A ∈ F n × n A\in F^{n\times n} A∈Fn×n, r ( A ) = r r(A)=r r(A)=r,則存在正整數 p 0 ⩽ r + 1 p_0\leqslant r+1 p0​⩽r+1,使得 r ( A ) > r ( A 2 ) > . . . > r ( A p 0 ) = r ( A p 0 + 1 ) = r ( A p 0 + 2 ) = . . . r(A)>r(A^2)>...>r(A^{p_0})=r(A^{p_0+1})=r(A^{p_0+2})=... r(A)>r(A2)>...>r(Ap0​)=r(Ap0​+1)=r(Ap0​+2)=...;特别地,若 p 0 = r + 1 p_0=r+1 p0​=r+1,則對 k = 1 , 2 , . . . , r k=1,2,...,r k=1,2,...,r有 r ( A k ) = r − k + 1 r(A^k)=r-k+1 r(Ak)=r−k+1,且 0 = r ( A r + 1 ) = r ( A r + 2 ) = r ( A r + 3 ) = . . . 0=r(A^{r+1})=r(A^{r+2})=r(A^{r+3})=... 0=r(Ar+1)=r(Ar+2)=r(Ar+3)=...

把這個引理應用到幂零矩陣上,可以得到比定理8更強的結論:

  • 定理9:設 A ∈ C n × n A\in{C^{n\times n}} A∈Cn×n是一幂零矩陣,則幂零指數 t ⩽ r ( A ) + 1 t\leqslant r(A)+1 t⩽r(A)+1,且 r ( A ) > r ( A 2 ) > . . . > r ( A t − 1 ) > r ( A t ) = 0 r(A)>r(A^2)>...>r(A^{t-1})>r(A^t)=0 r(A)>r(A2)>...>r(At−1)>r(At)=0

    證:

    由幂零矩陣的定義知,存在正整數 m m m使得 A m = O A^m=O Am=O, r ( A m ) = 0 r(A^m)=0 r(Am)=0。設 r ( A ) = r r(A)=r r(A)=r。若 m ⩽ r + 1 m\leqslant r+1 m⩽r+1,則根據幂零指數的定義知 t ⩽ r + 1 t\leqslant r+1 t⩽r+1。若 m > r + 1 m>r+1 m>r+1,根據引理2,有 r ( A r + 1 ) = r ( A r + 2 ) = . . . = r ( A m ) = 0 r(A^{r+1})=r(A^{r+2})=...=r(A^m)=0 r(Ar+1)=r(Ar+2)=...=r(Am)=0,故 A r + 1 = O A^{r+1}=O Ar+1=O,根據幂零指數的定義知 t ⩽ r + 1 t\leqslant r+1 t⩽r+1。

    根據幂零指數的定義, A t − 1 ≠ O A^{t-1}\neq O At−1​=O且 A t = O A^t=O At=O,故 r ( A t − 1 ) > r ( A t ) = 0 r(A^{t-1})>r(A^t)=0 r(At−1)>r(At)=0。根據引理2知 r ( A ) > r ( A 2 ) > . . . > r ( A t − 1 ) > r ( A t ) = 0 r(A)>r(A^2)>...>r(A^{t-1})>r(A^t)=0 r(A)>r(A2)>...>r(At−1)>r(At)=0。

    【注】這個定理還說明,對幂零矩陣 A A A而言,引理2中的那個正整數 p 0 p_0 p0​就是 A A A的幂零指數。

接下來我們利用Shur分解對方陣幂的秩進行讨論,得到一個比引理2更強的結論。

  • 定理10:設 A ∈ C n × n A\in{C^{n\times n}} A∈Cn×n, r ( A ) = r r(A)=r r(A)=r, A A A的零特征值的代數重數為 s s s。則存在非負整數 p ⩽ min ⁡ { r + 1 , s } p\leqslant \min\{r+1,s\} p⩽min{r+1,s},使得 r ( A ) > r ( A 2 ) > . . . > r ( A p ) r(A)>r(A^2)>...>r(A^p) r(A)>r(A2)>...>r(Ap),且 n − s = r ( A p ) = r ( A p + 1 ) = r ( A p + 2 ) = . . . n-s=r(A^p)=r(A^{p+1})=r(A^{p+2})=... n−s=r(Ap)=r(Ap+1)=r(Ap+2)=...

    證:

    設 A ∈ C n × n A\in{C^{n\times n}} A∈Cn×n, A A A的一個Schur分解為 A = U T U H A=UTU^H A=UTUH,其中上三角陣 T T T的主對角線的前 n − s n-s n−s個元素是 A A A的非零特征值,後 s s s個元素是 A A A的零特征值。将 T T T分塊為如下形式: T = [ C B O D ] T=\begin{bmatrix}C&B\\O&D\end{bmatrix} T=[CO​BD​]其中 C C C是 n − s n-s n−s階上三角陣, D D D是 s s s階嚴格上三角陣。因為 C C C的主對角線上元素均非零,是以 C C C可逆。計算可知,對任意正整數 k k k, T k T^k Tk具備如下形式: T k = [ C k ∗ O D k ] T^k=\begin{bmatrix}C^k&*\\O&D^k\end{bmatrix} Tk=[CkO​∗Dk​]由 C k C^k Ck可逆,我們可以利用分塊初等變換計算 T k T^k Tk的秩: r ( T k ) = r [ C k ∗ O D k ] = 列 變 換 r [ C k O O D k ] = r ( C k ) + r ( D k ) r(T^k)=r\begin{bmatrix}C^k&*\\O&D^k\end{bmatrix}\overset{列變換}{=}r\begin{bmatrix}C^k&O\\O&D^k\end{bmatrix}=r(C^k)+r(D^k) r(Tk)=r[CkO​∗Dk​]=列變換r[CkO​ODk​]=r(Ck)+r(Dk)于是 r ( A k ) = r ( U T k U H ) = r ( T k ) = r ( C k ) + r ( D k ) = n − s + r ( D k ) r(A^k)=r(UT^kU^H)=r(T^k)=r(C^k)+r(D^k)=n-s+r(D^k) r(Ak)=r(UTkUH)=r(Tk)=r(Ck)+r(Dk)=n−s+r(Dk)。注意嚴格上三角陣 D D D是幂零矩陣(引理1),設它的幂零指數為 t t t,則根據定理9知 t ⩽ r ( D ) + 1 t\leqslant r(D)+1 t⩽r(D)+1,且 r ( D ) > r ( D 2 ) > . . . > r ( D t − 1 ) > r ( D t ) = 0 r(D)>r(D^2)>...>r(D^{t-1})>r(D^t)=0 r(D)>r(D2)>...>r(Dt−1)>r(Dt)=0。于是 r ( A ) > r ( A 2 ) > . . . > r ( A t ) r(A)>r(A^2)>...>r(A^t) r(A)>r(A2)>...>r(At),且 n − s = r ( A t ) = r ( A t + 1 ) = r ( A t + 2 ) = . . . n-s=r(A^t)=r(A^{t+1})=r(A^{t+2})=... n−s=r(At)=r(At+1)=r(At+2)=...。顯然 r ( D ) ⩽ s − 1 r(D)\leqslant s-1 r(D)⩽s−1,又根據 r ( A ) = n − s + r ( D ) r(A)=n-s+r(D) r(A)=n−s+r(D)可知 r ( D ) ⩽ r ( A ) r(D)\leqslant r(A) r(D)⩽r(A),是以 t ⩽ r ( D ) + 1 ⩽ min ⁡ { r ( A ) + 1 , s } t\leqslant r(D)+1\leqslant \min\{r(A)+1,s\} t⩽r(D)+1⩽min{r(A)+1,s}。取 p = t p=t p=t,證畢。

上面的定理已經告訴我們,随着幂指數 k k k增加, r ( A k ) r(A^k) r(Ak)最終将取值為 n − s n-s n−s,其中 s s s是零特征值的代數重數。但是,如果要知道 r ( A k ) r(A^k) r(Ak)在每一個 k k k處的取值,那麼就需要借助Jordan标準形的相關結論。有一篇中文論文給出了詳細的讨論:連結。

收斂矩陣

幂零矩陣是收斂矩陣的特例,使用shur分解還可以證明收斂矩陣的充要條件。為此先給出矩陣分析的幾個最基本的概念。

首先是将數列的極限/向量序列的極限的定義推廣到矩陣序列上,使用經典的 ϵ − N \epsilon-N ϵ−N定義。

  • 定義:設在數域 F F F下( F F F是 R R R或 C C C),有一矩陣序列 { A ( k ) } \{A^{(k)}\} {A(k)}以及矩陣 A A A,若 ∀ ϵ > 0 \forall \epsilon>0 ∀ϵ>0, ∃ N ∈ N + \exist N\in N_+ ∃N∈N+​,使得 ∀ n > N \forall n>N ∀n>N有 ∣ ∣ A ( n ) − A ∣ ∣ F < ϵ ||A^{(n)}-A||_F\lt \epsilon ∣∣A(n)−A∣∣F​<ϵ成立,其中 ∣ ∣ ∙ ∣ ∣ F ||\bullet||_F ∣∣∙∣∣F​為Frobenius範數,就稱矩陣序列 { A ( k ) } \{A^{(k)}\} {A(k)}收斂于 A A A,記作 lim ⁡ k → ∞ A ( k ) = A \lim_{k\rightarrow \infty}A^{(k)}=A limk→∞​A(k)=A

根據以上定義,容易建立矩陣序列的極限與矩陣的每個元素的數列極限之間的關系(如下)。實際上,由于這兩種表述的等價性,很多教材直接将矩陣的每個元素收斂定義成矩陣收斂。

  • 定理11:設在數域 F F F下( F F F是 R R R或 C C C),有一矩陣序列 { A ( k ) } \{A^{(k)}\} {A(k)}以及矩陣 A A A,其中 A ( k ) = ( a i j ( k ) ) m × n A^{(k)}=(a_{ij}^{(k)})_{m\times n} A(k)=(aij(k)​)m×n​, A = ( a i j ) m × n A=(a_{ij})_{m\times n} A=(aij​)m×n​,則 lim ⁡ k → ∞ A ( k ) = A \lim_{k\rightarrow \infty}A^{(k)}=A limk→∞​A(k)=A的充要條件為對任意下标 1 ⩽ i ⩽ m , 1 ⩽ j ⩽ n 1\leqslant i\leqslant m,1\leqslant j\leqslant n 1⩽i⩽m,1⩽j⩽n有 lim ⁡ k → ∞ a i j ( k ) = a i j \lim_{k\rightarrow \infty}a_{ij}^{(k)}=a_{ij} limk→∞​aij(k)​=aij​

    證:

    必要性可通過不等式 0 ⩽ ∣ a i j ( k ) − a i j ∣ ⩽ ∑ i , j ∣ a i j ( k ) − a i j ∣ 2 = ∣ ∣ A ( k ) − A ∣ ∣ F 0\leqslant |a_{ij}^{(k)}-a_{ij}|\leqslant\sqrt{\sum_{i,j}|a_{ij}^{(k)}-a_{ij}|^2}=||A^{(k)}-A||_F 0⩽∣aij(k)​−aij​∣⩽∑i,j​∣aij(k)​−aij​∣2

    ​=∣∣A(k)−A∣∣F​以及數列極限的定義得到。充分性可通過 ∣ a i j ( k ) − a i j ∣ < ϵ    ⟹    ∑ i , j ∣ a i j ( k ) − a i j ∣ 2 < m n ϵ |a_{ij}^{(k)}-a_{ij}|\lt \epsilon\implies\sqrt{\sum_{i,j}|a_{ij}^{(k)}-a_{ij}|^2}\lt \sqrt{mn} \epsilon ∣aij(k)​−aij​∣<ϵ⟹∑i,j​∣aij(k)​−aij​∣2

    ​<mn

    ​ϵ得到。

矩陣序列的極限和數列極限類似,也有加法、乘法等基本運算性質,本文略去證明,直接使用。收斂矩陣就是無窮次幂為零的矩陣,顯然幂零矩陣隻是收斂矩陣的特例。下文中 ρ ( A ) \rho(A) ρ(A)表示 A A A的譜半徑, C ( i , j ) C(i,j) C(i,j)表示 C C C的第i行第j列元素。

  • 定義:設 A ∈ F n × n ( F = R 或 C ) A\in F^{n\times n}(F=R或C) A∈Fn×n(F=R或C),若 lim ⁡ k → ∞ A k = O \lim_{k\rightarrow \infty}A^k=O limk→∞​Ak=O,則稱 A A A為收斂矩陣
  • 引理3:設 A = ( a i j ) n × n ∈ F n × n A=(a_{ij})_{n\times n}\in F^{n\times n} A=(aij​)n×n​∈Fn×n, B = ( ∣ a i j ∣ ) n × n ∈ R n × n B=(|a_{ij}|)_{n\times n}\in R^{n\times n} B=(∣aij​∣)n×n​∈Rn×n,其中 F = R 或 C F=R或C F=R或C,若 B B B是收斂矩陣,則 A A A也是收斂矩陣

    證:

    根據矩陣乘法的定義可知 A k ( i , j ) = ∑ i 1 , i 2 , . . . , i k − 1 a i , i 1 a i 1 , i 2 . . . a i k − 1 , j A^k(i,j)=\sum_{i_1,i_2,...,i_{k-1}}a_{i,i_1}a_{i_1,i_2}...a_{i_{k-1},j} Ak(i,j)=∑i1​,i2​,...,ik−1​​ai,i1​​ai1​,i2​​...aik−1​,j​, B k ( i , j ) = ∑ i 1 , i 2 , . . . , i k − 1 ∣ a i , i 1 ∣ ∣ a i 1 , i 2 ∣ . . . ∣ a i k − 1 , j ∣ B^k(i,j)=\sum_{i_1,i_2,...,i_{k-1}}|a_{i,i_1}||a_{i_1,i_2}|...|a_{i_{k-1},j}| Bk(i,j)=∑i1​,i2​,...,ik−1​​∣ai,i1​​∣∣ai1​,i2​​∣...∣aik−1​,j​∣,于是由模的三角不等式知 ∣ A k ( i , j ) ∣ ⩽ ∣ B k ( i , j ) ∣ |A^k(i,j)|\leqslant |B^k(i,j)| ∣Ak(i,j)∣⩽∣Bk(i,j)∣。根據定理11, B B B是收斂矩陣就意味着 l i m k → ∞ B k ( i , j ) = 0 lim_{k\rightarrow \infty}B^k(i,j)=0 limk→∞​Bk(i,j)=0,進而由不等式關系以及夾逼定理知 l i m k → ∞ A k ( i , j ) = 0 lim_{k\rightarrow \infty}A^k(i,j)=0 limk→∞​Ak(i,j)=0,進而 A A A是收斂矩陣。

  • 引理4:設 T ∈ F n × n ( F = R 或 C ) T\in F^{n\times n}(F=R或C) T∈Fn×n(F=R或C)為上三角陣,且 ρ ( T ) < 1 \rho(T)<1 ρ(T)<1,則 T T T是收斂矩陣

    證:

    若 ρ ( T ) = 0 \rho(T)=0 ρ(T)=0,則由引理1知 T T T是幂零矩陣,結論顯然成立,接下來證明 ρ ( T ) > 0 \rho(T)>0 ρ(T)>0的情況。設 T = ( t i j ) n × n , T ′ = ( ∣ t i j ∣ ) n × n T=(t_{ij})_{n\times n},T'=(|t_{ij}|)_{n\times n} T=(tij​)n×n​,T′=(∣tij​∣)n×n​,由引理3知,若能證明 T ′ T' T′是收斂矩陣,就得到 T T T是收斂矩陣。 ρ ( T ) \rho(T) ρ(T)是 T ′ T' T′的主對角線元素的最大值。設 T ′ T' T′的主對角線元素依次為 λ 1 , λ 2 , . . . , λ n \lambda_1,\lambda_2,...,\lambda_n λ1​,λ2​,...,λn​,根據譜半徑的定義, ρ ( T ) = max ⁡ { λ 1 , λ 2 , . . . , λ n } \rho(T)=\max\{\lambda_1,\lambda_2,...,\lambda_n\} ρ(T)=max{λ1​,λ2​,...,λn​}。令 T ′ ′ = T ′ − d i a g ( λ 1 , λ 2 , . . . , λ n ) T''=T'-diag(\lambda_1,\lambda_2,...,\lambda_n) T′′=T′−diag(λ1​,λ2​,...,λn​), S = δ I + T ′ ′ S=\delta I+T'' S=δI+T′′,其中 0 < δ = ρ ( T ) < 1 0<\delta=\rho(T)<1 0<δ=ρ(T)<1。 S S S和 T ′ T' T′都是實上三角陣,且任意下标 i , j i,j i,j均有 0 ⩽ T ′ ( i , j ) ⩽ S ( i , j ) 0\leqslant T'(i,j)\leqslant S(i,j) 0⩽T′(i,j)⩽S(i,j),使用引理3類似證法就知道,若 S S S是收斂矩陣,則 T ′ T' T′是收斂矩陣。接下來證明 S S S是收斂矩陣。根據二項式展開,當 k ⩾ n k\geqslant n k⩾n時, S k = ( δ I + T ′ ′ ) k = ∑ j = 0 k ( k j ) δ k − j T ′ ′ j S^k=(\delta I+T'')^k=\sum_{j=0}^k\begin{pmatrix}k\\j\end{pmatrix}\delta^{k-j}T''^j Sk=(δI+T′′)k=∑j=0k​(kj​)δk−jT′′j。由于 T ′ ′ T'' T′′是嚴格上三角矩陣,根據引理1,當 j ⩾ n j\geqslant n j⩾n時有 T ′ ′ j = O T''^j=O T′′j=O,于是 S k = ∑ j = 0 n − 1 ( k j ) δ k − j T ′ ′ j S^k=\sum_{j=0}^{n-1}\begin{pmatrix}k\\j\end{pmatrix}\delta^{k-j}T''^j Sk=∑j=0n−1​(kj​)δk−jT′′j。兩端令 k → ∞ k\rightarrow \infty k→∞就得到 l i m k → ∞ S k = ∑ j = 0 n − 1 ( l i m k → ∞ ( k j ) δ k − j ) T ′ ′ j = ∑ j = 0 n − 1 ( l i m k → ∞ k ( k − 1 ) . . . ( k − j + 1 ) j ! ( 1 δ ) k − j ) T ′ ′ j = O lim_{k\rightarrow \infty}S^k=\sum_{j=0}^{n-1}\left(lim_{k\rightarrow \infty}\begin{pmatrix}k\\j\end{pmatrix}\delta^{k-j}\right)T''^j=\sum_{j=0}^{n-1}\left(lim_{k\rightarrow \infty}\frac{k(k-1)...(k-j+1)}{j!(\frac{1}{\delta})^{k-j}}\right)T''^j=O limk→∞​Sk=∑j=0n−1​(limk→∞​(kj​)δk−j)T′′j=∑j=0n−1​(limk→∞​j!(δ1​)k−jk(k−1)...(k−j+1)​)T′′j=O。證畢。

  • 定理12:設 A ∈ F n × n ( F = R 或 C ) A\in F^{n\times n}(F=R或C) A∈Fn×n(F=R或C),則 A A A為收斂矩陣的充要條件為 ρ ( A ) < 1 \rho(A)<1 ρ(A)<1

    證:

    必要性:任取 A A A的一個特征值 λ ∈ C \lambda\in C λ∈C和對應的一個特征向量 x ∈ C n x\in C^n x∈Cn,有 A x = λ x , x ≠ 0 Ax=\lambda x,x\neq 0 Ax=λx,x​=0,歸納可知 ∀ k ∈ N + , A k x = λ k x \forall k\in N_+,A^kx=\lambda^k x ∀k∈N+​,Akx=λkx,兩端令 k → ∞ k\rightarrow \infty k→∞就有 lim ⁡ k → ∞ ( λ k x ) = 0 \lim_{k\rightarrow \infty}(\lambda^kx)=0 limk→∞​(λkx)=0。由于 x x x非零,故 x x x至少有一個非零元素 x j x_j xj​,則由定理11知 lim ⁡ k → ∞ ( λ k x j ) = 0 \lim_{k\rightarrow \infty}(\lambda^kx_j)=0 limk→∞​(λkxj​)=0,于是 lim ⁡ k → ∞ λ k = 1 x j lim ⁡ k → ∞ ( λ k x j ) = 0 \lim_{k\rightarrow \infty}\lambda^k=\frac{1}{x_j}\lim_{k\rightarrow \infty}(\lambda^kx_j)=0 limk→∞​λk=xj​1​limk→∞​(λkxj​)=0。對複數 λ \lambda λ而言,這就意味着 ∣ λ ∣ < 1 |\lambda|<1 ∣λ∣<1,進而由譜半徑的定義得 ρ ( A ) < 1 \rho(A)<1 ρ(A)<1。

    充分性:設 A A A的一個schur分解為 A = U T U H A=UTU^H A=UTUH,其中 U U U為酋陣, T T T為上三角陣,歸納可得 A k = U T k U H A^k=UT^kU^H Ak=UTkUH。注意 T T T和 A A A有相同的特征值,故由 ρ ( A ) < 1 \rho(A)<1 ρ(A)<1知 ρ ( T ) < 1 \rho(T)<1 ρ(T)<1,于是由引理4得 l i m k → ∞ T k = O lim_{k\rightarrow\infty}T^k=O limk→∞​Tk=O,故 l i m k → ∞ A k = U ( l i m k → ∞ T k ) U H = O lim_{k\rightarrow\infty}A^k=U(lim_{k\rightarrow\infty}T^k)U^H=O limk→∞​Ak=U(limk→∞​Tk)UH=O,得證。

以上證明收斂矩陣充要條件的思路是,通過不等式放縮将證明所有譜半徑小于1的矩陣是收斂矩陣的問題歸結為隻證明某一類譜半徑小于1的矩陣是收斂矩陣的問題,這一類矩陣就是主對角線元素相等的非負上三角矩陣。收斂矩陣是矩陣級數理論中的一個基本結論,很多教材的證法是利用Jordan分解,不過Jordan分解屬于矩陣論中比較高階的内容了,本文的目的是盡可能用簡單的事實進行論證。

Schur分解與矩陣的多項式/級數

前面已經讨論了Schur分解在矩陣的幂相關的問題上的應用。矩陣的多項式是不同次數矩陣幂的線性和,下面發掘一下Schur分解在矩陣多項式相關問題上的潛力。

什麼是矩陣的多項式?我們在國中學的多項式屬于初等數學範疇,在抽象代數中,多項式是指這樣的對象,其具有形式 a 0 + a 1 x + . . . + a n x n a_0+a_1x+...+a_nx^n a0​+a1​x+...+an​xn,其中“系數” a i ∈ R a_i\in R ai​∈R, R R R是一給定的環,并且這些對象之間定義了适當的運算,使它們整體上也構成了一個環(多項式環)。“變元” x x x隻是一個形式上的記号,為了使多項式看起來是我們熟悉的多項式的那個樣子。我們甚至可以抛棄所有的形式符号,用 ( a 0 , a 1 , . . . , a n ) (a_0,a_1,...,a_n) (a0​,a1​,...,an​)表示多項式,并建立起多項式的理論。不過,我們要研究的矩陣的多項式比它更具體一點:矩陣多項式具有形式 a 0 I + a 1 A + . . . + a n A n a_0I+a_1A+...+a_nA^n a0​I+a1​A+...+an​An,其中 + + +就是矩陣的加法, A j A^j Aj就是 A A A的 j j j次幂(是以 A A A必須是方陣), a j A j a_jA^j aj​Aj就是 a j a_j aj​和 A j A^j Aj之間的數乘運算, I I I是方陣乘法的機關元(機關矩陣)。

Hamilton-Cayley定理
  • 定理13:設 A ∈ F n × n A\in F^{n\times n} A∈Fn×n, f ( λ ) = d e t ( λ I − A ) f(\lambda)=det(\lambda I-A) f(λ)=det(λI−A)是 A A A的特征多項式,則 f ( λ ) f(\lambda) f(λ)是 A A A的零化多項式,即 f ( A ) = O f(A)=O f(A)=O

    【注1】這裡矩陣多項式 f ( A ) f(A) f(A),就是在 f ( λ ) f(\lambda) f(λ)的展開式 f ( λ ) = a 0 + a 1 λ + . . . + a n λ n f(\lambda)=a_0+a_1\lambda+...+a_n\lambda^n f(λ)=a0​+a1​λ+...+an​λn的形式下,把變元 λ \lambda λ替換成 A A A,并按照上述矩陣多項式的概念去解釋它。

    【注2】一個常見的荒謬錯誤是把 A A A“代入” f ( λ ) = d e t ( λ I − A ) f(\lambda)=det(\lambda I-A) f(λ)=det(λI−A)得到 f ( A ) = d e t ( A I − A ) = d e t ( O ) = 0 f(A)=det(AI-A)=det(O)=0 f(A)=det(AI−A)=det(O)=0。

    證:

    設 A A A的一個Schur分解為 A = U T U H = U T U − 1 A=UTU^H=UTU^{-1} A=UTUH=UTU−1, T T T的主對角線上元素依次為 λ 1 , λ 2 , . . . , λ n \lambda_1,\lambda_2,...,\lambda_n λ1​,λ2​,...,λn​。特征多項式 f ( λ ) f(\lambda) f(λ)可以分解為 f ( λ ) = ( λ − λ 1 ) ( λ − λ 2 ) . . . ( λ − λ n ) f(\lambda)=(\lambda-\lambda_1)(\lambda-\lambda_2)...(\lambda-\lambda_n) f(λ)=(λ−λ1​)(λ−λ2​)...(λ−λn​),則 U − 1 f ( A ) U = U − 1 ( A − λ 1 I ) ( A − λ 2 I ) . . . ( A − λ n I ) U = U − 1 ( A − λ 1 I ) U U − 1 ( A − λ 2 I ) U U − 1 . . . ( A − λ n I ) U = ( U − 1 A U − λ 1 I ) ( U − 1 A U − λ 2 I ) . . . ( U − 1 A U − λ n I ) = ( T − λ 1 I ) ( T − λ 2 I ) . . . ( T − λ n I ) \begin{aligned}U^{-1}f(A)U&=U^{-1}(A-\lambda_1 I)(A-\lambda_2 I)...(A-\lambda_n I)U\\&=U^{-1}(A-\lambda_1 I)UU^{-1}(A-\lambda_2 I)UU^{-1}...(A-\lambda_n I)U\\&=(U^{-1}AU-\lambda_1 I)(U^{-1}AU-\lambda_2 I)...(U^{-1}AU-\lambda_n I)\\&=(T-\lambda_1 I)(T-\lambda_2 I)...(T-\lambda_n I)\end{aligned} U−1f(A)U​=U−1(A−λ1​I)(A−λ2​I)...(A−λn​I)U=U−1(A−λ1​I)UU−1(A−λ2​I)UU−1...(A−λn​I)U=(U−1AU−λ1​I)(U−1AU−λ2​I)...(U−1AU−λn​I)=(T−λ1​I)(T−λ2​I)...(T−λn​I)​注意 ( T − λ 1 I ) (T-\lambda_1 I) (T−λ1​I)的第一列全為零, ( T − λ 1 I ) ( T − λ 2 I ) (T-\lambda_1 I)(T-\lambda_2 I) (T−λ1​I)(T−λ2​I)的第一列和第二列全為零,以此類推, ( T − λ 1 I ) ( T − λ 2 I ) . . . ( T − λ n I ) (T-\lambda_1 I)(T-\lambda_2 I)...(T-\lambda_n I) (T−λ1​I)(T−λ2​I)...(T−λn​I)的第 1 , 2 , . . . , n 1,2,...,n 1,2,...,n列全為零,即 U − 1 f ( A ) U = O U^{-1}f(A)U=O U−1f(A)U=O,故 f ( A ) = O f(A)=O f(A)=O,證畢。

Neumann級數

矩陣級數與高等數學中數項級數的定義是一緻的。

  • 定義:設在數域 F F F下( F F F是 R R R或 C C C),有一矩陣序列 { A ( k ) } \{A^{(k)}\} {A(k)}。我們稱序列中前 m m m項的和 S ( m ) = ∑ k = 1 m A ( k ) S^{(m)}=\sum_{k=1}^mA^{(k)} S(m)=∑k=1m​A(k)為部分和,稱極限 lim ⁡ m → ∞ ∑ k = 1 m A ( k ) \lim_{m\rightarrow\infty}\sum_{k=1}^mA^{(k)} limm→∞​∑k=1m​A(k)為矩陣級數,并記作 ∑ k = 0 ∞ A ( k ) = lim ⁡ m → ∞ ∑ k = 1 m A ( k ) \sum_{k=0}^\infty A^{(k)}=\lim_{m\rightarrow\infty}\sum_{k=1}^mA^{(k)} ∑k=0∞​A(k)=limm→∞​∑k=1m​A(k)。如果矩陣序列 { S ( m ) } \{S^{(m)}\} {S(m)}收斂于矩陣 A A A,我們就稱級數 ∑ k = 0 ∞ A ( k ) \sum_{k=0}^\infty A^{(k)} ∑k=0∞​A(k)收斂,且它的和為 ∑ k = 0 ∞ A ( k ) = A \sum_{k=0}^\infty A^{(k)}=A ∑k=0∞​A(k)=A。

方陣 A A A的Neumann級數是指 ∑ k = 0 ∞ A k \sum_{k=0}^\infty A^k ∑k=0∞​Ak。Neumann級數是定理12的一個簡單推論。

  • 定理14:設 A ∈ F n × n ( F = R 或 C ) A\in F^{n\times n}(F=R或C) A∈Fn×n(F=R或C), ∑ k = 0 ∞ A k \sum_{k=0}^\infty A^k ∑k=0∞​Ak收斂的充要條件為 ρ ( A ) < 1 \rho(A)<1 ρ(A)<1

    證:

    必要性:若 ∑ k = 0 ∞ A k \sum_{k=0}^\infty A^k ∑k=0∞​Ak收斂,則令式 A m = ∑ k = 0 m A k − ∑ k = 0 m − 1 A k A^m=\sum_{k=0}^{m}A^k-\sum_{k=0}^{m-1}A^k Am=∑k=0m​Ak−∑k=0m−1​Ak兩端 m → ∞ m\rightarrow \infty m→∞就得到 l i m m → ∞ A n = ∑ k = 0 ∞ A k − ∑ k = 0 ∞ A k = O lim_{m\rightarrow \infty}A^n=\sum_{k=0}^\infty A^k-\sum_{k=0}^\infty A^k=O limm→∞​An=∑k=0∞​Ak−∑k=0∞​Ak=O。根據定理12便知 ρ ( A ) < 1 \rho(A)<1 ρ(A)<1。

    充分性:注意下式 ( ∑ k = 0 m A k ) ( I − A ) = I − A m + 1 \left(\sum_{k=0}^{m}A^k\right)(I-A)=I-A^{m+1} (k=0∑m​Ak)(I−A)=I−Am+1由 ρ ( A ) < 1 \rho(A)<1 ρ(A)<1知 1 1 1一定不是 A A A的特征值,是以 I − A I-A I−A必可逆,給上式兩端右乘 ( I − A ) − 1 (I-A)^{-1} (I−A)−1得到 ∑ k = 0 m A k = ( I − A m + 1 ) ( I − A ) − 1 \sum_{k=0}^{m}A^k=(I-A^{m+1})(I-A)^{-1} k=0∑m​Ak=(I−Am+1)(I−A)−1根據定理12知 A A A是收斂矩陣,是以上式兩端令 m → ∞ m\rightarrow\infty m→∞就有 ∑ k = 0 ∞ A k = ( I − A ) − 1 \sum_{k=0}^{\infty}A^k=(I-A)^{-1} ∑k=0∞​Ak=(I−A)−1。

實矩陣的Schur分解(拓展内容)

定理1的Schur分解是針對複矩陣而言的,如果将數域縮小到實數域,schur分解就不适用了。

  • 假命題:設 A ∈ R n × n A\in R^{n\times n} A∈Rn×n,則存在實正交矩陣 U U U和實上三角矩陣 T T T使得 A = U T U T A=UTU^T A=UTUT

實際上,隻要方陣 A A A的特征值不全為實數,就不存在上述分解。然而,雖然不能将任意實矩陣正交相似上三角化,但我們可以放寬要求,将任意實矩陣正交相似拟上三角化。拟上三角陣具有如下形式: [ R 11 R 12 ⋯ R 1 m R 22 ⋯ R 2 m ⋱ ⋮ R m m ] \begin{bmatrix}R_{11}&R_{12}&\cdots&R_{1m}\\&R_{22}&\cdots&R_{2m}\\&&\ddots&\vdots\\&&&R_{mm}\end{bmatrix} ⎣⎢⎢⎢⎡​R11​​R12​R22​​⋯⋯⋱​R1m​R2m​⋮Rmm​​⎦⎥⎥⎥⎤​其中對角子塊 R i i R_{ii} Rii​是 1 × 1 1\times 1 1×1或 2 × 2 2\times 2 2×2方塊。拟上三角陣是特殊的分塊上三角陣,分塊上三角陣也具有上述形式,隻是對角子塊 R i i R_{ii} Rii​不一定必須是 1 × 1 1\times 1 1×1或 2 × 2 2\times 2 2×2方塊,隻要是方塊就行。

(下文用 i i i表示虛數機關。注意虛數是指不是實數的複數,虛特征值一定不是實數)

  • 引理5:設 x = c + i d ∈ C n x=c+id\in C^n x=c+id∈Cn,其中 c , d ∈ R n c,d\in R^n c,d∈Rn線性無關,則存在 λ = a + b i ∈ C \lambda=a+bi\in C λ=a+bi∈C,其中 a , b ∈ R a,b\in R a,b∈R,使得 λ x \lambda x λx的實部和虛部非零且正交

    證:

    計算可得 λ x = ( a c − b d ) + i ( a d + b c ) \lambda x=(ac-bd)+i(ad+bc) λx=(ac−bd)+i(ad+bc)。原命題等價于關于 a , b a,b a,b的方程 ( a c − b d ) T ( a d + b c ) = c T d ( a 2 − b 2 ) + ( c T c − d T d ) a b = 0 (ac-bd)^T(ad+bc)=c^Td(a^2-b^2)+(c^Tc-d^Td)ab=0 (ac−bd)T(ad+bc)=cTd(a2−b2)+(cTc−dTd)ab=0有實數解 a 0 , b 0 a_0,b_0 a0​,b0​,滿足 a 0 , b 0 a_0,b_0 a0​,b0​不全為零。令 b = 1 b=1 b=1,則方程變為關于 a a a的二次方程 c T d a 2 + ( c T c − d T d ) a − c T d = 0 c^Tda^2+(c^Tc-d^Td)a-c^Td=0 cTda2+(cTc−dTd)a−cTd=0,根據判别式可知該二次方程有實數解。得證。

  • 定理15:設 A ∈ R n × n A\in R^{n\times n} A∈Rn×n,則存在正交矩陣 U ∈ R n × n U\in R^{n\times n} U∈Rn×n和實矩陣 T ∈ R n × n T\in R^{n\times n} T∈Rn×n使得 A = U T U T A=UTU^T A=UTUT,其中, T T T是一滿足如下要求的拟上三角陣: T = [ R 11 R 12 ⋯ R 1 m R 22 ⋯ R 2 m ⋱ ⋮ R m m ] T=\begin{bmatrix}R_{11}&R_{12}&\cdots&R_{1m}\\&R_{22}&\cdots&R_{2m}\\&&\ddots&\vdots\\&&&R_{mm}\end{bmatrix} T=⎣⎢⎢⎢⎡​R11​​R12​R22​​⋯⋯⋱​R1m​R2m​⋮Rmm​​⎦⎥⎥⎥⎤​其中對角子塊 R i i R_{ii} Rii​是 1 × 1 1\times1 1×1矩陣或有一對共轭的虛特征值的 2 × 2 2\times 2 2×2矩陣

    證:(也是使用歸納法,但構造較繁瑣)

    設 A A A的階數為 k k k。對 k = 1 k=1 k=1, A A A本身就是拟上三角矩陣,取1階正交矩陣 [ 1 ] [1] [1]即知結論成立。對 k = 2 k=2 k=2, A A A有實特征值的情形可以根據下面的歸納得出,此處讨論 A A A隻有虛特征值的情形: A A A的特征多項式是實系數多項式,是以根據虛根成對定理知 A A A有一對共轭的虛特征值,取2階正交矩陣 I 2 I_2 I2​(機關矩陣)便知結論成立。

    假定結論對 k ⩽ n − 1 k\leqslant n-1 k⩽n−1階方陣成立,現證明結論對 k = n k=n k=n階方陣成立:

    若 A A A有一實特征值 λ \lambda λ,取對應的一個機關實特征向量 x x x,由擴充定理及Gram-schmidt正交化方法知,可構造以 x x x為第一列的正交矩陣 U 1 U_1 U1​,計算可得 U 1 T A U 1 = [ R 11 ⋯ 0 A 1 ] U_1^TAU_1=\begin{bmatrix}R_{11}&\cdots\\0&A_1\end{bmatrix} U1T​AU1​=[R11​0​⋯A1​​]其中 R 11 = [ λ ] R_{11}=[\lambda] R11​=[λ]為 1 × 1 1\times 1 1×1矩陣。由歸納假設,存在 n − 1 n-1 n−1階實正交矩陣 W W W使得 W T A 1 W = [ R 22 ⋯ ∗ ⋱ ⋮ R n n ] W^TA_1W=\begin{bmatrix}R_{22}&\cdots&*\\&\ddots&\vdots\\&&R_{nn}\end{bmatrix} WTA1​W=⎣⎢⎡​R22​​⋯⋱​∗⋮Rnn​​⎦⎥⎤​為一滿足要求的拟上三角陣。設 U 2 = [ 1 0 T 0 W ] U_2=\begin{bmatrix}1&0^T\\0&W\end{bmatrix} U2​=[10​0TW​], U = U 1 U 2 U=U_1U_2 U=U1​U2​,則U是正交矩陣。計算可得 U T A U = U 2 T ( U 1 T A U 1 ) U 2 = [ R 11 ⋯ ∗ ⋱ ⋮ R n n ] U^TAU=U_2^T(U_1^TAU_1)U_2=\begin{bmatrix}R_{11}&\cdots&*\\&\ddots&\vdots\\&&R_{nn}\end{bmatrix} UTAU=U2T​(U1T​AU1​)U2​=⎣⎢⎡​R11​​⋯⋱​∗⋮Rnn​​⎦⎥⎤​為一滿足要求的拟上三角陣。

    若 A A A沒有實特征值,任取 A A A的一個虛特征值 λ \lambda λ,并設 A x = λ x , 0 ≠ x ∈ C n Ax=\lambda x,0\neq x\in C^n Ax=λx,0​=x∈Cn,該式兩端取共轭得 A x ‾ = λ ‾ x ‾ A\overline{x}=\overline{\lambda} \overline{x} Ax=λx,于是知 λ ‾ \overline{\lambda} λ也是 A A A的一個特征值, x ‾ \overline{x} x是對應的特征向量。又 λ ≠ λ ‾ \lambda\neq \overline{\lambda} λ​=λ,故 x , x ‾ x,\overline{x} x,x是線性無關的,進一步易證 x x x的實部和虛部是線性無關的。根據引理5,存在 k ∈ C k\in C k∈C使 y = k x y=kx y=kx的實部和虛部非零且正交。注意 y y y也是 A A A對應于特征值 λ \lambda λ的一個特征向量。設 λ = a + b i , a , b ∈ R \lambda=a+bi,a,b\in R λ=a+bi,a,b∈R, y = c + d i , c , d ∈ R n y=c+di,c,d\in R^n y=c+di,c,d∈Rn,其中 i i i是虛數機關,則 b ≠ 0 , c , d ≠ 0 , c T d = 0 b\neq 0,c,d\neq 0,c^Td=0 b​=0,c,d​=0,cTd=0,且由 A y = λ y Ay=\lambda y Ay=λy可得 A c = a c − b d , A d = a d + b c Ac=ac-bd,Ad=ad+bc Ac=ac−bd,Ad=ad+bc。令 K = [ c d ] K=\begin{bmatrix}c&d\end{bmatrix} K=[c​d​],計算易知 A K = K D AK=KD AK=KD其中 D = [ a b − b a ] D=\begin{bmatrix}a&b\\-b&a\end{bmatrix} D=[a−b​ba​]有特征值 λ , λ ‾ \lambda,\overline{\lambda} λ,λ。令對角陣 P = [ ∣ ∣ c ∣ ∣ 2 − 1 0 0 ∣ ∣ d ∣ ∣ 2 − 1 ] P=\begin{bmatrix}||c||_2^{-1}&0\\0&||d||_2^{-1}\end{bmatrix} P=[∣∣c∣∣2−1​0​0∣∣d∣∣2−1​​],則 A ( K P ) = K D P = ( K P ) P − 1 D P A(KP)=KDP=(KP)P^{-1}DP A(KP)=KDP=(KP)P−1DP其中 K P = [ c ∣ ∣ c ∣ ∣ 2 d ∣ ∣ d ∣ ∣ 2 ] KP=\begin{bmatrix}\frac{c}{||c||_2}&\frac{d}{||d||_2}\end{bmatrix} KP=[∣∣c∣∣2​c​​∣∣d∣∣2​d​​]的列向量組是機關正交向量組, P − 1 D P P^{-1}DP P−1DP與 D D D相似,特征值為 λ , λ ‾ \lambda,\overline{\lambda} λ,λ。由擴充定理及Gram-schmidt正交化方法知,可構造正交矩陣 U 1 = [ K P ∗ ] U_1=\begin{bmatrix}KP&*\end{bmatrix} U1​=[KP​∗​],計算可得 U 1 T A U 1 = [ R 11 ⋯ 0 A 1 ] U_1^TAU_1=\begin{bmatrix}R_{11}&\cdots\\0&A_1\end{bmatrix} U1T​AU1​=[R11​0​⋯A1​​]其中 R 11 = P − 1 D P R_{11}=P^{-1}DP R11​=P−1DP為 2 × 2 2\times 2 2×2矩陣,有一對共轭的虛特征值 λ , λ ‾ \lambda,\overline{\lambda} λ,λ。由歸納假設,存在 n − 2 n-2 n−2階實正交矩陣 W W W使得 W T A 1 W = [ R 22 ⋯ ∗ ⋱ ⋮ R n n ] W^TA_1W=\begin{bmatrix}R_{22}&\cdots&*\\&\ddots&\vdots\\&&R_{nn}\end{bmatrix} WTA1​W=⎣⎢⎡​R22​​⋯⋱​∗⋮Rnn​​⎦⎥⎤​為一滿足要求的拟上三角陣。設 U 2 = [ I 2 O T O W ] U_2=\begin{bmatrix}I_2&O^T\\O&W\end{bmatrix} U2​=[I2​O​OTW​], U = U 1 U 2 U=U_1U_2 U=U1​U2​,則U是正交矩陣。計算可得 U T A U = U 2 T ( U 1 T A U 1 ) U 2 = [ R 11 ⋯ ∗ ⋱ ⋮ R n n ] U^TAU=U_2^T(U_1^TAU_1)U_2=\begin{bmatrix}R_{11}&\cdots&*\\&\ddots&\vdots\\&&R_{nn}\end{bmatrix} UTAU=U2T​(U1T​AU1​)U2​=⎣⎢⎡​R11​​⋯⋱​∗⋮Rnn​​⎦⎥⎤​為一滿足要求的拟上三角陣。證畢。

從特征多項式的角度(或從上述定理的證明過程)可以看出,實矩陣 A A A的特征值就是的對角子塊 R i i R_{ii} Rii​的特征值,當 R i i R_{ii} Rii​是一階矩陣時,其本身就是 A A A的一個特征值,當 R i i R_{ii} Rii​是二階矩陣時,其共轭的一對虛特征值是 A A A的特征值。

繼續閱讀