天天看點

矩陣論——特征值估計閑話特征值估計蓋爾圓估計特征值的區域總結題外話

特征值估計筆記

  • 閑話
    • 沒點關系的閑話
    • 可能有點關系的閑話
    • 有點關系的閑話
  • 特征值估計
    • 特征值的界估計的前提
      • 特征值的界估計的内容(模長,實部,虛部)
    • 另一種較為緊湊的特征值界估計
  • 蓋爾圓估計特征值的區域
    • 蓋爾圓定理1
    • 蓋爾圓定理2(_以上讨論的問題當然不會發生了_)
  • 總結
  • 題外話

閑話

沒點關系的閑話

矩陣論這個課程進入到倒數第二章了,也就是快講完了啊,說實話,前面一般因為自己的實力不足,達不到聽懂老師的水準,想着可能和大學的某些老師一樣,說着是要闆書,可惜隻是把書上的證明挪到了黑闆上,現在看來,自己真的是個蠢貨,要是有後悔藥,我肯定買一把先吃了。

可能有點關系的閑話

特征值的估計…… Emmmmm 特征值是什麼?估計這東西有什麼用?怎麼估計?題怎麼做?

先來一套萌新三連

老師上課的時候就吐槽了,你們現在學習這些東西,就知道問題怎麼做,書上要是有公式了,課肯定是不會聽的,背完公式就去考試了,考完就忘了,高分低能說的就是你們,到時候面對實際問題,啥都不會,沒見過。(碎碎念)

有點關系的閑話

老實說,接續上一章矩陣是什麼?

矩陣可以了解為一種對向量的變換, A x = y Ax=y Ax=y這個 x x x是原速度,有方向向量方向,由各個基合成,系數表示占比大小,模長, y y y為變換後的向量,一樣有大小有方向,将這個 A A A表示為 P − 1 Λ P P^{-1} \Lambda P P−1ΛP的形式,假設這個 P P P的列向量是機關正交的,那麼,這個 y y y就可以解釋成由 A A A進行 旋 轉 − − > 拉 伸 − − > 旋 轉 旋轉-->拉伸-->旋轉 旋轉−−>拉伸−−>旋轉得到的新速度。

注:這裡的改變 P P P單純是理論服務實際,也就是為了友善解釋,是以這樣拆分并且解釋,你完全可以拽着 x x x弄到 y y y,期間咋變,都可以用矩陣來表示,最後這些矩陣相乘變成 A A A就行

矩陣可以了解為線性方程組 A A A為系數陣 [ A , b ] [A,b] [A,b]為增廣陣,将 A A A變成對角陣,得到特征值,對增廣陣進行相同的變化,也就得到了方程組的解,直覺,但不必要。

這裡說一句題外話矩陣的分解—— Q R QR QR或者 L D U LDU LDU,實際上就是為了讓電腦進行解方程出來的,他們擁有不同的算法複雜度(說的再清楚一點,分解這個東西就是為了給計算機減負,别讓你的顯存或者記憶體超了,然後U沒了)

再說句題外話,矩陣這個東西具體怎麼了解是因學科而異的,在這裡可以這樣了解,在那裡又可以換個解釋,數學是門工具,幫助我們分析并解決實際問題的,是以,Emmm我們的實際問題就是考試,沒什麼毛病

特征值估計

特征值在控制系統中表征零極點的位置,而根據零極點的大緻位置就可以判斷系統的狀态(穩定或者不穩定)——這是老師說的

關于這個知識點,完全雜亂無章,還有很多人寫了書,很厚一本書,就是用來估計特征值的。

特征值的界估計的前提

首先,我們看兩個矩陣

[ 1 0 0 0 2 0 0 0 3 ] [ 1 0.1 0 0 2 0.0001 0 0.001 3 ] \left [ \begin{matrix} 1 & 0 & 0 \\ 0& 2& 0\\ 0& 0 & 3 \end{matrix} \right] \left [ \begin{matrix} 1 & 0.1 & 0 \\ 0 & 2 & 0.0001 \\ 0 & 0.001 & 3 \end{matrix} \right] ⎣⎡​100​020​003​⎦⎤​⎣⎡​100​0.120.001​00.00013​⎦⎤​

這兩個矩陣的特征值,顯然不一樣,但是,第二個矩陣的特征值,大家都肯定是在第一個矩陣特征值的附近,為什麼?為什麼可以這麼說?數學上如何解釋?

解矩陣的特征值的時候我們通過 ∣ λ E − A ∣ = 0 |\lambda E-A|=0 ∣λE−A∣=0進行求解,而通過因式分解可以得到 ( λ 1 − f 1 ( a i , j ) ) ( λ 2 − f 2 ( a i , j ) ) ( λ 3 − f 3 ( a i , j ) ) . . . ( λ n − f n ( a i , j ) ) = 0 (\lambda_1-f_1(a_{i,j}))(\lambda_2-f_2(a_{i,j}))(\lambda_3-f_3(a_{i,j}))...(\lambda_n-f_n(a_{i,j}))=0 (λ1​−f1​(ai,j​))(λ2​−f2​(ai,j​))(λ3​−f3​(ai,j​))...(λn​−fn​(ai,j​))=0類似這樣的一個東西,其中 f f f是連續函數,連續函數的梯度是有上下限的,是以,第二個矩陣的特征值依舊在 123 123 123附近

特征值的界估計的内容(模長,實部,虛部)

先說說矩陣和特征值在實數域的聯系——特征向量 A x = λ x − > λ = x T A x Ax=\lambda x->\lambda =x^TAx Ax=λx−>λ=xTAx這樣特征值就變成了二次型的形狀,我們可以規定 ∣ ∣ x ∣ ∣ 2 = 1 ||x||_2=1 ∣∣x∣∣2​=1即模長為 1 1 1友善我們分析

(1) λ = x T A x = ∑ i , j = 1 n a i , j x i x j ≤ m a x [ a i , j ] ∑ i , j = 1 n ∣ x i ∣ ∣ x j ∣ = m a x [ a i , j ] [ ∑ i = 1 n ∣ x i ∣ ] 2 ≤ m a x [ a i , j ] n ∑ i 1 n ∣ x i ∣ 2 = n m a x [ a i , j ] \lambda=x^TAx\\=\sum_{i,j=1}^na_{i,j}x_ix_j\\ \leq max[{a_{i,j}}]\sum_{i,j=1}^n|x_i||x_j|\\=max[{a_{i,j}}][{\sum_{i=1}^n|x_i|}]^2\\\leq max[a_{i,j}]n\sum_{i1}^n|x_i|^2\tag{1}=nmax[a_{i,j}] λ=xTAx=i,j=1∑n​ai,j​xi​xj​≤max[ai,j​]i,j=1∑n​∣xi​∣∣xj​∣=max[ai,j​][i=1∑n​∣xi​∣]2≤max[ai,j​]ni1∑n​∣xi​∣2=nmax[ai,j​](1)

其中(1)用到的不等式為 n ( ∑ 1 n a i 2 ) ≥ ( ∑ 1 n ( a i ) ) 2 n(\sum_1^n a_i^2)\geq(\sum_1^n(a_i))^2 n(∑1n​ai2​)≥(∑1n​(ai​))2

第一種界估計到這裡還沒用講完,

注:實部為 ∣ A + A H ∣ 2 \frac{|A+A^H|}2 2∣A+AH∣​虛部為 ∣ A − A H ∣ 2 \frac{|A-A^H|}2 2∣A−AH∣​ 模長為 A A A對應改變 m a x [ f ( a r , j ) ] max[f(a_{r,j})] max[f(ar,j​)]就OK了

這樣,第一種對于特征值的估計(模長,實部,虛部)就完成了

緊接着問題又來了,既然估計這麼簡單,為什麼别人要寫那麼厚的書,大費口舌的解釋呢,我可以說你特征值小于100大于0,我也可以說你特征值在10-20之間,這樣一來,這種問題就有了繼續研究的必要——如何使特征值的估計更為緊湊。

另一種較為緊湊的特征值界估計

關注特征值的虛部 2 I m ( λ ) = x H ( A − A H ) x 2Im(\lambda)=x^H(A-A^H)x 2Im(λ)=xH(A−AH)x

2 ∣ j I m ( λ ) ∣ = ∣ x H ( A − A H ) x ∣ = 1 2 ∣ [ ( x H ( A − A H ) x ) + ( x T ( A T − A ) x ˉ ) ] ∣ ( A 為 實 數 陣 , 轉 置 ) = 1 2 ∣ ( ∑ r , s = 1 n ( a r , s − a s , r ) x ˉ r x s + ∑ r , s = 1 n ( a s , r − a r , s ) x r x ˉ s ) ∣ ≤ 1 2 ( ∑ r , s = 1 n ∣ a r , s − a s , r ∣ ( x ˉ r x s − x r x ˉ s ) ) ≤ M ∑ r , s = 1 n x ˉ r x s − x r x ˉ s ( M 為 1 2 m a x ∣ a r , s − a ˉ s , r ∣ ) 4 [ I m ( λ ) ] ≤ M 2 n ( n − 1 ) ∑ r , s = 1 , r ≠ s n ∣ x ˉ r x s − x r x ˉ s ∣ 2 ( 先 兩 邊 取 模 , 後 平 方 , 再 利 用 ( 1 ) 中 不 等 式 ) ∑ r , s = 1 , r ≠ s n ∣ x ˉ r x s − x r x ˉ s ∣ 2 = 2 − 2 ∣ ∑ r = 1 n ( x r 2 ) ∣ 2 4 ∣ I m ( λ ) ∣ 2 ≤ M 2 n ( n − 1 ) × 2 → I m ( λ ) ≤ M n ( n − 1 ) 2 2|jIm(\lambda)|=|x^H(A-A^H)x|\\=\frac12|[(x^H(A-A^H)x)+(x^T(A^T-A)\bar x)]|(A為實數陣,轉置)\\=\frac12|(\sum_{r,s=1}^n(a_{r,s}-{a_{s,r}})\bar x_r x_s+\sum_{r,s=1}^n({a_{s,r}}-a_{r,s})x_r\bar x_s)|\\ \leq \frac1 2 (\sum_{r,s=1}^n|a_{r,s}-{a_{s,r}}|(\bar x_r x_s-x_r\bar x_s))\\\leq M\sum_{r,s=1}^n\bar x_r x_s-x_r\bar x_s(M為\frac 12max|a_{r,s}-\bar{a}_{s,r}|)\\ 4[Im{(\lambda)}]\leq M^2n(n-1)\sum_{r,s=1,r\neq s}^n|\bar x_r x_s-x_r\bar x_s|^2(先兩邊取模,後平方,再利用(1)中不等式)\\\sum_{r,s=1,r\neq s}^n|\bar x_r x_s-x_r\bar x_s|^2 =2-2|\sum_{r=1}^n(x_r^2)|^2\\4|Im(\lambda)|^2\leq M^2n(n-1)\times2\rightarrow Im(\lambda)\leq M\sqrt \frac{n(n-1)}2 2∣jIm(λ)∣=∣xH(A−AH)x∣=21​∣[(xH(A−AH)x)+(xT(AT−A)xˉ)]∣(A為實數陣,轉置)=21​∣(r,s=1∑n​(ar,s​−as,r​)xˉr​xs​+r,s=1∑n​(as,r​−ar,s​)xr​xˉs​)∣≤21​(r,s=1∑n​∣ar,s​−as,r​∣(xˉr​xs​−xr​xˉs​))≤Mr,s=1∑n​xˉr​xs​−xr​xˉs​(M為21​max∣ar,s​−aˉs,r​∣)4[Im(λ)]≤M2n(n−1)r,s=1,r̸​=s∑n​∣xˉr​xs​−xr​xˉs​∣2(先兩邊取模,後平方,再利用(1)中不等式)r,s=1,r̸​=s∑n​∣xˉr​xs​−xr​xˉs​∣2=2−2∣r=1∑n​(xr2​)∣24∣Im(λ)∣2≤M2n(n−1)×2→Im(λ)≤M2n(n−1)​

由此可以看出,特征值界的估計精度從 n n n上升到了 n ( n − 1 ) 2 \sqrt \frac{n(n-1)}2 2n(n−1)​

蓋爾圓估計特征值的區域

當我們知道了特征值的界,我們還想繼續縮小特征值的範圍 → \rightarrow →對于每個特征值分别進行分析,特征值在哪裡?畫的圈裡( ∣ λ − a i 0 i 0 ∣ = ∑ j ≠ i 0 ∣ a i , j ∣ |\lambda -a_{i_0i_0}|=\sum_{j\neq i_0}|a_{i,j}| ∣λ−ai0​i0​​∣=∑j̸​=i0​​∣ai,j​∣)并且由于轉置不改變矩陣的特征值,可以把這個圈畫的更小一點(這裡我問老師能否改變距離的度量由1範數變成2範數,使估計更加緊緻,但是老師指出2範數無法通過數學證明( x x x是 A A A的特征向量,其中每個分量平方後,可能不是 A A A的特征向量了,因而無法證明)。每個圈有幾個特征值?孤立的蓋爾圓隻有1個,連通的圓,在連通處有k個(k個圓連通)

蓋爾圓定理1

以三階矩陣為例

A x = [ a 11 a 12 a 13 a 21 a 22 a 23 a 31 a 32 a 33 ] [ x 1 x 2 x 3 ] = λ [ x 1 x 2 x 3 ] ∑ j = 1 3 a i j x j = λ x i ( 注 意 下 标 ) ∣ ∑ j = 1 , j ≠ i 3 a i j x j ∣ = ∣ λ − a i i ∣ ∣ x i ∣ ∑ j = 1 , j ≠ i 3 ∣ a i j ∣ ∣ x j ∣ ≥ ∣ λ − a i i ∣ ∣ x i ∣ 此 時 , 假 設 x i = m a x ∣ x i ∣ , 則 ∑ j = 1 , j ≠ i 3 ∣ a i j ∣ ≥ ∣ λ − a i i ∣ 對 所 有 的 λ 成 立 Ax= \left [ \begin{matrix} a_{11} & a_{12} & a_{13} \\ a_{21}& a_{22}& a_{23}\\ a_{31}& a_{32} & a_{33} \end{matrix} \right] \left [ \begin{matrix} x_1\\x_2\\x_3 \end{matrix} \right] = \lambda \left [ \begin{matrix} x_1\\x_2\\x_3 \end{matrix} \right]\\ \sum_{j=1}^{3}a_{ij}x_j=\lambda x_i (注意下标)\\ | \sum_{j=1,j \neq i}^{3}a_{ij}x_j|=|\lambda-a_{ii}||x_i|\\ \sum_{j=1,j \neq i}^{3}|a_{ij}||x_j|\geq|\lambda-a_{ii}||x_i|\\ 此時,假設x_i=max|x_i|,則 \sum_{j=1,j \neq i}^{3}|a_{ij}|\geq|\lambda-a_{ii}|對所有的\lambda 成立 Ax=⎣⎡​a11​a21​a31​​a12​a22​a32​​a13​a23​a33​​⎦⎤​⎣⎡​x1​x2​x3​​⎦⎤​=λ⎣⎡​x1​x2​x3​​⎦⎤​j=1∑3​aij​xj​=λxi​(注意下标)∣j=1,j̸​=i∑3​aij​xj​∣=∣λ−aii​∣∣xi​∣j=1,j̸​=i∑3​∣aij​∣∣xj​∣≥∣λ−aii​∣∣xi​∣此時,假設xi​=max∣xi​∣,則j=1,j̸​=i∑3​∣aij​∣≥∣λ−aii​∣對所有的λ成立

讨論 這個定理1指出——對每個圓心畫圈,畫好後,特征值就在這些圈的并集之中,并沒有指出某個特定的特征值和矩陣對應對角的關系( x 1 x_1 x1​, x 2 x_2 x2​可能都是第一個分量大, x 3 x_3 x3​的分量2大,這樣的話,在以 a 11 a_{11} a11​為圓心的圓中就有2個特征值,在以 a 22 a_{22} a22​的圓中有一個,以 a 33 a_{33} a33​的圓中一個都沒有。

接下來論證這個讨論的情況會不會發生(今天問老師的時候說不清楚問題所在,老師直接讓我回去看書了……藍瘦,香菇)

蓋爾圓定理2(以上讨論的問題當然不會發生了)

蓋爾圓定理2指出——對于孤立的蓋爾圓,僅有一個特征值在圓裡,有k個連通,則有k個特征值在連通區域。證明如下

假 設 A 0 = [ a 1 0 0 0 a 2 0 0 0 a 3 ] A ε = [ 0 s 12 s 13 s 21 0 s 23 s 31 s 32 0 ] A = A 0 + u A ε u ∈ [ 0 , 1 ] 假設 A_0=\left [ \begin{matrix} a_1 & 0 & 0 \\ 0& a_2& 0\\ 0& 0 & a_3 \end{matrix} \right] A_\varepsilon=\left [ \begin{matrix} 0 & s_{12} & s_{13} \\ s_{21}& 0& s_{23}\\ s_{31}& s_{32} & 0 \end{matrix} \right]\\A=A_0+uA_\varepsilon u\in[0,1] 假設A0​=⎣⎡​a1​00​0a2​0​00a3​​⎦⎤​Aε​=⎣⎡​0s21​s31​​s12​0s32​​s13​s23​0​⎦⎤​A=A0​+uAε​u∈[0,1]

對于上式進行分析之前,讓我們回顧一下為什麼可以進行特征值估計——特征值是系數的連續函數這樣的話 u = 0 → u = 1 u=0\rightarrow u=1 u=0→u=1的變換期間,特征值的移動軌迹就可以用連續的曲線進行表示,并且變化超不出 A A A的蓋爾圓,用圖來表示(希望大佬能安利幾個作圖軟體,自己手畫的有點……醜,但是意思達到了,圖中紅色的是不可能的線,因為它違背了大前提特征值必定在蓋爾圓中)

矩陣論——特征值估計閑話特征值估計蓋爾圓估計特征值的區域總結題外話

到此,蓋爾圓的2個定理就說完了,然後,為了使我們的估計更加緊緻,我們可以通過不改變特征值的變換——轉置,相似。來修整這個蓋爾圓。

轉置—— λ ( A T ) = λ ( A ) \lambda(A^T)=\lambda(A) λ(AT)=λ(A)因而我們可以選擇列主圓法,将半徑修改為 m i n [ ∑ j = 1 , j ≠ i n a i j , ∑ i = 1 , i ≠ j n a i j ] min[\sum_{j=1,j\neq i}^na_{ij},\sum_{i=1,i\neq j}^na_{ij}] min[∑j=1,j̸​=in​aij​,∑i=1,i̸​=jn​aij​]

相似—— D = d i a g ( d 1 , … … , d n ) , D A D − 1 = ( d i d j a i j ) n × n D=diag(d_1,……,d_n),DAD^{-1}=(\frac {d_i}{d_j}a_{ij})_{n \times n} D=diag(d1​,……,dn​),DAD−1=(dj​di​​aij​)n×n​将 A A A變成一個嚴格對角占優的矩陣對角元素的絕對值大于該行其他元素絕對值之和,且大于該列其他元素絕對值之和

總結

特征值估計還有很多的方法,正如老師所說,每種方法之間沒什麼關系,我們的課程講到了這個深度,我并沒有繼續深究的打算了,如果以後要用到的話,可以再繼續研究這個方面的問題,希望我的部落格記錄能給學習矩陣論的人有一些思考的啟發吧,能不在我遇到的問題裡糾結,想不明白。

題外話

希望有大佬能帶帶我,嘤嘤嘤。

繼續閱讀