天天看點

正定矩陣和半正定矩陣 - dychen0408

正定矩陣和半正定矩陣

絕大部分内容都來自:淺談「正定矩陣」和「半正定矩陣」

若侵權則删除

淺談「正定矩陣」和「半正定矩陣」

在衆多的機器學習模型中,線性代數的身影無處不在,當然,我們也會時常碰到線性代數中的正定矩陣和半正定矩陣。例如,多元正态分布的協方差矩陣要求是半正定的。

--------------×--------------×--------------

1. 基本的定義

正定和半正定這兩個詞的英文分别是positive definite和positive semi-definite,其中,definite是一個形容詞,表示“明确的、确定的”等意思。

初學線性代數的讀者可能會被這兩個詞“唬住”,但正定矩陣和半正定矩陣的定義實際上是很簡單的 (不考慮複數構成的矩陣):

【定義1】給定一個大小為 \(n \times n\) 的實對稱矩陣 \(A\) ,若對于任意長度為\(n\) 的非零向量\(x\) ,有\(\boldsymbol{x}^{T} A \boldsymbol{x}>0\)恒成立,則矩陣\(A\)是一個正定矩陣。

【例1】機關矩陣\(I \in \mathbb{R}^{2 \times 2}\)是否是正定矩陣?

解:設向量\(\boldsymbol{x}=\left[\begin{array}{l}x_{1} \\ x_{2}\end{array}\right] \in \mathbb{R}^{2}\) 為非零向量,則

\(\boldsymbol{x}^{T} \boldsymbol{I} \boldsymbol{x}=\boldsymbol{x}^{T} \boldsymbol{x}=x_{1}^{2}+x_{2}^{2}\)

由于 \(\boldsymbol{x} \neq \mathbf{0}\) ,故 \(\boldsymbol{x}^{T} I \boldsymbol{x}>0\) 恒成立,即機關矩陣\(I \in \mathbb{R}^{2 \times 2}\)是正定矩陣。

機關矩陣是正定矩陣 (positive definite)。

對于任意機關矩陣\(I \in \mathbb{R}^{2 \times 2}\)而言,給定任意非零向量 \(\boldsymbol{x} \in \mathbb{R}^{n}\) ,恒有

\(\boldsymbol{x}^{T}Ix =\boldsymbol{x}^{T} \boldsymbol{x} = =x_{1}^{2}+x_{2}^{2}+\cdots+x_{n}^{2}>0\)

【例2】 實對稱矩陣 \(A=\left[\begin{array}{ccc}2 & -1 & 0 \\ -1 & 2 & -1 \\ 0 & -1 & 2\end{array}\right] \in \mathbb{R}^{3 \times 3}\)是否是正定矩陣?

解:設向量\(\boldsymbol{x}=\left[\begin{array}{l}x_{1} \\ x_{2} \\ x_{3}\end{array}\right] \in \mathbb{R}^{3}\)為非零向量,則

\(\boldsymbol{x}^{T} A \boldsymbol{x}=\left[\left(2 x_{1}-x_{2}\right) \quad\left(-x_{1}+2 x_{2}-x_{3}\right) \quad-x_{2}+2 x_{3}\right]\left[\begin{array}{l}x_{1} \\ x_{2} \\ x_{3}\end{array}\right]\)

\(=x_{1}^{2}+\left(x_{1}-x_{2}\right)^{2}+\left(x_{2}-x_{3}\right)^{2}+x_{3}^{2}>0\)

了解:\(X\)是一個\(n\)維向量,那麼\(\boldsymbol{x}^{T} A \boldsymbol{x}\)相乘的結果其實就是二次型,那麼\(f(X) = \boldsymbol{x}^{T} A \boldsymbol{x}>=0\)則是一個二次齊次函數,如果\(X\)為2維,則是二進制二次函數。那麼這個對稱矩陣就是這個二進制二次函數的參數。則,使得二進制二次函數取值恒大于0的參數矩陣,就是正定的(大于等于0,則是半正定)。
每個二次型都唯一對應一個對稱矩陣。
正定矩陣和半正定矩陣 - dychen0408
【定義2】給定一個大小為 \(n \times n\) 的實對稱矩陣 \(A\) ,若對于任意長度為 \(n\) 的向量 \(x\) ,有 \(\boldsymbol{x}^{T} A \boldsymbol{x} \geq 0\) 恒成立,則矩陣\(A\) 是一個半正定矩陣。

根據正定矩陣和半正定矩陣的定義,我們也會發現:半正定矩陣包括了正定矩陣,與非負實數 (non-negative real number)和正實數 (positive real number)之間的關系很像。

正定矩陣和半正定矩陣 - dychen0408

正實數與負實數,圖檔來源于https://en.wikipedia.org/wiki/Real_number

2.從二次函數到正定/半正定矩陣

在國中數學中,我們學習了二次函數 \(y=a x^{2}\) ,該函數的曲線會經過坐标原點,當參數 \(a>0\)時,曲線的“開口”向上,參數 \(a<0\) 時,曲線的“開口”向下。

以 \(y=2 x^{2}\) 為例,曲線如下:

正定矩陣和半正定矩陣 - dychen0408

實際上,我們可以将 \(y=\boldsymbol{x}^{T} A \boldsymbol{x}\) 視作 \(y=a x^{2}\) 的多元表達式。

當我們希望 \(y=\boldsymbol{x}^{T} A \boldsymbol{x} \geq 0\) 對于任意向量 \(x\) 都恒成立,就要求矩陣 \(A\) 是一個半正定矩陣,對應于二次函數, \(y=a x^{2}>0 ,\forall x\)需要使得 \(a \geq 0\) .

另外,在 \(y=a x^{2}\)中,我們還知道:若 \(a>0\) ,則對于任意 \(x \neq 0\),有 \(y>0\) 恒成立。

這在 \(y=\boldsymbol{x}^{T} A \boldsymbol{x}\)也有契合之處,當矩陣 \(A\) 是正定矩陣時,對于任意 \(\boldsymbol{x} \neq \mathbf{0}, \quad y>0\)恒成立。

3.正定矩陣和半正定矩陣的直覺解釋

若給定任意一個正定矩陣 \(A \in \mathbb{R}^{n \times n}\)和一個非零向量 \(\boldsymbol{x} \in \mathbb{R}^{n}\) ,則兩者相乘得到的向量 \(\boldsymbol{y}=A \boldsymbol{x} \in \mathbb{R}^{n}\)與向量\(\boldsymbol{x}\)的夾角恒小于 \(\frac{\pi}{2}\) . (等價于:\(\boldsymbol{x}^{T} A \boldsymbol{x}>0\).)

【例3】給定向量 \(\boldsymbol{x}=\left[\begin{array}{l}2 \\ 1\end{array}\right] \in \mathbb{R}^{2}\) ,對于機關矩陣 \(I=\left[\begin{array}{ll}1 & 0 \\ 0 & 1\end{array}\right] \in \mathbb{R}^{2 \times 2}\) ,則

\(\boldsymbol{y}=I \boldsymbol{x}=\boldsymbol{x}=\left[\begin{array}{l}2 \\ 1\end{array}\right]\)

向量 \(\boldsymbol{x}, \boldsymbol{y} \in \mathbb{R}^{2}\)之間的夾角為

\(\cos \langle\boldsymbol{x}, \boldsymbol{y}\rangle=\frac{\boldsymbol{x}^{T} \boldsymbol{y}}{\|\boldsymbol{x}\| \cdot\|\boldsymbol{y}\|}\)

\(=\frac{2 \times 2+1 \times 1}{\sqrt{2^{2}+1^{2}} \cdot \sqrt{2^{2}+1^{2}}}\)

\(=1\)

即兩個向量之間的夾角為0°.

【例4】給定向量\(\boldsymbol{x}=\left[\begin{array}{l}1 \\ 2 \\ 1\end{array}\right] \in \mathbb{R}^{3}\) ,對于實對稱矩陣 \(A=\left[\begin{array}{ccc}2 & -1 & 0 \\ -1 & 2 & -1 \\ 0 & -1 & 2\end{array}\right] \in \mathbb{R}^{3 \times 3}\) ,則

\(\boldsymbol{y}=A \boldsymbol{x}=\left[\begin{array}{l}0 \\ 2 \\ 0\end{array}\right]\)

向量\(\boldsymbol{x}, \boldsymbol{y} \in \mathbb{R}^{2}\)之間的夾角為

\(\cos \langle\boldsymbol{x}, \boldsymbol{y}\rangle=\frac{\boldsymbol{x}^{T} \boldsymbol{y}}{\|\boldsymbol{x}\| \cdot\|\boldsymbol{y}\|}=\frac{\sqrt{6}}{3}\)

即兩個向量之間的夾角小于 \(\frac{\pi}{2}\) .

若給定任意一個半正定矩陣\(A \in \mathbb{R}^{n \times n}\) 和一個向量 \(x \in \mathbb{R}^{n}\) ,則兩者相乘得到的向量\(y = Ax \in \mathbb{R}^n\) 與向量 \(x\) 的夾角恒小于或等于 \(\frac{\pi}{2}\) . (等價于: \(\boldsymbol{x}^{T} A \boldsymbol{x} \geq 0\).) (上面是小于,這裡是小于等于)

4.為什麼協方差矩陣要是半正定的?

在機率論與數理統計中,我們都學習的協方差矩陣的定義:

對于任意多元随機變量 \(t\) ,協方差矩陣為

\(C = \mathbb{E}[(t - \bar{t})(t-\bar{t})^T]\)

現給定任意一個向量\(x\),則:

\(x^TCx = x^T \mathbb{E}[(t - \bar{t})(t-\bar{t})^T]x\)

\(=\mathbb{E}[x^T(t - \bar{t})(t-\bar{t})^Tx]\)

\(=\mathbb{E}(s^2) = \delta^2_s\)

其中,

\(\sigma_{s}=\boldsymbol{x}^{T}(\boldsymbol{t}-\overline{\boldsymbol{t}})=(\boldsymbol{t}-\overline{\boldsymbol{t}})^{T} \boldsymbol{x}\)

由于 \(\delta^2_s>0\) ,是以, \(\boldsymbol{x}^{T} A \boldsymbol{x} \geq 0\) ,協方差矩陣\(C\) 是半正定的。

發表于

2021-01-14 16:48 

dychen0408 

閱讀(146) 

評論(0) 

編輯 

收藏 

舉報