正定矩陣和半正定矩陣
絕大部分内容都來自:淺談「正定矩陣」和「半正定矩陣」
若侵權則删除
淺談「正定矩陣」和「半正定矩陣」
在衆多的機器學習模型中,線性代數的身影無處不在,當然,我們也會時常碰到線性代數中的正定矩陣和半正定矩陣。例如,多元正态分布的協方差矩陣要求是半正定的。
--------------×--------------×--------------
1. 基本的定義
正定和半正定這兩個詞的英文分别是positive definite和positive semi-definite,其中,definite是一個形容詞,表示“明确的、确定的”等意思。
初學線性代數的讀者可能會被這兩個詞“唬住”,但正定矩陣和半正定矩陣的定義實際上是很簡單的 (不考慮複數構成的矩陣):
【定義1】給定一個大小為 \(n \times n\) 的實對稱矩陣 \(A\) ,若對于任意長度為\(n\) 的非零向量\(x\) ,有\(\boldsymbol{x}^{T} A \boldsymbol{x}>0\)恒成立,則矩陣\(A\)是一個正定矩陣。
【例1】機關矩陣\(I \in \mathbb{R}^{2 \times 2}\)是否是正定矩陣?
解:設向量\(\boldsymbol{x}=\left[\begin{array}{l}x_{1} \\ x_{2}\end{array}\right] \in \mathbb{R}^{2}\) 為非零向量,則
\(\boldsymbol{x}^{T} \boldsymbol{I} \boldsymbol{x}=\boldsymbol{x}^{T} \boldsymbol{x}=x_{1}^{2}+x_{2}^{2}\)
由于 \(\boldsymbol{x} \neq \mathbf{0}\) ,故 \(\boldsymbol{x}^{T} I \boldsymbol{x}>0\) 恒成立,即機關矩陣\(I \in \mathbb{R}^{2 \times 2}\)是正定矩陣。
機關矩陣是正定矩陣 (positive definite)。
對于任意機關矩陣\(I \in \mathbb{R}^{2 \times 2}\)而言,給定任意非零向量 \(\boldsymbol{x} \in \mathbb{R}^{n}\) ,恒有
\(\boldsymbol{x}^{T}Ix =\boldsymbol{x}^{T} \boldsymbol{x} = =x_{1}^{2}+x_{2}^{2}+\cdots+x_{n}^{2}>0\)
【例2】 實對稱矩陣 \(A=\left[\begin{array}{ccc}2 & -1 & 0 \\ -1 & 2 & -1 \\ 0 & -1 & 2\end{array}\right] \in \mathbb{R}^{3 \times 3}\)是否是正定矩陣?
解:設向量\(\boldsymbol{x}=\left[\begin{array}{l}x_{1} \\ x_{2} \\ x_{3}\end{array}\right] \in \mathbb{R}^{3}\)為非零向量,則
\(\boldsymbol{x}^{T} A \boldsymbol{x}=\left[\left(2 x_{1}-x_{2}\right) \quad\left(-x_{1}+2 x_{2}-x_{3}\right) \quad-x_{2}+2 x_{3}\right]\left[\begin{array}{l}x_{1} \\ x_{2} \\ x_{3}\end{array}\right]\)
\(=x_{1}^{2}+\left(x_{1}-x_{2}\right)^{2}+\left(x_{2}-x_{3}\right)^{2}+x_{3}^{2}>0\)
了解:\(X\)是一個\(n\)維向量,那麼\(\boldsymbol{x}^{T} A \boldsymbol{x}\)相乘的結果其實就是二次型,那麼\(f(X) = \boldsymbol{x}^{T} A \boldsymbol{x}>=0\)則是一個二次齊次函數,如果\(X\)為2維,則是二進制二次函數。那麼這個對稱矩陣就是這個二進制二次函數的參數。則,使得二進制二次函數取值恒大于0的參數矩陣,就是正定的(大于等于0,則是半正定)。
每個二次型都唯一對應一個對稱矩陣。![]()
正定矩陣和半正定矩陣 - dychen0408
【定義2】給定一個大小為 \(n \times n\) 的實對稱矩陣 \(A\) ,若對于任意長度為 \(n\) 的向量 \(x\) ,有 \(\boldsymbol{x}^{T} A \boldsymbol{x} \geq 0\) 恒成立,則矩陣\(A\) 是一個半正定矩陣。
根據正定矩陣和半正定矩陣的定義,我們也會發現:半正定矩陣包括了正定矩陣,與非負實數 (non-negative real number)和正實數 (positive real number)之間的關系很像。
正實數與負實數,圖檔來源于https://en.wikipedia.org/wiki/Real_number
2.從二次函數到正定/半正定矩陣
在國中數學中,我們學習了二次函數 \(y=a x^{2}\) ,該函數的曲線會經過坐标原點,當參數 \(a>0\)時,曲線的“開口”向上,參數 \(a<0\) 時,曲線的“開口”向下。
以 \(y=2 x^{2}\) 為例,曲線如下:
實際上,我們可以将 \(y=\boldsymbol{x}^{T} A \boldsymbol{x}\) 視作 \(y=a x^{2}\) 的多元表達式。
當我們希望 \(y=\boldsymbol{x}^{T} A \boldsymbol{x} \geq 0\) 對于任意向量 \(x\) 都恒成立,就要求矩陣 \(A\) 是一個半正定矩陣,對應于二次函數, \(y=a x^{2}>0 ,\forall x\)需要使得 \(a \geq 0\) .
另外,在 \(y=a x^{2}\)中,我們還知道:若 \(a>0\) ,則對于任意 \(x \neq 0\),有 \(y>0\) 恒成立。
這在 \(y=\boldsymbol{x}^{T} A \boldsymbol{x}\)也有契合之處,當矩陣 \(A\) 是正定矩陣時,對于任意 \(\boldsymbol{x} \neq \mathbf{0}, \quad y>0\)恒成立。
3.正定矩陣和半正定矩陣的直覺解釋
若給定任意一個正定矩陣 \(A \in \mathbb{R}^{n \times n}\)和一個非零向量 \(\boldsymbol{x} \in \mathbb{R}^{n}\) ,則兩者相乘得到的向量 \(\boldsymbol{y}=A \boldsymbol{x} \in \mathbb{R}^{n}\)與向量\(\boldsymbol{x}\)的夾角恒小于 \(\frac{\pi}{2}\) . (等價于:\(\boldsymbol{x}^{T} A \boldsymbol{x}>0\).)
【例3】給定向量 \(\boldsymbol{x}=\left[\begin{array}{l}2 \\ 1\end{array}\right] \in \mathbb{R}^{2}\) ,對于機關矩陣 \(I=\left[\begin{array}{ll}1 & 0 \\ 0 & 1\end{array}\right] \in \mathbb{R}^{2 \times 2}\) ,則
\(\boldsymbol{y}=I \boldsymbol{x}=\boldsymbol{x}=\left[\begin{array}{l}2 \\ 1\end{array}\right]\)
向量 \(\boldsymbol{x}, \boldsymbol{y} \in \mathbb{R}^{2}\)之間的夾角為
\(\cos \langle\boldsymbol{x}, \boldsymbol{y}\rangle=\frac{\boldsymbol{x}^{T} \boldsymbol{y}}{\|\boldsymbol{x}\| \cdot\|\boldsymbol{y}\|}\)
\(=\frac{2 \times 2+1 \times 1}{\sqrt{2^{2}+1^{2}} \cdot \sqrt{2^{2}+1^{2}}}\)
\(=1\)
即兩個向量之間的夾角為0°.
【例4】給定向量\(\boldsymbol{x}=\left[\begin{array}{l}1 \\ 2 \\ 1\end{array}\right] \in \mathbb{R}^{3}\) ,對于實對稱矩陣 \(A=\left[\begin{array}{ccc}2 & -1 & 0 \\ -1 & 2 & -1 \\ 0 & -1 & 2\end{array}\right] \in \mathbb{R}^{3 \times 3}\) ,則
\(\boldsymbol{y}=A \boldsymbol{x}=\left[\begin{array}{l}0 \\ 2 \\ 0\end{array}\right]\)
向量\(\boldsymbol{x}, \boldsymbol{y} \in \mathbb{R}^{2}\)之間的夾角為
\(\cos \langle\boldsymbol{x}, \boldsymbol{y}\rangle=\frac{\boldsymbol{x}^{T} \boldsymbol{y}}{\|\boldsymbol{x}\| \cdot\|\boldsymbol{y}\|}=\frac{\sqrt{6}}{3}\)
即兩個向量之間的夾角小于 \(\frac{\pi}{2}\) .
若給定任意一個半正定矩陣\(A \in \mathbb{R}^{n \times n}\) 和一個向量 \(x \in \mathbb{R}^{n}\) ,則兩者相乘得到的向量\(y = Ax \in \mathbb{R}^n\) 與向量 \(x\) 的夾角恒小于或等于 \(\frac{\pi}{2}\) . (等價于: \(\boldsymbol{x}^{T} A \boldsymbol{x} \geq 0\).) (上面是小于,這裡是小于等于)
4.為什麼協方差矩陣要是半正定的?
在機率論與數理統計中,我們都學習的協方差矩陣的定義:
對于任意多元随機變量 \(t\) ,協方差矩陣為
\(C = \mathbb{E}[(t - \bar{t})(t-\bar{t})^T]\)
現給定任意一個向量\(x\),則:
\(x^TCx = x^T \mathbb{E}[(t - \bar{t})(t-\bar{t})^T]x\)
\(=\mathbb{E}[x^T(t - \bar{t})(t-\bar{t})^Tx]\)
\(=\mathbb{E}(s^2) = \delta^2_s\)
其中,
\(\sigma_{s}=\boldsymbol{x}^{T}(\boldsymbol{t}-\overline{\boldsymbol{t}})=(\boldsymbol{t}-\overline{\boldsymbol{t}})^{T} \boldsymbol{x}\)
由于 \(\delta^2_s>0\) ,是以, \(\boldsymbol{x}^{T} A \boldsymbol{x} \geq 0\) ,協方差矩陣\(C\) 是半正定的。
發表于
2021-01-14 16:48
dychen0408
閱讀(146)
評論(0)
編輯
收藏
舉報