天天看點

機器學習基礎 | 互相關系數和互資訊異同探讨

主要闡述互相關系數和互資訊的差別和聯系,先說結論:

  • 對于高斯分布,兩者是等價的,且存在轉換公式,當\(X\)與\(Y\)互相關系數為零時,兩者互相獨立,且互資訊為零;當互相關系數為\(\pm1\)時,兩者完全相關且互資訊為無窮大,轉換公式:

    \[I(X,Y)=-\frac{1}{2}\log(1-r^2)

    \]

  • 一般情形,互相關系數隻是反應了兩者之間的線性相關關系,而互資訊則直接從機率分布角度考慮變量之間的互相獨立性,互相獨立一定不相關,不相關不一定互相獨立

互相關系數

互相關系數是研究變量之間 線性相關 程度的量,定義公式如下:

\[r(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var[X]Var[Y]}}

\]

其中:\(Cov(X,Y)\)為\(X\)與\(Y\)之間的協方差,\(Var[X]\)為\(X\)的方差,\(Var[Y]\)為Y的方差。

  • \(Cov(X,Y)=E[(X-E[X])(Y-E(Y))]=E[XY]-E[X]E[Y]\)
  • \(Var[X]=E[(X-E[X])^2]=E[X^2]-E[X]^2\)

互相關系數的基本性質如下:

  1. \(|r(X,Y)|\leq 1\)
  2. 若\(r(X,Y)>0\),則兩者之間是正相關;若\(r(X,Y)<0\),則兩者之間是負相關
  3. 若\(X\)和\(Y\)不相關,則\(r(X,Y)=0\);反過來,若\(r(X,Y)=0\),則\(X\)和\(Y\)不相關,這裡的不相關指的是兩者之間不存線上性關系,不能排除其他關系。
  4. 若\(X\)和\(Y\)互相獨立,則\(r(X,Y)=0\);反過來,若\(r(X,Y)=0\),隻能表明\(X\)和\(Y\)不相關,兩者之間并不一定互相獨立。

注:

  • 互相獨立指的是\(p(x,y)=p(x)p(y), \forall x,y\)
  • 互相獨立一定不相關,不相關不一定互相獨立,例如\(x=\cos\alpha,Y=\sin\alpha\),兩者協方差為零,但是兩者不獨立。
  • 對于正态分布,不相關和獨立是等價的。

互相關系數的另一種表達式:

\[\lambda(X,Y)=\sqrt{1-\frac{det(C(Z))}{det(C(X))det(C(Y))}}

\]

其中:\(Z=(X,Y),C(Z)=E[(Z-E[Z])\cdot(Z-E[Z])^T]\)是高維變量的協方差矩陣,若\(X\)和\(Y\)都是一維向量,則

  • \(C(X)=Var[X]\),\(C(Y)=Var[Y]\)
  • \(det(C(Z))=Var[X]Var[Y]-Cov(X,Y)^2\)

是以:\(\mathbf{\lambda(X,Y)=|r(x,y)|}\)

互資訊

兩個變量的互資訊的定義如下:

\[I(X,Y)=\int p(x,y)\log\frac{p(x,y)}{p(x)p(y)}dxdy

\]

定理: 若\(Z=(X,Y)\)服從高斯分布,則

\[I(X,Y)=-\frac{1}{2}\log\left(\frac{det(C(Z))}{det(C(X)det(C(Y)))}\right)

\]

證明: 隻須證明如下兩點即可:

  1. \(I(X,Y)=H(X)+H(Y)-H(X,Y)\)
  2. 多元正态分布的資訊熵:設\(X_1,X_2,...,X_n\)服從均值為\(\mu\),協方差矩陣為\(K\)的果園正态分布,則

    \[H(X_1,X_2,...,X_n)=\frac{1}{2}\log[(2\pi e)^ndet(K)]

    \]

上述兩點的證明按照互資訊的定義和正态分布的機率密度函數直接推導即可,這裡不再重複,感興趣的讀者可以查閱本文的參考文獻。根據上述兩點,我們有

\[\begin{aligned}

I(X,Y)&=\frac{1}{2}\log[(2\pi e)det(C(X))]+\frac{1}{2}\log[(2\pi e)det(C(Y))]-\frac{1}{2}\log[(2\pi e)^2det(C(Z))]\\

&=-\frac{1}{2}\log\left(\frac{det(C(Z))}{det(C(X)det(C(Y)))}\right)

\end{aligned}

\]

證畢。

根據上述定理以及\(\lambda(X,Y)\),可以定義一個度量\(\Lambda(X,Y)\):

\[\Lambda(X,Y)=\sqrt{1-e^{2I(X,Y)}}

\]

注: \(\Lambda(X,Y)\)具有如下性質:

  1. \(\Lambda(X,Y)\)是互資訊的一種歸一化,取值範圍從\([0,\infty]\)歸一化到了\([0,1]\),且\(\Lambda(X,Y)\)同時包含了變量之間的線性關系和非線性關系
  2. 當\((X,Y)\)服從高斯分布時,\(\Lambda(X,Y)=\lambda(X,Y)\),即其此時和互相關系數等價
  3. 若令\(D_{MI}(X,Y)=\Lambda(X,Y)-\lambda(X,Y)\),則\(D_{MI}\)刻畫了變量之間的非線性關系,可用于訓示變量之間是否存在非線性關系,分析系統的非線性動力學變化。

兩者的關系

根據上面的分析很容易得到兩者的關系如下:

  • 對于高斯分布,兩者是等價的,且存在轉換公式,當\(X\)與\(Y\)互相關系數為零時,兩者互相獨立,且互資訊為零;當互相關系數為\(\pm1\)時,兩者完全相關且互資訊為無窮大,轉換公式:

    \[I(X,Y)=-\frac{1}{2}\log(1-r^2)

    \]

  • 一般情形,互相關系數隻是反應了兩者之間的線性相關關系,而互資訊則直接從機率分布角度考慮變量之間的互相獨立性,互相獨立一定不相關,不相關不一定互相獨立

更為重要的是:

  • \(D_{MI}(X,Y)=\Lambda(X,Y)-\lambda(X,Y)\) 刻畫了變量之間的非線性關系,可用于訓示變量之間是否存在非線性關系,分析系統的非線性動力學變化。

參考文獻

  • 百度百科-相關系數
  • 協方差為零能得出互相獨立嗎?
  • Cover T , Thomas J , Wiley J . Elements of information theory[M]. Tsinghua University Pres, 2003.
  • Johnson, J. R.; Wing, S. A Solar Cycle Dependence of Nonlinearity in Magnetospheric Activity: SOLAR CYCLE DEPENDENCE. J. Geophys. Res. 2005, 110 (A4). https://doi.org/10.1029/2004JA010638.
  • Tsonis, A. A. Probing the Linearity and Nonlinearity in the Transitions of the Atmospheric Circulation. Nonlin. Processes Geophys. 2001, 8 (6), 341–345. https://doi.org/10.5194/npg-8-341-2001.