天天看點

pearson相關系數_pearson相關系數與典型相關性分析(CCA)

  本文主要介紹相關系數的概念,以及簡單相關系數中的pearson相關系數及其局限性。随後介紹pearson相關系數無法解決的問題(兩個變量組之間的相關性問題)的解決方案。

1、pearson相關系數

在日常中,我們經常會遇到一些關于相關性的分析,例如,一個人每日的運動量與他體重之間的相關性,一支股票的價格與該公司的盈利狀況的相關性等等。在上述兩種情況下,我們給出的結論一般是,一個人每日的運動量越大,他的體重就越輕;公司的盈利狀況越好股票的價格越高。那麼相關性到底是個什麼東西呢?根據維基百科的定義:

相關(Correlation,或稱相關系數或關聯系數),顯示兩個随機變量之間線性關系的強度和方向。在統計學中,相關的意義是用來衡量兩個變量相對于其互相獨立的距離。

實際上,早在19世紀80年代相關性在統計學上有明确的定義,由卡爾·皮爾遜提出的pearson相關系數就是最常用的相關系數,是一種簡單相關系數。我們平時談論的相關,基本上指的都是線性相關,線上性相關中最常用的就是pearson相關系數。除了此之外,還有其他的一些相關系數如:Spearman相關系數,稱為“秩相關系數”是反映等級相關程度的統計分析名額,描述的是變量間等級、序數之間的關系。而與pearson相關系數同為簡單相關系數的是夾角的餘弦值,也就是餘弦相似度。本文将主要介紹pearson相關系數。

pearson相關系數的取值在-1到+1之間,其中取值為-1時表示完全負相關,+1時表示完全正相關,0為不相關。具體的計算公式如下:

pearson相關系數_pearson相關系數與典型相關性分析(CCA)

其中,

pearson相關系數_pearson相關系數與典型相關性分析(CCA)

是X與Y的協方差,

pearson相關系數_pearson相關系數與典型相關性分析(CCA)

,

pearson相關系數_pearson相關系數與典型相關性分析(CCA)

分别為X與Y的标準差。

下圖是《資料挖掘導論》中關于pearson相關系數的圖,能夠比較直覺的展示pearson相關系數值得大小與相關性的關系。

pearson相關系數_pearson相關系數與典型相關性分析(CCA)

《資料挖掘導論》:pearson相關系數

正如之前說的,pearson相關系數是一種簡單相關系數,反映的是兩個變量之間的線性關系,是以對于非線性的關系,pearson相關系數會接近于0,無法描述,如下圖:

pearson相關系數_pearson相關系數與典型相關性分析(CCA)
pearson相關系數_pearson相關系數與典型相關性分析(CCA)
pearson相關系數_pearson相關系數與典型相關性分析(CCA)

維基百科相關系數(x,y)點集圖

2、典型相關性分析(CCA)

pearson相關系數描述的是一個變量與另外一個變量之間的相關性。但是現實中,多個變量與多個變量之間的關系往往會更常見。例如,我們想知道一個人的日常情況(每日運動量X1、日常飲食X2)與他的健康狀況(血壓Y1、血糖Y2)之間的相關性;一支股票的價格(開盤價X1、收盤價X2、最高價X3)與它公司(盈利情況Y1,所處行業整體趨勢Y2,負面消息量Y3)的相關性。

如果我們直接使用pearson相關系數來解決上述例子的話,就需要考慮所有變量,兩兩之間的相關性。但是這種做法隻能孤立的考慮單個變量Xi與Yj間的關系,沒有考慮變量所在的變量組本身各個子變量的相關性。

了解多元回歸分析的人可能知道,以股票為例,如果我們隻想知道它的每日最高價與公司之間(盈利情況,所處行業整體趨勢,負面消息量)的相關性,就可以将股票最高價最為Y,公司情況分别為X1,X2,X3,通過資料進行拟合,來找到Y與X之間的最佳線性組合。但是如果考慮多個Y,那麼多元回歸分析就顯得有些無從下手。

實際上,典型相關性分析就是利用綜合變量對之間的相關關系來反映兩組名額之間的整體相關性的多元統計分析方法,是簡單相關的推廣,是多元回歸分析的延伸。它的應用場景主要是多視圖分析與兩組變量之間的相關性分析,且每組變量包含多個子變量,且子變量互相有一定的相關性。

典型相關性分析(CCA)算法的基本思想是在兩組變量上分别找到一種線性組合

pearson相關系數_pearson相關系數與典型相關性分析(CCA)
pearson相關系數_pearson相關系數與典型相關性分析(CCA)

使得X與Y之間的pearson相關系數最大。是以CCA就轉化為如何去求解這兩組線性組合的系數,使得線性表示後的變量能夠取到最大的相關系數,是以CCA也可以了解為一種降維的方法。具體地,可以将其轉化為一個最優化問題:

pearson相關系數_pearson相關系數與典型相關性分析(CCA)

具體求解的方法則采用奇異值分解(SVD)的方法進行求解。

繼續閱讀