在統計學中,皮爾遜相關系數( Pearson correlation coefficient),又稱皮爾遜積矩相關系數(Pearson product-moment correlation coefficient,簡稱 PPMCC或PCCs),是用于度量兩個變量X和Y之間的相關程度(線性相關),其值介于-1與1之間。
目錄
- 1 定義
- 2 性質
- 3 實體意義
-
- 3.1 皮爾森距離
- 4 應用
-
-
- 調包
- 4.1 衡量兩個樣本的相似度
-
1 定義
兩個變量之間的皮爾遜相關系數定義為兩個變量之間的協方差和标準差的商:

上式定義了總體相關系數,常用希臘小寫字母作為代表符号。估算樣本的協方差和标準差,可得到皮爾遜相關系數,常用英文小寫字母 代表:
r r r 亦可由 ( X i , Y i ) (X_i,Y_i) (Xi,Yi) 樣本點的标準分數均值估計,得到與上式等價的表達式:
2 性質
總體和樣本皮爾遜系數的絕對值小于或等于1。如果樣本資料點精确的落在直線上(計算樣本皮爾遜系數的情況),或者雙變量分布完全在直線上(計算總體皮爾遜系數的情況),則相關系數等于1或-1。皮爾遜系數是對稱的:
皮爾遜相關系數有一個重要的數學特性是,因兩個變量的位置和尺度的變化并不會引起該系數的改變,即它該變化的不變量(由符号确定)。也就是說,我們如果把 X X X 移動到 a + b X a+bX a+bX,把 Y Y Y 移動到 c + d Y c+dY c+dY,其中a、b、c和d是常數,并不會改變兩個變量的相關系數(該結論在總體和樣本皮爾遜相關系數中都成立)。我們發現更一般的線性變換則會改變相關系數:
由于:
Y也類似,并且
故相關系數也可以表示成
對于樣本皮爾遜相關系數:
3 實體意義
皮爾遜相關系數的變化範圍為-1到1。 系數的值為1意味着X和Y可以很好的由直線方程來描述,所有的資料點都很好的落在一條直線上,且 Y Y Y 随着 X X X 的增加而增加。系數的值為−1意味着所有的資料點也都落在直線上,且 Y Y Y 随着 X X X 的增加而減少。系數的值為0意味着兩個變量之間沒有線性關系。
更一般的, 我們發現,當且僅當 X i X_i Xi 和 Y i Y_i Yi 均落在他們各自的均值的同一側, 則 ( X i − X ˉ ) ( Y i − Y ˉ ) (X_i-\bar{X})(Y_i-\bar{Y}) (Xi−Xˉ)(Yi−Yˉ) 的值為正。 也就是說,如果 和 同時趨向于大于,或同時趨向于小于他們各自的均值,則相關系數為正。 如果 和 趨向于落在他們均值的相反一側,則相關系數為負。
3.1 皮爾森距離
通過皮爾森系數定義:
4 應用
主要講一下在機器學習中的應用。
調包
from scipy.stats import pearsonr
4.1 衡量兩個樣本的相似度
在資料标準化 ( μ = 0 , σ = 1 ) ( μ= 0,σ= 1 ) (μ=0,σ=1) 後,Pearson相關系數、Cosine相似度、歐式距離的平方可認為是等價的。換句話說,如果你的資料符合正态分布或者經過了标準化處理,那麼這三種度量方法輸出等價,不必糾結使用哪一種。
我們一般用歐式距離(向量間的距離)來衡量向量的相似度,但歐式距離無法考慮不同變量間取值的差異。舉個例子,量a取值範圍是0至1,而變量b的取值範圍是0至10000,計算歐式距離時變量b上微小的差異就會決定運算結果。而Pearson相關系數可以看出是更新版的歐氏距離平方,因為它提供了對于變量取值範圍不同的處理步驟。是以對不同變量間的取值範圍沒有要求(unit free),最後得到的相關性所衡量的是趨勢,可以克服不同變量量綱上的差别。
參考:
如何了解皮爾遜相關系數