相關性檢驗--Spearman秩相關系數和皮爾森相關系數
原文:http://www.cnblogs.com/zhangchaoyang/articles/2631907.html
本文給出兩種相關系數,系數越大說明越相關。你可能會參考另一篇部落格獨立性檢驗。
皮爾森相關系數
皮爾森相關系數(Pearsoncorrelation coefficient)也叫皮爾森積差相關系數(Pearson product-moment correlation coefficient),是用來反應兩個變量相似程度的統計量。或者說可以用來計算兩個向量的相似度(在基于向量空間模型的文本分類、使用者喜好推薦系統中都有應用)。
皮爾森相關系數計算公式如下:
分子是協方差,分子是兩個變量标準差的乘積。顯然要求X和Y的标準差都不能為0。
當兩個變量的線性關系增強時,相關系數趨于1或-1。正相關時趨于1,負相關時趨于-1。當兩個變量獨立時相關系統為0,但反之不成立。比如對于y=x^2,X服從[-1,1]上的均勻分布,此時E(XY)為0,E(X)也為0,是以ρX,Y=0,但x和y明顯不獨立。是以“不相關”和“獨立”是兩回事。當Y 和X服從聯合正态分布時,其互相獨立和不相關是等價的。
對于居中的資料來說(何謂居中?也就是每個資料減去樣本均值,居中後它們的平均值就為0),E(X)=E(Y)=0,此時有:
Spearman秩相關系數
首先說明秩相關系數還有其他類型,比如kendal秩相關系數。
使用Pearson線性相關系數有2個局限:
- 必須假設資料是成對地從正态分布中取得的。
- 資料至少在邏輯範圍内是等距的。
對于更一般的情況有其他的一些解決方案,Spearman秩相關系數就是其中一種。Spearman秩相關系數是一種無參數(與分布無關)檢驗方法,用于度量變量之間聯系的強弱。在沒有重複資料的情況下,如果一個變量是另外一個變量的嚴格單調函數,則Spearman秩相關系數就是+1或-1,稱變量完全Spearman秩相關。注意這和Pearson完全相關的差別,隻有當兩變量存線上性關系時,Pearson相關系數才為+1或-1。
Spearman秩相關系數應該是從秩和檢驗延伸過來的,因為它們很像。
相關性和相似度的差別
X=(1,2,3)跟Y=(4,5,6)的皮爾森相關系數等于1,說明X和Y是嚴格線性相關的(事實上Y=X+3)。
但是X和Y的相似度卻不是1,如果用餘弦距離來度量,X和Y之間的距離明顯大于0。