天天看點

皮爾遜相關系數與p值

1.皮爾遜相關系數

假設有兩個變量x,y

則兩者之間的皮爾遜相關系數為:

皮爾遜相關系數與p值

皮爾遜相關系數衡量的是兩者之間的相關關系,取值範圍為[-1,1],取值為正表示正相關,取值為負表示是負相關,同時,皮爾遜相關系數衡量的是兩個變量之間的線性關系,如下圖,橫軸與縱軸變量有明顯的線性關系,

皮爾遜相關系數與p值

由公式計算出來相關系數為 0.9836,高度相關性;

而當兩個變量之間有相關關系但是不是線性時,用皮爾遜相關系數衡量則會出現較大的偏差 ,比如

下圖,設橫軸為x, 縱軸為y,且 y = x*x

皮爾遜相關系數與p值

兩變量之間有非線性的相關性,但如果此時用皮爾遜相關系數衡量,則相關系數為0

是以,非線性相關關系不能用皮爾遜相關系數衡量

通常情況下通過以下取值範圍判斷變量的相關強度:

相關系數 (均取絕對值後):

0.8-1.0 極強相關

0.6-0.8 強相關

0.4-0.6 中等程度相關

0.2-0.4 弱相關

0.0-0.2 極弱相關或無相關

2.顯著性水準P值

讨論兩變量是否相關必須讨論顯著性水準,不談P值之談相關系數大小是無意義的,兩者之間的相關關系可能隻是偶然因素引起的,是以我們要對兩個變量之間的相關關系的顯著性水準進行判斷;

采用假設檢驗的方法:

原假設H0: R=0 兩變量之間不存線上性關聯

備擇假設H1: R不等于0,兩變量之間存線上性關聯

根據假設檢驗方法,在零假設成立的條件下,即假設兩變量不存在相關性的前提下,計算出兩變量不存在相關性的機率值(P值),如果這個P值很小,說明兩變量不存在相關性的機率很小,我們就可以拒絕原假設,接受備擇假設,那麼這裡我們就需要一個門檻值

通常以5%為門檻值(這裡的門檻值也稱為顯著水準),如果 p<0.05,則說明可以拒絕原假設。接受備擇假設,即兩變量之間存在顯著的線性關聯

是以當p值遠大于 0.05時,即使相關系數很大,我們也不能說兩變量之間存在明顯相關性;而且一般要先在p值滿足要求的前提下再去談 相關系數的大小

本人的粗淺認識,若有錯誤,勞煩指正.

繼續閱讀