方差和标準差
又稱D(X)
樣本方差和樣本标準差都是衡量一個樣本波動大小的量,樣本方差或樣本标準差越大,樣本資料的波動就越大。标準差與方差不同的是,标準差和變量的計算機關相同,比方差清楚,是以很多時候我們分析的時候更多的使用的是标準差。
協方差
協方差(Covariance)在機率論和統計學中用于衡量兩個變量的總體誤差。而方差是協方差的一種特殊情況,即當兩個變量是相同的情況。
協方差表示的是兩個變量的總體的誤差,這與隻表示一個變量誤差的方差不同。 如果兩個變量的變化趨勢一緻,也就是說如果其中一個大于自身的期望值,另外一個也大于自身的期望值,那麼兩個變量之間的協方差就是正值。 如果兩個變量的變化趨勢相反,即其中一個大于自身的期望值,另外一個卻小于自身的期望值,那麼兩個變量之間的協方差就是負值。
協方差為0的兩個随機變量稱為是不相關的。
當 cov(X, Y)>0時,表明 X與Y 正相關;
當 cov(X, Y)<0時,表明X與Y負相關;
當 cov(X, Y)=0時,表明X與Y不相關。
Pearson相關系數
Pearson相關系數(Pearson CorrelationCoefficient)是用來衡量兩個資料集合是否在一條線上面,它用來衡量定距變量間的線性關系。
取樣本pearson相關系數時,分子為n-1
觀察總體Person相關系數的公式:我們發現皮爾遜相關系數可以看成消除了兩個變量量綱影響,即将X和Y标準化後的協方差。 是以,我們可以使用皮爾遜相關系數來衡量兩個變量線性相關的程度。
在計算皮爾遜相關系數之前,一定要做出散點圖來看兩組變量之間是否有線性關系
代碼實作
X1.corr(Y1,method=
"pearson"
) #X1為A變量 X2為B變量
評估
0.8-1.0 極強相關
0.6-0.8 強相關
0.4-0.6 中等程度相關
0.2-0.4 弱相關
0.0-0.2 極弱相關或無相關