相關性分析
相關性分析是指對兩個或多個具備相關性的變量元素進行分析,進而衡量兩個變量因素的相關密切程度
相關性的元素之間需要存在一定的聯系或者機率才可以進行相關性分析,即兩個變量之間是否有聯系
相關性衡量名額
Pearson相關系數、Spearman相關系數、Kendall相關系數、偏相關系數,多分格(polychoric)相關系數和多系列(polyserial)相關系數
- cor()函數
cor(x, y = NULL, use = “everything”,method = c(“pearson”, “kendall”, “spearman”))
x:數字向量、矩陣或資料幀。
y:NULL(預設值)或向量、矩陣或與x相容的資料幀。預設值相當于y = x(但更有效)。
use:一個可選字元串,提供在缺失值存在時計算協方差的方法。它必須是字元
method:訓示要計算的相關系數(或協方差)的字元串。
> s <- state.x77
> cor(s)
Population Income Illiteracy Life Exp Murder HS Grad Frost Area
Population 1.00000000 0.2082276 0.10762237 -0.06805195 0.3436428 -0.09848975 -0.3321525 0.02254384
Income 0.20822756 1.0000000 -0.43707519 0.34025534 -0.2300776 0.61993232 0.2262822 0.36331544
Illiteracy 0.10762237 -0.4370752 1.00000000 -0.58847793 0.7029752 -0.65718861 -0.6719470 0.07726113
Life Exp -0.06805195 0.3402553 -0.58847793 1.00000000 -0.7808458 0.58221620 0.2620680 -0.10733194
Murder 0.34364275 -0.2300776 0.70297520 -0.78084575 1.0000000 -0.48797102 -0.5388834 0.22839021
HS Grad -0.09848975 0.6199323 -0.65718861 0.58221620 -0.4879710 1.00000000 0.3667797 0.33354187
Frost -0.33215245 0.2262822 -0.67194697 0.26206801 -0.5388834 0.36677970 1.0000000 0.05922910
Area 0.02254384 0.3633154 0.07726113 -0.10733194 0.2283902 0.33354187 0.0592291 1.00000000
> x <- head(state.x77[,c(1,2,3,6)])
> y <- head(state.x77[,c(4,5)])
> x
Population Income Illiteracy HS Grad
Alabama 3615 3624 2.1 41.3
Alaska 365 6315 1.5 66.7
Arizona 2212 4530 1.8 58.1
Arkansas 2110 3378 1.9 39.9
California 21198 5114 1.1 62.6
Colorado 2541 4884 0.7 63.9
> y
Life Exp Murder
Alabama 69.05 15.1
Alaska 69.31 11.3
Arizona 70.55 7.8
Arkansas 70.66 10.1
California 71.71 10.3
Colorado 72.06 6.8
> cor(x,y)
Life Exp Murder
Population 0.47253096 0.04379365
Income 0.03472308 -0.22600224
Illiteracy -0.78196394 0.62736282
HS Grad 0.36972381 -0.52085031
- ggm包中的pcor()函數:偏相關性函數
偏相關是指在控制一個或多個變量時剩餘其他變量之間的關系
> pcor(c(1,5,2,3,6),cov(state.x77))
[1] 0.3462724