1、作用
相關分析是對變量兩兩之間的相關程度進行分析。相關分析的計算方式有三種,分别是 Pearson 相關系數(适用于定量資料,且資料滿足正态分布)、Spearman 相關系數(資料不滿足正态分布時或者定序資料使用)、kappa一緻性檢驗(定類變量)
2、輸入輸出描述
輸入:兩個或者兩個以上的定量變量或定序變量
輸出:兩兩變量之間是否呈現顯著性相似以及相似的程度
3、案例示例
人的身高和體重之間;空氣中的相對濕度與降雨量之間的相關關系都是相關分析研究的問題
4、變量類型
1.定類變量:隻能區分為某一類别,類别平等
2.定序變量:隻能區分為某一類别,類别有序
3.定量變量:可以用具體數值表示
4.定比變量:可以用具體數值表示,存在零點。定比變量各類别之間的距離,不僅能用加減而且能用乘除或倍數形式來說明它們之間的關系
5、模組化步驟
皮爾遜相關系數
兩個變量之間的皮爾遜相關系數定義為兩個變量之間的協方差和标準差的商:
上式定義了總體相關系數,常用希臘小寫字母
作為代表符号。估算樣本的協方差和标準差,可得到皮爾遜相關系數,常用英文小寫字母r代表:
r亦可由
樣本點的标準分數均值估計,得到與上式等價的表達式:
其中
、
及
分别是對
樣本的标準分數、樣本平均值和樣本标準差。
斯皮爾曼相關系數
斯皮爾曼相關系數被定義成等級變量之間的皮爾遜相關系數。對于樣本容量為n的樣本,n個原始資料被轉換成等級資料,相關系數
為:
為
的等級差,
位于(-1,1)之間。
kappa 系數
kappa系數是一種衡量分類精度的名額。它是通過把所有地表真實分類中的像元總數(N)乘以混淆矩陣對角線(Xkk)的和,再減去某一類地表真實像元總數與該類中被分類像元總數之積對所有類别求和的結果,再除以總像元數的平方減去某一類地表真實像元總數與該類中被分類像元總數之積對所有類别求和的結果所得到的。
其中,P0是每一類正确分類的樣本數量之和除以總樣本數,也就是總體分類精度 。
假設每一類的真實樣本個數分别為a1,a2,...,aC,而預測出來的每一類的樣本個數分别為b1,b2,...,bC
總樣本個數為n,則有: