
相關性分析是我們做資料分析時最常用的一種方法。我們在對業務進行分析時,都會思考哪幾個環節是互相影響的,通過層層推理,找到工作中的關鍵問題,進而改進業務,提高工作效率。業務環節互相影響,在資料上的展現就是具有相關性。
我們按照資料的類型來說下,在做資料分析時會碰到哪些相關性分析。
首先,是連續型變量(數值)之間的相關性,這也是最常碰到的。我們會用相關系數來分析,最常用的當然是皮爾遜(Pearson)相關系數,取值-1到1之間,絕對值越接近于1表示相關性越強,正負表示正相關和負相關。另外還有Spearman相關系數和Kendall相關系數,應用的條件不同,在此不深入介紹了。實際上我們一般分析都是線性相關性,連續型變量的相關性除了用相關系數來分析外,還可以用散點圖來分析。
如果存線上性相關性,在散點圖上會趨近一條直線。
另外,就是連續型變量和分類型(字元型)變量之間的相關性了,這就計算不了相關系數了,在這裡可以用方差分析來判斷他們之間的相關性,方差分析實際上在檢驗幾組樣本的均值是否相等,就像做對照實驗一樣,把連續型變量按照分類型變量的取值進行分組,再比較每組的均值是否相等,相等說明分組對連續型變量的取值沒有影響,說明他們之間沒有相關性,反之,他們是有相關性的。
最後,就是分類型變量之間的相關性,可以使用列聯表來分析,進行卡方檢驗,可以得到是否相關的結論。
大緻說了相關性分析之後,我們再來看有監督學習。有監督學習是機器學習裡的概念,是指從有标記的訓練資料中推到出預測函數,具體來說就分類和回歸問題。其實,我們也可以從相關性分析的角度來了解有監督學習,這裡的有标記的資料,實際上就是我們要分析的資料字段,相關性分析時我們往往隻是在分析兩個字段,1對1 的,而有監督學習,我們要分析的是多個字段了,是多對1了,分析多個字段綜合起來與一個字段的相關性,這個1就是訓練資料中的标記字段,如果這個标記字段是分類型的,就是分類問題,如果這個标記字段是連續型的,就是回歸問題,可以說有監督學習的本質還是在做相關性分析,隻是更加複雜了,不是一個相關系數能描述的規律了,往往我們得到的複雜的預測函數。這個函數描述了标記字段和多個影響因素之間的相關性,例如最好了解的2種模型:性回歸方程和決策樹。
在大資料時代,我們收集到的資料越來越多,我們分析的手段也要越來越深入了,從簡單的資料可視化展現,慢慢的要過渡到更深層次的資料規律探索了,相關性分析是個很好的起點。更多幹貨,下次再分享哦。