天天看點

相關系數excel_怎樣征服老闆?教你用excel找到資料之間隐藏資訊01 怎樣找到資料隐藏的資訊?02 怎樣量化分析資料之間的關系?

相關系數excel_怎樣征服老闆?教你用excel找到資料之間隐藏資訊01 怎樣找到資料隐藏的資訊?02 怎樣量化分析資料之間的關系?
拿到一張報表,怎樣做出讓老闆眼前一亮的分析?是簡單分析一下每個資料項的占比?然後告訴老闆現狀是什麼情況?

這些東西最多隻能算合格的分析,原因是分析太簡單,就是現狀的描述。如果你能分析出資料之間隐藏的資訊,告訴老闆未來可能會發生什麼,那就足夠引起老闆注意了。

01 怎樣找到資料隐藏的資訊?

“絕大多數資料分析問題,都可以歸納為一個問題:相關性問題”。

相關分析是研究兩個或兩個以上處于同等地位的随機變量間的相關關系的統計分析方法。例如,人的身高和體重之間;空氣中的相對濕度與降雨量之間的相關關系都是相關分析研究的問題。

怎樣用excel做資料的相關性分析呢?來看一個例子。

相關系數excel_怎樣征服老闆?教你用excel找到資料之間隐藏資訊01 怎樣找到資料隐藏的資訊?02 怎樣量化分析資料之間的關系?

這是一個廣告投放的案例,在不同的投放時間随着投入的各項的成本變換(x1和x2),廣告的曝光量(y)資料也各不相同。那y和x1、x2有沒有相關性呢?

這時候,就可以相關性矩陣來分析變量之間的相關程度。

操作方法為:選擇excel的資料-資料分析(需提前在excel配置資料分析子產品),選擇相關系數。在彈出的視窗中如下選擇:

相關系數excel_怎樣征服老闆?教你用excel找到資料之間隐藏資訊01 怎樣找到資料隐藏的資訊?02 怎樣量化分析資料之間的關系?

注意:勾選标志位于第一行。

點選确定後,變量之間的相關關系一目了然。如下圖:

相關系數excel_怎樣征服老闆?教你用excel找到資料之間隐藏資訊01 怎樣找到資料隐藏的資訊?02 怎樣量化分析資料之間的關系?

這份結果怎樣來解讀呢?有一個标準:對于兩個變量A和B,相關系數r的絕對值一般在0.8以上,認為A和B有強的相關性。0.3到0.8之間,可自以認為有弱的相關性。0.3以下,認為沒有相關性。

從上面的結果看,相關系數都大于0.8,是以x1和x2都與y有強相關性。

02 怎樣量化分析資料之間的關系?

找到了資料的相關關系後,怎樣進行量化,并用于預測分析呢?這就需要回歸分析。

回歸分析在統計學中包含了很多類别,比如一進制回歸、多元回歸、方差回歸、線性回歸、非線性回歸等,本次案例的變量較簡單,而且相關性很強,可以嘗試多元回歸來分析。

繼續上面的案例來講解多元回歸分析。同樣是使用excel表的資料-資料分析,選擇回歸。在彈出視窗選擇Y值和X值的輸入區域,如圖所示。

相關系數excel_怎樣征服老闆?教你用excel找到資料之間隐藏資訊01 怎樣找到資料隐藏的資訊?02 怎樣量化分析資料之間的關系?

結果是3張表格。

表格1:回歸統計表

相關系數excel_怎樣征服老闆?教你用excel找到資料之間隐藏資訊01 怎樣找到資料隐藏的資訊?02 怎樣量化分析資料之間的關系?

1.Multiple R即相關系數R的值,和我們之前做相關分析得到的值一樣,大于0.8表示強正相關。

2. R Square是R平方值,R平方即R的平方,又可以叫判定系數、拟合優度,取值範圍是[0,1],R平方值越大,表示模型拟合的越好。一般大于70%就算拟合的不錯,60%以下的就需要修正模型了。這個案例裡R平方為0.975,相當不錯。

3. Adjusted R是調整後的R方,這個值是用來修正因自變量個數增加而導緻模型拟合效果過高的情況,多用于衡量多重線性回歸。

表格2:方差分析表

相關系數excel_怎樣征服老闆?教你用excel找到資料之間隐藏資訊01 怎樣找到資料隐藏的資訊?02 怎樣量化分析資料之間的關系?

1. df是自由度,SS是平方和,MS是均方,F是F統計量,Significance F是回歸方程總體的顯著性檢驗,其中我們主要關注F檢驗的結果,即Significance F值,F檢驗主要是檢驗因變量與自變量之間的線性關系是否顯著,用線性模型來描述他們之間的關系是否恰當,越小越顯著。這個案例裡F值很小,說明因變量與自變量之間顯著。

2. 殘差是實際值與預測值之間的差,殘差圖用于回歸診斷,回歸模型在理想條件下的殘差圖是服從正态分布的。

表格3:系數分析表

相關系數excel_怎樣征服老闆?教你用excel找到資料之間隐藏資訊01 怎樣找到資料隐藏的資訊?02 怎樣量化分析資料之間的關系?

1.第三張表我們重點關注P-value,也就是P值,用來檢驗回歸方程系數的顯著性,又叫T檢驗,T檢驗看P值,是在顯著性水準α(常用取值0.01或0.05)下F的臨界值,一般以此來衡量檢驗結果是否具有顯著性,如果P值>0.05,則結果不具有顯著的統計學意義,如果0.01

表中的P值都小于0.05,是以都具有統計學意義。T檢驗是看某一個自變量對于因變量的線性顯著性,如果該自變量不顯著,則可以從模型中剔除。

2.從第上表的第一列我們可以得到這個回歸模型的方程:y=7200+1.1564432x1-2.559187x2,此後對于每一個輸入的自變量x1x2,都可以根據這個回歸方程來預測出因變量Y。

至此,我們不僅找到了統計報表中有相關關系的資料,還可以通過數學表達式實作量化的分析和預測。這樣一份分析報告相信能夠對生産經營分析帶來較大的幫助。