本節書摘來自華章計算機《r語言資料分析與挖掘實戰》一書中的第3章,第3.2節,作者 張良均,雲偉标,王路,劉曉勇,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。
對資料進行品質分析以後,接下來可通過繪制圖表、計算某些特征量等手段進行資料的特征分析。
分布分析能揭示資料的分布特征和分布類型。對于定量資料,欲了解其分布形式是對稱的還是非對稱的、發現某些特大或特小的可疑值,可做出頻率分布表、繪制頻率分布直方圖、繪制莖葉圖進行直覺地分析;對于定性資料,可用餅形圖和條形圖直覺地顯示分布情況。
1.定量資料的分布分析
對于定量變量,選擇“組數”和“組寬”是做頻率分布分析時最主要的問題,一般按照以下步驟:
1)求極差;
2)決定組距與組數;
3)決定分點;
4)列出頻率分布表;
5)繪制頻率分布直方圖。
遵循的主要原則有:
1)各組之間必須是互相排斥的;
2)各組必須将所有的資料包含在内;
3)各組的組寬最好相等。
下面結合具體執行個體運用分布分析對定量資料進行特征分析:
表3-2是描述菜品撈起生魚片在2014年第二個季度的銷售資料,繪制銷售量的頻率分布表、頻率分布圖,對該定量資料做出相應的分析。

(1)求極差
(2)決定組距與組數
這裡根據業務資料的含義,可取組距為500。
(3)決定分點
分布區間如表3-3所示。
(4)列出頻率分布表
根據分組區間得到如表3-4所示的頻率分布表。其中,第1列将資料所在的範圍分成若幹組段,其中第1個組段要包括最小值,最後一個組段要包括最大值。習慣上将各組段設為左閉右開的半開區間,如第1個分組為[0,500)。第2列組中值是各組段的代表值,由本組段的上、下限相加除以2得到。第3列和第4列分别為頻數和頻率。第5列是累計頻率,是否需要計算該列視情況而定。
(5)繪制頻率分布直方圖
若以2014年第二季度撈起生魚片每天的銷售額為橫軸,以各組段的頻率密度(頻率與組距之比)為縱軸,表3-4的資料可繪制成頻率分布直方圖,如圖3-3所示。
2.定性資料的分布分析
對于定性變量,常常根據變量的分類類型來分組,可以采用餅形圖和條形圖來描述定性變量的分布。
餅形圖的每一個扇形部分代表每一類型的百分比或頻數,根據定性變量的類型數目将餅形圖分成幾個部分,每一部分的大小與每一類型的頻數成正比;條形圖的高度代表每一類型的百分比或頻數,條形圖的寬度沒有意義。
圖3-4和圖3-5是菜品a、b、c在某段時間的銷售量分布圖。
對比分析是指把兩個互相聯系的名額進行比較,從數量上展示和說明研究對象規模的大小,水準的高低,速度的快慢,以及各種關系是否協調。特别适用于名額間的橫縱向比較、時間序列的比較分析。在對比分析中,選擇合适的對比标準是十分關鍵的步驟,選擇合适,才能做出客觀的評價,選擇不合适,評價可能得出錯誤的結論。
對比分析主要有以下兩種形式:
(1)絕對數比較
它是利用絕對數進行對比,進而尋找差異的一種方法。
(2)相對數比較
它是由兩個有聯系的名額對比計算的,用以反映客觀現象之間數量聯系程度的綜合名額,其數值表現為相對數。由于研究目的和對比基礎不同,相對數可以分為以下幾種:
1)結構相對數:将同一總體内的部分數值與全部數值對比求得比重,用以說明事物的性質、結構或品質。例如,居民食品支出額占消費支出總額比重、産品合格率等。
2)比例相對數:将同一總體内不同部分的數值對比,表明總體内各部分的比例關系,如人口性别比例、投資與消費比例等。
3)比較相對數:将同一時期兩個性質相同的名額數值對比,說明同類現象在不同空間條件下的數量對比關系。例如,不同地區商品價格對比,不同行業、不同企業間某項名額對比等。
4)強度相對數:将兩個性質不同但有一定聯系的總量名額對比,用以說明現象的強度、密度和普遍程度。例如,人均國内生産總值用“元/人”表示,人口密度用“人/平方公裡”表示,也有用百分數或千分數表示的,如人口出生率用‰表示。
5)計劃完成程度相對數:是某一時期實際完成數與計劃數對比,用以說明計劃完成程度。
6)動态相對數:将同一現象在不同時期的名額數值對比,用以說明發展方向和變化的速度,如發展速度、增長速度等。
拿各菜品的銷售資料來看,從時間的次元上分析,可以看到甜品部a、海鮮部b、素菜部c三個部門之間的銷售金額随時間的變化趨勢,了解在此期間哪個部門的銷售金額較高,趨勢比較平穩,如圖3-6所示。也可以從單一部門(如海鮮部)做分析,了解各月份的銷售對比情況,如圖3-7所示。
從總體來看,三個部門的銷售金額呈遞減趨勢;部門a和部門c的遞減趨勢比較平穩;部門b銷售金額下降的趨勢比較明顯,可以進一步分析造成這種現象的業務原因,可能是原材料不足。
用統計名額對定量資料進行統計描述,常從集中趨勢和離中趨勢兩個方面進行分析。
平均水準的名額是對個體集中趨勢的度量,使用最廣泛的是均值和中位數;反映變異程度的名額則是對個體離開平均水準的度量,使用較廣泛的是标準差(方差)、四分位數間距。
1.集中趨勢度量
(1)均值
均值是所有資料的平均值。
如果求n個原始觀察資料的平均數,計算公式為:
有時,為了反映在均值中不同成分所占的不同重要程度,為資料集中的每一個xi賦予wi,這就得到了權重均值的計算公式:
類似地,頻率分布表(如表3-4)的平均數可以使用下式計算:
式中,x1,x2,…,xk分别為k個組段的組中值;f1,f2,…,fk分别為k個組段的頻率。這裡的fi起了權重的作用。
作為一個統計量,均值的主要問題是對極端值很敏感。如果資料中存在極端值或者資料是偏态分布的,那麼均值就不能很好地度量資料的集中趨勢。為了消除少數極端值的影響,可以使用截斷均值或者中位數來度量資料的集中趨勢。截斷均值是去掉高、低極端值之後的平均數。
(2)中位數
中位數是将一組觀察值從小到大按順序排列,位于中間的那個資料。即在全部資料中,小于和大于中位數的資料個數相等。
将某一資料集x:{x1,x2,…,xn} 從小到大排序:{x(1),x(2),…,x(n)}。
當n為奇數時
當n為偶數時
(3)衆數
衆數是指資料集中出現最頻繁的值。衆數并不經常用來度量定性變量的中心位置,更适用于定性變量。衆數不具有唯一性。
2.離中趨勢度量
(1)極差
極差=最大值-最小值
極差對資料集的極端值非常敏感,并且忽略了位于最大值與最小值之間的資料是如何分布的。
(2)标準差
标準差度量資料偏離均值的程度,計算公式為:
(3)變異系數
變異系數度量标準差相對于均值的離中趨勢,計算公式為:
變異系數主要用來比較兩個或多個具有不同機關或不同波動幅度的資料集的離中趨勢。
(4)四分位數間距
四分位數包括上四分位數和下四分位數。将所有數值由小到大排列并分成四等份,處于第一個分割點位置的數值是下四分位數,處于第二個分割點位置(中間位置)的數值是中位數,處于第三個分割點位置的數值是上四分位數。
四分位數間距是上四分位數qu與下四分位數ql之差,其間包含了全部觀察值的一半。其值越大,說明資料的變異程度越大;反之,說明變異程度越小。
針對餐飲銷量資料進行統計量分析,其r語言代碼如代碼清單3-2所示。
我們通過上面的程式已經得到餐飲銷量數的統計量情況:銷量資料均值:2744.5954,中位數:2655.9,極差:3200.2,标準差:424.7394,變異系數:0.15475,四分位數間距:566.65。
周期性分析是探索某個變量是否随着時間變化而呈現出某種周期變化趨勢。時間尺度相對較長的周期性趨勢有年度周期性趨勢、季節性周期性趨勢,相對較短的有月度周期性趨勢、周度周期性趨勢,甚至更短的天、小時周期性趨勢。
例如,要對某機關用電量進行預測,可以先分析該用電機關日用電量的時序圖,以此來直覺地估計其用電量變化趨勢。
圖3-8是某用電機關a在2014年9月日用電量的時序圖;圖3-9是用電機關a在2013年9月日用電量的時序圖。
總體來看用電機關a的2014年9月日用電量呈現出周期性,以周為周期,因為周六周日不上班,是以周末用電量較低。工作日和非工作日的用電量比較平穩,沒有太大的波動。而2013年9月日用電量總體呈現出遞減的趨勢,同樣周末的用電量是最低的。
貢獻度分析又稱帕累托分析,它的原理是帕累托法則又稱20/80定律。同樣的投入放在不同的地方會産生不同的效益。例如,對一個公司來講,80%的利潤常常來自于20%最暢銷的産品,而其他80%的産品隻産生了20%的利潤。
就餐飲企業來講,應用貢獻度分析可以重點改善某菜系盈利最高的前80%的菜品,或者重點發展綜合影響最高的80%的部門。這種結果可以通過帕累托圖直覺地呈現出來。圖3-10是海鮮系列的十個菜品a1~a10某個月的盈利額(已按照從大到小排序)。
由圖3-10可知,菜品a1~a7共7個菜品,占菜品種類數的70%,總盈利額約占該月盈利額的85%。根據帕累托法則,應該增加對菜品a1~a7的成本投入,減少對菜品a8~a10的投入以獲得更高的盈利額。
表3-5是餐飲系統對應的菜品盈利資料示例。
其r語言代碼如代碼清單3-3所示。
分析連續變量之間線性相關程度的強弱,并用适當的統計名額表示出來的過程稱為相關分析。
1.直接繪制散點圖
判斷兩個變量是否具有線性相關關系最直覺的方法是直接繪制散點圖,如圖3-11所示。
2.繪制散點圖矩陣
需要同時考察多個變量間的相關關系時,一一繪制它們間的簡單散點圖會十分麻煩。此時可利用散點圖矩陣來同時繪制各變量間的散點圖,進而快速發現多個變量間的主要相關性,這在進行多元線性回歸時顯得尤為重要。
散點圖矩陣如圖3-12所示。
3.計算相關系數
為了更加準确地描述變量之間的線性相關程度,可以通過計算相關系數進行相關分析。在二進制變量的相關分析過程中比較常用的有pearson相關系數、spearman秩相關系數和判定系數。
(1)pearson相關系數
pearson相關系數一般用于分析兩個連續性變量之間的關系,其計算公式如下:
(2)spearman秩相關系數
pearson線性相關系數要求連續變量的取值服從正态分布。不服從正态分布的變量、分類或等級變量之間的關聯性可采用spearman秩相關系數,也稱等級相關系數來描述。
其計算公式如下:
對兩個變量成對的取值分别按照從小到大(或者從大到大小)順序編秩,ri代表xi的秩次,qi代表yi的秩次,ri-qi為xi、yi的秩次之差。
下面給出一個變量x=(x1,x2,…,xi,…,xn)秩次的計算過程:
對于一個變量,相同的取值必須有相同的秩次,是以在計算中采用的秩次是排序後所在位置的平均值。
易知,隻要兩個變量具有嚴格單調的函數關系,那麼它們就是完全spearman相關的,這與pearson相關不同,pearson相關隻有在變量具有線性關系時才是完全相關的。
上述兩種相關系數在實際應用計算中都要對其進行假設檢驗,使用t檢驗方法檢驗其顯著性水準以确定其相關程度。研究表明,在正态分布假定下,spearman秩相關系數與pearson相關系數在效率上是等價的,而對于連續測量資料,更适合用pearson相關系數進行分析。
(3)判定系數
判定系數是相關系數的平方,用r2表示;用來衡量回歸方程對y的解釋程度。判定系數取值範圍:0≤r2≤1。r2越接近于1,表明x與y之間的相關性越強;r2越接近于0,表明兩個變量之間幾乎沒有直線相關關系。
餐飲系統中可以統計得到不同菜品的日銷量資料,資料示例如表3-6所示。
分析這些菜品銷售量之間的相關性可以得到不同菜品之間的關系,如替補菜品、互補菜品或者沒有關系,為原材料采購提供參考。其r語言代碼如代碼清單3-4所示。
運作上面的代碼,可以得到下面的結果:
由于缺失值的出現,相關系數計算結果中也出現了一個na,但是沒有影響其他菜品的相關系數。從上面的結果可以看到如果顧客點了“百合醬蒸鳳爪”,則點“翡翠蒸香茜餃”、“金銀蒜汁蒸排骨”、“香煎蘿蔔糕”、“鐵闆酸菜豆腐”、“香煎韭菜餃”等主食類的相關性比較低,反而點“樂膳真味雞”、“生炒菜心”、“原汁原味菜心”的相關性比較高。