天天看點

《Excel資料可視化:一樣的資料不一樣的圖表》——2.3 機率統計中的正态分布和偏态分布

本節書摘來自華章計算機《excel資料可視化:一樣的資料不一樣的圖表》一書中的第2章,第2.3節,作者 恒盛傑資訊,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

《Excel資料可視化:一樣的資料不一樣的圖表》——2.3 機率統計中的正态分布和偏态分布

機率可以了解為随機出現的相對數。随機現象是相對于決定性現象而言的。在一定條件下必然發生某一結果的現象稱為決定性現象。随機現象則是指在基本條件不變的情況下,每一次試驗或觀察前,不能肯定會出現哪種結果,呈現出偶然性,如常見的擲骰子試驗。事件的機率是衡量該事件發生的可能性的量度。雖然在一次随機試驗中某個事件的發生是帶有偶然性的,但那些可在相同條件下大量重複的随機試驗卻往往呈現出明顯的數量規律,其中正态分布和偏态分布就是資料有規律出現的兩個代表。

《Excel資料可視化:一樣的資料不一樣的圖表》——2.3 機率統計中的正态分布和偏态分布
《Excel資料可視化:一樣的資料不一樣的圖表》——2.3 機率統計中的正态分布和偏态分布

左下圖是正态分布圖,右下圖是偏态分布圖。在excel中通過折線圖或散點圖可以模拟出如下圖所示的效果。要了解分布圖形時,需要明白峰度與偏度系數,即它們表示的含義。峰度是用來反映頻數分布曲線頂端尖峭或扁平程度的名額,而偏度是用來度量分布是否對稱。

《Excel資料可視化:一樣的資料不一樣的圖表》——2.3 機率統計中的正态分布和偏态分布

服從正态分布的随機變量的機率規律為取與μ鄰近的值的機率大,而取離μ越遠的值的機率越小;σ越小,分布越集中在μ附近;σ越大,分布越分散。

《Excel資料可視化:一樣的資料不一樣的圖表》——2.3 機率統計中的正态分布和偏态分布
《Excel資料可視化:一樣的資料不一樣的圖表》——2.3 機率統計中的正态分布和偏态分布

在excel中若要繪制正态分布圖,需要了解normdist函數。該函數傳回指定平均值和标準偏差的正态分布函數。此函數在統計方面應用範圍廣泛(包括假設檢驗),能建立起一定資料頻率分布直方與該資料平均值和标準差所确定的正态分布資料的對照關系。

normdist函數的文法:normdist(x,mean,standard_dev,cumulative),x 為需要計算其分布的數值;mean是分布的均值;standard_dev是分布的标準偏差; cumulative 為一邏輯值,指明函數的形式。如果cumulative為true,函數normdist傳回積累分布函數;如果為false,傳回機率密度函數。

機率密度函數是一個描述随機變量的輸出值,在某個确定的取值點附近的可能性的函數,而積累分布函數就是機率密度函數的積分。

在正态分布中,有兩個常在經濟學中引用的概念:長尾和肥尾。美國人克裡斯·安德森提出的長尾理論認為:隻要存儲和流通的管道足夠大,需求不旺或銷量不佳的産品,共同占據的市場佔有率,就可以和那些數量不多的熱賣品所占據的市場佔有率,相匹敵甚至更大。

《Excel資料可視化:一樣的資料不一樣的圖表》——2.3 機率統計中的正态分布和偏态分布

一般考試成績具有正态分布現象。現假設某班有45個學生,在一次英語考試中學生的成績分布在54~95分,他們的成績按着學号依次遞增,計算該班學生成績的累積分布函數圖和機率密度函數圖。

《Excel資料可視化:一樣的資料不一樣的圖表》——2.3 機率統計中的正态分布和偏态分布
《Excel資料可視化:一樣的資料不一樣的圖表》——2.3 機率統計中的正态分布和偏态分布
《Excel資料可視化:一樣的資料不一樣的圖表》——2.3 機率統計中的正态分布和偏态分布

頻數分布有正态分布和偏态分布之分,如果頻數分布的高峰向左偏移,長尾向右側延伸稱為正偏态分布,也稱右偏态分布;同樣的,如果頻數分布的高峰向右偏移,長尾向左延伸則稱為負偏态分布,也稱左偏态分布。偏态分布常用于分析排隊問題。

若要了解偏态分布,首先需要掌握的是“偏度”這一名額。偏态又稱偏斜系數、偏态系數,是用來幫助判斷資料序列的分布規律性的名額。在資料序列呈對稱分布(正态分布)的狀态下,其均值、中位數和衆數重合。且在這三個數的兩側,其他所有的資料完全以對稱的方式左右分布。如果資料序列的分布不對稱,則均值、中位數和衆數必定分處不同的位置。這時,若以均值為參照點,則要麼位于均值左側的資料較多,稱之為右偏;要麼位于均值右側的資料較多,稱之為左偏;除此無他。考慮到所有資料與均值之間的離差之和應為零這一限制,則當均值左側資料較多的時候,均值的右側必定存在數值較大的“離群”資料;同理,當均值右側資料較多的時候,均值的左側必定存在數值較小的“離群”資料。

個人收入圖常用來研究偏态分布。它在貧困水準、經濟增長和不平等相關的社會經濟學研究中有廣泛的應用。

《Excel資料可視化:一樣的資料不一樣的圖表》——2.3 機率統計中的正态分布和偏态分布
《Excel資料可視化:一樣的資料不一樣的圖表》——2.3 機率統計中的正态分布和偏态分布

繼續閱讀