本文大綱:
- 資料挖掘分析&算法前奏之data exploration做什麼
- 基本統計有哪些,怎麼定義的
- 優缺點和應用場景,集中趨勢和發散趨勢
- 發散趨勢的引申:極差 ->方差->标準差->變異系數
- 發散程度名額的重要實際意義
- 可汗學院-統計學簡單介紹和課程清單
一、資料挖掘&算法前奏之data exploration做什麼
一個數字序列,如何通過簡單的統計名額,直接&直覺地描述這個數字序列的一些基本屬性,是資料處理與了解的剛需。做資料挖掘和機器學習以及任何與數字序列相關的算法工作之前,一般,我們都做一做data exploration的工作,意思大概就是說,要首先看看這個數字序列的:
- 基本統計名額是什麼,
- 有什麼明顯的數字趨勢可見,或者符合什麼明顯的機率分布,
- 多元特征的話,次元彼此之間,有什麼簡單明了的關系。
在 可汗學院公開課:統計學> 均值 中位數 衆數 和 可汗學院公開課:統計學> 極差 中程數
第1節和第2節中,就是講data exploration中的第一步:數字序列的基本統計名額是什麼。
二、基本統計有哪些,怎麼定義的
簡單來說(以數字序列X為例):
- mean(均值) = 算術平均值 = (x1 + x2 + ... + xn) / n
- median(中位數) = 對X按值排序(從大到小或從小到大),取數列排序後處于中間位置的數xi;當序列X的元素個數為偶數時,則有2個數字同時處于中間位置,此時中位數取這中間2個數的平均值
- mode(衆數) = 序列X中,出現頻率最多的那個數
- range(極差或全距) = 數列X中最大值與最小值之間的內插補點,用于描述X的數字分散程度,越小則數字之間越緊密
- midrange(中程數) = 數列X中(最大值 + 最小值)/2
三、優缺點和應用場景,集中趨勢和發散趨勢
上述5個基本統計名額,其實,都是用來描述數字序列X的某種意義上的數字集中趨勢的,隻是角度不同而已(1、2、3是從收斂的角度、4、5是從發散的角度)。各自的特點,或者說優缺點以及應用場景如下:
優點 | 缺點 | 應用場景 | |
均值 | 最具有良好的數學性質,對于生活中常見的較為對稱的以正态分布為基礎的各種現象,有廣泛的應用。而且考慮了數列中每個元素的情況,資訊量全 | 容易受到數列X中極端值(極大或極小)的影響,比如中國城市家庭平均資産247萬人民币? 西南财大報告引熱議 中的笑話 | 數字序列X表現出較為明顯的對稱分布(正态)的情況下,如身高、智力等分布。當資料呈對稱分布或接近對稱分布時,均值、中位數、衆數相等或接近相等,這時應選擇均值作為集中趨勢的代表值,因為均值包含了全部資料的資訊 |
中位數 | 中間位置上的代表值。其特點是不受資料極端值的影響 | 有可能中位數不在數字序列中(數列元素個數為偶數時),造成了解上的困惑 | 當一組資料中的個别資料變動較大時,可用中位數描述其趨勢。對于偏态分布,具有較好的應用,比如網際網路與生物領域常見power-law分布,與之對應的,還有xx分位點的說法,常見的有1Q,3Q分位點,即25%、75%分位點。 |
衆數 | 簡單易了解,不受資料極端值的影響 | 可能不唯一性,一個數字序列,可能有多個衆數(頻次相同且最大);或者沒有衆數(數字序列中每個數都隻出現1次) | 當一組資料中某些資料重複出現較多的場景。特别适用于偏态分布,對于對稱分布也可以應用 |
極差 | 簡單易了解,計算簡單明了 | 受資料極端值影響,反應數列離散程度也較粗糙,不能反應數列内容的發散情況,即使樣本不大,極差帶來的發散誤差也較大 | 隻能用于粗略地說明資料的變動範圍 |
中程差,與極差具有類似的性質,隻是計算方式有所改變而已。
四、發散趨勢的引申:極差 ->方差->标準差->變異系數
極差 -> 方差:
為了應對極差的明顯缺點,如果要很仔細很全面地考察數列的發散程度,就必須考慮數列中每個元素的彼此發散情況。這時,需要引進方差的概念。
方差:數列中每個元素與均值之差的平方和,為什麼要用平方和,下面講的很清楚:

方差 -> 标準差:
此外,為了消除方差因為平方而帶來的,與原數列的量綱不一緻的情形,進一步有了标準差的概念,
标準差,即方差的開平方根。
标準差可以用來完美地表示資料的離散程度,标準差與均數相結合,可以描述正态分布特征,即估計正态分布下資料的頻數分布情況。
一個例子如下:
上面二個正态分布,具有相同的均值,但是紅色的分布,标準差為10,藍色分布的标準差為50,可見二個分布的資料發散程度的明顯差異。
标準差 -> 變異系數:
如果要更進一步,如何來對比二個完全不同項目(機關不一樣,比如一個是身高、一個是智力)的數列的離散程度,或者雖然都是比較重量但一個數字序列是書籍的重量另一個數字序列是每粒瓜子的重量(機關相同但平均值不同)的二個序列的離散程度,如何比較呢,這個時候,需要更進一步引入變異系數的概念:
變異系數 = (正态分布)标準差 / 平均值。
變異系數既可以消除二個數字序列值平均水準不同對對比離散程度的影響,還可消除二個序列因為量綱機關不同而造成的評價對比影響,進而更完美地反映數列變異程度的大小。
五、發散程度名額的重要實際意義
從某種意義上講,數字序列的發散程度(或變異程度,指方差、标準差、變異系數等)的作用,比集中趨勢(指平均值、中位數、衆數)還要重要。這是因為:
日常生産和觀察中,由于各種誤差(包括系統性的),測量和觀察到的數值,基本上不可能完完全全就是測量對象的實際值,不同的測量方法和儀器,所觀察到的結果,是有差别的。那麼,怎麼判定一種測量方法或儀器,就比另外一種方法或儀器好呢?如何能讓我們相信并使用測量所觀察到的值呢?(場景,仍然是針對近似正态分布)
對比4種情況,簡單的想法就是第2、3中情況符合邏輯(背後有強大嚴密的資料證明。。。)
- 如果一種測量方法好,但是每次測量的結果形成的數字序列,變異程度都較大,
- 如果一種測量方法好,但是每次測量的結果形成的數字序列,變異程度都較小,
- 如果一種測量方法不好,但是每次測量的結果形成的數字序列,變異程度都較大,
- 如果一種測量方法不好,但是每次測量的結果形成的數字序列,變異程度都較小,
是以,各種展現數字序列發散程度的名額( 方差、标準差、變異系數等 等),就會被常用來檢測測量結果的可靠性和可信性,這點意義上的作用,非常之大。
最後,提一下美麗的正态分布,一切盡在圖中: