1. 簡介
統計學中最核心的概念之一是:标準差及其與其他統計量(如方差和均值)之間的關系,本文将對标準差這一概念提供直覺的視覺解釋,在文章的最後我們将會介紹協方差的概念。
2. 概念介紹
均值
均值: 均值就是将所有的資料相加求平均,求得一個樣本資料的中間值。
- 定義: 給定一個包含n個樣本的集合 X={X1, …Xn},均值就是這個集合中所有元素和的平均值。
數學基礎--均值、方差、标準差、協方差1. 簡介2. 概念介紹3. 概念描述
方差
方差是在機率論和統計方差衡量随機變量或一組資料時離散程度的度量,換句話說如果想知道一組資料之間的分散程度的話就可以使用“方差”來表示了。
- 定義:在統計描述中,方差用來計算每一個變量(觀察值)與總體均數之間的差異。為避免出現離均差總和為零,離均差平方和受樣本含量的影響,統計學采用平均離均差平方和來描述變量的變異程度。
數學基礎--均值、方差、标準差、協方差1. 簡介2. 概念介紹3. 概念描述
标準差
又叫均方差,是離均差平方的算術平均數的平方根,用σ表示。标準差是”方差”的算術平方根。标準差能反映一個資料集的離散程度。平均數相同的兩組資料,标準差未必相同。
3. 概念描述
舉例而言,假設你收集了一些學生分數(出于簡潔性考慮,我們假設這些分數是總體)。
我們首先在簡單的散點圖中繪制這些數字:
繪制完成後,計算差異的第一步是找出這些數字的中心,即平均值,這也就是前面所說的均值的概念。
視覺上,我們可以繪制一條線來表示平均分數。
接下來我們要計算每個點和平均值之間的距離,并對得到的數值求平方。記住,我們的目标是計算數字之間的差異,以及數字與平均值之間的差異。我們可以用數學或視圖的方式完成該操作:
從上圖中我們可以看到,「求平方」隻不過是畫了一個方框而已。這裡有兩點需要注意:我們無法計算所有差異的總和。因為一些差異是正值,一些是負值,求和會使正負抵消得到 0。為此,我們對差異取平方(稍後我會解釋為什麼取平方而不是其他運算,如取絕對值)。現在,我們來計算差異平方的總和(即平方和):
通過計算平方和,我們高效計算出這些分數的總變異(即差異)。了解變異(variability)與差異(difference)之間的關系是了解多個統計估計和推斷檢驗的關鍵。上圖中平方和 67.5 表示,如果我們将所有方框堆在一個巨大的正方形中,則大正方形的面積等于 67.5 points^2,points 指分數的機關。任意測量集的總變異都是正方形的面積。
現在我們得到了總變異(即大正方形的面積),但我們真正想要的是平均變異(mean variability)。要想求得平均變異,我們隻需要用總面積除以方框的數量:
出于實用目的考慮,你或許想除以 N−1,而不是 N,這樣你就可以嘗試基于一個樣本而不是總體來估計平均變異。但是,這裡假設我們已經具備總體。重點在于,你想計算所有小方框的均方值。這就是方差,即平均變異,或者差異平方的平均值。
我們為什麼不用方差來表示分數的差異呢?唯一的問題是,我們無法對比方差和原始分數,因為方差是「平方」值,即它是面積而非長度。其機關是 points^2,與原始分數的機關 points 不同。那麼如何甩掉平方呢?開平方根啊!
最後,我們終于得到了标準差:變異的平方根,即 2.91points。這就是标準差的核心理念。本文對标準差概念的基礎直覺解釋可以幫助大家更容易地了解,為什麼在處理 z 分數(z-score)、正态分布、标準誤差和方差分析時要使用标準差的機關。
絕對值的問題
你可能會疑惑,為什麼對差異求平方而不是取絕對值呢。沒有什麼能夠真正阻止你使用差異的平均絕對值。平均絕對值給所有差異提供的是相同的權重,而差異平方為距離平均值較遠的數字提供更多權重。這或許是你想要的。但是,大部分數學理論利用差異平方(其原因不在本文讨論範圍内,如可微分)。不過,我會用一個容易了解的反例來回答這個問題。假設有兩個均值相同的分數集合:x_1 和 x_2:
從這些數字中,你可以輕松觀察到 x_1 的變異和數值分散性比 x_2 低。我們來計算兩個集合差異的平均絕對值(二者的平均值都為 6):
哦,結果并不好!兩個集合的變異值相同,盡管我們能夠看到 x_1 的數字差異要比 x_2 低。現在,我們使用差異平方計算,得到:
在差異平方的作用下,我們得到了想要的結果:當數字越分散時,标準差越大。
協方差
前面的方差、标準差描述的是一維資料集合的離散程度,但世界上的現象普遍是多元度資料描述的。那麼很自然就會想知道現象和資料的相關程度,以及各次元資料間的相關程度。比如,一個産品賣的好不好可能有很多因素構成,比如産品品質、價格等。那麼是否品質和價格之間有相關性呢?這個問題就可以用協方差來解決。協方差的計算公式被定義為:
期望值分别為 E(X) 和 E(Y) 的兩個變量X和Y的協方差為:
Cov(X,Y)=E[(X−E(X))(Y−E(Y))]
=E(XY)−2E(X)E(Y)+E(X)E(Y)
=E(XY)−E(X)E(Y)
協方差表示的是兩個變量的總體的誤差,這與隻表示一個變量誤差的方差不同。如果兩個變量的變化趨勢一緻,也就是說如果其中一個大于自身的期望值,另外一個也大于自身的期望值,那麼兩個變量之間的協方差就是正值。 如果兩個變量的變化趨勢相反,即其中一個大于自身的期望值,另外一個卻小于自身的期望值,那麼兩個變量之間的協方差就是負值。
如果X 與Y 是統計獨立的,那麼二者之間的協方差就是0,則:
參考資料:
《https://www.jiqizhixin.com/articles/2020-01-25-2》