天天看點

方差、标準差、協方差方差、标準差和協方差三者之間的定義與計算

由于作者禁止轉載,是以這裡隻記錄定義,相關的代碼解釋請看原位址,文章最後有附。

方差、标準差和協方差三者之間的定義與計算

了解三者之間的差別與聯系,要從定義入手,一步步來計算,同時也要互相比較了解,這樣才夠深刻。

方差

方差是各個資料與平均數之差的平方的平均數。在機率論和數理統計中,方差(英文Variance)用來度量随機變量和其數學期望(即均值)之間的偏離程度。在許多實際問題中,研究随機變量和均值之間的偏離程度有着很重要的意義。

标準差

方差開根号。

協方差

在機率論和統計學中,協方差用于衡量兩個變量的總體誤差。而方差是協方差的一種特殊情況,即當兩個變量是相同的情況。

可以通俗的了解為:兩個變量在變化過程中是否同向變化?還是反方向變化?同向或反向程度如何?

你變大,同時我也變大,說明兩個變量是同向變化的,這是協方差就是正的。

你變大,同時我變小,說明兩個變量是反向變化的,這時協方差就是負的。

如果我是自然人,而你是太陽,那麼兩者沒有相關關系,這時協方差是0。

從數值來看,協方差的數值越大,兩個變量同向程度也就越大,反之亦然。

可以看出來,協方差代表了兩個變量之間的是否同時偏離均值,和偏離的方向是相同還是相反。

公式:如果有X,Y兩個變量,每個時刻的“X值與其均值之差”乘以“Y值與其均值之差”得到一個乘積,再對這每時刻的乘積求和并求出均值,即為協方差。

方差,标準差與協方差之間的聯系與差別:

1. 方差和标準差都是對一組(一維)資料進行統計的,反映的是一維數組的離散程度;而協方差是對2組資料進行統計的,反映的是2組資料之間的相關性。

2. 标準差和均值的量綱(機關)是一緻的,在描述一個波動範圍時标準差比方差更友善。比如一個班男生的平均身高是170cm,标準差是10cm,那麼方差就是10cm^2。可以進行的比較簡便的描述是本班男生身高分布是170±10cm,方差就無法做到這點。

3. 方差可以看成是協方差的一種特殊情況,即2組資料完全相同。

4. 協方差隻表示線性相關的方向,取值正無窮到負無窮。

下面的原文有關于python實作的代碼,如果還有點暈,最好兩篇文章都看一下。

強力附上轉載位址:https://www.cnblogs.com/xunziji/p/6772227.html?utm_source=itdadao&utm_medium=referral

強力附上另一篇寫的更詳細的文章:http://pinkyjie.com/2010/08/31/covariance/

繼續閱讀