作者:CHEONG
公衆号:AI機器學習與知識圖譜
研究方向:自然語言處理與知識圖譜
前言:機器學習系列文章常含有大量公式,若需擷取本文全部的手書版原稿資料,掃碼關注公衆号【AI機器學習與知識圖譜】,回複: 高斯分布第一講 即可擷取。
原創不易,轉載請告知并注明出處!掃碼關注公衆号,定期釋出知識圖譜,自然語言處理、機器學習等知識,添加微信号【17865190919】進讨論群,加好友時備注來自CSDN。
二話不說咱先抛出一個問題:資料集Data X服從高斯分布,如何推導X的均值和方差
欲解答上述問題,先對問題進行拆解:
1、何為高斯分布,高斯分布機率密度函數是什麼
2、用什麼方法推導:最大似然估計法,那最大似然估計是什麼
3、如何推導,最大似然估計法推導高斯分布均值和方差的過程
那接下來我們就先對上面四個問題一個一個來看吧。
一、高斯分布
下面先說明一進制高斯分布,标準一進制正态分布以及多元高斯分布之間的關系以及其機率密度函數分别是什麼,而對于邊緣高斯分布,條件高斯分布以及混合高斯分布之後再單獨細講。
1、一進制高斯分布和标準正态分布
如果資料集x服從均值為u,方差為 σ \sigma σ的一進制高斯分布,其機率密度函數為
而标準一進制正态分布既對資料集x進行标準化處理:
則z服從均值為0,方差為1的标準正态分布,其機率密度函數為
這裡給出高斯分布滿足的兩條常用性質,在之後證明中會使用到:
(1)如果 x ∼ N ( u , σ 2 ) x \sim N(u, \sigma^2) x∼N(u,σ2)且a和b是實數時,那麼
(2)如果 x ∼ N ( u x , σ x 2 ) x \sim N(u_x, \sigma^2_x) x∼N(ux,σx2)與 y ∼ N ( u y , σ y 2 ) y \sim N(u_y, \sigma^2_y) y∼N(uy,σy2)是統計獨立的正态随機變量,那麼
- 他們的和也滿足正态分布
- 他們的差也滿足正态分布
2、多元高斯分布
這裡先介紹一種簡單的情況,那就是多元次元之間互相獨立時,若各變量之間互相獨立,則聯合機率密度函數等于各自機率密度的乘積。
如果 X = ( x 1 , x 2 , . . . , x d ) T X=(x_1, x_2, ..., x_d)^T X=(x1,x2,...,xd)T,且各次元之間互相獨立,則X的機率密度函數為
對上面公式進行簡化處理,先簡寫成
其中:
上式中 Σ \Sigma Σ是協方差矩陣,由于變量各個次元之間不相關,是以協方差矩陣隻有對角線的位置有值,是以推導出多元高斯分布的機率密度函數為:
二、最大似然估計
先從下圖中的例子泛泛的了解一下最大似然估計的思想:
通俗來說,最大似然估計法,就是利用已知的樣本結果資訊,反推最大可能(最大機率)産生這個結果的模型參數值,極大似然估計提供了一種給定觀察資料來評估模型參數的方法,即模型已定,參數未知。
最大似然估計一個重要前提假設是:資料樣本之間是獨立同分布的。在用最大似然估計解高斯分布參數前,先看一般情況,現考慮有一個資料集D,服從一定的機率分布,用最大似然估計來推導該資料集的參數向量 Θ \Theta Θ,記已知的樣本集為:
似然函數,即聯合機率密度函數:
聯合機率密度函數 p ( D ∣ Θ ) p(D|\Theta) p(D∣Θ)稱為相對于資料集D的參數 Θ \Theta Θ的似然函數,先再就是要求滿足似然函數最大的參數值,也就是求使得該組樣本出現的機率最大的 Θ \Theta Θ值
實際中為了便于分析,都會将其定義為對數似然函數:
現在知道了最大似然估計的用法,接下來便用最大似然估計來求解高斯分布的參數,即均值和方差。
三、最大似然估計推導高斯分布均值和方差
先有一批資料集Data X服從高斯分布,樣本之間獨立同分布:
用最大似然估計求解參數 Θ \Theta Θ,則對數似然函數為:
其中 p ( x i ∣ Θ ) p(x_i|\Theta) p(xi∣Θ)即是高斯分布的機率密度函數
是以均值為
對上述函數求導極值點既是極小值
則可得其均值為
至此我們通過最大似然估計求導得出了均值u,接下來用同樣的方法求解方差
是以可以求得參數方差為
至此我們已經通過最大似然估計求得了高斯分布的均值和方差