極大似然估計的應用

一、貝葉斯決策

首先來看貝葉斯分類，我們都知道經典的貝葉斯公式：

其中：p(w)：為先驗機率，表示每種類别分布的機率；p(x | w)為類條件機率，表示在某種類别前提下，某事發生的機率；p(w | x)為後驗機率，表示某事發生了，并且它屬于某一類别的機率，有了這個後驗機率，我們就可以對樣本進行分類。後驗機率越大，說明某事物屬于這個類别的可能性越大，我們越有理由把它歸到這個類别下。

二、問題引出

但是在實際問題中并不都是這樣幸運的，我們能獲得的資料可能隻有有限數目的樣本資料，而先驗機率和類條件機率(各類的總體分布)都是未知的。根據僅有的樣本資料進行分類時，一種可行的辦法是我們需要先對先驗機率和類條件機率進行估計，然後再套用貝葉斯分類器。

先驗機率的估計較簡單，1、每個樣本所屬的自然狀态都是已知的（有監督學習）；2、依靠經驗；3、用訓練樣本中各類出現的頻率估計。

類條件機率的估計（非常難），原因包括：機率密度函數包含了一個随機變量的全部資訊；樣本資料可能不多；特征向量x的次元可能很大等等。總之要直接估計類條件機率的密度函數很難。解決的辦法就是，把估計完全未知的機率密度轉化為估計參數。這裡就将機率密度估計問題轉化為參數估計問題，極大似然估計就是一種參數估計方法。當然了，機率密度函數的選取很重要，模型正确，在樣本區域無窮時，我們會得到較準确的估計值，如果模型都錯了，那估計半天的參數，肯定也沒啥意義了。

三、總結

最大似然估計的目的就是：利用已知的樣本結果，反推最有可能（最大機率）導緻這樣結果的參數值。

作者：leon66666

出處：http://www.cnblogs.com/wangzhongqiu/

本文版權歸作者和部落格園共有，歡迎轉載，但未經作者同意必須保留此段聲明，且在文章頁面明顯位置給出原文連接配接，否則保留追究法律責任的權利.