介紹(Introduction):
logistics回歸是統計學習方法中的經典分類方法。最大熵是機率模型學習的一個準則。将其推廣到分類問題得到最大熵模型(Maxmium Entorpy Model)。logistics回歸和最大熵模型都是線性對數模型。
6.1 logistics回歸模型:
logistics 分布(logistics distribution):
分布函數:
機率密度:
二項logistics回歸:
,
, 其中
,
幾率(odds):事件發生的機率和不發生的機率的比值,對數幾率為:
,即輸出
的對數幾率是
的線性函數。
極大似然法參數估計:
設:
, 則似然函數為:
,其中
對數似然函數:
最優化對數似然函數
的方法有梯度下降法和拟牛頓法。
6.2 最大熵模型:
最大熵模型:在所有可能的機率模型中,熵最大的模型是最好的模型。通常用限制條件來确定機率模型的集合,是以,最大熵原理可以表述為在滿足限制條件下選擇熵最大的模型。可以證明,當且僅當變量
服從均勻分布時,熵最大。
聯合機率分布
和邊緣分布
的經驗分布分别為
和
,
,
特征函數
描述
與
的某一事實。記為:
關于經驗分布
的期望記為:
,
關于經驗分布
的期望記為:
條件限制滿足:
條件熵最大的熵模型:
s.t
,
的最優化問題:
條件熵最大的最大熵模型求解方法:拉格朗乘數法:
最優化原始問題
的對偶問題
。對
求導,令倒數為0,結合限制條件2,求得:
,
, 得:
,其中,
稱為泛化因子。
結論:對偶函數的極大化等價于最大熵模型的極大似然估計。
6.3 模型優化算法:
改進的疊代尺度法(imporved iterative scaling, IIS):
輸入:特征函數
,經驗分布
和模型
輸出:最優參數值
和最優模型
(1) 對所有
,取初值
(2) 對每一個
,a: 令
是方程
的解,b:更新
(3) 如果不是所有
都收斂,重複(2)。
拟牛頓法(BFGS):
輸入:特征函數
,經驗分布
,目标函數
,梯度
,精度
輸出:最優參數值
和最優模型
6.4 logistics回歸與樸素貝葉斯:
相同點:
都是對數特征的線性函數,都屬于機率模型;
不同點:
A:logistics回歸是判别模型,最大化判别函數
,不需要知道
和
樸素貝葉斯是生成模型,首先計算先驗
和似然函數
,最後生成機率
B:在獨立同分布假設條件下,樸素貝葉斯和logistics均具有較好的表達能力,當資料不滿足
條件時,logistics通過調 整參數仍能得到優化解
C:樸素貝葉斯資料需求量為
,logistics回歸資料需求量為
D:樸素貝葉斯不需要調參,優化更簡單。