天天看點

統計學習方法——第6章 logistics回歸與最大熵模型

介紹(Introduction):

       logistics回歸是統計學習方法中的經典分類方法。最大熵是機率模型學習的一個準則。将其推廣到分類問題得到最大熵模型(Maxmium Entorpy Model)。logistics回歸和最大熵模型都是線性對數模型。

6.1 logistics回歸模型:

logistics 分布(logistics distribution):

      分布函數:

統計學習方法——第6章 logistics回歸與最大熵模型

      機率密度:

統計學習方法——第6章 logistics回歸與最大熵模型
統計學習方法——第6章 logistics回歸與最大熵模型

二項logistics回歸:

統計學習方法——第6章 logistics回歸與最大熵模型

 ,   

統計學習方法——第6章 logistics回歸與最大熵模型

, 其中

統計學習方法——第6章 logistics回歸與最大熵模型

,

統計學習方法——第6章 logistics回歸與最大熵模型

幾率(odds):事件發生的機率和不發生的機率的比值,對數幾率為:

統計學習方法——第6章 logistics回歸與最大熵模型

,即輸出

統計學習方法——第6章 logistics回歸與最大熵模型

的對數幾率是

統計學習方法——第6章 logistics回歸與最大熵模型

的線性函數。

極大似然法參數估計:

設:

統計學習方法——第6章 logistics回歸與最大熵模型

, 則似然函數為:

統計學習方法——第6章 logistics回歸與最大熵模型

,其中

統計學習方法——第6章 logistics回歸與最大熵模型

對數似然函數: 

統計學習方法——第6章 logistics回歸與最大熵模型

最優化對數似然函數

統計學習方法——第6章 logistics回歸與最大熵模型

的方法有梯度下降法和拟牛頓法。

6.2 最大熵模型:

       最大熵模型:在所有可能的機率模型中,熵最大的模型是最好的模型。通常用限制條件來确定機率模型的集合,是以,最大熵原理可以表述為在滿足限制條件下選擇熵最大的模型。可以證明,當且僅當變量

統計學習方法——第6章 logistics回歸與最大熵模型

服從均勻分布時,熵最大。

聯合機率分布

統計學習方法——第6章 logistics回歸與最大熵模型

和邊緣分布

統計學習方法——第6章 logistics回歸與最大熵模型

的經驗分布分别為

統計學習方法——第6章 logistics回歸與最大熵模型

統計學習方法——第6章 logistics回歸與最大熵模型

統計學習方法——第6章 logistics回歸與最大熵模型
統計學習方法——第6章 logistics回歸與最大熵模型

,

特征函數

統計學習方法——第6章 logistics回歸與最大熵模型

描述

統計學習方法——第6章 logistics回歸與最大熵模型

統計學習方法——第6章 logistics回歸與最大熵模型

的某一事實。記為:

統計學習方法——第6章 logistics回歸與最大熵模型

關于經驗分布

統計學習方法——第6章 logistics回歸與最大熵模型

的期望記為:

統計學習方法——第6章 logistics回歸與最大熵模型

,

關于經驗分布

統計學習方法——第6章 logistics回歸與最大熵模型

的期望記為: 

統計學習方法——第6章 logistics回歸與最大熵模型

條件限制滿足:

統計學習方法——第6章 logistics回歸與最大熵模型

條件熵最大的熵模型:

統計學習方法——第6章 logistics回歸與最大熵模型

 s.t 

統計學習方法——第6章 logistics回歸與最大熵模型

統計學習方法——第6章 logistics回歸與最大熵模型

的最優化問題:

統計學習方法——第6章 logistics回歸與最大熵模型

條件熵最大的最大熵模型求解方法:拉格朗乘數法:

統計學習方法——第6章 logistics回歸與最大熵模型

最優化原始問題

統計學習方法——第6章 logistics回歸與最大熵模型

的對偶問題

統計學習方法——第6章 logistics回歸與最大熵模型

。對

統計學習方法——第6章 logistics回歸與最大熵模型

求導,令倒數為0,結合限制條件2,求得:

統計學習方法——第6章 logistics回歸與最大熵模型

,  

統計學習方法——第6章 logistics回歸與最大熵模型

, 得:

統計學習方法——第6章 logistics回歸與最大熵模型

,其中,

統計學習方法——第6章 logistics回歸與最大熵模型

稱為泛化因子。

結論:對偶函數的極大化等價于最大熵模型的極大似然估計。

6.3 模型優化算法:

改進的疊代尺度法(imporved iterative scaling, IIS):

        輸入:特征函數

統計學習方法——第6章 logistics回歸與最大熵模型

,經驗分布

統計學習方法——第6章 logistics回歸與最大熵模型

和模型

統計學習方法——第6章 logistics回歸與最大熵模型

        輸出:最優參數值

統計學習方法——第6章 logistics回歸與最大熵模型

和最優模型

統計學習方法——第6章 logistics回歸與最大熵模型

        (1) 對所有

統計學習方法——第6章 logistics回歸與最大熵模型

,取初值

統計學習方法——第6章 logistics回歸與最大熵模型

        (2) 對每一個

統計學習方法——第6章 logistics回歸與最大熵模型

,a: 令

統計學習方法——第6章 logistics回歸與最大熵模型

是方程

統計學習方法——第6章 logistics回歸與最大熵模型

的解,b:更新

統計學習方法——第6章 logistics回歸與最大熵模型

        (3) 如果不是所有

統計學習方法——第6章 logistics回歸與最大熵模型

都收斂,重複(2)。

拟牛頓法(BFGS):

        輸入:特征函數

統計學習方法——第6章 logistics回歸與最大熵模型

,經驗分布

統計學習方法——第6章 logistics回歸與最大熵模型

,目标函數

統計學習方法——第6章 logistics回歸與最大熵模型

,梯度

統計學習方法——第6章 logistics回歸與最大熵模型

,精度

統計學習方法——第6章 logistics回歸與最大熵模型

        輸出:最優參數值

統計學習方法——第6章 logistics回歸與最大熵模型

和最優模型

統計學習方法——第6章 logistics回歸與最大熵模型
統計學習方法——第6章 logistics回歸與最大熵模型

6.4 logistics回歸與樸素貝葉斯:

      相同點:

            都是對數特征的線性函數,都屬于機率模型;

     不同點:

          A:logistics回歸是判别模型,最大化判别函數

統計學習方法——第6章 logistics回歸與最大熵模型

,不需要知道

統計學習方法——第6章 logistics回歸與最大熵模型

統計學習方法——第6章 logistics回歸與最大熵模型

                 樸素貝葉斯是生成模型,首先計算先驗

統計學習方法——第6章 logistics回歸與最大熵模型

和似然函數

統計學習方法——第6章 logistics回歸與最大熵模型

,最後生成機率

統計學習方法——第6章 logistics回歸與最大熵模型

          B:在獨立同分布假設條件下,樸素貝葉斯和logistics均具有較好的表達能力,當資料不滿足

統計學習方法——第6章 logistics回歸與最大熵模型

條件時,logistics通過調                  整參數仍能得到優化解

          C:樸素貝葉斯資料需求量為

統計學習方法——第6章 logistics回歸與最大熵模型

,logistics回歸資料需求量為

統計學習方法——第6章 logistics回歸與最大熵模型

          D:樸素貝葉斯不需要調參,優化更簡單。

繼續閱讀