前言
在學習機器學習的過程中,我們最開始通常會接觸各種類型的回歸模型。例如線性回歸用來模拟一條線性函數滿足函數周圍的資料到達該直線的誤差最小;邏輯回歸用來确定以某條線性函數為基礎,其兩邊的資料可以分為兩種類型。我們往往隻知道模型可以處理什麼樣的邏輯,做什麼樣的事情,卻對為什麼是這個模型了解甚少。本文通過參考多種資料,通過對廣義線性回歸的了解出發,來闡述其他回歸模型的生成原理。所寫純屬個人了解,如果錯誤歡迎指正。
1、指數分布族
這裡闡述指數族的目的是為了說明廣義線性模型(Generalized Linear Models)GLM,因為廣義線性模型的提出是由指數族而來。
另外需要知道凡是符合指數族分布的随機變量,都可以用廣義線性回歸進行分析。
下面是指數分布族的公式定義:
下面是公式中的參數:(可以通過後面具體例子的推導來了解)
- η:分布的自然參數(也就是說跟分布有關)
- T(y):充分統計量(對于我們考慮的分布情況,通常情況下 T(y)=y)
- a(η):log partition function, 本質上起着規範化常數的作用,保證機率分布 為1
當
被固定時,
、
就定義了一個以
為參數的一個指數分布。我們變化
就得到這個分布的不同分布。
而大多數的機率分布都屬于指數分布族,如:
- 伯努利分布(Bernoulli):對 0、1 問題進行模組化;
- 二項分布(Multinomial):對 K 個離散結果的事件模組化;
- 泊松分布(Poisson):對計數過程進行模組化,比如網站通路量的計數問題,放射性衰變的數目,商店顧客數量等問題;
- 伽馬分布(gamma)與指數分布(exponential):對有間隔的正數進行模組化,比如公共汽車的到站時間問題;
- β 分布:對小數模組化;
- Dirichlet 分布:對機率分布進模組化;
- Wishart 分布:協方差矩陣的分布;
- 高斯分布(Gaussian)
而如何通過對應的分布情況獲得相應的模型呢,那麼下面就通過一些例子來推導出,不同的分布情況下所獲得的模型是什麼樣的,當然在進行推倒之前我們需要了解下廣義線性模型,以及指數族與廣義線性模型的關系。
2、廣義線性模型
要确定一組資料是否滿足廣義線性模型,需要滿足其三個假設:
1. 定義線性預測算子
2. 定義y的估計值
3. 定義 y 的估值機率分布屬于某種指數分布族:
通過這三條假設,結合樣本的分布情況,通過将樣本的分布情況轉化為指數族的形式,得到最終的T,a,b以及
,進而得到滿足分布情況下的模型。
2.1、GLM推導邏輯回歸
接下來按照上面GLM作出的假設條件來推導邏輯回歸。
對于二分類問題,其樣本點在結果上非0即1,是以很容易想到其樣本滿足伯努利分布,是以:
對于伯努利分布來說。假定通過決策函數處理之後,不同的自變量x通過決策函數得到結果等于1和等于0的機率分别為
因而得到等式:
參照指數分布族的各位置參數,可以得到:
由第三個條件進行推倒
最終可以得到決策函數
也就是sigmoid函數
2.2、GLM推導線性回歸
接下來按照上面GLM作出的假設條件來推導線性回歸。
由于線性回歸的損失值也就是噪音值符合高斯分布,即
由于
的值與
和
無關,是以為了簡化證明,我們令
,
原因如下,通過極大似然估計估算參數為多少時滿足誤差最小
事實證明,找出最合适的參數使得誤差最小,公式中最終關注的是下面部分最小,才可以讓以上函數最大
是以與
無關,是以為了推導簡單,我們令
,
是以得到
由第三個條件進行推倒
最終得決策函數為
也就是線性回歸的決策函數
3、總結
對于一組模型,首先我們要确定我們最終的結果要滿足什麼樣的分布,在确定了分布之後,如果模型符合指數族分布形式,那麼我們可以根據分布條件和指數族的對應關系,推導出指數族的4個參數,在獲得參數的過程中我們就可以獲得對應的決策函數,因而獲得我們需要的模型,在獲得模型之後我們就可以根據不同的條件選擇不同的優化政策,進而擷取對應的參數值。
内容參考:
斯坦福大學機器學習課CS229
該作者了解:https://fighterhit.oschina.io/2017/12/24/machine_learning_notes/%E4%BB%8E%E5%B9%BF%E4%B9%89%E7%BA%BF%E6%80%A7%E6%A8%A1%E5%9E%8B%E7%90%86%E8%A7%A3%E9%80%BB%E8%BE%91%E5%9B%9E%E5%BD%92/