線性回歸和邏輯回歸都是廣義線性模型的特例。
1 指數分布族
如果一個分布可以用如下公式表達,那麼這個分布就屬于指數分布族。
這是《數理統計》課本中的相關定義,大多數利用的定義如下(y不是一個變量,是一個群):
(1)
上述公式與《數理統計》課本中的公式,含義一樣,在具體的表示方面可能有細微差别,下面讨論均針對公式1展開。
在上述情況下,當
與
确定後,就确定了指數數分布族中的一種分布模型,以
為參數的分布模型。
其實,大多數的機率分布都屬于指數分布族:
伯努利分布(Bernoulli):對 0、1 問題進行模組化;
二項分布(Multinomial):對 K 個離散結果的事件模組化;
泊松分布(Poisson):對計數過程進行模組化,比如網站通路量的計數問題,放射性衰變的數目,商店顧客數量等問題;
伽馬分布(gamma)與指數分布(exponential):對有間隔的正數進行模組化,比如公共汽車的到站時間問題;
β 分布:對小數模組化;
Dirichlet 分布:對機率分布進模組化;
Wishart 分布:協方差矩陣的分布;
高斯分布(Gaussian)
2 指數分布簇-廣義線性模型-回歸分析
廣義線性模型是在指數分布簇上做出相關假設得出的,在指數分布簇(1)的基礎上,給出三條假設:
從線性回歸、Logistic回歸(分類算法)分析,廣義線性模型是怎麼推到和應用到回歸【線性回歸】和分類【Logistic】問題。
回顧:
線性回歸:
然後給出損失函數,對損失函數最值化處理求解,得到w,進而得到最終拟合出的線性回歸曲線。
Logistic回歸[分類算法]:
其中:
加了一個sigmoid函數,通過sigmoid函數,将最終結果,歸到0-1範圍内,即最終分類機率,求解w的方法同上。
對于線性回歸和邏輯回歸實際上都可以看作是一個
的問題 ,在參數
固定,給定x情況下,y服從某種機率分布(指數分布簇)。
線性回歸推到如下:
對機率作出假設,
(1,假設服從正态分布指數分布),假設
(2)
Logistic推導如下:
廣義線性模型GLM是通過假設一個機率分布并将其化成指數分布族形式,進而得到不同的模型。
三者之間的關系:廣義線性模型可以解釋線性回歸建構的模型,廣義線性模型中的假設是從指數分布簇出發的。
參考文獻
[1]https://blog.csdn.net/weixin_37140379/article/details/82289704
[2]https://fighterhit.oschina.io/2017/12/24/machine_learning_notes/%E4%BB%8E%E5%B9%BF%E4%B9%89%E7%BA%BF%E6%80%A7%E6%A8%A1%E5%9E%8B%E7%90%86%E8%A7%A3%E9%80%BB%E8%BE%91%E5%9B%9E%E5%BD%92/
[3] https://www.cnblogs.com/zhangyuhang3/p/6873339.html