ML與Information:機器學習與Information資訊論之間那些七七八八、亂七八糟、剪不斷理還亂的關系攻略
目錄
ML與資訊論
ML與熵
1、熵的基礎知識
2、熵與分布的關系
3、最大熵模型與Logistic/Softmax回歸
相關文獻推薦
更新……
(1)、相對熵:兩個KL散度的差別:
1)、綠色曲線是真實分布p的等高線;紅色曲線是使用近似p(z1,z2)=p(z1)p(z2)得到的等高線。
2)、藍色曲線是真實分布p的等高線;紅色曲線是單模型近似分布q的等高線。
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsISPrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdsATOfd3bkFGazxCMx8VesATMfhHLlN3XnxCMwEzX0xiRGZkRGZ0Xy9GbvNGLpZTY1EmMZVDUSFTU4VFRR9Fd4VGdsYTMfVmepNHLrJXYtJXZ0F2dvwVZnFWbp1zczV2YvJHctM3cv1Ce-cmbw5SYmFTZ5MDOkNGMxU2MiRWM0MzMxQGM2Y2Y3EWZ1cDOk9CX1EzLcZDMxIDMy8CXn9Gbi9CXzV2Zh1WavwVbvNmLvR3YxUjL2M3Lc9CX6MHc0RHaiojIsJye.png)
(2)各種熵之間的關系圖
(1)、兩點分布的熵
(2)、三點分布的熵
Logistic/Softmax回歸的後驗機率
最大熵模型的後驗機率
《A Brief MaxEnt Tutorial》 Adam Berger
《A simple Introduction to Maximum Entropy Models for Natural Language Processing》Adwait Ratnaparkhi
《Learning to parse natural language with maximum entropy models》 Adwait Ratnaparkhi
《統計學習方法》李航,清華大學出版社,2012年
《Elements of Information Theory》 Cover & Thomas
《A maximum entropy approach to natural language processing 》Adam Berger