文章目录

信息论在机器学习中的常见概念
- 1. 信息量
- 2. 熵
- 3. 联合熵
- 4. 条件熵
- 5. 相对熵
- 6. 互信息
- 7. 信息增益
公式与推导

信息论在机器学习中的常见概念

信息的不确定度表示。

1. 信息量

定义：消除事件不确定性所需的信息量，单位：比特（bit）。

如果事件x发生，P(x) 是事件x发生的概率，P(x)可以为“事件x发生”所提供的信息量为h(x)。

h ( x ) = − l o g 2 P ( x ) h(x) = - log_2P(x) h(x)=−log2P(x)

2. 熵

熵：发生的事件中包含的信息平均值，是不确定性的度量，不确定性越大则熵越大。

H ( X ) = − ∑ i n P ( x i ) h ( x i ) H(X) = -\sum_i^nP(x_i)h(x_i) H(X)=−i∑nP(xi)h(xi)

H ( X ) = − ∑ i n P ( x i ) l o g 2 P ( x i ) H(X) = -\sum_i^nP(x_i)log_2P(x_i) H(X)=−i∑nP(xi)log2P(xi)

3. 联合熵

定义：度量二维随机变量的不确定性

H ( X , Y ) = − ∑ i ∑ j P ( x i , y i ) l o g 2 P ( x i , y i ) H(X,Y) = - \sum_i\sum_jP(x_i,y_i)log_2P(x_i,y_i) H(X,Y)=−i∑j∑P(xi,yi)log2P(xi,yi)

4. 条件熵

定义：在X的条件下求Y的不确定性。H(Y|X)表示已知X，求Y的平均不确定性。

H ( Y ∣ X ) = − ∑ i ∑ j P ( x i , y i ) l o g 2 P ( y i ∣ x i ) H(Y|X) = -\sum_i\sum_jP(x_i,y_i)log_2P(y_i|x_i) H(Y∣X)=−i∑j∑P(xi,yi)log2P(yi∣xi)

条件熵和联合熵的关系：

H ( X , Y ) = H ( X ) + H ( Y ∣ X ) H(X,Y) =H(X)+H(Y|X) H(X,Y)=H(X)+H(Y∣X)

H ( Y ∣ X ) = H ( X , Y ) − H ( X ) H(Y|X) =H(X,Y)-H(X) H(Y∣X)=H(X,Y)−H(X)

5. 相对熵

别名：KL散度（Kullback–Leibler divergence，KLD），信息散度（information divergence），信息增益（information gain）

功能：主要用来衡量两个分布的相似度（相对熵是衡量同一个变量的两个一维分布之间的相似性）。假设连续随机变量x，真是的概率分布为

P(x)

，模型得到的近似分布为

Q(x)

。

K L ( P ∣ ∣ Q ) = − ∑ i P ( x i ) l n Q ( x i ) − ( − ∑ i P ( x i ) l n P ( x i ) ) KL(P||Q) = -\sum_iP(x_i)lnQ(x_i) - (-\sum_iP(x_i)lnP(xi)) KL(P∣∣Q)=−i∑P(xi)lnQ(xi)−(−i∑P(xi)lnP(xi))

K L ( P ∣ ∣ Q ) = ∑ i P ( x i ) l n P ( x i ) Q ( x i ) KL(P||Q) = \sum_iP(x_i)ln\frac{P(x_i)}{Q(x_i) } KL(P∣∣Q)=i∑P(xi)lnQ(xi)P(xi)

K L ( P ∣ ∣ Q ) = H ( P , Q ) − H ( P ) KL(P||Q) =H(P,Q) -H(P) KL(P∣∣Q)=H(P,Q)−H(P)

H ( P , Q ) H(P,Q) H(P,Q)：交叉熵（注意：H(X,Y)和它的区别；X，Y是随机变量，而P、Q是概率分布）

6. 互信息

互信息：是用来衡量两个相同的一维分布变量之间的独立性。

I ( X , Y ) = K L ( P ( x , y ) ∣ ∣ P ( x ) P ( y ) ) I(X,Y)= KL(P(x,y)||P(x)P(y)) I(X,Y)=KL(P(x,y)∣∣P(x)P(y))

I ( X , Y ) = − ∑ i P ( x i , y i ) l n P ( x i , y i ) P ( x i ) P ( y i ) I(X,Y)= -\sum_iP(x_i,y_i)ln\frac{P(x_i,y_i)}{P(x_i)P(y_i)} I(X,Y)=−i∑P(xi,yi)lnP(xi)P(yi)P(xi,yi)

信息论常见概念：熵、互信息、KL散度和信息增益信息论在机器学习中的常见概念公式与推导

7. 信息增益

假设系统原有的熵为 H(X)，后来引入了特征 T，在特征 T 的情况下，系统的混乱度下降，熵减小为 H(X|T)，那么特征 T 给系统带来的信息增益为： X特征下的熵 - 在特征T条件下的X的熵。

I G ( T ) = H ( X ) − H ( X ∣ T ) IG(T) = H(X) - H(X|T) IG(T)=H(X)−H(X∣T)

信息增益率：信息增益 / T的分离信息

R ( X , T ) = I G ( T ) s p l i t i n f o ( T ) R(X,T) = \frac{IG(T)}{splitinfo(T)} R(X,T)=splitinfo(T)IG(T)

公式与推导

名称	公式	解释
信息量	h ( x ) = l o g 2 1 P ( x ) = − l o g 2 P ( x ) h(x) = log_2 {\frac{1}{P(x)}} = - log_2 { P(x)} h(x)=log2P(x)1=−log2P(x) > 0	x：一个事件 P(x)：事件 x 发生的概率 0 < P(x) < 1 l o g 2 P ( x ) log_2P(x) log2P(x) < 0 − l o g 2 P ( x ) -log_2P(x) −log2P(x) > 0
熵	H ( X ) = − ∑ i n P ( x i ) h ( x i ) H(X) = -\sum_i^nP(x_i)h(x_i) H(X)=−i∑nP(xi)h(xi) 离散： H ( X ) = − ∑ i = 1 n P ( x i ) l o g 2 ( x i ) H(X) = - \sum_{i=1}^n P(x_i)log_2(x_i) H(X)=−i=1∑nP(xi)log2(xi) 连续： H ( X ) = − ∫ i n P ( x ) l o g 2 ( x ) d x H(X) = - \int_{i}^n P(x)log_2(x) dx H(X)=−∫inP(x)log2(x)dx
联合熵	H ( X , Y ) = ∑ i m ∑ j n P ( x i , y j ) l o g 2 P ( x i , y j ) H(X,Y) = \sum_i^{m}\sum_j^{n} P(x_i,y_j)log_2 P(x_i,y_j) H(X,Y)=i∑mj∑nP(xi,yj)log2P(xi,yj)
条件熵	H ( Y / X ) = − ∑ i ∑ j P ( x i , y i ) l o g 2 P ( y i / x i ) H(Y/ X) = - \sum_i\sum_jP(x_i,y_i)log_2{P(y_i/x_i)} H(Y/X)=−i∑j∑P(xi,yi)log2P(yi/xi) = − ∑ i ∑ j P ( x i ) P ( y i / x i ) l o g 2 P ( y i / x i ) = - \sum_i\sum_jP(x_i)P(y_i/x_i)log_2{P(y_i/x_i)} =−i∑j∑P(xi)P(yi/xi)log2P(yi/xi) = − ∑ i P ( x i ) ∑ j P ( y i / x i ) l o g 2 P ( y i / x i ) = - \sum_iP(x_i)\sum_jP(y_i/x_i)log_2{P(y_i/x_i)} =−i∑P(xi)j∑P(yi/xi)log2P(yi/xi) = − ∑ i P ( x i ) H ( Y / x i ) = - \sum_iP(x_i)H(Y/x_i) =−i∑P(xi)H(Y/xi)
联合熵 & 条件熵	H ( X , Y ) = − ∑ i m ∑ j n P ( x i , y j ) l o g 2 P ( x i , y j ) H(X,Y) = - \sum_i^{m}\sum_j^{n} P(x_i,y_j)log_2 P(x_i,y_j) H(X,Y)=−i∑mj∑nP(xi,yj)log2P(xi,yj) = − ∑ i m ∑ j n { P ( x i , y j ) l o g 2 ( P ( x i / y j ) ∗ P ( x i ) ) } = -\sum_i^{m}\sum_j^{n}\{ P(x_i,y_j)log_2(P(x_i / y_j)*P(x_i))\} =−i∑mj∑n{P(xi,yj)log2(P(xi/yj)∗P(xi))} = − ∑ i m ∑ j n P ( x i , y j ) ( l o g 2 P ( x i / y j ) + l o g 2 P ( x i ) ) } = -\sum_i^{m}\sum_j^{n} P(x_i,y_j) (log_2P(x_i / y_j)+log_2P(x_i))\} =−i∑mj∑nP(xi,yj)(log2P(xi/yj)+log2P(xi))} = − ∑ i m ∑ j n P ( x i , y j ) l o g 2 P ( x i / y j ) − ∑ i m ( ∑ j n P ( x i , y j ) ) l o g 2 P ( x i ) = -\sum_i^{m}\sum_j^{n}P(x_i,y_j) log_2P(x_i / y_j) -\sum_i^{m}(\sum_j^{n} P(x_i,y_j)) log_2P(x_i) =−i∑mj∑nP(xi,yj)log2P(xi/yj)−i∑m(j∑nP(xi,yj))log2P(xi) = H ( Y / X ) + H ( X ) = H(Y/X) + H(X) =H(Y/X)+H(X) 联合熵： H ( X , Y ) = H ( Y / X ) + H ( X ) 联合熵：H(X,Y) = H(Y/X) + H(X) 联合熵：H(X,Y)=H(Y/X)+H(X) 条件熵： H ( Y / X ) = H ( X , Y ) − H ( X ) 条件熵： H(Y/X) = H(X,Y) - H(X) 条件熵：H(Y/X)=H(X,Y)−H(X)	∑ j n P ( x i , y j ) = P ( x i ) \sum_j^{n} P(x_i,y_j) = P(x_i) j∑nP(xi,yj)=P(xi)
相对熵 &KL散度	K L ( P / / Q ) = − ∑ i P ( x i ) l n Q ( x i ) − ( − ∑ i P ( x i ) l n P ( x i ) ) KL(P//Q) = - \sum_iP(x_i)lnQ(x_i)-(- \sum_iP(x_i)lnP(x_i)) KL(P//Q)=−i∑P(xi)lnQ(xi)−(−i∑P(xi)lnP(xi)) = ∑ i P ( x i ) l n P ( x i ) Q ( x i ) = \sum_iP(x_i)ln\frac{P(x_i)}{Q(x_i)} =i∑P(xi)lnQ(xi)P(xi) K L ( p / / q ) = − ∫ x P ( x ) l n Q ( x i ) d x − ( − ∫ x P ( x ) l n P ( x ) d x ) KL(p//q) = - \int_xP(x)lnQ(x_i)dx-(- \int_xP(x)lnP(x)dx) KL(p//q)=−∫xP(x)lnQ(xi)dx−(−∫xP(x)lnP(x)dx) = ∫ x P ( x ) l n P ( x ) Q ( x ) = \int_xP(x)ln\frac{P(x)}{Q(x)} =∫xP(x)lnQ(x)P(x) K L ( p / / q ) = H ( P , Q ) − H ( P ) KL(p//q) = H(P,Q) -H(P) KL(p//q)=H(P,Q)−H(P)	H(P,Q)：在这儿不是联合熵 H(P,Q) = − ∑ i P ( x i ) l n ( Q ( x i ) ) -\sum_iP(x_i)ln(Q(x_i)) −i∑P(xi)ln(Q(xi))
互信息	I ( X ; Y ) = K L { P ( x , y ) / / P ( x ) Q ( x ) } I(X;Y) = KL\{P(x,y) // P(x)Q(x)\} I(X;Y)=KL{P(x,y)//P(x)Q(x)} = ∑ i ∑ j P ( x i , y i ) l n P ( x i , y i ) P ( x i ) Q ( y i ) = \sum_i\sum_jP(x_i,y_i)ln\frac{P(x_i,y_i)}{P(x_i)Q(y_i)} =i∑j∑P(xi,yi)lnP(xi)Q(yi)P(xi,yi) = ∑ i ∑ j { P ( x i , y i ) { l n P ( x i , y i ) − l n P ( x i ) − l n Q ( y i ) } } = \sum_i\sum_j\{P(x_i,y_i) \{lnP(x_i,y_i) - lnP(x_i) - lnQ(y_i)\}\} =i∑j∑{P(xi,yi){lnP(xi,yi)−lnP(xi)−lnQ(yi)}} = − H ( X , Y ) + H ( X ) + H ( Y ) = -H(X,Y) +H(X) +H(Y) =−H(X,Y)+H(X)+H(Y) = H ( X ) − H ( X / Y ) = H ( Y ) − H ( Y / X ) = H(X) - H(X/Y) =H(Y) - H(Y/X) =H(X)−H(X/Y)=H(Y)−H(Y/X)	H ( Y / X ) = H ( X ) − H ( X , Y ) H(Y/X)= H(X) - H(X,Y) H(Y/X)=H(X)−H(X,Y) and H ( X / Y ) = H ( Y ) − H ( X , Y ) H(X/Y)= H(Y) - H(X,Y) H(X/Y)=H(Y)−H(X,Y)
信息增益	I G ( T ) = H ( X ) − H ( X / T ) IG(T) = H(X) - H(X/T) IG(T)=H(X)−H(X/T)	引入特征T后系统混乱度降低，系统熵降低到H(X/T) 信息的增益为IG(T)
信息增益率	R ( X , T ) = I G ( T ) s p l i t i n f o ( T ) R(X,T) = \frac{IG(T)}{splitinfo(T)} R(X,T)=splitinfo(T)IG(T)	信息增益除以 T的分离信息

信息论常见概念：熵、互信息、KL散度和信息增益信息论在机器学习中的常见概念公式与推导

文章目录

信息论在机器学习中的常见概念

1. 信息量

2. 熵

3. 联合熵

4. 条件熵

5. 相对熵

6. 互信息

7. 信息增益

公式与推导

继续阅读

数据挖掘之关联规则(Apriori算法)

#详细解读# 线性回归、逻辑回归及其损失函数1. 线性回归2. 逻辑回归（LR）

信息论

机器学习_决策树与信息熵

信息论实验-信源编码2(Lz编码和算数编码的C++实现)第三章：算数编码的实现第四章：LZ编码的实现之LZ-78编码总结

Kullback–Leibler divergence KL散度

《Deep Learning》概率与信息论概率与信息论

关联规则挖掘概述关联规则总结参考文献

pearson 相关系数 & 机器学习模型中不平衡样本问题

相关性分析指标-Pearson，Spearman，Kendall，Multual informationPearson’s Correlation CoefficientSpearman’s Rank CorrelationKendallMutual information对比参考资料

机器学习实战—决策树

关于决策树的信息增益（信息熵）1.前言2.信息增益3.增益率4.基尼系数

【机器学习】决策树特征选择准则信息增益、信息增益率、基尼系数的计算及其python实现1.问题引入2.信息增益3.信息增益率4.基尼系数5.参考文献6.python代码

万字详解本地缓存之王 Caffeine，SpringBoot2.X 官方推荐~概要与Guava Cache比较使用CaffeineCaffeine的高性能设计总结

从决策树学习谈到贝叶斯分类算法

信息理论与tf-idf