信息论基本

2023-04-05 22:55:54

一件事情发生了，其信息量与该事件发生的概率相关

越不可能发生的事情发生了，其信息量就越大

信息量满足以下三点

非常可能发生的事情信息量较少
较不可能发生的事情信息量大
独立事件其信息量与执行的次数相关。例如抛硬币，抛两次，其信息量是抛一次的两倍

定义：信息量

I(x) = -logP(x)

P(x)区间位于0-1之间,信息量的单位是奈特(nats)一奈特是以1/e的概率观测到一个事件时获得的信息量

定义：信息熵

信息熵是所有信息量的期望，度量随机变量的不确定性，即

H(x) = - \sum^n_{i=1}P(x_i)*log(P(x_i))

定义：联合熵

对于多维随机变量，信息熵被称之为联合熵

H(X,Y)=-\sum_{i=1}^n\sum_{j=1}^mP(x_i,y_j)*log(P(x_i,y_j))

定义：条件熵

条件熵表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。

H(Y|X)=-\sum_{i=1}^n\sum_{j=1}^mP(x_i,y_j)*log(P(y_j|x_i))

根据条件概率可得

H(X,Y)=H(Y|X)+H(X)

定义：互信息

I(X;Y)=H(X)-H(X|Y)

I(X;Y)=H(Y)-H(Y|X)

联合熵，条件熵，互信息的关系如图

信息论基本

定义：条件互信息

可以理解的是条件互信息是摒弃H(Z)的互信息

信息论基本

定义：相对熵(KL散度)

KL散度是用来度量两个概率分布P和Q之间的差距。通常P为真实分布，Q为近似分布，但是相对熵不具有对称性，

$D_{KL}(p||q)$

和

$D_{KL}(q||p)$

并不一定相等

D_{KL}(p||q)=\sum_{i=1}^nP(x_i)*log\frac{P(x_i)}{Q(x_i)}=-\sum_{i=1}^nP(x_i)log(Q(x_i))-H(P(x))

定义：交叉熵

交叉熵用于度量两个概率分布间的差异性信息。

H(p,q)=-\sum_{i=1}^nP(x_i)log(Q(x_i))

可以看出，交叉熵就是相对熵分解后的前一段

信息论基本

定义：信息量

定义：信息熵

定义：联合熵

定义：条件熵

定义：互信息

定义：条件互信息

定义：相对熵(KL散度)

定义：交叉熵

继续阅读

关于相对熵（KL距离）的理解

什么是熵(Entropy)?

香农熵物理中的熵熵和知识熵和概率熵和有趣的小球实验将连乘转变为连加多类别熵信息论

matlab生成m元n次扩展信源

信息论实验-称硬币问题重述题目要求实验原理我的算法-三分法实验程序设计实验结果分析完整的实验代码

香农第二定理

信息论：信息量的计算

PRML_决策论&信息论

KL 散度 (Kullback-Leibler divergence)KL 散度定义KL 散度性质

连续信源微分熵+AEP

关于熵的知识——信息论基本概念信息论

不知为不知--信息论和最大熵原则描述世界香农的信息论信息论的二进制解释最大熵原则-不知为不知二元最大熵盲目假设的代价针对运维的吐槽快速排序&冒泡排序知之与不知后记：关于考试

机器学习信息论基础

信息论实验-信源编码2(Lz编码和算数编码的C++实现)第三章：算数编码的实现第四章：LZ编码的实现之LZ-78编码总结

《Deep Learning》概率与信息论概率与信息论

信息理论与tf-idf