天天看点

KL 散度 (Kullback-Leibler divergence)KL 散度定义KL 散度性质

  • 参考西瓜书

目录

  • KL 散度定义
  • KL 散度性质

KL 散度定义

  • KL 散度,亦称相对熵 (relative entropy) 或信息散度 (information divergence),可用于度量两个概率分布之间的差异

KL 散度定义

  • 给定两个概率分布 P P P 和 Q Q Q, 二者之间的 KL 散度定义为
    KL 散度 (Kullback-Leibler divergence)KL 散度定义KL 散度性质
    其中 p ( x ) p(x) p(x) 和 q ( x ) q(x) q(x) 分别为 P P P 和 Q Q Q 的概率密度函数. (这里假设两个分布均为连续型概率分布)
  • 若将 KL 散度的定义展开,可得
    KL 散度 (Kullback-Leibler divergence)KL 散度定义KL 散度性质
    其中 H ( P ) H(P) H(P) 为熵 (entropy), H ( P , Q ) H(P, Q) H(P,Q) 为 P P P 和 Q Q Q 的交叉熵 (cross entropy). 在信息论中,熵 H ( P ) H(P) H(P) 表示对来自 P P P 的随机变量进行编码所需的最小字节数,而交叉熵 H ( P , Q ) H(P, Q) H(P,Q) 则表示使用基于 Q Q Q 的编码对来自 P P P 的变量进行编码所需的字节数. 因此,KL 散度可认为是使用基于 Q Q Q 的编码对来自 P P P 的变量进行编码所需的 “额外” 字节数; 显然,额外字节数必然非负,当且仅当 P = Q P=Q P=Q 时额外字节数为零

KL 散度性质

  • KL 散度满足非负性
    KL 散度 (Kullback-Leibler divergence)KL 散度定义KL 散度性质
    当且仅当 P = Q P=Q P=Q 时 K L ( P ∣ ∣ Q ) = 0 KL(P||Q) =0 KL(P∣∣Q)=0
  • KL 散度不满足对称性,即
    KL 散度 (Kullback-Leibler divergence)KL 散度定义KL 散度性质
    因此, KL 散度不是一个度量 (metric) (度量应满足四个基本性质,参见 9.3 节)

继续阅读