天天看点

PRML_决策论&信息论

决策论

分类决策

在做决策的一个准则就是如何减少误分类损失:

如在而分类中,即把所属类别为c1的数据分到c2,把所属类别为c2的数据分到c1。

p(mistake)=∫R1p(x,c2)dx+∫R2p(x,c1)dx

用矩阵表示可以为:

E(L)=∑k∑j∫RjLkjp(x,ck)dx

把本来属于类别ck分类到cj。L为k行j列矩阵。

在做决策时,我们考虑 p(ck|x) 主要有三种方式:

先验概率

p(ck|x)=p(x|ck)p(ck)p(x)

通过最大化 p(x|ck) ,即最大似然估计,可以求得。

先求联合分布 p(x,ck) 再求后验概率 p(ck|x)

直接求后验概率 p(ck|x) ,判别模型

直接求函数y(x)

回归决策

考虑模型

E(L)=∫∫L(t,y(x))p(x,t)dxdt

其中 L(t,y(x))=(t−y(x))2 。在模型中,我们是为了找到合适的y(x)。因此对y(x)求导。

可得 ∫(y(x)−t)p(x,t)dt=0

y(x)p(x)=∫tp(x,t)dt ,因此

最优的 y(x)=∫tp(x,t)p(x)dt=Et[t|x]

另一种方法可以构造 {y(x)−t}2={y(x)−E[t|x]+E[t|x]−t}2

同样的决策也有三:

先验概率:通过求得p(x,t)来求p(t|x)

后验概率:直接求p(t|x)

直接通过函数。

信息论

信息论,顾名思义就是谈信息。而本节对信息的定义在于:若某个数据已经确定的被分类,那么所含信息为0,尚未确定的数据分类信息则大于分类已经确定性比较大的数据信息。概括的说,包含信息内容越大,那么不确定就越强。

这就是所谓的熵,反应的是不确定性的大小。

定义:

若两个变量x,y相互独立,我们可以得出

h(x,y) = h(x)+h(y),

p(x,y) = p(x)p(y)

因此我们定义某一变量信息的公式:

h(x)=−log2p(x)

基数2是因为计算机都是0-1编码。

这就涉及到了信道传播方式和计算机的编码问题。

如果有一串变量输入,那么信息的平均值(期望)为:

H(x)=−∑xp(x)log2p(x)

而在实际应用中,我们则使用:

H(x)=−∑ip(xi)lnp(xi)

上述是离散变量的熵,那么连续变量的熵呢?

H(x)=−∫p(x)lnp(x)dx

在离散变量中,我们看到,当取平均分布时候,熵最大,而连续变量呢?

而我们期待最大化熵值的时候,利用拉格朗日乘子

限制条件如下:

∫∞−∞p(x)dx=1 ∫∞−∞xp(x)dx=μ ∫∞−∞(x−u)2p(x)dx=σ2 

根据拉格朗日乘子:

−∫p(x)lnp(x)dx+λ1(∫∞−∞p(x)dx−1)+λ2(∫∞−∞xp(x)dx−μ)+λ3(∫∞−∞(x−u)2p(x)dx−σ2) 

分别对 p(x) 求导得:

p(x)=exp{−1+λ1+λ2x+λ3(x−μ)2}

在将 p(x) 带入限制条件1,2,3.

得到x符合高斯分布:

p(x)=12πσ2exp{−12σ2(x−u)2}

相对熵或者互信息或者KL散度

实际x的分布为p(x),假设近似估计的分布为q(x)

定义:

KL(p||q)=−∫p(x)lnp(x)dx−(−∫p(x)lnq(x)dx) =−∫p(x)lnq(x)p(x)dx

利用jensen不等式证明KL(p||q)大于等于0。

首先介绍了凸函数和jensen不等式。

接下来,当衡量两个变量的分布时,就涉及到了互信息问题:联合分布和两个分布之积的KL距离。若两个变量独立分布,没有关系,那么KL=0.

I(x,y)=KL(p(x,y)||p(x)p(y))=−∫p(x,y)lnp(x)p(y)p(x,y)dx

又因为

H(x|y)=−∫∫p(x,y)lnp(x|y)dxdy

可以间接得出

I(x,y)=−∫∫p(x,y)lnp(x)p(y)p(x|y)p(y)dx=−∫∫p(x,y)ln(p(x)−p(x|y))dx

将上面的式子拆开,即可得到

I(x,y)=H(x)−H(x|y)

二者之间的KL距离可以使用x的先验熵减去得知y的后验熵。

继续阅读