天天看點

交叉熵損失函數的了解

兩個機率分布P和Q的交叉熵定義為(考慮離散分布):

交叉熵損失函數的了解

在機器學習中,往往用p來描述真實分布,  用q來描述模型預測的分布。我們希望預測的分布和真實分布接近,衡量兩個分布的“距離”采用Kullback散度,離散形式的KL散度定義為:

交叉熵損失函數的了解
交叉熵損失函數的了解

因為H(P)是真實分布的熵,是固定的,是以最小化KL散度就相當于最小化交叉熵。

在二分類問題中。m=2. 假定真實的輸出為

交叉熵損失函數的了解

,模型的預測結果為

交叉熵損失函數的了解

那麼就是

交叉熵損失函數的了解

是以對于單個樣本,交叉熵為

交叉熵損失函數的了解

使用交叉熵的優點在于:

和采用均方誤差這樣的二次的代價函數相比,假設我們的神經元采用的是sigmod函數,那這個二次代價函數在對權重w求導的時,會乘上一項sigmod的導數。sigmod函數的導數在權重大的時,導函數值小,這樣就會使得在梯度下降的時候權重更新的很慢。而采用交叉熵函數的話,他的導數不包含sigmod函數的導數這一項,這樣在梯度下降的時候就不存在前面說的問題。

參考文獻

【1】https://zhuanlan.zhihu.com/p/70804197

【2】https://blog.csdn.net/red_stone1/article/details/80735068

【3】http://litowang.top/2017/11/11/cross-entropy/

繼續閱讀