Softmax

定義

f(xi)=exi∑jexj f ( x i ) = e x i ∑ j e x j

求導

df(xk)dxi=exi∑jexj+exi−1(∑jexj)2exi=f(xi)−f(xi)2=f(xi)(1−f(xi)) if k=i d f ( x k ) d x i = e x i ∑ j e x j + e x i − 1 ( ∑ j e x j ) 2 e x i = f ( x i ) − f ( x i ) 2 = f ( x i ) ( 1 − f ( x i ) ) i f k = i

df(xk)dxi=?? if k !=i d f ( x k ) d x i = ? ? i f k ! = i

Softmaxloss

定義

L(xi)=−∑kyklogfk(xi) L ( x i ) = − ∑ k y k l o g f k ( x i ) 其中 y=(y0,y1,...,yn) y = ( y 0 , y 1 , . . . , y n ) , yi∈{0,1} y i ∈ { 0 , 1 } 是 xi x i 類别描述, 比如常見的one hot encoding中,對一個樣本 xi x i , y y 隻有一個元素值為1,其他都是0,是以假設xixi标簽中隻有 yi=1 y i = 1 ,則求和号可以去掉有

L(xi)=−logfi(xi)=−logexi∑jexj=−xi+log∑jexj L ( x i ) = − l o g f i ( x i ) = − l o g e x i ∑ j e x j = − x i + l o g ∑ j e x j

求導1

直接利用展開式 L(xi)=−xi+log∑jexj L ( x i ) = − x i + l o g ∑ j e x j

dLdxi=−1+exi∑jexj=f(xi)−1 d L d x i = − 1 + e x i ∑ j e x j = f ( x i ) − 1

求導2

從原始公式 L(xi)=−logfi(xi) L ( x i ) = − l o g f i ( x i )

dLdxi=dLdfidfidxi=−1fi(xi)f(xi)(1−f(xi))=f(xi)−1 d L d x i = d L d f i d f i d x i = − 1 f i ( x i ) f ( x i ) ( 1 − f ( x i ) ) = f ( x i ) − 1

PS: fi() f i ( ) 的下标似乎應該去掉???

重點

鍊式法則是和複合函數求導關聯, f(g(x)) f ( g ( x ) ) 是複合函數, f(x)g(x) f ( x ) g ( x ) 不是符合函數

df(g(x))x=dfdgdgdx d f ( g ( x ) ) x = d f d g d g d x

d(f(x)g(x))dx=df(x)dxg(x)+dg(x)dxf(x) d ( f ( x ) g ( x ) ) d x = d f ( x ) d x g ( x ) + d g ( x ) d x f ( x )

softmax和softamxLoss求導公式推導SoftmaxSoftmaxloss重點

Softmax

定義

求導

Softmaxloss

定義

求導1

求導2

重點

繼續閱讀

幾句話梳理Linear Regression、Logistics Regression、Softmax Regression之間的共性與差別

複現經典：《統計學習方法》第 6 章邏輯斯谛回歸

最常用的決策樹算法（二）Random Forest、Adaboost、GBDT 算法

員外帶你讀論文：From RankNet to LambdaRank to LambdaMART: An Overview

為什麼要做特征的歸一化/标準化？

交叉熵損失分析交叉熵損失分析

交叉熵損失函數原理詳解交叉熵損失函數原理詳解

sigmoid、softmax和交叉熵損失函數

SoftMax與交叉熵損失

tf.nn.softmax_cross_entropy_with_logits函數

Pytorch的損失函數BCELoss(), BCEWithLogitsLoss(), nn.CrossEntropyLoss()差別1.nn.BCELoss()：2.nn.BCEWithLogitsLoss()：3.nn.CrossEntropyLoss()：

【pytorch函數筆記（三）】torch.nn.BCELoss()

交叉熵、二分類損失函數的差別——nn.CrossEntropyLoss()、nn.BCELoss()和 nn.BCEWithLogitsLoss()

深度學習基礎：3.反向傳播和梯度下降

softmax與cross entropy的差別聯系

softmax反向傳播公式推導