天天看點

損失函數loss總結

損失函數loss總結

    • What
    • 常見的損失函數
      • 回歸任務
        • 均方誤差
        • 補充
      • 分類任務
        • 交叉熵(cross entropy)
    • SVM損失
    • 補充

What

在機器學習中,損失函數(loss function)是用來估量模型的預測值f(x)與真實值y的不一緻程度。

常見的損失函數

回歸任務

均方誤差

一般最常用

E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E(f;D)= \frac{1}{m} \sum_{i=1}^{m} (f(x_{i})-y_{i})^2 E(f;D)=m1​i=1∑m​(f(xi​)−yi​)2

補充

分類任務

交叉熵(cross entropy)

主要度量兩個機率分布間的差異性資訊。

給定兩個機率分布:p(理想結果即正确标簽向量)和q(一般為神經網絡輸出結果經過softmax轉換後的結果向量)

softmax用于多分類過程中,它将多個神經元的輸出,映射到(0,1)區間内轉換到q:

s o f t m a x ( x i ) = e x i ∑ j e x j softmax(x_i)=\frac{e^{x_i}}{\sum_j e^{x_j}} softmax(xi​)=∑j​exj​exi​​

通過q來表示p的交叉熵為:

H ( p , q ) = − ∑ i = 1 m p ( x ) log ⁡ q ( x ) H(p,q)= -\sum_{i=1}^{m} p(x) \log{q(x)} H(p,q)=−i=1∑m​p(x)logq(x)

另外,它和資訊熵很相似,但他們的本質有很大的不同

E n t ( D ) = − ∑ k = 1 ∣ m ∣ p k log ⁡ 2 p k Ent(D) = - \sum_{k=1}^{|m|} p_{k} \log_{2} {p_k} Ent(D)=−k=1∑∣m∣​pk​log2​pk​

其中的向量元素代表各個類樣本(m種)在總集合D中的比例,其值越小,D的純度越高

(資訊熵是資訊論中用于度量資訊量的一個概念。一個系統越是有序,資訊熵就越低;反之,一個系統越是混亂,資訊熵就越高。)

SVM損失

min ⁡ w , b 1 2 ∣ ∣ ω ∣ ∣ 2 + ∑ i = 1 m α i ( 1 − y i ( w T x i + b ) ) \min_{\bm{w},b} \frac{1}{2}||\bm{\omega}||^2+\sum_{i=1}^{m} \alpha _i(1-y_i(\bm{w^Tx_i} + b)) w,bmin​21​∣∣ω∣∣2+i=1∑m​αi​(1−yi​(wTxi​+b))

拉格朗日子乘法

西瓜書P123

補充

繼續閱讀