推導可參考https://www.zhihu.com/question/24827633
這裡參考大神論文,進行總結記錄一下。
前向傳播可以總結為:
後向傳播總結可以看下圖描述:
可以看到,每一層的誤差都需要乘以激活函數的導數值,這樣網絡越深,層誤差就越小,E對W的梯度也就越小,淺層的權值參數越難更新。
推導可參考https://www.zhihu.com/question/24827633
這裡參考大神論文,進行總結記錄一下。
前向傳播可以總結為:
後向傳播總結可以看下圖描述:
可以看到,每一層的誤差都需要乘以激活函數的導數值,這樣網絡越深,層誤差就越小,E對W的梯度也就越小,淺層的權值參數越難更新。