深度學習基礎：反向傳播即BP算法的推導過程

2023-06-26 18:46:53

BP算法簡單的來說就是根據神經網絡實際的輸出和目标輸出（也就是輸入樣本對應的标記）之間的誤差計算神經網絡各個權值的過程。

下面的推導過程參考了《神經網絡設計》 Martin T. Hagan等著戴葵等譯。

采用BP算法從輸出層、經過隐層再到輸入層進行層層計算的原因是如果直接計算誤差函數相對于各權值的偏導很難得到顯式的表達函數（最小均方算法或Widrow-Hoff學習算法），采用從後向前遞推的方式大幅度的利用了前期的計算值，也使得網絡具備了更多的靈活性。

使用均方誤差作為性能指數，那麼優化算法的目标就是調整網絡的參數使得均方誤差最小化。那麼根據最速下降算法的原理，第k次疊代計算得到的權值和偏移如下：

深度學習基礎：反向傳播即BP算法的推導過程

其中，m是層序号，i是神經元在層中序号，j則是一個神經元的輸入的序号，

深度學習基礎：反向傳播即BP算法的推導過程

是均方誤差。

前面就提到了，求這兩個偏導是很困難的事情，是以可以使用鍊式法則從最後一層向前計算。根據鍊式法則，可以将偏導分解如下：

深度學習基礎：反向傳播即BP算法的推導過程

其中

深度學習基礎：反向傳播即BP算法的推導過程

，

深度學習基礎：反向傳播即BP算法的推導過程

是m-1層神經元的輸出。

乘号後面的偏導數很容易求得，

深度學習基礎：反向傳播即BP算法的推導過程

，也就是上一層神經元的輸出，

深度學習基礎：反向傳播即BP算法的推導過程

。是以重要的是求出

深度學習基礎：反向傳播即BP算法的推導過程

很難直接求出，那麼也就考慮能不能夠用鍊式法則類似的遞推方式解決，但是注意這裡面，每一層裡面有多個神經元，而每個神經元都與上一層裡面的多個神經元相連，是以，像下面的這個表達式是錯誤的

深度學習基礎：反向傳播即BP算法的推導過程

，因為鍊式法則要求偏導的拆分，必須保證這個

深度學習基礎：反向傳播即BP算法的推導過程

能夠完全用中間變量

深度學習基礎：反向傳播即BP算法的推導過程

表示，而應該是一個向量

深度學習基礎：反向傳播即BP算法的推導過程

。從直覺上考慮，m層和m+1層的神經元個數也不一樣，是以也不能這樣表示。

是以，采用矩陣的表示方法來表示神經元的計算，如下面這個圖所示。

深度學習基礎：反向傳播即BP算法的推導過程

經過一系列推導可以得到，敏感性（《神經網絡設計》這本書中的例子）

深度學習基礎：反向傳播即BP算法的推導過程

的表達式（注意這是個向量），應該是

深度學習基礎：反向傳播即BP算法的推導過程

，這裡面的

深度學習基礎：反向傳播即BP算法的推導過程

是一個對角陣，其對角線的元素對應的是m層上的每個神經元激活函數

深度學習基礎：反向傳播即BP算法的推導過程

對應其輸入

深度學習基礎：反向傳播即BP算法的推導過程

的導數。

對于BP算法來說，最後一層的計算（第M層）是所有計算的開始。其矩陣形式的表達式為

深度學習基礎：反向傳播即BP算法的推導過程

。這裡面存在一個系數2，是因為使用的是均方誤差，平方求導會有系數2.

是以如果用矩陣形式表示，那麼權值和偏置值更新的表達式是：

深度學習基礎：反向傳播即BP算法的推導過程

是以，總的說來，反向傳播算法需要用到的資料是：

1. 學習率

深度學習基礎：反向傳播即BP算法的推導過程

2. 激活函數相對于其輸入的導數，用于計算

深度學習基礎：反向傳播即BP算法的推導過程

3. 上一層神經元的輸出

深度學習基礎：反向傳播即BP算法的推導過程

4. 每次疊代的權值和偏移

深度學習基礎：反向傳播即BP算法的推導過程

繼續閱讀

如果你有電腦，那麼請務必掌握這項核心技能。無論你是什麼角色，都應該牢記：未來三年，懂得流量營運的人一定會很吃香。推薦我的

Git--基本原理、分支管理機制

爬蟲基礎之基本原理1. 爬蟲概述

神經網絡之BP算法(圖說神經網絡+BP算法理論推導+例子運用+代碼)

深入了解Sic：基本原理與應用

大貨車經常會遇到各種故障，如果在行駛中出現問題，将嚴重影響貨物和人員的安全。是以，大貨車的日常維護和保養顯得尤為重要。本

自旋力學在磁性材料中的應用有哪些？以及未來的發展趨勢有哪些？一、自旋力學的基本原理自旋的概念：自旋是微觀粒子的一種

許東。我經常向服裝工廠的朋友推薦精益生産方式，原因在于其追求以最小投入獲得最大産出。精益生産方式靈活多變，能夠生産高品質

新型波導技術及其未來系統應用電磁波是由空間中的電場和磁場變化形成的波動，它是指波長為100微米或更長的波。根據波長的

利用DesignModeler子產品建立了2D模型，其中流體計算域總長度為130.5mm，寬度為45mm，流動方向沿X軸正

深度學習（二）~常用神經網絡結構常用神經網絡結構

數字化建設需要硬體和軟體兩大基礎設施：硬體是攝像頭和傳感器，是資料來源；軟體是指大資料計算模型，是資料計算。1、硬體設施

淺談彙編（2）——堆棧指令

諧振光纖陀螺信号檢測的新方法設計和驗證20世紀80年代,EZEKIEL等在研究中第一次提出了諧振式光纖陀螺模型,該研究吸

BP算法完整推導 2.0 (上)

BP算法完整推導 2.0 (下)