BP的詳細推導過程

2017年11月23日 22:05:11 閱讀數：134

　　最近在看深度學習的東西，一開始看的吳恩達的UFLDL教程，有中文版就直接看了，後來發現有些地方總是不是很明确，又去看英文版，然後又找了些資料看，才發現，中文版的譯者在翻譯的時候會對省略的公式推導過程進行補充，但是補充的又是錯的，難怪覺得有問題。反向傳播法其實是神經網絡的基礎了，但是很多人在學的時候總是會遇到一些問題，或者看到大篇的公式覺得好像很難就退縮了，其實不難，就是一個鍊式求導法則反複用。如果不想看公式，可以直接把數值帶進去，實際的計算一下，體會一下這個過程之後再來推導公式，這樣就會覺得很容易了。

　　說到神經網絡，大家看到這個圖應該不陌生：

BP的詳細推導過程BP的詳細推導過程

　　這是典型的三層神經網絡的基本構成，Layer L1是輸入層，Layer L2是隐含層，Layer L3是隐含層，我們現在手裡有一堆資料{x1,x2,x3,...,xn},輸出也是一堆資料{y1,y2,y3,...,yn},現在要他們在隐含層做某種變換，讓你把資料灌進去後得到你期望的輸出。如果你希望你的輸出和原始輸入一樣，那麼就是最常見的自編碼模型（Auto-Encoder）。可能有人會問，為什麼要輸入輸出都一樣呢？有什麼用啊？其實應用挺廣的，在圖像識别，文本分類等等都會用到，我會專門再寫一篇Auto-Encoder的文章來說明，包括一些變種之類的。如果你的輸出和原始輸入不一樣，那麼就是很常見的人工神經網絡了，相當于讓原始資料通過一個映射來得到我們想要的輸出資料，也就是我們今天要講的話題。

　　本文直接舉一個例子，帶入數值示範反向傳播法的過程，公式的推導等到下次寫Auto-Encoder的時候再寫，其實也很簡單，感興趣的同學可以自己推導下試試：）（注：本文假設你已經懂得基本的神經網絡構成，如果完全不懂，可以參考Poll寫的筆記：[Mechine Learning & Algorithm] 神經網絡基礎）

　　假設，你有這樣一個網絡層：

BP的詳細推導過程BP的詳細推導過程

　　第一層是輸入層，包含兩個神經元i1，i2，和截距項b1；第二層是隐含層，包含兩個神經元h1,h2和截距項b2，第三層是輸出o1,o2，每條線上标的wi是層與層之間連接配接的權重，激活函數我們預設為sigmoid函數。

　　現在對他們賦上初值，如下圖：

BP的詳細推導過程BP的詳細推導過程

　　其中，輸入資料 i1=0.05，i2=0.10;

　　　　　輸出資料 o1=0.01,o2=0.99;

　　　　　初始權重 w1=0.15,w2=0.20,w3=0.25,w4=0.30;

　　　　　　　　　 w5=0.40,w6=0.45,w7=0.50,w8=0.55

　　目标：給出輸入資料i1,i2(0.05和0.10)，使輸出盡可能與原始輸出o1,o2(0.01和0.99)接近。

　　Step 1 前向傳播

　　1.輸入層---->隐含層：

　　計算神經元h1的輸入權重和：

BP的詳細推導過程BP的詳細推導過程

神經元h1的輸出o1:(此處用到激活函數為sigmoid函數)：

BP的詳細推導過程BP的詳細推導過程

　　同理，可計算出神經元h2的輸出o2：

BP的詳細推導過程BP的詳細推導過程

　　2.隐含層---->輸出層：

　　計算輸出層神經元o1和o2的值：

BP的詳細推導過程BP的詳細推導過程

這樣前向傳播的過程就結束了，我們得到輸出值為[0.75136079 , 0.772928465]，與實際值[0.01 , 0.99]相差還很遠，現在我們對誤差進行反向傳播，更新權值，重新計算輸出。

Step 2 反向傳播

1.計算總誤差

總誤差：(square error)

BP的詳細推導過程BP的詳細推導過程

但是有兩個輸出，是以分别計算o1和o2的誤差，總誤差為兩者之和：

BP的詳細推導過程BP的詳細推導過程

2.隐含層---->輸出層的權值更新：

以權重參數w5為例，如果我們想知道w5對整體誤差産生了多少影響，可以用整體誤差對w5求偏導求出：（鍊式法則）

BP的詳細推導過程BP的詳細推導過程

下面的圖可以更直覺的看清楚誤差是怎樣反向傳播的：

BP的詳細推導過程BP的詳細推導過程

現在我們來分别計算每個式子的值：

計算

BP的詳細推導過程BP的詳細推導過程

：

BP的詳細推導過程BP的詳細推導過程

計算

BP的詳細推導過程BP的詳細推導過程

：

BP的詳細推導過程BP的詳細推導過程

（這一步實際上就是對sigmoid函數求導，比較簡單，可以自己推導一下）

計算

BP的詳細推導過程BP的詳細推導過程

：

BP的詳細推導過程BP的詳細推導過程

最後三者相乘：

BP的詳細推導過程BP的詳細推導過程

這樣我們就計算出整體誤差E(total)對w5的偏導值。

回過頭來再看看上面的公式，我們發現：

BP的詳細推導過程BP的詳細推導過程

為了表達友善，用

BP的詳細推導過程BP的詳細推導過程

來表示輸出層的誤差：

BP的詳細推導過程BP的詳細推導過程

是以，整體誤差E(total)對w5的偏導公式可以寫成：

BP的詳細推導過程BP的詳細推導過程

如果輸出層誤差計為負的話，也可以寫成：

BP的詳細推導過程BP的詳細推導過程

最後我們來更新w5的值：

BP的詳細推導過程BP的詳細推導過程

（其中，

BP的詳細推導過程BP的詳細推導過程

是學習速率，這裡我們取0.5）

同理，可更新w6,w7,w8:

BP的詳細推導過程BP的詳細推導過程

3.隐含層---->隐含層的權值更新：

　方法其實與上面說的差不多，但是有個地方需要變一下，在上文計算總誤差對w5的偏導時，是從out(o1)---->net(o1)---->w5,但是在隐含層之間的權值更新時，是out(h1)---->net(h1)---->w1,而out(h1)會接受E(o1)和E(o2)兩個地方傳來的誤差，是以這個地方兩個都要計算。

BP的詳細推導過程BP的詳細推導過程

計算

BP的詳細推導過程BP的詳細推導過程

：

BP的詳細推導過程BP的詳細推導過程

先計算

BP的詳細推導過程BP的詳細推導過程

：

BP的詳細推導過程BP的詳細推導過程

同理，計算出：

BP的詳細推導過程BP的詳細推導過程

兩者相加得到總值：

BP的詳細推導過程BP的詳細推導過程

再計算

BP的詳細推導過程BP的詳細推導過程

：

BP的詳細推導過程BP的詳細推導過程

再計算

BP的詳細推導過程BP的詳細推導過程

：

BP的詳細推導過程BP的詳細推導過程

最後，三者相乘：

BP的詳細推導過程BP的詳細推導過程

為了簡化公式，用sigma(h1)表示隐含層單元h1的誤差：

BP的詳細推導過程BP的詳細推導過程

最後，更新w1的權值：

BP的詳細推導過程BP的詳細推導過程

同理，額可更新w2,w3,w4的權值：

BP的詳細推導過程BP的詳細推導過程

　　這樣誤差反向傳播法就完成了，最後我們再把更新的權值重新計算，不停地疊代，在這個例子中第一次疊代之後，總誤差E(total)由0.298371109下降至0.291027924。疊代10000次後，總誤差為0.000035085，輸出為[0.015912196,0.984065734](原輸入為[0.01,0.99]),證明效果還是不錯的。

BP的詳細推導過程BP的詳細推導過程

BP的詳細推導過程

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

分類算法的評價名額

K-近鄰算法以及圖像分類應用

weka之NB算法

使用weka的select attribute

weka中分類器算法

在weka中內建自己的算法

【多變量線性回歸】學習記錄序思路實作終

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告