Deep Learning (Yoshua Bengio, Ian Goodfellow, Aaron Courville) 翻譯 Part 2 第6章

2022-07-19 11:51:38

6.3 hidden units

RELU是hidden單元很好的預設選擇，rectified linear函數在0點不是可微分的，這貌似會使rectified linear函數不能使用基于梯度的訓練算法，而實踐中，梯度下降仍然表現很好。

因為我們不期望訓練達到一個梯度為0的點，cost函數的最小值在一個未定義的梯度是可以接受的，隐藏單元不能微分的情況一般是隻在幾個少數的點，在一個點是可微分的隻有這點的左右導數相等。

大多數隐藏單元接受一個向量輸入x，進行轉換z=Wx+b，然後應用非線性激活函數g（z）

6.3.1 Rectified Linear Units and Their Generalizations

Deep Learning (Yoshua Bengio, Ian Goodfellow, Aaron Courville) 翻譯 Part 2 第6章

初始化參數的時候，最好把b的所有元素都設定比較小，正值，比如0.1

6.3.2 logistic sigmoid and hyperbolic tangent

這兩個激活函數很近似因為tanh(z)=2σ(2z)-1

我們已經看到sigmoid單元作為輸出單元，用來預測binary變量的值為1的機率，不像是分段線性的單元，sigmoidal單元saturate在幾乎整個取值域，即它在z是一個大的正值的時候saturate到一個高值，在z是一個很負的值的時候saturate到一個低值，隻在z在0附近的時候敏感，這種很廣泛的saturation會讓基于梯度的訓練很困難，基于這點，sigmoid作為隐藏單元不被鼓勵，而作為輸出單元因為如有一個合适的cost函數能抵消其saturation就可以。

如果必須用sigmoid做隐藏單元，tanh激活函數更好些，因為tanh（0）=0而σ（0）=1/2，

Deep Learning (Yoshua Bengio, Ian Goodfellow, Aaron Courville) 翻譯 Part 2 第6章

6.3 hidden units

6.3.1 Rectified Linear Units and Their Generalizations

6.3.2 logistic sigmoid and hyperbolic tangent

6.4 Architecture Design

6.4.1 universal approximation properties and depth

繼續閱讀

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

通俗了解查準率(precision)和查全率(recall)

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

人工智能如何有效地運用于自然語言處理

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡