系列筆記 | 深度學習連載（2）：梯度下降

2021-12-18 23:50:00

我們回憶深度學習“三闆斧”：

1. 選擇神經網絡

2. 定義神經網絡的好壞

3. 選擇最好的參數集合

其中步驟三，如何選擇神經網絡的好壞呢？

梯度下降是目前，最有效的方法之一。

方法：我們舉兩個參數的例子 θ1、θ2，損失函數是L。那麼它的梯度是：

那我為了求得最小值，我們有：

參數不斷被梯度乘以學習率η 疊代

那麼上述公示公為什麼是減号，不是加号呢？

我們定義 θ 改變的方向是movement的方向, 而gradient的方向是等高線的法線方向

基礎的Gradient Decent已經介紹完了，接下來，我們一起探讨GD的使用技巧。

Learning rate學習率的設定

Learning Rate η 如果設定不好，Loss反而增大

自适應的學習率 adaptive learning rate

很多小夥伴在機器學習代碼中，學習率一般都是設定為一個固定的數值（需要不斷調參）。

根據學習經驗，一般的我們有如下結論：

1. 訓練剛開始的時候，學習率較大

2. 經過幾輪訓練後，結果慢慢接近的時候，需要調國小習率

Adagrad 的學習率是現有學習率除以導數的平方和的開根号

Stochastic Gradient Decent (SGD)

讓訓練更加快速

一般的GD方法是所有的訓練資料後，進行一次參數更新

SGD是一個樣本就可以更新參數

GD和SGD的對比效果：

特征裁剪 Feature Scaling

讓不同次元的資料，有相同的變化幅度

訓練的時候，哪一個好train，一目了然

歸一化方法：

總結： Gradient Decent 是機器學習、深度學習求解Optimal問題的“普世”方法，但是也會遇到很多問題，例如local minima 和 saddle point 的問題。我們以後會展開讨論。

系列筆記 | 深度學習連載（2）：梯度下降

繼續閱讀

如果你想要學習深度學習，但是不知道從何入手，那麼《每天五分鐘深度學習》專欄一定是你不容錯過的學習資源。這個專欄包含了神經

tensorflow學習——keras進階API——序列模型Sequential

SVD原理和案例(奇異值分解)

連續兩年入圍全球Gartner ABI魔力象限，Quick BI在商業智能領域究竟有何魔力？1、互動式的分析和可視化2、建構資料故事3、釘釘內建4、增強分析Quick BI

技術解密｜阿裡雲多媒體 AI 團隊是憑借什麼拿下 CVPR2021 5冠1亞的？頂級挑戰賽戰績顯赫四大挑戰的關鍵技術探索基于視訊了解技術打造多媒體 AI 雲産品

算法專家解讀 | 開放搜尋教育搜題能力和實踐

Keras使用分批疊代（fit_generate）的方式訓練資料

圖像分割UNet系列------UNet3+（UNet3plus）詳解

圖像分割UNet系列------UNet詳解

特征：什麼是特征和特征選擇？

Pytorch(二) Tensor Tensor的建立Tensor是什麼Tensor的建立

2023了，學習深度學習架構哪個比較好？

VGGNet------超經典神經網絡結構與PyTorch實作

tensorflow學習——（imdb資料集）文本分類first_2.py

Matlab深度學習-手寫體數字識别Matlab深度學習前言一、MNIST手寫體數字資料二、用到的深度學習架構-LeNet5三、代碼最後

K-近鄰算法以及圖像分類應用