AI學習筆記——Tensorflow中的Optimizer(優化器)

2018-08-14 23:50:00

在使用Tensorflow搭建神經網絡的時候，最後一步總會用到tf.train.XxxOptimizer(). 然後會有很多Optimizer()如下圖

其實這些Optimizer 都是優化算法下面重點介紹幾個常見的

1. Gradient Decent

這是最基礎的梯度下降算法，更新權重W，不多解釋。

W += - α * dx

其中 α是learning rate(學習速率)。我們可以把下降的損失函數看成一個機器人，由于在下降的時候坡度不是均勻的，機器人會左右搖擺，是以下降速度會比較慢，有時候遇到局部最優，還可能在原地徘徊好長時間。

2. Momentum

顧名思義這個優化算法實際上給了一個動量，讓機器人下降的的時候帶一個慣性，下降的速度就加快了。

算法如下：

m = b1*m - α * dx

W += m

3. AdaGrad

這個算法是通過動态改變學習速率，提高下降速度，相當于給機器人穿上一個左右側滑有阻力的鞋子，讓它隻好沿着正确的方向下滑。

v = dx^2

W += -(α/sqrt(v)) * dx

4. RMSProp

這個算法相當于在AdaGrad中引入了Momentum的慣性

v = b1 * v + (1-b1)*dx^2

W += -(α/sqrt(v)) * dx

但是RMSprop缺少了Momentum的變量m

5. Adam

Adam是目前用得最廣的優化算法，它結合了AdaGrad和Momentum的優點(是以叫才Adam嘛)

m = b1m + (1-b1)dx

v = b2v + (1-b2)dx^2

W += -(α*m/sqrt(v)) * dx

這個算法相當于給機器人一個慣性，同時還讓它穿上了防止側滑的鞋子，當然就相當好用用啦。

給大家看看不同優化算法

下降速度的差距

文章首發steemit.com 為了友善牆内閱讀，搬運至此，歡迎留言或者通路

我的Steemit首頁

AI學習筆記——Tensorflow中的Optimizer(優化器)

1. Gradient Decent

2. Momentum

3. AdaGrad

4. RMSProp

5. Adam

繼續閱讀

開源低帶寬語音編解碼器

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希