偶然看到一篇講解激活函數的部落格，講的很詳細，轉載一下，友善自己以後學習。連結：http://blog.csdn.net/cyh_24/article/details/50593400

日常 coding 中，我們會很自然的使用一些激活函數，比如：sigmoid、ReLU等等。不過好像忘了問自己一( n )件事：

為什麼需要激活函數？
激活函數都有哪些？都長什麼樣？有哪些優缺點？
怎麼選用激活函數？

本文正是基于這些問題展開的，歡迎批評指正！

RELU 激活函數及其他相關的函數 Why use activation functions? Activation Functions. How to choose a activation function? Reference

(此圖并沒有什麼卵用，純屬為了裝x …)

Why use activation functions?

激活函數通常有如下一些性質：

非線性：當激活函數是線性的時候，一個兩層的神經網絡就可以逼近基本上所有的函數了。但是，如果激活函數是恒等激活函數的時候（即 f(x)=x ），就不滿足這個性質了，而且如果MLP使用的是恒等激活函數，那麼其實整個網絡跟單層神經網絡是等價的。
可微性：當優化方法是基于梯度的時候，這個性質是必須的。
單調性：當激活函數是單調的時候，單層網絡能夠保證是凸函數。
f(x)≈x ：當激活函數滿足這個性質的時候，如果參數的初始化是random的很小的值，那麼神經網絡的訓練将會很高效；如果不滿足這個性質，那麼就需要很用心的去設定初始值。
輸出值的範圍：當激活函數輸出值是有限的時候，基于梯度的優化方法會更加穩定，因為特征的表示受有限權值的影響更顯著；當激活函數的輸出是無限的時候，模型的訓練會更加高效，不過在這種情況小，一般需要更小的learning rate.

這些性質，也正是我們使用激活函數的原因！

Activation Functions.

Sigmoid

RELU 激活函數及其他相關的函數 Why use activation functions? Activation Functions. How to choose a activation function? Reference

Sigmoid 是常用的非線性的激活函數，它的數學形式如下：

f(x)=11+e−x

正如前一節提到的，它能夠把輸入的連續實值“壓縮”到0和1之間。

特别的，如果是非常大的負數，那麼輸出就是0；如果是非常大的正數，輸出就是1.

sigmoid 函數曾經被使用的很多，不過近年來，用它的人越來越少了。主要是因為它的一些缺點：

Sigmoids saturate and kill gradients. （saturate 這個詞怎麼翻譯？飽和？）sigmoid 有一個非常緻命的缺點，當輸入非常大或者非常小的時候（saturation），這些神經元的梯度是接近于0的，從圖中可以看出梯度的趨勢。是以，你需要尤其注意參數的初始值來盡量避免saturation的情況。如果你的初始值很大的話，大部分神經元可能都會處在saturation的狀态而把gradient kill掉，這會導緻網絡變的很難學習。
Sigmoid 的 output 不是0均值. 這是不可取的，因為這會導緻後一層的神經元将得到上一層輸出的非0均值的信号作為輸入。

産生的一個結果就是：如果資料進入神經元的時候是正的(e.g. x>0 elementwise in f=wTx+b )，那麼 w 計算出的梯度也會始終都是正的。

當然了，如果你是按batch去訓練，那麼那個batch可能得到不同的信号，是以這個問題還是可以緩解一下的。是以，非0均值這個問題雖然會産生一些不好的影響，不過跟上面提到的 kill gradients 問題相比還是要好很多的。

tanh

tanh 是上圖中的右圖，可以看出，tanh 跟sigmoid還是很像的，實際上，tanh 是sigmoid的變形：

tanh(x)=2sigmoid(2x)−1

與 sigmoid 不同的是，tanh 是0均值的。是以，實際應用中，tanh 會比 sigmoid 更好（畢竟去粗取精了嘛）。

RELU 激活函數及其他相關的函數 Why use activation functions? Activation Functions. How to choose a activation function? Reference

ReLU

近年來，ReLU 變的越來越受歡迎。它的數學表達式如下：

f(x)=max(0,x)

很顯然，從圖左可以看出，輸入信号 <0 時，輸出都是0， >0 的情況下，輸出等于輸入。 w 是二維的情況下，使用ReLU之後的效果如下：

RELU 激活函數及其他相關的函數 Why use activation functions? Activation Functions. How to choose a activation function? Reference

ReLU 的優點：

Krizhevsky et al. 發現使用 ReLU 得到的SGD的收斂速度會比 sigmoid/tanh 快很多(看右圖)。有人說這是因為它是linear，而且 non-saturating
相比于 sigmoid/tanh，ReLU 隻需要一個門檻值就可以得到激活值，而不用去算一大堆複雜的運算。

ReLU 的缺點：當然 ReLU 也有缺點，就是訓練的時候很”脆弱”，很容易就”die”了. 什麼意思呢？

舉個例子：一個非常大的梯度流過一個 ReLU 神經元，更新過參數之後，這個神經元再也不會對任何資料有激活現象了。

如果這個情況發生了，那麼這個神經元的梯度就永遠都會是0.

實際操作中，如果你的learning rate 很大，那麼很有可能你網絡中的40%的神經元都”dead”了。

當然，如果你設定了一個合适的較小的learning rate，這個問題發生的情況其實也不會太頻繁。

Leaky-ReLU、P-ReLU、R-ReLU

Leaky ReLUs：就是用來解決這個 “dying ReLU” 的問題的。與 ReLU 不同的是：

f(x)=αx，(x<0)

f(x)=x，(x>=0)

這裡的 α 是一個很小的常數。這樣，即修正了資料分布，又保留了一些負軸的值，使得負軸資訊不會全部丢失。

RELU 激活函數及其他相關的函數 Why use activation functions? Activation Functions. How to choose a activation function? Reference

關于Leaky ReLU 的效果，衆說紛纭，沒有清晰的定論。有些人做了實驗發現 Leaky ReLU 表現的很好；有些實驗則證明并不是這樣。

RELU 激活函數及其他相關的函數 Why use activation functions? Activation Functions. How to choose a activation function? Reference

Parametric ReLU：對于 Leaky ReLU 中的 α ，通常都是通過先驗知識人工指派的。

然而可以觀察到，損失函數對 α 的導數我們是可以求得的，可不可以将它作為一個參數進行訓練呢？

Kaiming He的論文《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》指出，不僅可以訓練，而且效果更好。

公式非常簡單，反向傳播至未激活前的神經元的公式就不寫了，很容易就能得到。對 α 的導數如下：

δyiδα=0，(ifyi>0)，else=yi

原文說使用了Parametric ReLU後，最終效果比不用提高了1.03%.

Randomized ReLU：

Randomized Leaky ReLU 是 leaky ReLU 的random 版本（ α 是random的）.

它首次試在 kaggle 的NDSB 比賽中被提出的。

核心思想就是，在訓練過程中， α 是從一個高斯分布 U(l,u) 中随機出來的，然後再測試過程中進行修正（有點像dropout的用法）。

數學表示如下：

RELU 激活函數及其他相關的函數 Why use activation functions? Activation Functions. How to choose a activation function? Reference

在測試階段，把訓練過程中所有的 αij 取個平均值。NDSB 冠軍的 α 是從 U(3,8) 中随機出來的。那麼，在測試階段，激活函數就是就是：

yij=xijl+u2

看看 cifar-100 中的實驗結果：

RELU 激活函數及其他相關的函數 Why use activation functions? Activation Functions. How to choose a activation function? Reference

Maxout

RELU 激活函數及其他相關的函數 Why use activation functions? Activation Functions. How to choose a activation function? Reference

Maxout出現在ICML2013上，作者Goodfellow将maxout和dropout結合後，号稱在MNIST, CIFAR-10, CIFAR-100, SVHN這4個資料上都取得了start-of-art的識别率。

Maxout 公式如下：

fi(x)=maxj∈[1,k]zij

假設 w 是2維，那麼有：

f(x)=max(wT1x+b1,wT2x+b2)

可以注意到，ReLU 和 Leaky ReLU 都是它的一個變形（比如， w1,b1=0 的時候，就是 ReLU）.

Maxout的拟合能力是非常強的，它可以拟合任意的的凸函數。作者從數學的角度上也證明了這個結論，即隻需2個maxout節點就可以拟合任意的凸函數了（相減），前提是”隐隐含層”節點的個數可以任意多.

RELU 激活函數及其他相關的函數 Why use activation functions? Activation Functions. How to choose a activation function? Reference

是以，Maxout 具有 ReLU 的優點（如：計算簡單，不會 saturation），同時又沒有 ReLU 的一些缺點（如：容易 go die）。不過呢，還是有一些缺點的嘛：就是把參數double了。

還有其他一些激活函數，請看下表：

RELU 激活函數及其他相關的函數 Why use activation functions? Activation Functions. How to choose a activation function? Reference

How to choose a activation function?

怎麼選擇激活函數呢？

我覺得這種問題不可能有定論的吧，隻能說是個人建議。

如果你使用 ReLU，那麼一定要小心設定 learning rate，而且要注意不要讓你的網絡出現很多 “dead” 神經元，如果這個問題不好解決，那麼可以試試 Leaky ReLU、PReLU 或者 Maxout.

友情提醒：最好不要用 sigmoid，你可以試試 tanh，不過可以預期它的效果會比不上 ReLU 和 Maxout.

還有，通常來說，很少會把各種激活函數串起來在一個網絡中使用的。

Reference

[1]. http://www.faqs.org/faqs/ai-faq/neural-nets/part2/section-10.html

[2]. http://papers.nips.cc/paper/874-how-to-choose-an-activation-function.pdf

[3]. https://en.wikipedia.org/wiki/Activation_function

[4]. http://cs231n.github.io/neural-networks-1/

RELU 激活函數及其他相關的函數 Why use activation functions? Activation Functions. How to choose a activation function? Reference

Why use activation functions?

Activation Functions.

Sigmoid

tanh

ReLU

Leaky-ReLU、P-ReLU、R-ReLU

Maxout

How to choose a activation function?

Reference

繼續閱讀

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

通俗了解查準率(precision)和查全率(recall)

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

人工智能如何有效地運用于自然語言處理

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡