
點選藍字關注我們
AI研習圖書館,發現不一樣的世界
煉丹筆記
深度學習煉丹筆記三
深度學習模型訓練技巧及可能出現的問題分析
一、為什麼深度神經網絡難以訓練?
在深度神經網絡中的梯度是不穩定的,在前端的層中或會消失,或會激增。這種不穩定性才是深度神經網絡中基于梯度學習的根本問題。 1、梯度消失梯度消失是指通過隐藏層從後向前看,梯度會變的越來越小,說明前面層的學習會顯著慢于後面層的學習,是以學習會卡住,除非梯度變大。梯度消失的原因受到多種因素影響,例如學習率的大小,網絡參數的初始化,激活函數的邊緣效應等。在深層神經網絡中,每一個神經元計算得到的梯度都會傳遞給前一層,較淺層的神經元接收到的梯度受到之前所有層 梯度的影響 。 如果計算得到的梯度值非常小,随着層數增多,求出的梯度更新資訊将會以指數形式衰減,就會發生梯度消失。 2、梯度爆炸在深度網絡或循環神經網絡(Recurrent Neural Network, RNN)等網絡結構中,梯度可在網絡更新的過程中不斷累積,變成非常大的梯度,導緻網絡權重值的大幅更新,使得網絡不穩定;在極端情況下,權重值甚至會溢出,變為 NaN值,再也無法更新。 3、權重矩陣的退化導緻模型的有效自由度減少參數空間中學習的退化速度減慢,導緻減少了模型的有效維數,網絡的可用自由度對學習中梯度範數的貢獻不均衡,随着相乘矩陣的數量(即網絡深度)的增加,矩陣的乘積變得越來越退化。在有硬飽和邊界的非線性網絡中(例如 ReLU ),随着深度增加,退化過程會變得越來越快。 随着深度的增加,輸入空間會在輸入空間中的每個點處被扭曲成越來越細的單絲,隻有一個與細絲正交的方向影響網絡的響應。沿着這個方向,網絡實際上對變化變得非常敏感。關于上篇文章實驗筆記—深度學習模型訓練技巧二中的第三個問題,其實權重退化說的就是,權重矩陣中0值越來越多,非0值越來越少。以上就是對深度神經網絡通常難以訓練的一些問題分析,僅供參考~
未完待續,敬請關注~
初聞不知曲中意,再聽已是曲中人~
祝你深度學習快樂~~
點選閱讀原文,可跳轉至CSDN部落格繼續學習~
推薦閱讀文章
[1] AI入門-人工智能的前世今生[2] AI入門-深度學習綜述[3] AI入門-計算機視覺學習指南[附資源][4] 深度學習架構總結—國際篇[5] 深度學習-CNN結構設計技巧[6] 資源分享-深度學習及資料分析等資源合集
[7] 今日分享—統計學習方法
[8] 算法總結—人臉檢測算法
[9] 目标檢測算法-YOLOv4
[10] 項目總結—人臉檢測
[11] 資料結構與算法-Python語言案例實作
[12] 深度學習基礎-二十種損失函數
[13] 深度學習-目标檢測的十九個研究方向
[14] 項目實戰-車輛檢測案例實作
[15] 卷積神經網絡-可變形卷積[上]
[16] 圖像識别—EfficientNet算法詳細總結
[17] 世界讀書日—機器學習西瓜書|附下載下傳連結
[18] 面試指南-算法崗如何針對性的準備校招面試
......
點選"在看"了解更多精彩内容
轉載是一種動力 分享是一種美德
Bilibili : 洛必達數數CSDN部落格:算法之美DLGitHub:statisticszhang
關注AI研習圖書館,發現不一樣的精彩世界