訓練loss不下降原因集合一，train loss與test loss結果分析

2023-05-08 14:45:46

一，train loss與test loss結果分析

4666

train loss 不斷下降，test loss不斷下降，說明網絡仍在學習;

train loss 不斷下降，test loss趨于不變，說明網絡過拟合;

train loss 趨于不變，test loss不斷下降，說明資料集100%有問題;

train loss 趨于不變，test loss趨于不變，說明學習遇到瓶頸，需要減國小習率或批量數目;

train loss 不斷上升，test loss不斷上升，說明網絡結構設計不當，訓練超參數設定不當，資料集經過清洗等問題。

二，

這個比較長，比較完整 Loss和神經網絡訓練

https://blog.csdn.net/u011534057/article/details/51452564

有1.梯度檢驗2.訓練前檢查，3.訓練中監控4.首層可視化5.模型融合和優化等等等

三，https://www.zhihu.com/question/38937343

四，https://blog.csdn.net/u010911921/article/details/71079367

原文位址：http://blog.csdn.net/u010911921/article/details/71079367

這段在使用caffe的時候遇到了兩個問題都是在訓練的過程中loss基本保持常數值，特此記錄一下。

1.loss等于87.33不變

loss等于87.33這個問題是在對Inception-V3網絡不管是fine-tuning還是train的時候遇到的，無論網絡疊代多少次，網絡的loss一直保持恒定。

查閱相關資料以後發現是由于loss的最大值由FLT_MIN計算得到，FLT_MIN是其對應的自然對數正好是

-87.3356

，這也就對應上了loss保持87.3356了。

這說明softmax在計算的過程中得到了機率值出現了零，由于softmax是用指數函數計算的，指數函數的值都是大于0的，是以應該是計算過程中出現了float溢出的異常，也就是出現了inf，nan等異常值導緻softmax輸出為0.

當softmax之前的feature值過大時，由于softmax先求指數，會超出float的資料範圍，成為inf。inf與其他任何數值的和都是inf，softmax在做除法時任何正常範圍的數值除以inf都會變成0.然後求loss就出現了87.3356的情況。

解決辦法

由于softmax輸入的feature由兩部分計算得到：一部分是輸入資料，另一部分是各層的權值等組成

減小初始化權重，以使得softmax的輸入feature處于一個比較小的範圍
降低學習率，這樣可以減小權重的波動範圍
如果有BN(batch normalization)層，finetune時最好不要當機BN的參數，否則資料分布不一緻時很容易使輸出值變得很大(注意将 batch_norm_param 中的 use_global_stats 設定為 false )。
觀察資料中是否有異常樣本或異常label導緻資料讀取異常

本文遇到的情況采用降低學習率的方法，learning rate設定為0.01或者原來loss的或者。

2.loss保持0.69左右

采用VGG-16在做一個二分類問題,是以計算loss時等價與下面的公式：

當p=0.5時，loss正好為0.693147，也就是訓練過程中，無論如何調節網絡都不收斂。最初的網絡配置檔案卷積層的參數如下所示：

訓練loss不下降原因集合一，train loss與test loss結果分析

從VGG-16訓練好的模型進行fine-tuning也不發生改變，當在網絡中加入初始化參數和

decay_mult

以後再次訓練網絡開始收斂。

訓練loss不下降原因集合一，train loss與test loss結果分析

但是具體是什麼原因造成的，暫時還沒有找到，難道是初始化參數的問題還是？

參考資料

http://blog.csdn.net/jkfdqjjy/article/details/52268565?locationNum=14

https://groups.google.com/forum/#!topic/caffe-users/KEgrRlwXz9c

https://www.zhihu.com/question/68603783

loss一直不下降的原因有很多，可以從頭到尾濾一遍： 1）資料的輸入是否正常，data和label是否一緻。 2）網絡架構的選擇，一般是越深越好，也分資料集。并且用不用在大資料集上pre-train的參數也很重要的 3）loss 對不對。

具體到語音，很多是把audio轉成頻譜圖送給CNN訓練。

NIPS16 有個soundNet(torch的code)，語音分類的performance很高，我覺得可以用來初始化你的model 參數, 可以參考下。

還有我見的3D-CNN 多用于視訊，做audio 用3D 的工作比較少，倒是見過是用1維卷積做audio的

訓練loss不下降原因集合一，train loss與test loss結果分析

一，train loss與test loss結果分析

1.loss等于87.33不變

2.loss保持0.69左右

參考資料

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡