三種梯度下降法: 【深度學習】:優化器的選擇 若是樣本很多,用标準梯度法會很慢,用随機梯度會很快,但是由于每個樣本都會用來更新權重,會有噪聲的引入,會産生更新錯誤。 Momentum: 【深度學習】:優化器的選擇 是以訓練速度會有一定的加快。 NAG(Nesterov accelerated gradient): 【深度學習】:優化器的選擇 【深度學習】:優化器的選擇 Adagrad: 【深度學習】:優化器的選擇 RMSProp:基于adagrad的缺點提出了這個 【深度學習】:優化器的選擇 【深度學習】:優化器的選擇 Adadelta: Adam: