學習率會在剛開始的時候上升,加快模型的收斂速度,尋找最優點位置,到達一定step後,學習率下降,此時我們可以認為這是一個模型在微調的過程。上升采用線性上升,下降采用cos函數下降。

當我們使用梯度下降算法來優化目标函數的時候,當越來越接近Loss值的全局最小值時,學習率應該變得更小來使得模型盡可能接近這一點,而餘弦退火(cosine annealing)可以通過餘弦函數來降低學習率。餘弦函數中随着x的增加餘弦值首先緩慢下降,然後加速下降,再次緩慢下降。這種下降模式能和學習率配合,以一種十分有效的計算方式來産生很好的效果。