pytorch中的梯度更新

2023-04-25 10:12:00

背景

使用pytorch時，有一個yolov3的bug，我認為涉及到學習率的調整。收集到tencent yolov3和mxnet開源的yolov3，兩個優化器中的學習率設定不一樣，而且使用GPU數目和batch的更新也不太一樣。據此，我簡單的了解了下pytorch的權重梯度的更新政策，看看能否一窺究竟。

對代碼說明

共三個實驗，分布寫在代碼中的（一）（二）（三）三個地方。運作實驗時注釋掉其他兩個

實驗及其結果

實驗（三）：

不使用zero_grad（）時，grad累加在一起，官網是使用accumulate 來表述的，是以不太清楚是取的和還是均值（這兩種最有可能）。

不使用zero_grad()時，是直接疊加add的方式累加的。

tensor([[[ 1.,  1.],……torch.Size([2, 2, 2])
0 2 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 
tensor([[[ 2.,  2.],…… torch.Size([2, 2, 2])
1 2 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 
tensor([[[ 3.,  3.],…… torch.Size([2, 2, 2])
2 2 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *

實驗（二）：

單卡上不同的batchsize對梯度是怎麼作用的。 mini-batch SGD中的batch是加快訓練，同時保持一定的噪聲。但設定不同的batchsize的權重的梯度是怎麼計算的呢。

設定運作實驗（二），可以看到結果如下：是以單卡batchsize計算梯度是取均值的

tensor([[[ 3.,  3.],…… torch.Size([2, 2, 2])

實驗（一）：

多gpu情況下，梯度怎麼合并在一起的。

在《training imagenet in 1 hours》中提到grad是allreduce的，是累加的形式。但是當設定g=2，實驗一運作時，結果也是取均值的，類同于實驗（二）

tensor([[[ 3.,  3.],…… torch.Size([2, 2, 2])

實驗代碼

import torch
import torch.nn as nn
from torch.autograd import Variable


class model(nn.Module):
    def __init__(self, w):
        super(model, self).__init__()
        self.w = w

    def forward(self, xx):
        b, c, _, _ = xx.shape
        # extra = xx.device.index + 1 ##  實驗（一）
        y = xx.reshape(b, -1).mm(self.w.cuda(xx.device).reshape(-1, 2) * extra)
        return y.reshape(len(xx), -1)


g = 1
x = Variable(torch.ones(2, 1, 2, 2))
# x[1] += 1 ## 實驗（二）
w = Variable(torch.ones(2, 2, 2) * 2, requires_grad=True)
# optim = torch.optim.SGD({'params': x},
lr = 0.01
momentum = 0.9
M = model(w)

M = torch.nn.DataParallel(M, device_ids=range(g))

for i in range(3):
    b = len(x)
    z = M(x)
    zz = z.sum(1)
    l = (zz - Variable(torch.ones(b).cuda())).mean()
    # zz.backward(Variable(torch.ones(b).cuda()))
    l.backward()
    print(w.grad, w.grad.shape)
    # w.grad.zero_() ## 實驗（三）
    print(i, b, '* * ' * 20)

pytorch中的梯度更新

背景

對代碼說明

實驗及其結果

實驗（三）：

實驗（二）：

實驗（一）：

實驗代碼

繼續閱讀

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

【Torch】最簡潔logging使用指南