1 導論
本文閱讀時長約為3分鐘。
在今年的三大頂會中,利用pytorch做研究的論文已經一枝獨秀,這歸功于它的易操作性。當然,pytorch中也有一些需要注意的點,如自加和普通加,在一般的語言中兩者等價,在pytorch中則是不一緻的,是新手常會踩的一個坑,需要了解與掌握。
2 pytorch中的自加(+=)普通加
pytorch有些特殊,普通的加法如果賦給原來的值,其實質上是新開了一個變量,而不是傳統意義上的覆寫原來的位址和值。話不多說,上代碼:
a = torch.ones((1, ))
print(id(a), a) ## 輸出其位址(id)及數值
a = a + torch.ones((1, ))
print(id(a), a)
其結果是
32258872 tensor([1.])
44322392 tensor([2.])
從上面可以看到,新指派得到的a位址變為新的了,說明這個新開了一個變量。若想實作覆寫原來的值該怎麼辦呢?此時可以采用自加,及 += 符号來實作原位操作。類似于上面,繼續上代碼:
a = torch.ones((1, ))
print(id(a), a) ## 輸出其位址(id)及數值
a += torch.ones((1, ))
print(id(a), a)
其結果是:
35666744 tensor([1.])
35666744 tensor([2.])
此時變量完全覆寫在原來的位址上,覆寫了原來的變量a,即為原位操作。
3 pytorch中的原位操作
為了友善進行原位操作,pytorch中的函數可以在調用之後加下劃線 ,強調這是進行原位操作(在模型訓練中經常用到的w.grad.zero() 即為原位更新,注意 _ 是放在()之前的),簡單得用上述例子進行實作,上述操作也可以這樣使用:
a = torch.ones((1, ))
print(id(a), a) ## 輸出其位址(id)及數值
a.add_(torch.ones((1,)))
print(id(a),a)
輸出結果也是:
35666744 tensor([1.])
35666744 tensor([2.])
然而,需要注意的是,此種用下劃線 _ 的原位操作方法在面對葉子節點的時候不可以使用。因為葉子節點在疊代過程中需要被用到其他量或梯度的求解,不允許被更改,如果輕易被修改,會導緻其他的值計算錯誤。