天天看點

深度學習中 GPU 和顯存分析0 預備知識1. 顯存分析2 計算量分析3 總結

轉載自:https://www.2cto.com/kf/201712/708227.html

深度學習最吃機器,耗資源,在本文,我将來科普一下在深度學習中:

何為“資源” 不同操作都耗費什麼資源 如何充分的利用有限的資源 如何合理選擇顯示卡

并糾正幾個誤區:

顯存和GPU等價,使用GPU主要看顯存的使用? Batch Size 越大,程式越快,而且近似成正比? 顯存占用越多,程式越快? 顯存占用大小和batch size大小成正比?

0 預備知識

nvidia-smi是Nvidia顯示卡指令行管理套件,基于NVML庫,旨在管理和監控Nvidia GPU裝置.

nvidia-smi的輸出

深度學習中 GPU 和顯存分析0 預備知識1. 顯存分析2 計算量分析3 總結

這是nvidia-smi指令的輸出,其中最重要的兩個名額:

顯存占用 GPU使用率

顯存占用和GPU使用率是兩個不一樣的東西,顯示卡是由GPU計算單元和顯存等組成的,顯存和GPU的關系有點類似于記憶體和CPU的關系。

這裡推薦一個好用的小工具:gpustat,直接pip install gpustat即可安裝,gpustat基于nvidia-smi,可以提供更美觀簡潔的展示,結合watch指令,可以動态實時監控GPU的使用情況。

<code><code><code><code>watch --color -n1 gpustat -cpu </code></code></code></code>
           
深度學習中 GPU 和顯存分析0 預備知識1. 顯存分析2 計算量分析3 總結

gpustat 輸出

顯存可以看成是空間,類似于記憶體。

顯存用于存放模型,資料 顯存越大,所能運作的網絡也就越大

GPU計算單元類似于CPU中的核,用來進行數值計算。衡量計算量的機關是flop:the number of floating-point multiplication-adds,浮點數先乘後加算一個flop。計算能力越強大,速度越快。衡量計算能力的機關是flops: 每秒能執行的flop數量

<code><code><code><code>1*2+3                  1 flop
1*2 + 3*4 + 4*5        3 flop </code></code></code></code>
           

1. 顯存分析

1.1 存儲名額

<code><code><code><code>1Byte = 8 bit
1K = 1024 Byte
1M = 1024 K
1G = 1024 M
1T = 1024 G
 
10 K = 10*1024 Byte
</code></code></code></code>
           

除了K、M,G,T等之外,我們常用的還有KB、MB,GB,TB。二者有細微的差别。

<code><code><code><code><code><code><code>1Byte = 8 bit
1KB = 1000 Byte
1MB = 1000 KB
1GB = 1000 MB
1TB = 1000 GB
 
10 KB = 10000 Byte
</code></code></code></code></code></code></code>
           

K、M,G,T是以1024為底,而KB、MB,GB,TB以1000為底。不過一般來說,在估算顯存大小的時候,我們不需要嚴格的區分這二者。

在深度學習中會用到各種各樣的數值類型,數值類型命名規範一般為TypeNum,比如Int64、Float32、Double64。

Type:有Int,Float,Double等 Num: 一般是 8,16,32,64,128,表示該類型所占據的比特數目

常用的數值類型如下圖所示:

深度學習中 GPU 和顯存分析0 預備知識1. 顯存分析2 計算量分析3 總結

常用的數值類型

其中Float32 是在深度學習中最常用的數值類型,稱為單精度浮點數,每一個單精度浮點數占用4Byte的顯存。

舉例來說:有一個1000x1000的 矩陣,float32,那麼占用的顯存差不多就是

1000x1000x4 Byte = 4MB

32x3x256x256的四維數組(BxCxHxW)占用顯存為:24M

1.2 神經網絡顯存占用

神經網絡模型占用的顯存包括:

模型自身的參數 模型的輸出

舉例來說,對于如下圖所示的一個全連接配接網絡(不考慮偏置項b)

深度學習中 GPU 和顯存分析0 預備知識1. 顯存分析2 計算量分析3 總結

模型的輸入輸出和參數

模型的顯存占用包括:

參數:二維數組 W 模型的輸出: 二維數組 Y

輸入X可以看成是上一層的輸出,是以把它的顯存占用歸于上一層。

這麼看來顯存占用就是W和Y兩個數組?

并非如此!!!

下面細細分析。

1.2.1 參數的顯存占用

隻有有參數的層,才會有顯存占用。這部份的顯存占用和輸入無關,模型加載完成之後就會占用。

有參數的層主要包括:

卷積 全連接配接 BatchNorm Embedding層 … …

無參數的層:

多數的激活層(Sigmoid/ReLU) 池化層 Dropout … …

更具體的來說,模型的參數數目(這裡均不考慮偏置項b)為:

Linear(M->N): 參數數目:M×N Conv2d(Cin, Cout, K): 參數數目:Cin × Cout × K × K BatchNorm(N): 參數數目: 2N Embedding(N,W): 參數數目: N × W

參數占用顯存 = 參數數目×n

n = 4 :float32

n = 2 : float16

n = 8 : double64

在PyTorch中,當你執行完model=MyGreatModel().cuda()之後就會占用相應的顯存,占用的顯存大小基本與上述分析的顯存差不多(會稍大一些,因為其它開銷)。

1.2.2 梯度與動量的顯存占用

舉例來說, 優化器如果是SGD:

Wt+1=Wt?α?F(Wt)

可以看出來,除了儲存W之外還要儲存對應的梯度?F(W),是以顯存占用等于參數占用的顯存x2,

如果是帶Momentum-SGD

vt+1=ρvt+?F(Wt)

Wt+1=Wt?αvt+1

這時候還需要儲存動量, 是以顯存x3

如果是Adam優化器,動量占用的顯存更多,顯存x4

總結一下,模型中與輸入無關的顯存占用包括:

參數W 梯度dW(一般與參數一樣) 優化器的動量(普通SGD沒有動量,momentum-SGD動量與梯度一樣,Adam優化器動量的數量是梯度的兩倍)

1.2.3 輸入輸出的顯存占用

這部份的顯存主要看輸出的feature map 的形狀。

深度學習中 GPU 和顯存分析0 預備知識1. 顯存分析2 計算量分析3 總結

feature map

比如卷積的輸入輸出滿足以下關系:

深度學習中 GPU 和顯存分析0 預備知識1. 顯存分析2 計算量分析3 總結

據此可以計算出每一層輸出的Tensor的形狀,然後就能計算出相應的顯存占用。

模型輸出的顯存占用,總結如下:

需要計算每一層的feature map的形狀(多元數組的形狀) 模型輸出的顯存占用與 batch size 成正比 需要儲存輸出對應的梯度用以反向傳播(鍊式法則) 模型輸出不需要存儲相應的動量資訊(因為不需要執行優化)

深度學習中神經網絡的顯存占用,我們可以得到如下公式:

<code><code><code><code><code><code><code><code><code><code><code><code>顯存占用 = 模型顯存占用 + batch_size × 每個樣本的顯存占用
</code></code></code></code></code></code></code></code></code></code></code></code>
           

可以看出顯存不是和batch-size簡單的成正比,尤其是模型自身比較複雜的情況下:比如全連接配接很大,Embedding層很大

另外需要注意:

輸入(資料,圖檔)一般不需要計算梯度 神經網絡的每一層輸入輸出都需要儲存下來,用來反向傳播,但是在某些特殊的情況下,我們可以不要儲存輸入。比如ReLU,在PyTorch中,使用nn.ReLU(inplace = True)能将激活函數ReLU的輸出直接覆寫儲存于模型的輸入之中,節省不少顯存。感興趣的讀者可以思考一下,這時候是如何反向傳播的(提示:y=relu(x) ->dx = dy.copy();dx[y<=0]=0)

1.3 節省顯存的方法

在深度學習中,一般占用顯存最多的是卷積等層的輸出,模型參數占用的顯存相對較少,而且不太好優化。

節省顯存一般有如下方法:

降低batch-size

下采樣(NCHW -> (1/4)*NCHW)

減少全連接配接層(一般隻留最後一層分類用的全連接配接層)

2 計算量分析

計算量的定義,之前已經講過了,計算量越大,操作越費時,運作神經網絡花費的時間越多。

2.1 常用操作的計算量

常用的操作計算量如下:

全連接配接層:BxMxN , B是batch size,M是輸入形狀,N是輸出形狀。 卷積的計算量: BHWCoutCinK2

深度學習中 GPU 和顯存分析0 預備知識1. 顯存分析2 計算量分析3 總結

BatchNorm 計算量我個人估算大概是BHWC×{4,5,6}, 歡迎指正 池化的計算量:BHWCK2

深度學習中 GPU 和顯存分析0 預備知識1. 顯存分析2 計算量分析3 總結

ReLU的計算量:BHWC

2.2 AlexNet 分析

AlexNet的分析如下圖,左邊是每一層的參數數目(不是顯存占用),右邊是消耗的計算資源

深度學習中 GPU 和顯存分析0 預備知識1. 顯存分析2 計算量分析3 總結

AlexNet分析

可以看出:

全連接配接層占據了絕大多數的參數 卷積層的計算量最大

2.3 減少卷積層的計算量

今年谷歌提出的MobileNet,利用了一種被稱為DepthWise Convolution的技術,将神經網絡運作速度提升許多,它的核心思想就是把一個卷積操作拆分成兩個相對簡單的操作的組合。如圖所示, 左邊是原始卷積操作,右邊是兩個特殊而又簡單的卷積操作的組合(上面類似于池化的操作,但是有權重,下面類似于全連接配接操作)。

深度學習中 GPU 和顯存分析0 預備知識1. 顯存分析2 計算量分析3 總結

Depthwise Convolution

這種操作使得:

顯存占用變多(每一步的輸出都要儲存) 計算量變少了許多,變成原來的1Cout+1k2(一般為原來的10-15%)

2.4 常用模型 顯存/計算複雜度/準确率

橫座标是計算複雜度(越往右越慢,越耗時),縱座标是準确率(越高越好),圓的面積是參數數量(不是顯存占用)。左上角我畫了一個紅色小圓,那是最理想的模型的的特點:快,效果好,占用顯存小。

深度學習中 GPU 和顯存分析0 預備知識1. 顯存分析2 計算量分析3 總結

常見模型計算量/顯存/準确率

3 總結

3.1 建議

時間更寶貴,盡可能使模型變快(減少flop) 顯存占用不是和batch size簡單成正比,模型自身的參數及其延伸出來的資料也要占據顯存 batch size越大,速度未必越快。在你充分利用計算資源的時候,加大batch size在速度上的提升很有限

尤其是batch-size,假定GPU處理單元已經充分利用的情況下:

增大batch size能增大速度,但是很有限(主要是并行計算的優化) 增大batch size能減緩梯度震蕩,需要更少的疊代優化次數,收斂的更快,但是每次疊代耗時更長。 增大batch size使得一個epoch所能進行的優化次數變少,收斂可能變慢,進而需要更多時間才能收斂(比如batch_size 變成全部樣本數目)。

3.2 關于顯示卡選購

目前市面上常用的顯示卡名額如下:

深度學習中 GPU 和顯存分析0 預備知識1. 顯存分析2 計算量分析3 總結

繼續閱讀