天天看點

深度學習模型大小與模型推理速度的深度探讨

作者丨田子宸

編輯丨GiantPandaCV

本文将對衡量深度學習模型大小的一些常用名額,如計算量、參數量、訪存量、記憶體占用等進行探讨,分析這些名額對模型部署推理的影響,尤其是計算量與訪存量對模型推理速度的影響,并給出在不同硬體架構下設計網絡結構的一些建議。

零、前言

當年頭一次實習做算法的時候,主管給的第一個任務就是“把一個大的分割模型砍成一個小的”。當時并不了解模型“大”、“小”的真正含義,就簡單的選取計算量作為評價名額,瘋狂砍計算量(backbone換 MobileNet/ShuffleNet、Conv 換成 DepthWise Conv、以及一些奇奇怪怪的融合結構等等),把模型計算量砍了将近 10倍,結果一部署發現速度并沒有快多少,反而是把最初的 ResNet 簡單砍掉幾個 block 效果更好。

也是從那時起接觸了訪存量、流水線、RoofLine 模型等概念,對模型推理速度的問題産生了興趣,從此踏上了深度學習推理優化的不歸路(劃掉)。

如今做推理優化和 HPC已經有一段時間了,還是偶爾能回想起當年不懂推理時設計的與硬體嚴重不比對的模型。此外在工作中跟研究員溝通時,也會發現部分研究員對模型大小和模型推理速度的關系不太了解,設計出一些很難發揮硬體計算能力的模型結構。是以在這裡對一些用于評價模型大小的名額——計算量、參數量、訪存量、記憶體占用等名額進行詳細探讨,分析這些名額會對模型的部署推理産生何種影響,詳細讨論計算量和訪存量對模型推理速度的影響,并給出不同硬體架構下設計高效網絡結構的一些建議。

本文不僅僅是為了給出網絡的設計建議,更是希望能夠有效傳達性能優化的基礎理論知識,以及性能分析的基本思路,幫助各位同學減少網絡設計與部署之間的gap,更高效的完成網絡設計與部署工作。非常希望本文能夠對大家的工作有所幫助,也非常歡迎大家在評論區留言探讨。

一、常用的模型大小評估名額

目前常用于評價模型大小的名額有:計算量、參數量、訪存量、記憶體占用等,這些名額從不同次元評價了模型的大小。本節僅作簡單介紹,熟悉的小夥伴可以跳過此節,直接看後面的分析與探讨。

1. 計算量

計算量可以說是評價模型大小最常用的名額了,很多論文在跟 baseline 進行比較時,都會把計算量作為重要的比較依據。

計算量是模型所需的計算次數,反映了模型對硬體計算單元的需求。計算量一般用 OPs (Operations),即計算次數來表示。由于最常用的資料格式為 float32,是以也常常被寫作 FLOPs (Floating Point Operations),即浮點計算次數。(這裡為了跟傳統習慣保持一緻,下文就統一采用 FLOPs 啦)

模型的整體計算量等于模型中每個算子的計算量之和。而每個算子的計算量計算方法各不一緻。例如對于 Eltwise Sum 來講,兩個大小均為 (N, C, H,W) 的 Tensor 相加,計算量就是 N x C x H x W;而對于卷積來說,計算量公式為(乘加各算一次):

深度學習模型大小與模型推理速度的深度探讨

PyTorch 有不少工具可以模型計算量,但需要注意的是這些工具有可能會遺漏一些算子的計算量,将其計算量算成0,進而導緻統計的計算量跟實際計算量有輕微的偏差,不過大多數情況下這些偏差影響不大。

2. 參數量

早期的論文也很喜歡用參數量來評價模型大小。

參數量是模型中的參數的總和,跟模型在磁盤中所需的空間大小直接相關。對于 CNN 來說參數主要由 Conv/FC 層的 Weight構成,當然其他的一些算子也有參數,不過一般忽略不計了。

參數量往往是被算作訪存量的一部分,是以參數量不直接影響模型推理性能。但是參數量一方面會影響記憶體占用,另一方面也會影響程式初始化的時間。

參數量會直接影響軟體包的大小。當軟體包大小是很重要的名額時,參數量至關重要,例如手機 APP 場景,往往對 APK包的大小有比較嚴格的限制;此外有些嵌入式裝置的 Flash 空間很小,如果模型磁盤所需空間很大的話,可能會放不下,是以也會對參數量有所要求。

除了在設計模型時減少參數量外,還可以通過壓縮模型的方式降低軟體包大小。例如 Caffe 和 ONNX 采用的 Protobuf就會對模型進行高效的編碼壓縮。不過壓縮模型會帶來解壓縮開銷,會一定程度增加程式初始化的時間。

3. 訪存量

訪存量往往是最容易忽視的評價名額,但其實是現在的計算架構中對性能影響極大的名額。

訪存量是指模型計算時所需通路存儲單元的位元組大小,反映了模型對存儲單元帶寬的需求。訪存量一般用 Bytes (或者 KB/MB/GB)來表示,即模型計算到底需要存/取多少 Bytes 的資料。

和計算量一樣,模型整體訪存量等于模型各個算子的訪存量之和。對于 Eltwise Sum 來講,兩個大小均為 (N, C, H, W) 的 Tensor相加,訪存量是 (2 + 1) x N x C x H x W x sizeof(data_type),其中 2 代表讀兩個 Tensor,1 代表寫一個 Tensor;而對于卷積來說,訪存量公式為:

深度學習模型大小與模型推理速度的深度探讨

訪存量對模型的推理速度至關重要,設計模型時需要予以關注。

4. 記憶體占用

記憶體占用是指模型運作時,所占用的記憶體/顯存大小。一般有工程意義的是最大記憶體占用,當然有的場景下會使用平均記憶體占用。這裡要注意的是,記憶體占用 ≠ 訪存量。

記憶體占用在論文裡不常用,主要原因是其大小除了受模型本身影響外,還受軟體實作的影響。例如有的架構為了保證推理速度,會将模型中每一個 Tensor所需的記憶體都提前配置設定好,是以記憶體占用為網絡所有 Tensor 大小的總和;但更多的架構會提供 lite 記憶體模式,即動态為 Tensor配置設定記憶體,以最大程度節省記憶體占用(當然可能會犧牲一部分性能)。

和參數量一樣,記憶體占用不會直接影響推理速度,往往算作訪存量的一部分。但在同一平台上有多個任務并發的環境下,如推理伺服器、車載平台、手機APP,往往要求記憶體占用可控。可控一方面是指記憶體/顯存占用量,如果占用太多,其他任務就無法在平台上運作;另一方面是指記憶體/顯存的占用量不會大幅波動,影響其他任務的可用性。

5. 小結

計算量、參數量、訪存量、記憶體占用從不同次元定義了模型的大小,應根據不同的場合選用合适的名額進行評價。

模型推理速度不單單受模型計算量的影響,也與訪存量和一些其他因素息息相關。下文将詳細讨論影響模型推理速度的因素。

二、計算量越小,模型推理就越快嗎

答案是否定的。

實際上計算量和實際的推理速度之間沒有直接的因果關系。計算量僅能作為模型推理速度的一個參考依據。

模型在特定硬體上的推理速度,除了受計算量影響外,還會受訪存量、硬體特性、軟體實作、系統環境等諸多因素影響,呈現出複雜的特性。是以,在手頭有硬體且測試友善的情況下, 實測是最準确的性能評估方式 。

在設計網絡結構時,如果有實測的條件,建議在模型疊代早期對性能也進行測試。一些 NAS的方法也會對搜尋出來的網絡結構進行測速,或者幹脆對硬體速度進行了模組化,也作為初期搜尋的重要參數。這種方法設計出來的網絡在後期部署時,會極大減少因性能問題疊代優化的時間和人力開銷。

這裡我将讨論影響模型在硬體上推理速度的一些因素,一方面希望可以幫助手動/自動設計網絡結構的同學更快的設計更高效的網絡結構,另一方面希望當模型部署時性能出現問題時能夠為大家提供分析原因的思路。

這一問題我将從如下 3 個點進行讨論:

  • 計算密度與 RoofLine 模型
  • 計算密集型算子與訪存密集型算子
  • 推理時間

1. 計算密度與 RoofLine 模型

計算密度 是指一個程式在機關訪存量下所需的計算量,機關是 FLOPs/Byte。其計算公式很簡單,很多教材、資料裡也稱之為 計算訪存比,用于反映一個程式相對于訪存來說計算的密集程度:

深度學習模型大小與模型推理速度的深度探讨

RoofLine 模型 是一個用于評估程式在硬體上能達到的 性能上界 的模型,可用下圖表示:

深度學習模型大小與模型推理速度的深度探讨

RoofLine模型用公式描述:

深度學習模型大小與模型推理速度的深度探讨

當程式的 計算密度I 較小時,程式訪存多而計算少,性能受記憶體帶寬限制,稱為 訪存密集型程式,即圖中橙色區域。在此區域的程式性能上界=計算密度×記憶體帶寬,表現為圖中的斜線,其中斜率為記憶體帶寬的大小。計算密度越大,程式所能達到的速度上界越高,但使用的記憶體帶寬始終為最大值。

反之如果計算密度I較大,程式性能受 硬體最大計算峰值 (下文簡稱為 算力 )限制,稱為 計算密集型程式,即圖中藍色區域。此時性能上界=硬體算力,表現為圖中的橫線。此時計算速度不受計算密度影響,但計算密度越大,所需記憶體帶寬就越少。

在兩條線的交點處,計算速度和記憶體帶寬同時到達最大值。

深度學習模型大小與模型推理速度的深度探讨

在不同裝置上,同一個程式的性質可能發生變化**在不同裝置上,同一個程式的性質可能發生變化**。例如上圖中的程式2,在算力稍弱的裝置2上屬于計算密集型程式,而在算力較強的裝置1上就屬于訪存密集型程式了(感謝評論區指正)。如果想要充分發揮裝置1的性能,應當适當加大程式的計算密度(比如到程式3的位置)。

2. 計算密集型算子與訪存密集型算子

網絡中的算子可以根據計算密度進行分類。一般來講, Conv、FC、Deconv 算子屬于計算密集型算子;ReLU、EltWise Add、Concat等屬于訪存密集型算子。

同一個算子也會因參數的不同而導緻計算密度變化,甚至改變性質 ,比如在其他參數不變的前提下,增大 Conv 的 group,或者減小 Conv 的input channel 都會減小計算密度。

舉個栗子,對于不同參數的卷積,計算密度如下:

深度學習模型大小與模型推理速度的深度探讨

可以看到,不同參數下卷積算子的計算密度有很大的差異。第 4 個算子 Depthwise Conv 計算密度僅有2.346,在當下的很多裝置上都屬于訪存密集型算子。

算子的計算密度越大,約有可能提升硬體的計算效率,充分發揮硬體性能 。我們以一個 Intel X86 伺服器平台為例(10980 XE)。該平台CPU 頻率為 4.5 GHz,我們以 16 核為例,其理論 FP32 算力為 4.608 TFLOPs/s,記憶體帶寬理論值為 96 GB/s。在此平台上的RoofLine 模型為:

深度學習模型大小與模型推理速度的深度探讨

Intel10980 XE 16 核 RoofLine 模型,以及各個算子的計算密度與性能該平台“拐點”的計算密度為 48,計算較為密集的 OP1 和 OP2 處在計算密集區,能夠達到平台的算力峰值;而 OP3 和 OP4處在訪存密集區,受記憶體帶寬限制不能到達算力峰值,尤其是 OP4,由于計算訪存比過低,計算效率僅有可憐的 4.9%,計算效率并不高。

3. 推理時間

這裡涉及到一個 gap,很多部署的同學們更喜歡談“計算效率”,而實際上算法同學真正關心的點是“推理時間”,導緻兩者在對接的時候經常會出現一些misleading。是以我這裡單獨開一節來探讨一下“推理時間”的評估方法。

其實也很簡單,按照 RoofLine 模型,我們很容易就能得到算子實際的執行時間:

深度學習模型大小與模型推理速度的深度探讨

這是一個分段函數,拆開來可得:

深度學習模型大小與模型推理速度的深度探讨

一句話總結:對于訪存密集型算子,推理時間跟訪存量呈線性關系,而對于計算密集型算子,推理時間跟計算量呈線性關系 。

講到這裡,我們就能 初步 回答本章一開始的問題了:按照 RoofLine模型,在計算密集區,計算量越小,确實推理時間越小。但是在訪存密集區,計算量與推理時間沒關系,真正起作用的是訪存量,訪存量越小,推理的時間才越快。在全局上,計算量和推理時間并非具有線性關系。

上一節中,OP4 雖然計算效率很低,但由于訪存量也很低,是以其實推理速度還是快于其他幾個 OP 的。但是我們可以觀察到,其計算量雖然隻有 OP1 的1/130,但是推理時間僅降低到了 1/6,兩者并非是線性關系(也是當年我把模型減到 1/10 計算量,但其實沒快多少的原因)。

再舉兩個例子強化一下,首先看這兩個卷積,他們的計算量差不多,但是因為都在訪存密集區,OP3 的訪存量遠低于 OP5,其推理也更快:

深度學習模型大小與模型推理速度的深度探讨

下面這個栗子更明顯,OP5 和 OP6 的差別僅僅是一個是 DepthWise Conv,一個是普通Conv,其他參數沒有變化。按照我們之前的直覺感受,Conv 換成 DepthWise Conv應該會更快,但實際上兩者的推理時間是差不多的(這組參數也是當年我用過的【手動捂臉):

深度學習模型大小與模型推理速度的深度探讨

4. 小結

從上面的讨論中我們可以看出:計算量并不能單獨用來評估模型的推理時間,還必須結合硬體特性(算力&帶寬),以及訪存量來進行綜合評估。并非是計算量越低模型推理越快。在評價模型大小時,也建議加上訪存量作為重要的評價名額 。

需要強調的一點是,不同的硬體平台峰值算力和記憶體帶寬不同,導緻同一個模型在平台 1 上可能是計算密集的,在平台 2 上可能就變成了訪存密集的。例如上文提到的Intel X86 平台,“拐點”值為 48,而 NVIDIA V100“拐點”值為 173.6,上文舉的例子在 V100 平台上僅有 OP2落在了計算密集區,剩下的全部是訪存密集的。是以, 同樣的模型在不同平台上性質可能會發生改變 ,需要具體情況具體分析。

我們很難給出一個通用性的結論,究其原因是 RoofLine 模型本身是一個非線性模型。這裡必須要強調一點的是,除了峰值算力和記憶體帶寬之外,還有硬體限制、系統環境、軟體實作等諸多因素會影響程式的實際性能,使得其非線性特性更加嚴重。是以 RoofLine模型僅僅隻能提供一個性能上界的評估方式,并不代表能夠達到的實際性能。實際性能最準确的測量方式隻有真機實測 。

RoofLine模型更重要的是提供了一種分析性能的思想,即計算密集型程式更多的受限于硬體算力,而訪存密集型程式更多的受限于硬體記憶體帶寬。在了解這一點的基礎上設計網絡結構,并分析網絡的性能,将更有理論參考。不會再對”計算量減半,為啥推理時間沒變“這種問題抱有疑問了(說的就是我【流淚)

下文将對 RoofLine 模型的一些限制進行讨論,分析哪些因素将以何種方式影響程式,使得其到達不了 RoofLine 模型估計的性能上界。

(下文要開始難度更新了,建議沒看懂 RoofLine 模型的同學們再把這一章看一遍,不然後面會看的有點懵)

三、影響模型推理性能的其他因素

RoofLine模型可以用來評估程式的性能上界,但是實際能達到的性能還會受到硬體限制、系統環境、軟體實作等諸多因素的影響,距離性能上界有一定距離。本章将對這些影響因素進行分析。

1. 硬體限制對性能上界的影響

前面 RoofLine 模型使用的峰值算力及記憶體帶寬,是根據紙面資料計算得到的,是理論上的最大值。但在實際情況下,硬體會因為種種原因,無法達到這個理論值。是以建議大家對硬體進行micro-benchmark,以擷取硬體的真實性能上限 。

以上文的 Intel X86 CPU 為例,我們之前計算的 avx512 理論算力為 4.608 TFLOPs/s,但這個數值的前提是頻率能維持在 4.5GHz。然而實際上在使用 16 核跑 avx512 指令時,CPU 頻率會下降到約 2.9 GHz,此時理論算力僅剩下 2.96TFLOPs/s,而實測值僅有 2.86 TFLOPs/s。

除了頻率之外,有些晶片可能會因為一些設計上或實作上的原因,導緻在實際使用時達不到理論峰值。比如一些低端晶片不支援多發射、不支援亂序執行、采用了阻塞式Cache 等等,一些晶片甚至會有一些性能 bug,導緻在實際使用時幾乎到達不了理論峰值(這裡我個人傾向于把這些原因歸結為硬體限制帶來的損失)。

記憶體同理,該平台理論帶寬為 96GB/s,但實測下來最高讀帶寬僅有 74 GB/s,僅能到達理論帶寬的 77%。

我們可以得到修正後的 RoofLine 模型,圖中藍色填充部分反映了因實際算力和記憶體帶寬達到不了理論值而造成的損失:

深度學習模型大小與模型推理速度的深度探讨

修正了實測峰值算力和記憶體帶寬後的 RoofLine 模型,藍色填充部分為硬體限制帶來的損失

修正後的模型“拐點”發生了變化,是以算子的性質也會發生變化。建議拿到硬體後對硬體進行 micro-benchmark,這裡推薦兩個測試工具:

一個是高叔叔寫的浮點峰值測試方法的文章,最後有 github 連結,大家可以 clone 下來測試硬體峰值:

​​https://zhuanlan.zhihu.com/p/28226956​​

還有一個是 stream 測試工具,可以用于測試記憶體帶寬:

​​https://www.cs.virginia.edu/stream/​​

2. 系統環境對性能的影響

除非程式運作在裸機中,否則作業系統一定會對性能上界産生一定影響,比如作業系統在多核間的排程損失、作業系統的記憶體管理帶來的損失、作業系統本身占用的運算資源等等。

對于一般的深度學習推理任務而言,現代作業系統對性能的影響并不是特别明顯。但是在一些特殊情況下,也會帶來嚴重的性能損失。我這裡将會舉兩個例子:

一個是 Android 系統在大小核上的排程,一旦程式在 CPU 上的占用率不足(比如是周期工作的任務),則有可能被 Android排程到小核上,帶來性能損失。

另一個例子是記憶體缺頁。在 Linux系統上,當向系統申請記憶體頁後,系統隻是傳回了虛拟頁,等到程式實際使用虛拟頁時,才會通過觸發缺頁異常的方式,進入作業系統核心配置設定實體頁,這一過程會嚴重降低性能。

好在這些問題可以通過軟體進行一部分彌補,例如排程問題可以使用綁核來解決,缺頁問題可以通過綁定實體頁(需要核心态)或記憶體池來解決。是以作業系統帶來的影響是可控的。

除了作業系統帶來的影響,系統中運作的其他程序也會對目前程序造成影響。比如一個系統中運作了多個深度學習執行個體,或者系統背景一些 APP自啟動了等等。這些程序都會占用核心算力和記憶體帶寬,造成目前程序性能損失。

這往往會導緻在工程測試環境下性能達标的模型,在實際部署時性能下降。是以, 必須關注工程測試環境和實際部署系統環境的差異。如有條件,最好在實際部署環境下進行測試。

3. 軟體實作對性能的影響

除了硬體限制和系統環境外, 一個任務的軟體實作好壞對性能有着重大的影響 。

例如對于同樣的矩陣操作任務,使用 python 寫的多重 for 循環,和用 numpy 高度優化過的矩陣操作函數,性能可以差出 1~2 個數量級。

對于深度學習模型推理而言,推理架構對模型性能的影響主要展現在:是否充分利用了硬體的流水線資源、是否高效利用了硬體中的緩存、是否采用了時間複雜度更低的算法、是否解決了作業系統帶來的性能損失(如上文的排程問題和記憶體缺頁問題)、是否進行了正确高效的圖優化等等。

由于影響因素很多,是以 軟體對性能的影響往往呈現出很強的非線性 ,導緻在評估性能時很難給出一些普适性的結論, 很多時候隻能具體情況具體分析。(有的時候甚至有點玄學【捂臉)

例如同樣計算量的向量四則運算和超越函數,後者往往會慢于前者的原因是很多硬體不支援超越函數的 SIMD 指令;再比如空洞卷積(dilated Conv)性能會弱于普通卷積的原因是前者對訪存的利用不如後者高效等等。

在軟體實作的影響下,RoofLine 模型的上界再次下降,達到圖中的紅線(真實的非線性可能會比我随手畫的要複雜的多):

深度學習模型大小與模型推理速度的深度探讨

RoofLine 模型各種性能損失示意圖,圖中曲線不代表真實比例

是以,在評估或分析深度學習推理性能時,簡單的計算量/訪存量名額是完全不夠的,隻能做個性能上界參考。實際能達到的性能其實還要關注很多很多因素,例如算子的訪存模式、資料排布、是否能夠進行圖融合、是否有精度可接受的低時間複雜度算法、算法并行度是否充足、各種運算的比例等等因素。

這些因素對于算法同學而言可能過于複雜,并不需要掌握。但如果所在的公司/部門有交流的機會的話,可以跟部署/優化的同學針對模型結構和算子進行探讨,以擷取性能優化的建議。

這裡可以一些 一般性的結論 ,僅供參考:

  • 對于一些訪存非常密集且訪存 pattern 連續的算子,如 Concat、Eltwise Sum、ReLU、LeakyReLU、ReflectionPad 等,在 Tensor 資料量很大的情況下,軟體實作的損失會非常小,正常情況下基本都能達到記憶體帶寬實測上限;如果架構采用了融合政策的話,基本可以達到 0 開銷。
  • 對于 Conv/FC/Deconv 等算子,在計算密度很高的情況下,大多數架構是能夠很接近算力峰值的。但對于計算密度不是特别高的 case,不同架構的表現不一,需要實測才能确定。不過從大趨勢而言,都是計算密度越高,硬體的使用率越高的。
  • 盡量使用常用的算子參數,例如 Conv 盡量使用 3x3_s1/s2,1x1 ___ s1/s2 等,這些常用參數往往會被特殊優化,性能更好。

4. 小結

RoofLine 模型僅能用于估計模型所能達到的性能上界,而實際部署時,還會受硬體限制、系統環境、軟體實作等因素的影響,導緻無法達到 RoofLine模型所定義的性能上界。

此外,由于這些因素往往會導緻性能曲線有較強的非線性,理論分析和實測會有一定差距,有時這些因素會嚴重影響性能曲線,甚至會導緻算子的性質發生變化。是以本節讨論的内容隻是提供一些分析的思路與技巧,實測始終是最準确的性能評估方式 。

四、面向推理速度的模型設計建議

前面讨論了一大堆,其實最實用的還是“怎麼設計模型能夠達到更快的推理速度”。

在給出我的個人建議之前,首先要先聲明的是:由于不同硬體、不同環境、不同架構的差異會很大,這些建議可能并不是在所有條件下都适用。在設計算法或性能測試遇到疑問時,建議咨詢部署/優化的同學。

好了,廢話不多說(其實已經說了很多了),給出我的一些個人建議:

方法論建議 :

  • 了解目标硬體的峰值算力和記憶體帶寬,最好是實測值,用于指導網絡設計和算子參數選擇。
  • 明确測試環境和實際部署環境的差異,最好能夠在實際部署環境下測試性能,或者在測試環境下模拟實際部署環境。
  • 針對不同的硬體平台,可以設計不同計算密度的網絡,以在各個平台上充分發揮硬體計算能力(雖然工作量可能會翻好幾倍【捂臉)。
  • 除了使用計算量來表示/對比模型大小外,建議引入訪存量、特定平台執行時間,來綜合反映模型大小。
  • 實測是最準确的性能評估方式,如果有條件快速實測的話,建議以實測與理論分析相結合的方式設計并疊代網絡。
  • 遇到性能問題時,可以逐層 profiling,并與部署/優化同學保持緊密溝通,具體問題具體分析(适當了解一下計算相關理論的話,可以更高效的溝通)。

網絡設計建議 :

  • 對于低算力平台(CPU、低端 GPU 等),模型很容易受限于硬體計算能力,是以可以采用計算量低的網絡來降低推理時間。
  • 對于高算力平台(GPU、DSP 等),一味降低計算量來降低推理時間就并不可取了,往往更需要關注訪存量。單純降低計算量,很容易導緻網絡落到硬體的訪存密集區,導緻推理時間與計算量不成線性關系,反而跟訪存量呈強相關(而這類硬體往往記憶體弱于計算)。相對于低計算密度網絡而言,高計算密度網絡有可能因為硬體效率更高,耗時不變乃至于更短。
  • 面向推理性能設計網絡結構時,盡量采用經典結構,大部分架構會對這類結構進行圖優化,能夠有效減少計算量與訪存量。例如 Conv->BN->ReLU 就會融合成一個算子,但 Conv->ReLU->BN 就無法直接融合 BN 層
  • 算子的參數盡量使用常用配置,如 Conv 盡量使用 3x3_s1/s2、1x1 ___ s1/s2 等,軟體會對這些特殊參數做特殊優化。
  • CNN 網絡 channel 數盡量選擇 4/8/16/32 的幂次,很多架構的很多算子實作在這樣的 channel 數下效果更好(具體用多少不同平台不同架構不太一樣)。
  • 架構除了計算耗時外,也處理網絡拓撲、記憶體池、線程池等開銷,這些開銷跟網絡層數成正比。是以相比于“大而淺”的網絡,“小而深”的網絡這部分開銷更大。一般情況下這部分開銷占比不大。但在網絡算子非常碎、層數非常多的時候,這部分開銷有可能會影響多線程的擴充性,乃至于成為不可忽視的耗時因素。

一些其他建議 :

  • 除了優化網絡結構、推理架構性能外,還可以考慮通過一些其他工程技巧來提升系統整體的性能。例如:對推理服務流水化,并行資料讀取與計算的過程,掩蓋 IO 延時。

本文介紹了評估模型大小的四個常用名額——計算量、參數量、訪存量、記憶體占用,從 RoofLine模型入手詳細讨論了影響模型推理速度的影響因素,并給出了面向推理速度的模型設計方法論與建議。

撰寫本文的目的,不僅僅是給算法同學提供有效的網絡設計建議,更多的還是希望能夠傳達性能優化的基礎知識與分析思路,減少算法設計到部署之間的gap,更快速高效的設計推理友好的網絡模型。希望能對大家的工作有所幫助。

看到評論區有人問有沒有訪存量小的模型結構。一些研究工作,例如 ShuffleNetV2, 已經在設計網絡的時候兼顧訪存量了。但據我所知目前還沒有像DepthWise Conv 一樣經典的節省訪存量的模型結構。

關于這個問題,我個人是這麼看的:

  • 訪存量可以減小,但網絡精度很難保證不變,是以需要一系列的研究來探索
  • 一些白給訪存量的技巧可以用上,一些白白浪費訪存量的操作不要搞
  • 低精度/量化有的時候節省訪存量的意義遠大于節省計算量

回顧 Xception/ MobileNet 的研究就可以看出,DWConv 3X3 + Conv 1X1的結構之是以成為經典結構,一方面是計算量确實減少了,另一方面也是其精度确實沒有太大的損失。計算量可以在設計完網絡時就可以算出,但網絡精度隻有在網絡訓練完之後才能評估,需要花費大量的時間與精力反複探索才能找到這一結構。

一些研究确實開始關注訪存量對推理速度的影響,例如 ShuffleNetV2 在標明 group 的時候就是以訪存量為依據的,但并不是整體的 block都是圍繞降低訪存量來設計的。由于本人很久沒有關注算法的研究進展了,據我所知目前是沒有專注于減少放存量的模型結構及研究工作的(如果有的話歡迎在評論區留言)。

我個人認為這可以成為一個很好的研究主題,可以為模型部署帶來很大的幫助。一種方法是可以通過手工設計網絡結構,另一種方法是可以将訪存量作為 NAS的一個參數進行搜尋。前者可解釋性更強一些,後者可能研究起來更容易。但是有一點請務必注意:降低訪存量的最終目的一定是為了減少模型的推理時間。如果模型處在目标裝置的計算密集區,降低訪存量的意義有限。

  • channel 數盡量保持在 4/8/16/32 的倍數,不要設計 channel = 23 這種結構。目前大部分推理架構為了加速計算,都會用特殊的資料排布,channel 會向上 pad。比如架構會把 channel pad 到 4 的倍數,那麼 channel = 23 和 24 在訪存量上其實是一緻的。
  • 一些非常細碎乃至毫無意義的後處理算子,例如 Gather、Squeeze、Unsqueeze 等,最好給融合掉。這種現象往往見于 PyTorch 導出 onnx 的時候,可以嘗試使用 onnxsim 等工具來進行融合,或者手動添加大算子。
  • 嘗試一些部署無感的技巧,例如蒸餾、RepVGG(感謝 @OLDPAN )等。

繼續閱讀