【深度學習架構大PK】褚曉文教授：五大深度學習架構三類神經網絡全面測評（23PPT）

香港浸會大學褚曉文教授團隊在2016年推出深度學習工具評測的研究報告，并在2017年年初釋出更新，引起廣泛關注。見新智元報道《基準評測 TensorFlow、Caffe、CNTK、MXNet、Torch 在三類流行深度神經網絡上的表現（論文）》，2017年初版本的評測的主要發現可概括如下：

總體上，多核CPU的性能并無很好的可擴充性。在很多實驗結果中，使用16核CPU的性能僅比使用4核或8核稍好。TensorFlow在CPU環境有相對較好的可擴充性。

僅用一塊GPU卡的話，FCN上Caffe、CNTK和Torch比MXNet和TensorFlow表現更好；CNN上MXNet表現出色，尤其是在大型網絡時；而Caffe和CNTK在小型CNN上同樣表現不俗；對于帶LSTM的RNN，CNTK速度最快，比其他工具好上5到10倍。

通過将訓練資料并行化，這些支援多GPU卡的深度學習工具，都有可觀的吞吐量提升，同時收斂速度也提高了。多GPU卡環境下，CNTK平台在FCN和AlexNet上的可擴充性更好，而MXNet和Torch在CNN上相當出色。

比起多核CPU，GPU平台效率更高。所有的工具都能通過使用GPU達到顯著的加速。

在三個GPU平台中（GTX980，GTX1080，Tesla K80中的一顆GK210），GTX1080由于其計算能力最高，在大多數實驗結果中性能最出色。

某種程度上而言，性能也受配置檔案的影響。例如，CNTK允許使用者調整系統配置檔案，在運算效率和GPU記憶體間取舍，而MXNet則能讓使用者對cuDNN庫的自動設定進行調整。

2017年9月7日，中國工程院資訊與電子工程學部主辦、浪潮集團承辦的首屆人工智能計算大會（AI Computing Conference，簡稱AICC）上，褚曉文教授發表題為《Benchmarking State-of-the-Art Deep Learning Software Tools》的報告并接受了新智元的獨家專訪。他在采訪中提到了這一項目的起源以及其中涉及的技術點，特别是深度學習網絡的計算原理等。

褚曉文教授介紹說，其團隊從2008年開始就開始從事GPU計算方面的科研工作，在2014到2015年的時候，開始接觸到深度學習這個領域，那個時候為了開發一個并行的深度學習平台，對整個深度學習的原理和應用都有了一個比較深入的了解，這是一個前期的基礎。

到了2016年的時候，他們就留意到，突然就很多深度學習平台開始開源了。工具多了以後，他們通過與工業界的接觸了解到，大家經常會有一個困惑：工具很多，硬體也很多，各種各樣的GPU卡，從4、5千塊錢到4、5萬都有。該如何進行選擇？這個問題很複雜，也很難回答。是以他就開始跟學生一起，做了一些初步的比較的工作。

值得一提的是，這是一開源的項目，所有人都可以下載下傳到代碼和測試的資料，文檔也寫的很清楚，大家都可以重複實驗。是以從釋出至今，褚曉文教授他們也收到了大量的回報，并對測評結果進行了優化疊代。今年最新版本的測評報告會在近期公布，新智元也将對此保持關注。

TensorFlow vs CNTK vs MXNet，誰的性能最好？

在專訪中，我們邀請褚曉文教授對其科研小組所作測評的幾個架構進行了介紹，他分析了TensorFlow、CNTK 和MXNet。

1. TensorFlow

他說，TensorFlow是目前關注量最多的，可能有80%的使用者會選擇用TensorFlow這個平台。TensorFlow 最大的優勢在于它的社群很成熟，因為用的人多，大家讨論的也多，遇到困難，能找到幫你解決困難的可能性也會更高一點。但是TensorFlow自身是一個很大的架構，它的設計初衷在使用硬體資源上面是一個自動化的過程（注：目前開源的TensorFlow版本還是需要使用者來合理的配置設定硬體資源）。

褚曉文教授說，由此，TensorFlow可能會有一個問題：性能可能未必是它最關注的一點。他也認為，谷歌在底層硬體上有着更深的布局，他們在硬體上的投入，可能是目前是其他的工具給不了的。“ 其他的工具更依賴于GPU。我覺得谷歌并不把它的重點放在GPU這一塊，反而是說，直接用我的TPU好了。當然第一代TPU不是主要來做訓練，而是使用8-bit整數乘法運算做一些推理，而第二代TPU已經開始支援浮點運算進行訓練了，将來如果大量開放的話對GPU就會帶來更大的挑戰”，褚曉文教授說。

目前TensorFlow在市場上已經占到到百分之七十到八十。那麼，未來會不會出現壟斷，或者一個大一統的深度學習架構。褚曉文教授認為，慢慢的會收攏到兩三個，但是不會僅有一個。也就是說，不會出現一個大一統的工具，但是可能會有兩三個大的工具存在。

2. CNTK

CNTK是褚曉文教授個人比較喜歡的。他介紹說，微軟對CNTK也是非常重視的一個項目，也投入了很多的專家，而且更新也非常快。“在我們多版的測試裡面，CNTK很多情況下都是性能最好的之一，不管是單卡還是多卡的情況，是以說，微軟我覺得他可能是非常看中性能這一塊”，褚曉文教授說。

因為TensorFlow擁有如此大的體量了，是以CNTK要追趕，注重的就是性能方面。當然CNTK有它的複雜性在裡面，因為要取得好的性能，一定是要經過多次的調試，或者說當在寫腳本的時候，要很熟悉這個架構，很熟悉這個硬體，很熟悉這個記憶體配置設定等等，才可以達到這個性能的極緻。

他說：“是以你要取得好的性能，一定可能是在開發周期上面需要多花一些功夫在上面。但是無論如何，從我們的評測結果來講，CNTK，的确是性能最好的，而且他跟英偉達的配合是很緊的，英偉達一旦放出來新的庫，或者新的硬體，微軟馬上就會跟進，去更新他們的CNTK。”

3. MXNet

褚曉文說，MXNet的性能其實也相當好的，跟CNTK差距不大。它在可擴充性方面也是非常出色的。因為出來的比較晚，它可能的重點就是怎麼做擴充性，比如說它一放出來，就已經直接可以在多卡和多機多卡的叢集下面很友善的使用，這個是MXNet的一個優勢。

TPU帶來改變，但是訓練上GPU還是主流

褚曉文特别強調了測評對“性能”的重視，基本上這是一個以性能為主要标準的評測。但是，在這個過程中，他們也發現一些問題，比如，CuDNN本身對硬體的依賴性，不同版本的 CuDNN 跟不同類型的GPU卡是有一個比對問題的。

針對今年備受關注的AI專用晶片，比如TPU對深度學習工具的支援。褚曉文教授說，在訓練上來講，GPU還是主流，因為任何一個硬體的出現是離不開軟體的配套的，如果沒有軟體配套，硬體隻能是為已知的一些網絡做優化，如果有新的網絡出現，那這個硬體是否還能夠适應新的軟體結構的，新的網絡結構，這個是未知的。

這些AI晶片可能得是基于一些比較成熟的神經網絡，針對那些已知的網絡做一些優化。但是如果将來萬一有一個颠覆性的網絡結構，或者颠覆性的一種計算模式出現，那你的硬體也要重新來過。這個可能是AI晶片廠商要考慮的一個問題。

褚曉文教授說：“硬體是永遠離不開軟體支撐的，GPU的成功，就是從08年到現在，這麼多年培養了大量的軟體人才，他們在這方面的投入是相當大的，這也是為什麼AMD遲遲追趕不上的原因，AMD缺乏一個軟體的生态。”

但是，從目前的條件來看，專用AI晶片對深度學習工具性能上的提升是肯定的。因為資料量還是在指數級增長。

褚曉文教授認為，目前來看，比如說最簡單的訓練，還是需要花掉大量的時間，而且單GPU的瓶頸，還是在于它的增長速度跟不上資料的增長，是以一定還是要更專用的種晶片。

采訪的最後，新智元問，如果要從這些工具中選擇一個進行推薦，會推薦哪個？褚曉文教授表示：“我一般不會推薦，因為我們是一個比較中立的一個角度去看，我認為任何一個架構都有它的價值，都有可以借鑒的地方，從實際的角度，對于工程師來講其實你選擇要結合你的業務需求。”

但是，如果對于這種本身沒有太多經驗的人的話，他還是推薦TensorFlow。因為，它的文檔，相對來說都會比較順利一些，而且它開發起來相對容易一些。

以下為褚曉文教授現場演講内容實錄

各位嘉賓，先生們，女士們中午好，非常感謝浪潮邀請我來參加這個大會，今天我想跟大家分享一下我們在深度學習各種工具性能測試方面的工作。今天在短短的二十分鐘，我想花一半時間跟大家回顧過去十年裡我們CPU和GPU的發展，接下來給大家介紹現在主流的深度學習軟體工具，也就是浸會大學在深度學習軟體工具的測試工作，及為什麼做這個工作。最後跟大家簡單彙報我們最新的測試結果。

深度學習在近年來已經深入到我們的生活和工作之中。深度學習這個生态圈大概分成三層：最上面是層出不窮的各種應用，包括著名的AlphaGo、谷歌Translate軟體、訊飛的語音輸入等等，這都是大家生活中會用到的軟體，将來還會有無人駕駛、AI醫療、AI金融。

但是，工欲善其事必先利其器，深度學習的生态圈裡核心一層就是生産工具。大家可以看到從2011年開始有各種各樣的深度學習的平台開源，尤其從2015年開始基本上是百花齊放的狀态。在最底層是原材料，各種各樣的硬體，包括英偉達的GPU，英特爾收購了一些FPGA的公司，還有谷歌的TPU。

今天大會主題是計算，深度學習之是以達到今天的成功完全離不開計算，剛才孫劍先生已經跟大家分享了很多深度學習裡面的計算。一個神經元它要做的事情就是很簡單的兩個矢量的點積運算，它的運算量取決于權重有多少，僅僅是一個神經元就要做很多計算。這是一個全連接配接的神經網絡，可以想象，神經元很多的時候計算量有多龐大。

比如，人的大腦有幾百億的神經元在運作，為了解決這個計算問題，近期流行的各種深度的神經網絡，比如卷積網絡它就降低了權重的數量，但是目前的主流神經網絡還是有數以百萬計的權重，做一次前向運算要做幾十億次的乘加運算。是以說，計算力是深度學習的基石。

既然計算如此重要，我們需要回顧近十年來CPU的發展到底是怎麼樣的，2006年當時最強大的英特爾的CPU至強X5355是一款四核CPU，它的計算能力峰值當時是43個GFlops，也我們現在提的是單精度運算，今年 Intel 釋出的最新白金CPU8180已經發展到28核，計算峰值能達到2個TFlops。

過去11年CPU處理能力提高了50倍，大家可能想知道這50倍是怎麼來的，非常簡單，第一它的核心數量從4變到28，有了7倍的增長。另外一個性能的提升來源于指令的寬度，2006年一條指令隻能處理 2 個單精度的浮點運算，今天512位的指令集，一條指令可以同時處理16個單精度的浮點運算，這就相當于8倍的性能提升。50倍的提升就是這麼來的，這給軟體從業者帶來了相當大的挑戰，如果你不懂得如何利用多核以及如何利用SIMD指令，那麼你的性能就還停留在十年前的水準。

再看GPU在近十年的發展。紅色這條線是GPU性能，下面那條線還是CPU的性能，這裡讨論的是英偉達的GPU。2006年英偉達第一次釋出通用計算的GPU 8800GTX，當時它的性能已經達到了500個GFlops，接下來十年，大家可以看到GPU相對CPU的計算能力一直維持在10-15倍的比例，今年英偉達提出的V100性能已經達到15個TFlops的單精度的性能。大家有沒有發現這兩條曲線非常吻合，有沒有想過為什麼？

今天前面很多嘉賓已經提到摩爾定律，根本原因就是摩爾定律在掌控一切，摩爾定律說的就是你的晶片裡面的半導體數量它的增長每隔兩年大概翻一倍，這個取決于晶片的工藝。是以每次工藝的進步都會帶來CPU和GPU的性能的提升。

這張表給大家展示了英偉達最近的七代GPU的産品，把它放在一起，從2006年它的GPU核隻有128個，今天Volta已經有超過5300個核芯，這是個相當了不起的突破。

大家要留意它的記憶體的帶寬，剛才孫劍給大家共享了馮諾伊曼的瓶頸問題就是記憶體的問題，記憶體技術也是在發展的，但是它的發展速度遠遠低于計算核心的發展。過去11年裡面記憶體的帶寬從57個GFlops提升到900個GFlops，還得多謝3D記憶體技術的突破，如果不考慮3D記憶體而僅僅考慮GDDR記憶體的話，它的性能提升僅僅隻有8倍。是以說在過去的11年裡面記憶體帶寬僅僅提升了15-16倍，而計算能力提升了30-50倍，這說明記憶體的性能跟計算的性能之間的距離在逐漸擴大。這也是GPU計算今天面臨的一個巨大的挑戰，這個挑戰就是巨大的計算能力和相對薄弱的記憶體通路之間的一道鴻溝。

大家想象一下，現在的這些GPU或者CPU它每一個時鐘周期可以做1到2個浮點運算，這是它的能力，但是每做一次運算資料從哪裡來，資料往哪裡去，每一次運算都需要至少2個資料讀取的操作，把結果寫回到某個地方去，這都涉及到資料的傳輸。是以記憶體的的确确是今天面臨的一個巨大的問題。

我們還沒有講通路記憶體需要多長時間。通常來講當你要做計算的時候那個資料從全局記憶體讀到處理器裡面需要幾百個時鐘周期，是非常緩慢的過程。記憶體的帶寬，拿GTX1080來舉例，它的計算能力已經達到了8個TFlops，記憶體帶寬僅僅有300個GB/s。

假設你的一個GPU線程要做一次運算，首先要從全局記憶體讀取資料，經過400個時鐘周期的時間才能拿到資料，花20個時鐘周期處理資料得到結果，再把結果再花400周期寫到記憶體裡面去，是以單從一個線程的角度來看我們的GPU大部分時間是在等待的。

為了解決這個問題，當然有很多的解決方案，GPU用了非常複雜的記憶體架構，是一個金字塔型的架構，最頂層是非常快的寄存器，它下面還有L1級的Cache，還有L2級的Cache，還有Shared Memory。CPU的Cache對程式員是不透明的，程式員不能控制那些Cache，GPU計算領域這些Cache 和 Shared Memory是可以被程式員控制的，GPU架構裡軟體設計空間非常龐大，設計一個好的GPU程式是一門藝術。

我想帶給大家的資訊是：硬體和軟體同樣重要，僅僅有硬體是不夠的，沒有好的軟體硬體的效能是發揮不出來的，這也是為什麼今天有這麼多深度學習軟體它們的性能有如此大的差異。

接下來看深度學習軟體在近年來的發展。Torch是很流行的軟體，2002年就有了，那時候還沒有深度學習。後來把深度學習做進去了。2014年就是Caffe，微軟2015年開源了CNTK，接下來谷歌也開源了他們相應的開發平台。第三行是它的粉絲數量，目前Tensorflow的粉絲團是最龐大的，有6萬多個關注，相對來講，CNTK、Caffe加起來還沒有Tensorflow有影響力。最底下是開發平台的維護情況，随着硬體的提升，新的算法的提出，每個軟體都是要不斷的更新換代的，Tensorflow的更新是非常頻繁的，基本上每一兩個月就會有一個新的更新，代表着他們對軟體平台的投入。

我特别想感謝所有默默無聞的工作在軟體平台後面的程式員，沒有他們就沒有今天的深度學習。讓我非常自豪的是這裡的開發者有50%以上是中國人。

選擇太多其實是很痛苦的，尤其是對剛剛進入這個領域的創業者來講，這麼多的GPU，5千塊錢的5萬塊錢的差别在哪裡？這麼多的軟體平台該選哪一個？其實要選擇一個好的軟體架構有很多因素，包括它的性能、它的成本、它的穩定性、它的社群的支援等等，我們今天主要是關注它的性能這一個層面。

其實我們是從2008年就開始研究GPU計算，在2014-2015年我們參與了深度學習軟體的平台開發的項目，接下來我們就認識到深度學習将會徹底改變我們的社會。2015、2016年就開始出現了很多聲音：這麼多的軟體、這麼多的硬體該怎麼處理？是以我們在2016年5月就啟動了關于深度學習平台的基準測試項目。我們這個項目有兩個目的，第一是要去以科學的态度測試這些不同的深度學習平台在不同的硬體平台上的運作性能，發現一些潛在的問題，把其作為一些科學的研究課題來改善提高。

那時候也有一些類似的基準測試項目，但我們有三個非常顯著的特點：1. 我們要保證我們的試驗結果是可靠的，一定要可重複實作的。是以我們是一個開源的項目，我們所有的源代碼所有的資料全部是公開在網上供大家重複；2. 我們要保證我們的測試是公平的，盡可能的公平，其實這是一個非常有挑戰性的工作，因為不同的軟體工具它的設計、它對資料的處理都不一樣；3. 我們希望這是一個很長期的工作，有的項目做了一次測試就完了，沒有再去跟進，而我們希望這是一個非常長期的工作，當有新的軟體出來新的硬體出來，我們都會把他們加入到我們的基準測試裡面供大家參考。

過去的一年裡我們在四個不同的次元做了一些工作，我們測試的軟體工具包括Caffe、CNTK、Tensorflow、MXNet以及Torch，我們暫時聚焦這在五款測試工具。

在測試硬體方面，我們早期做了一些CPU的測試，把它們的性能跟GPU做比較，後來發現差距實在太大，是以近期我們已經放棄了在CPU上做測試，已經沒有太大的實際意義GPU我們測試了多款市面上比較流行的GPU，從低端的到高端的。測試的網絡包括全連接配接的網絡，包括主流的深度卷積網絡以及RNN網絡。測試的資料集我們用的公開的資料集，當然我們自己合成的假的資料，真的資料裡面我們有MINST，CIFAR10，近期也包括了ImageNet。

深度神經網絡的計算裡最關鍵的是兩種運算：如果你是一個全連接配接層，它的計算主要是矩陣乘法，如果你是卷積層，它的核心計算是卷積運算。在主流的深度卷積網絡裡大家可以看到超過80%的運算是來源于卷積運算，一般的深度網絡最後一兩層才用到全連接配接層，是以這個卷積操作其實是現在深度學習裡面最關鍵的核心技術。剛才孫劍博士也分享了如何做卷積的心得體會。大家有興趣的話可以讀一下最近三四年中發表的非常經典的學術論文，這就是學術界和工業界的互動，現在學術界也慢慢流行開源，他們有好的想法好的算法不僅發表論文而且公開源代碼，很快英偉達就會把他們的成果內建到他們的library裡面。

簡單講一下卷積運算為什麼那麼複雜，因為卷積是一個數學概念，它的實作千變萬化，有一本書專門講如何實作卷積運算，目前最主流的有三種算法：第一是通過矩陣運算，這是Caffe最早使用的。第二是Facebook一直推動的基于快速傅立葉變化的運算，第三是基于Winograd的實作，這個方法已經存在幾十年了，隻是近期發現它在特殊情況下能夠取得非常好的性能。

我們在Tesla P100對最新的cuDNN5.1版本做了測試，比較這三種算法，為什麼選這三種算法，因為cuDNN實作了這三種算法供大家選擇。大家可以看到在不同的網絡配置下大家的性能還是有很大差距的，目前在小的卷積核上Winograd遠遠超過矩陣運算和快速浮列變化的運算性能，如果你想網絡訓練得比較快一定要了解卷積操作。

在深度學習整體架構的測試，最新的測試主要是針對四款GPU包括GTX 980、X Pascal另外還有P40和P100。測試的軟體還是剛才提到的那五款軟體。近期我們和浪潮合作也在測試他們的Caffe-MPI。Caffe-MPI是基于英偉達開發的NVCaffe做的并行版本。我們同時做了一些小規模叢集上的測試。這是四個節點的GPU叢集，一共有16塊P40的卡，它們的網絡連接配接用的56個Gb的網絡，大家留意的是我們這個測試環境用的是基于PCle的P40，如果用的是NVlink的顯示卡那性能應該會更好。

這張圖是Cifar10在AlexNet上跑的結果，我們測試了不同的 Minibatch 增加的時候，顯示的是運作時間，是以batch越高就代表越慢。在這組測試裡面我們發現CNTK的性能的确是最好的，微軟這個團隊對性能投入了相當多的精力，它的性能在這組測試裡是最好的。大家以後決定用什麼平台用什麼硬體的時候一定要自己做好測試，看看你自己用的是哪款卡，以決定你選取哪一個平台，或者你先決定用哪個平台再考慮選哪一款卡，二者之間有一個比對問題。

今天主要想跟大家分享的是在多卡環境下的性能，因為單卡過去一年我們已經做出了非常多的報告，多卡的環境的測試相對比較少一點。單機多卡狀态下，大家關心的是一個加速比的問題，如果我要買四張GPU，買一台伺服器還是買四台伺服器？這涉及到成本的問題。非常高興地告訴大家通過我們的測試，目前主流的測試平台在單機多卡的表現都非常好，它的加速比基本上都是線性的，而且我們用的是PCIE總線，沒有使用NVlink，如果使用NVlink的話，卡和卡之間的通信性能會更好一點。

最後彙報一下我們在GPU叢集上的測試結果。這個叢集是4個節點的叢集，每個節點裡面有4張卡，最多有16張卡，我們關心的同樣是用16張卡的性能和用1張卡的性能到底有多少提升。在GoogleNet上面這裡的資料代表的是1秒鐘能夠處理多少張圖像，如果考慮單卡大家可以看到CNTK和MxNet性能差不多，但是擴充性上MxNet的性能在16張卡的性能在我們測試裡是最好的，涉及到磁盤IO問題。

CaffeMPI的加速比是最好的，加速比達到了16張卡可以帶來15倍的提升，但是為什麼它的絕對性能并沒有CNTK和MxNet這麼好，因為單卡性能基于NVCaffe開發的。如果大家想對Caffe-MPI了解更多的話，下午四點鐘浪潮的吳博士會給大家做一個關于Caffe-MPI的詳細介紹，尤其使用Caffe的使用者大家想想怎麼把Caffe這個平台擴充到多機的環境下面，Caffe-MPI是非常好的選擇。

最後談一下我們近期的計劃。首先我們要考慮把其他主流的比較新的深度學習軟體包括進來，比如百度的PaddlePaddle，還有近期的PyTorch。硬體方面我們考慮把AMD的晶片和軟體做一些測試比較，有可能我們也會聯絡一些做AI晶片的公司跟我們一起做一些Benchmark，我們希望擴充性方面把16張卡做到更多，比如32張卡64張卡，尤其在Cloud裡面的表現。

我們歡迎同大家合作，我們是一個非常開放的平台，任何有興趣的朋友都可以發郵件給我。最後我要感謝浪潮提供這麼好的一個平台給大家，也感謝英偉達對我們提供了很多硬體的支援，感謝CNTK團隊、Tensorflow團隊和MxNet團隊對我們的支援，謝謝大家。

原文釋出時間為：2017-09-18

編輯：胡祥傑

本文來自雲栖社群合作夥伴新智元，了解相關資訊可以關注“AI_era”微信公衆号

【深度學習架構大PK】褚曉文教授：五大深度學習架構三類神經網絡全面測評（23PPT）

繼續閱讀

anaconda中科大鏡像

安裝tensorflow1.12出現illegal hardware instruction python錯誤1、問題2、定位問題3、問題解決4、驗證

Linux下Anaconda安裝tensorflow-gpu

tensorflow筆記實踐：正則化優化過拟合

TensorFlow運作模型——會話

【Ubuntu-Tensorflow】TF1.0到TF1.2出現“Key LSTM/basic_lstm_cell/bias not found in checkpoin”問題

linux下的conda安裝tensorflow

Linux環境下 TensorFlow的安裝和使用基于Anaconda的tensorflow安裝

MindSpore儲存模型的格式疑惑

【Tensorflow】Tensorflow介紹

鸢尾花分類

利用tensorflow建構AlexNet模型，實作小數量級的貓狗分類（隻有train）

ImportError: libcublas.so.10.0: cannot open shared object file: No such file解決方法

ImportError: libcublas.so.9.0: cannot open shared object file: No such file or directory（完美解決）

一種解決思路： ImportError: libcublas.so.10.0: cannot open shared object file: No such file

K-近鄰算法以及圖像分類應用