AI算力需求100萬倍增長，如何優化AI計算系統彌平鴻溝？

在深度學習激發的人工智能熱潮下，許多創新力很強的企業的人工智能技術正逐漸從研究實驗走向應用與生産，在這一過程中，AI計算系統設計與優化的重要性愈發明顯。

同時算法的發展對整個計算需求所造成的挑戰會變得更大，提高整個AI計算系統的性能與效率迫在眉睫。

在機遇與挑戰的雙重推動下，有創新力的AI企業會研發出怎樣的産品去面對變革？9月20日，

AI WORLD 2018世界人工智能峰會

重磅釋出AI領域年度大獎——

，評選出2018年度對AI領域作出重大貢獻，切實推動AI進步和發展的人物、企業和産品。本次峰會上，浪潮AI伺服器成功登榜「AI産品影響力TOP10」。

浪潮是知名的AI計算力廠商，緻力于從計算平台、管理套件、架構優化、應用加速四個層次打造靈活、高效、優化的AI基礎設施。浪潮AI伺服器采用創新設計，為AI研發與應用提供領先計算力，多款産品為業界首創，如全球首款在2U空間内高速互聯內建8顆最高性能GPU加速器的伺服器AGX-2、單機可實作支援16個GPU的超大擴充性節點的SR-AI整機櫃伺服器等。9月12日，浪潮又釋出了一款AI超級伺服器AGX-5，性能高達每秒2千萬億次，是目前全球最強大的AI計算主機之一。AGX-5也是浪潮在計算量劇增的挑戰之下，追求更高研發效力的新成果。

在未來，AI計算系統将要面臨計算平台優化設計、複雜異構環境下計算效率、計算架構的高度并行與擴充、AI應用計算性能等挑戰。浪潮AI首席架構師張清在AI WORLD 2018世界人工智能峰會引用去年Jeff Dean報告裡的一句話：“事實證明，我們真正需要的是超過現在100萬倍的計算能力，而不僅僅是幾十倍的增長。”

從計算需求來看，AI計算系統的設計與優化之路似乎任重道遠。是以，為應對上述挑戰，張清在本次峰會上從AI計算平台與算法的Co-design、AI計算平台管理、AI計算架構的高擴充性設計、AI實際應用性能優化這四個方面來分析了AI計算系統設計與優化方法。

下面就是浪潮AI首席架構師張清在AI WORLD 2018世界人工智能峰會上的演講《AI計算系統設計與優化：從實驗到生産》的主要内容。

張清：大家好！在深度學習激發的人工智能熱潮下，很多AI創新力很強的企業的人工智能技術正逐漸從研究實驗走向應用與生産。在AI研究從實驗到生産過程中，AI計算系統的設計和優化也是非常關鍵。今天我主要想從工程和系統角度談談我的想法。

浪潮主要圍繞計算方面做了很多創新與研究，解決了不同行業、不同場景計算的平台和架構，其中包括産品和方案工作。在人工智能方面，浪潮也做了較多的創新。

截止到2018年，浪潮AI處于高速增長态勢，AI增速達到600%，比全球150%增長速度幅度快很多，在中國市場，浪潮AI計算份額已達到57%。

在AI計算領域，浪潮不僅是提供基礎的計算平台，除了像GPU、CPU伺服器的供應之外，浪潮還會圍繞AI全棧方案，給到使用者關于系統管理的平台，例如AI Station，這包括性能分析工具Teye，以及高性能高擴充AI計算架構，針對垂直行業，浪潮也提供相關的AI應用方案。

人工智能仍是最熱技術之一，AI計算領域愈發重要

在本次峰會上，很多專家探讨人工智能是否進入了寒冬時期這一問題？我個人的觀點是：AI現在尚處于起步發展階段，它仍是最熱的一個技術。

從Gartner 2018年資料看到，全球人工智能市場商業價值一直處于高速增長趨勢，到2018年，所催生的商業價值會達到1.3萬億美元，而未來将會達到接近5萬億美元。從技術成熟度曲線可以看到，未來2-5年會有大量AI技術實作從創新期到成長期的過渡，現在仍有很多AI技術處于爬坡發展階段。

在推動AI發展過程中，有三大要素起着主導作用，除算法、資料外，計算方面也越來越重要。根據浪潮與IDC研究聯合釋出的《2018中國AI計算力發展報告》摘要版資料顯示，2021年計算方面的投資将占到整個AI投資的近一半以上，2017年至2022年将會達到近6倍的增長。

接下來是關于AI計算的發展趨勢，整個AI計算領域呈現了以下幾大趨勢：

● 模式：從科研實驗到應用生産；

● 規模：從單機計算到大規模叢集或雲計算；

● 架構：從通用CPU計算到定制化計算；

AI計算系統設計與優化迫在眉睫

但AI計算發展趨勢演變過程中面臨着巨大的挑戰：随着模型所需的精度越高，所需的計算量也會呈現增長趨勢。

引用去年Jeff Dean報告裡的一句話：“事實證明，我們真正需要的是超過現在100萬倍的計算能力，而不僅僅是幾十倍的增長。”也就是說，對于未來的我們，算法的發展對整個計算需求所造成的挑戰會變得更大，提高整個AI計算系統的性能與效率顯得尤為重要。

以下是我們需要去考慮的三個方面的問題：

1.計算規模從單機到叢集再到大規模雲計算，規模呈量級、指數級增長，計算複雜度會越來越大；

2.計算架構從單一通用架構CPU+GPU到混合異構架構CPU+GPU+FPGA+XPU，如何在異構并行與協同計算方面考慮如何提升整體系統的效率也變得舉足輕重；

3.系統環境方面，需要單一使用者以及單一場景解決到現在多個使用者、多場景複雜環境的建構，進而提升整個系統效率。

而從這三方面問題的考慮，實際上是對整個系統設計優化分四個層面：

1.如何對AI計算平台做一個合理的設計和建構以及優化；

2.随着資源變大、計算系統變得更複雜，AI平台管理設計與優化的重要性愈發明顯；

3.需要更快的工具，即AI計算架構優化；

4.AI應用本身的性能優化和算法設計方面也需要得到重視。

AI計算平台的優化需結合模型算法、應用場景特點進行Co-Design

對于AI計算平台的設計優化，需要把AI分成訓練和推理兩大部分：

就訓練方面而言，需要建構一個高擴充的計算平台，能夠支撐大規模分布式的并行架構，讓其擴充性更強。而整個系統涉及到網絡、存儲、IO的吞吐能否跟上計算，則是需要計算平台架構方面考慮到的問題。

圍繞整個應用、算法、模型、網絡的特點，例如有的模型參數比較密集，對我們系統通信要求比較高，有的計算性能要求比較高，則需要圍繞性能方面考慮如何提升整個系統性能的能力，這裡就需要從本身模型算法方面做一個Co-Design。

推理方面的複雜性比訓練方面更高，它不僅展現在性能方面，更關心的是使用者的體驗。當對于大規模進行部署雲計算時，我們需要考慮到它的運維成本，需要低功耗平台架構來做支撐。

基于這些考慮，浪潮計算平台圍繞未來AI計算平台，更多是關心算法模型一些計算的特點，其應用場景的特點，來進行Co-Design的設計。我們在圍繞不同場景方面打造計算平台，試圖能夠更好地解決在特定場景下性能和延時、存儲的問題。

9月12日，浪潮最新釋出了AGX-5，它比浪潮上一代AGX-2整體性能會更高，計算性能可達到2 PetaFlops，并且會搭載16×Tesla V100最強GPU來加速性能。在支撐GPU互聯架構方面，現在采用NVSwitch互聯結構，可以支撐8對GPU，每一對GPU之間是300個GB/s，那麼整個帶寬會達到2.4TB/s。另外，相比于此前需要采用模型并行的方式來說，有一些模型在512GB之内不需要做模型并行，支援大模型的訓練。

如何優化AI平台管理？計算資源需要做到共享與獨享

AI不同項目之間，可能每個組之間有小的GPU訓練平台，當規模達到一定量的時候，幾百個卡或更大規模時，整個資源使用率實際上是很低的，可能低于50%以下。

由于AI應用場景越來越多，資源整合和整體利用也變得尤為重要。如何能夠從整體上把這些資源進一步打通，對不同使用者、不同應用進行資源配額優化？計算資源需要做到共享與獨享。

在推理應用方面時，需要考慮計算資源的負載均衡政策優化。結合AI計算全流程，從資料預處理、開發、訓練到推理上線，對一個平台的資源進行管理。

基于這方面，浪潮AIStation計算管理平台應運而生，它可以針對不同應用采用比較便于安裝的方式，利用容器化的方式進行打包、安裝和部署，隻需一鍵便能實作。此前，部署一套架構需要1-2周的時間，并且需要靠人為方式去安裝，而現在，靠容器方式就可以實作。并且也支援可視化調試，加快模型開發時間，并且實作整個計算資源的統一管理和排程。

從實際案例效果來看，沒有部署AIStation和部署之後的效果對比相當明顯：在部署前，整個GPU使用率隻有40%，通過AI平台統一管理後，GPU使用率可以達到70%以上。整個作業排程吞吐從原來支援的200個以上達到600個以上，整個資源效率實作大幅度提升。

AI計算架構與AI應用性能優化

圍繞AI計算架構，開源的架構很多，需針對性能和擴充性兩個方面進一步做更深入的優化：

在計算方面，不僅僅是GPU滿負荷運作，需實作CPU與GPU共同并行計算，進一步提高資源使用率，同時，圍繞新的晶片架構的計算特點，采用混合精度或半精度計算，發揮計算晶片的效率；在通信方面，可以采用異步或半異步方式實作計算與通訊隐藏的優化，通過合并小資料，提升通信效率來提升整個通信效果；在IO吞吐方面，采取多線程的資料讀取與預取機制。

在圍繞AI應用性能的優化方面，針對訓練端AI應用，需要從以下幾個次元考慮：

首先需要進行應用性能分析；其次，對整個硬體系統、軟體系統進行适配優化；另外，還需針對GPU架構特點、架構特點、網絡算法特點進行優化。

例如，浪潮幫助某使用者實作高性能人臉識别訓練應用時，優化後性能與優化之前相比提升了2.6倍以上；而面對使用者應用從消費級卡到工業級卡的更新，我們針對工業卡的特性也做了一些相關優化，相關應用性能提升了4倍。

而針對推理端AI應用性能優化，整個架構不僅僅是采用通用架構，如CPU與GPU，而是更多地開始關注定制化架構平台，如TPU或其他PU。而充分發揮定制化晶片架構的性能，則需要算法和硬體協同優化。

最後，我将進行簡單地總結：如今，AI面臨着巨大的計算挑戰，提高AI計算系統性能與效率變得尤為重要，我們需要從系統的角度進行綜合考慮。

而AI計算系統設計與優化需要從四大方面着手：

● 通過計算平台與算法、應用場景的Co-Design；

● 通過計算平台管理優化，提升計算吞吐與并發；

● 通過計算架構的并行優化，提升擴充效率與性能；

● 通過計算應用自身的優化，提升應用性能。