天天看點

阿裡雲彈性GPU服務架構和案例分析AI智能爆發關鍵因素分析阿裡雲的方案?阿裡雲彈性GPU服務架構和案例分析FPGA雲計算結構和場景分析

阿裡雲異構計算産品研發進階專家龍欣在2017年12月7日雲栖大會蘇州峰會上做了題為《阿裡雲異構計算平台——加速AI智能創新》的主題演講。當今人工智能的發展迅速,阿裡異構平台很好的應對了這一發展趨勢。其中異構計算平台在布局和設計上的思考、阿裡雲的彈性GPU服務架構以及案例分析以及阿裡雲的FPGA雲計算架構及場景使用等内容都是首次對外詳細剖析,很有價值。

以下為精彩視訊内容整理:

異構計算主要是指使用不同的計算單元組成系統的計算方式,常見的計算單元類型包括CPU、GPU、FPGA、ASIC等。因為GPU、FPGA和ASIC能滿足人工智能對計算能力的要求,是以目前人工智能晶片格局的是:GPU,FPGA,ASIC三分天下。

人工智能的發展有兩個業務階段:第一個階段是訓練階段,就是在背景去準備自己的業務模型;第二個階段是推理服務,這是真正變現的階段。這兩個階段對計算力、模型以及平台的要求是有很大差別。訓練服務是計算密集型,隻在垂直上擴充,使用離線服務,關注吞吐量,主要針對高精度浮點資料。推理服務是服務密集型,在水準上擴充,使用線上服務,對延遲要求比較高,主要是針對整型快速計算。

阿裡雲全新一代異構計算加速引擎是一個面向多場景的異構計算加速平台,它的使用涉及三個領域:

(1) 圖形圖像:影視渲染、3D設計、視訊轉碼;

(2) 機器學習:人臉識别、視訊識别、車輛識别、自動駕駛、機器翻譯等;

(3) 科學計算:氣象預測、油藏模拟、基因工程、計算金融。

為了能支援這麼多的應用場景,異構平台使用了非常強健的基礎設施,包括第二代的Apsara vSwitch網絡,英偉達最新的v100伺服器以及xilins最新的VU9 FPGA晶片以及第三代的分布式存儲技術。

阿裡異構平台在全球也做了布局。如果企業想在海外部署自己的業務 ,可以在該平台上把自己公司的環境快速搬遷到海外,完成部署,而且搬遷的速度是以天為計的,能節省時間,幫助企業快速把業務擴充起來。

在市場中,阿裡雲異構平台具有很強大的核心競争力。因為它提供了高可靠的基礎設施、企業級異構産品以及全面的安全防護;提供面向高性能計算、AI訓練以及高速圖形離線渲染;提供豐富的場景化産品、多種虛拟化技術以及強大生态支撐;提供巨大的資源池,支援全球部署業務以及靈活購買方式。

阿裡雲推出的競價執行個體能進一步降低企業使用GPU的成本。當企業的業務足夠健壯靈活,能按時釋放和申請,通過一個靈活的模式去競價,可以達到1.8折的折扣,獲得使用廉價資源的機會。

目前阿裡雲異構計算與NVIDIA深度學習研究院實作DLI平台與内容實作全球合作。而且阿裡雲的人工智能初創企業扶持計算-風池計劃,是給人工智能初創企業提出一個定向扶持計劃,為了幫助企業更好的發展。

阿裡雲彈性GPU服務架構和案例分析AI智能爆發關鍵因素分析阿裡雲的方案?阿裡雲彈性GPU服務架構和案例分析FPGA雲計算結構和場景分析

這個異構平台是與阿裡雲所有生态子產品全打通的,這是它的核心競争力。通過各種元件的組合,使得它具備扶持一個行業的能力,幫助企業在雲上搭建一套業務系統。

GPU作為一種計算晶片,它的優勢非常明顯,具有實時高速、并行計算、浮點計算能力強的特點。阿裡雲彈性GPU服務(EGS)就是将阿裡雲的彈性計算和GPU高速的并行異構的加速器組合在一起。EGS具備GPU所有的加速的能力,兼具阿裡雲彈性計算的特點,可适用于深度學習、視訊轉碼、圖形渲染、科學計算等場景。

EGS有兩種計算執行個體:可視化計算執行個體和高性能計算執行個體。可視化計算執行個體有一種:GA1共享GPU,它能提供更細粒度的GPU執行個體,降低使用門檻和成本,而且能為可視化計算提供很好的性能保證。高性能計算執行個體有四種:GN4獨享GPU,提供通用計算執行個體;GN5獨享GPU,具有深度學習和高性能計算的強大算力;GN5i獨享GPU,是專為深度學習推理現在服務定制的執行個體;GN6獨享GPU,是專門為深度學習訓練定制的執行個體。

下面介紹兩個典型的EGS應用:

(1) 彈性GPU執行個體加速阿裡雲圖像識别服務

阿裡雲彈性GPU服務架構和案例分析AI智能爆發關鍵因素分析阿裡雲的方案?阿裡雲彈性GPU服務架構和案例分析FPGA雲計算結構和場景分析

這個執行個體把訓練和推理放在阿裡雲的EGS服務之上,同時利用網絡互通的能力以及離線訓練和線上訓練去完成線上圖像識别的服務。

(2) 彈性GPU執行個體加速阿裡雲視訊轉碼服務

阿裡雲彈性GPU服務架構和案例分析AI智能爆發關鍵因素分析阿裡雲的方案?阿裡雲彈性GPU服務架構和案例分析FPGA雲計算結構和場景分析

在這個執行個體中異構平台隻處理線上服務,企業把離線訓練放在自己的模型中心,線上服務部署在阿裡雲上。像實時語音翻譯,對時延有很強的的要求。當使用者說完的時候,響應的時延不能超過幾個毫秒,否則會出現卡頓的情況。這時候對時延要求高,對計算力要求低。

阿裡雲彈性GPU服務架構和案例分析AI智能爆發關鍵因素分析阿裡雲的方案?阿裡雲彈性GPU服務架構和案例分析FPGA雲計算結構和場景分析

從圖中可以看出以太網絡随着包的增加,是一個指數的提升,而阿裡雲的基于升龍伺服器的超級計算叢集能保證在很大的傳輸資料位元組的情況下,會減少時延的情況,提供非常低的時延,并且依然保持線性的伸縮。這個計算機叢集還能實作擴容和性能的線性提升。

異構平台還提供了一些增值服務,包括彈性機器學習、專門針對廣告推薦的XDL架構、還有EHPC平台,都是為了幫助平台上的一些創業公司或者是剛剛進入這個領域的公司,能迅速把自己的模型部署在異構平台的硬體底層之上,而不用去關心這些平台的運維。這能節約這些公司的運維成本,縮短上雲時間以及減少上雲的準備。

FPGA與GPU相比,它的程式設計門檻更高,但是GPU的算法是固定的,對于非标準的資料來說,GPU就不那麼适用了。随着資料精度的一路往下降,GPU就顯得跟不上了。這時候FPGA加速器就應運而生,因為它的算法不固定,而且最低可以處理一個比特的資料。是以FPGA的硬體可程式設計和硬體加速能力就得到了越來越多雲廠商的青睐和部署。

阿裡雲也在部署了自己的FPGA伺服器——FPGA as A SERVICE(FaaS),它有三個設計目标:

(1) 引入FPGA作為彈性計算産品輸出。實作FPGA硬體的平台化和系統化,實作FPGA應邏輯的統一接口,并且符合雲安全運作環境。

(2) 在雲上打造整套FPGA開發環境。實作統一的雲上開發平台以及安全的IP部署管道。

(3) 建立FPGA IP生态和市場。與第三方合作,開發雲上的FPGA IP;與集團合作,把FPGA加速業務通過雲産品輸出。

FaaS包括三個元件:硬體基礎設施,包括FPGA雲伺服器,硬體加速開發,部署平台(Intel、Xilinx);雲上配套開發環境,包括廠商配套軟體(Quartus、Vivado),第三方EDA軟體(仿真、模拟);FPGA IP開發生态,包括金融計算、基因計算、壓縮加解密、硬體仿真設計、深度學習(預測/訓練)等。這樣FaaS能提供全面加速平台,在FPGA的IP開發、部署和釋出的各個環節提供高度的相容性和一緻性,并且通過FPGA IP市場配置和擴大FPGA生态。

阿裡雲彈性GPU服務架構和案例分析AI智能爆發關鍵因素分析阿裡雲的方案?阿裡雲彈性GPU服務架構和案例分析FPGA雲計算結構和場景分析

上面是FaaS的FPGA IP的分發流程。FPGA IP的開發等同于晶片開發,一個最核心的部分就是如何保護它的IP。IP的分發要保證不能讓對手、消費者拿到企業的源代碼。阿裡雲做了硬體的隔離,使使用者隻有使用加速能力的權利,而不能拿到企業的核心加速庫。

異構平台的FPGA雲上開發環境能保證企業線上上和線下有一緻的體驗,保證合企業和IP開發者能快速的上雲,把庫快速推出,在雲或者FPGA市場上輸出給使用者。

現在有很多的FPGA鏡像市場加入到了阿裡雲中,包括硬體仿真、金融算法、基因、深度學習、壓縮和加解密等,這豐富了FaaS的使用場景。

下面介紹兩個FaaS的典型應用場景:

(1) 時序資料庫(HiTSDB)

目前在大資料領域中,超過一半的物聯網(IoT)裝置監控系統,企業能源管理系統(EMS),生産安全監控系統,電力檢測系統等行業使用時序資料。阿裡雲HiTSDB是一種高性能,低成本,穩定可靠的線上時序資料庫服務。利用FaaS高并行度的優勢,提升HiTSDB的資料處理能力。目前它的單路資料吞吐性能是單核CPU的30倍以上。

(2) 資料壓縮(GZIP)

GZIP是一種檔案壓縮标準,其核心的算法是Huffman編碼和LZ77,能大幅度的減少檔案本身大小和占用的存儲空間,已經成為當今Internet上普遍使用的資料壓縮格式。阿裡雲FaaS平台支援OpenCL以及RTL兩種開發流程,在同樣壓縮比的情況下,其吞吐能力較CPU有10倍的提升。

以上由雲栖社群小組younger123整理,毛鶴校審,郭雪梅編輯。

繼續閱讀