天天看點

雙11個性化推薦背後,阿裡雲“舜天”如何應對百億次挑戰?

2018天貓雙11在技術世界,創下不少新記錄,其中有一個記錄是11日當天阿裡全平台共為使用者做個性化推薦453億次,這些推薦的圖檔長度加起來可以繞地球70圈。

當你在天貓/手淘上買買買的時,圖檔會以不同格式或分辨率來轉碼呈現,這就要求背景系統需要強大的算力來保障數倍于平時的轉碼需求。FPGA是可程式設計晶片中處理這類并行計算的最佳能耗比方案,這位曾經高冷的“王謝堂前燕”,通過雲計算的價值加成,正在賦能越來越多的科技創新。

在今年的XDF 2018大會上,阿裡雲的工程師首次向業界揭開了阿裡雲FPGA平台“舜天”的神秘面紗,這台雲端計算加速的新引擎初露鋒芒。

雙11個性化推薦背後,阿裡雲“舜天”如何應對百億次挑戰?

/初識FPGA:計算加速新引擎/

FPGA最大的特點是直接基于硬體程式設計,擁有高吞吐和低延時等特性,可以很容易搭建出資料并行通道,同時完成流水線并行;相對于ASIC,又具有軟體的可程式設計性和靈活性,這讓它能完美适應AI等對大算力有剛性需求并且尚處于快速疊代期的場景。

雙11個性化推薦背後,阿裡雲“舜天”如何應對百億次挑戰?

FPGA能力模型

然而,傳統的FPGA線下開發,過程非常繁瑣。對于IP提供商或方案內建商來說,需要自己開發和維護硬體,推廣難、成本高。對于客戶來說,開發時也繞不開硬體環節,試錯成本大、周期長。

FPGA+雲正好是解決這些難題的最佳方案。

阿裡雲工程師張振祥介紹,

“舜天”平台整合了傳統FPGA産業鍊的多個環節:從晶片原廠商,硬體,IP供應商等等,将它們統一打包成平台資源,使客戶可以專注于算力的實作,而IP供應商可以簡化傳遞流程,大幅優化傳遞周期和營運成本。

從2017年8月開始,“舜天”已經曆經三代産品疊代,最新上線的F3系列執行個體,可提供超過1000萬邏輯單元和高達47 TeraMACs的DSP計算能力。

以時序資料庫為例,舜天平台的處理效率比CPU高出30倍以上:單路FPGA實作的實測峰值性能為2.97GB/s,相比之下,單核CPU壓縮的實測性能約為90M/s。在圖檔識别場景下,舜天F3提供的算力約相當于7台CPU伺服器,大幅降低了Capex成本,相比CPU伺服器,TCO降低超40%。

雙11個性化推薦背後,阿裡雲“舜天”如何應對百億次挑戰?

而且,這個能力還可以擴充,當開發者在處理高性能計算和機器學習時,往往需要多晶片共同計算。“舜天”提供了各類高速接口,可完成1/2/4片晶片互聯拓撲,并支援動态配置。以卡内雙晶片通信為例,帶寬高達600Gbps,同時支援多種輕量級傳輸協定,傳輸效率達95%。

/一睹真容:久經沙場的悍将/

在阿裡巴巴内部,“舜天”其實已經久經沙場,支撐了包括雙11在内的超大型計算場景、城市大腦、時序資料庫、高清視訊編解碼等等明星業務都涉及FPGA加速。

以雙11舉例,在客戶通過淘寶/天貓APP或者網頁端浏覽商品時,圖檔需要以不同格式或分辨率來呈現。舜天平台的并行計算能力,直接将圖檔處理的延時縮減到CPU伺服器的50%,将吞吐能力提升了數倍。

在基因賽場裡,“舜天“的表現也很出色,100Gbp全基因組分析時間被縮短至兩小時,速度比過去提升了10倍,機關成本也大大降低。全基因,指的就是把物種細胞裡面完整的基因組序列從第1個DNA開始一直分析到最後一個DNA,這種技術幾乎能夠鑒定出基因組上任何類型的突變。

/化繁為簡:大幅降低開發門檻/

在傳統軟體工程師眼裡,FPGA晶片的開發門檻是很高的,一方面需要了解HDL硬體程式設計,一方面需要對底層硬體和接口了如指掌。

在此次的XDF大會上,阿裡雲工程師潘嶽介紹了舜天平台的解決方案。

首先,“舜天”增加了對進階系統語言的支援,包括C, C++, OpenCL等。這意味着開發者可以在他們熟悉的程式設計語言和工作流程中順暢使用,而且確定原本基于CPU或GPU的開發可以輕松移植到雲上的FPGA器件中。同時,阿裡雲還提供了大量的參考設計和開發包,幫助開發者快速建立系統。

接口方面,“舜天”提供了統一的标準總線接口,包括:DDR4/5、PCIe、DMA等等,開發者無需動手,隻需要關心内部邏輯實作(圖中灰色部分)。

雙11個性化推薦背後,阿裡雲“舜天”如何應對百億次挑戰?

此外,阿裡雲還支援多種主流FPGA的Shell+Role實作,可以适配跨平台的Multi-boot方案,讓使用者能夠輕松完成跨平台遷移。

/IP加密隔離:安全不打折/

作為FPGA生态的最重要一環,IP廠商非常在意雲上的多租戶環境。既要需要確定IP産品不洩露,又要保證使用者購買的IP隻能被自己使用。

為此,阿裡雲采用了IP加密、網絡隔離、IP所屬權和使用權分離等方式確定了使用者的源碼(或IP源碼)、發行包、部署環境全程對第三方完全不可見,同時還提供健康監控能力,及時感覺底層故障并實時報警。

雙11個性化推薦背後,阿裡雲“舜天”如何應對百億次挑戰?

作為最早入住舜天平台的IP提供商之一,聯捷計算科技CTAccel CEO俞海樂博士表示,

上雲後安全是我們最關注的問題,阿裡雲的安全隔離做得非常到位,這也是我們優先選擇阿裡雲進行部署的原因。

/不變的使命:共建普惠異構生态/

此前阿裡雲的Slogan“為了無法計算的價值”一直深入人心,積極布道普惠計算。自推出異構計算依賴,開發者在阿裡雲上能以更少的價格使用性能更強的GPU/FPGA執行個體,在深度學習領域将開發成本降低了一半以上。

為了讓更多開發者能夠享受到FPGA的收益,阿裡雲推出了FPGA彈性雲伺服器,并建立了FPGA鏡像市場,讓具有創新思路和成熟解決方案的IP産品通過平台脫穎而出,擴大市場規模,加快研發進度,提高設計穩定性。

張振祥說,

舜天是阿裡雲使能人工智能産業的一大利器,我們歡迎更多的開發者加入阿裡雲FPGA生态,推動技術落地到産業中去。

繼續閱讀