天天看點

每秒處理107萬張圖檔!阿裡雲打破MLPerf推理性能測試紀錄

來源 | 阿裡雲基礎設施微信公衆号
每秒處理107萬張圖檔!阿裡雲打破MLPerf推理性能測試紀錄

阿裡雲打破MLPerf推理性能測試絕對性能紀錄

● 阿裡雲震旦異構計算加速平台全棧優化技術獲曆史性突破,MLPerf圖像分類場景性能測試奪得多項第一。

● 每秒處理107萬張圖檔,基于GPU系統第一次超越百萬級性能紀錄。

● 應用阿裡電商場景,圖檔關聯産品推薦速度提升5倍,使用者購物體驗更加流暢。

2021年4月21日,MLCommons™釋出MLPerf ™1.0版推理性能測試結果。阿裡雲伺服器研發團隊基于震旦異構計算加速平台的軟硬體全棧優化技術獲得曆史性突破!在MLPerf圖像分類(Image Classification)性能測試分類中取得多項第一,特别是在離線場景(Offline Scenario) 性能測試中,基于8張NVIDIA A100 GPU通過開放優化規則取得了每秒處理107.8萬張圖檔的驚人成績,超越了V0.5版本中由128張Google TPU V3在該測試中通過封閉優化規則取得的每秒處理103.9萬張圖檔的最好結果,一舉拿下了絕對性能紀錄的寶座,這也是通用GPU計算平台首次超越百萬級的性能紀錄。

每秒處理107萬張圖檔!阿裡雲打破MLPerf推理性能測試紀錄

這将進一步提升圖像識别、自動駕駛等場景下的計算效率,比如在阿裡電商某場景下,基于相同GPU硬體采用編譯自動優化技術後,自動分類标記産品圖像或者搜尋圖像效率大幅提升,伺服器數量減少75%,通過圖檔關聯的産品推薦速度提升5倍,使用者購物體驗更加流暢。

MLPerf™是目前全球最權威的AI基準測試之一,在2018年釋出V0.5測試結果之後,迅速得到了各大廠商、科研機構和高校支援和參與。圖像分類是AI領域最為熱門的應用領域之一,圖像分類性能測試是MLPerf™推理性能創始測試之一,且每一版、每個參與者都會送出該測試的離線場景測試結果,競争之激烈,稱之為MLPerf™測試皇冠上的明珠并不為過。

震旦平台MLPerf推理性能結果1.0版成績

震旦是阿裡雲自研的異構計算加速平台,适配GPU、ASIC等多種異構AI晶片,優化編譯代碼,深挖和釋放異構晶片算力,支援TensorFlow、Caffe、PAI等多種深度學習架構,可實作AI架構及算法的無縫遷移适配,支援雲變端多場景快速部署,大幅提升AI應用開發效率。在MLPerf最新版的圖像分類測試中,震旦平台針對圖像分類神經網絡架構進行自動優化,在保證基準測試精度目标的同時,遠超标準ResNet50 v1.5的計算效率。

在公布的MLPerf推理性能測試結果1.0版中,除了在8卡GPU配置上性能奪魁,阿裡雲還在A100、主流推理GPU T4,以及剛剛官宣的下一代推理GPU A10的單卡性能結果也都獲得了第一,且成績大幅領先第二名。

每秒處理107萬張圖檔!阿裡雲打破MLPerf推理性能測試紀錄

◆ 在A100上,阿裡雲第一個超越了單卡10萬量級,達到了136142 IPS(Image Per Second),是本次送出其它廠商最佳成績的1.84倍;

◆ 在A10上,阿裡雲的性能達到了69514 IPS,是本次送出其它廠商最佳成績的3.61倍;

◆ 在T4上,本次其他廠商成績未超越0.7版的最佳,而阿裡雲的結果達到了30414 IPS,是0.7版最佳的2.34倍。

值得一提的是,震旦異構計算加速平台針對機器學習模型的自動優化技術,能做到對GPU架構的通用支援,僅需要非常少的人工便可高效利用新一代的GPU架構。我們利用官宣剛釋出的單張A10 GPU,系統性能能夠達到單張A100 GPU的系統性能的50%以上,而其他廠商僅能達到三分之一左右。

基于深度軟硬體全棧優化的解讀

震旦異構計算加速平台之是以在此次評測中取得如此優異成績,得益于其出色的軟硬體全棧優化能力,首先在頂層算法模型上,使用基于自動機器學習(AutoML)的模型設計方式,這種方式可以獲得比人工設計更高效的模型。震旦基于MIT的先進的神經網絡架構搜尋算法Once-For-All,使用了基于強化學習的自研搜尋算法獲得了高性能子網絡;之後通過INT8量化獲得硬體加速繼續提高性能,并在量化前進行深度重訓練,以保證量化後的精度能夠達到測試的精度要求。

每秒處理107萬張圖檔!阿裡雲打破MLPerf推理性能測試紀錄

上圖為高性能子網絡示意圖,IRB即反轉殘差塊(Inverted Residual Block),是用于網絡架構搜尋的基本子產品。每個反轉殘差塊包括三層卷積算子,圖上反轉殘差塊的長度代表了該塊的輸出channel數量。

一般機器學習架構的算子實作專注于優化主流的神經網絡架構,而對于NAS的反轉殘差塊則效率不佳,震旦使用了基于自動調優的大規模算子融合技術,大幅提高了推理時算子對GPU的使用率,并且可根據不同的架構自動調優到最佳算子實作,是以能快速發掘全新GPU架構的潛力,例如在剛官宣的A10晶片上,震旦的優化結果能達到50%的A100的性能,而TensorRT目前僅能做到三分之一。

2020年,參與MLPerf的多家廠商聯合成立了MLCommons組織,旨在推動人工智能的進一步發展,而MLPerf也成為了MLCommons旗下的重要部分。阿裡巴巴作為MLCommons的創始會員,一直積極參與MLPerf 測試結果的送出,2019年11月釋出的MLPerf 推理性能測試結果0.5版本中,阿裡巴巴平頭哥AI晶片含光800在封閉優化規則下Resnet50基準測試中獲得單晶片性能第一。

技術驅動的阿裡雲在基礎設施技術創新和前沿科技上不斷突破,堅持軟硬體協同優化,為雲計算、人工智能提供更加先進的高可用大規模雲基礎設施,給全球消費者帶來更好的使用者體驗。基于震旦異構計算加速平台的機器學習模型自動優化技術,可應用在包括視覺處理在内的多個場景,如電商場景視訊圖像識别和處理、城市大腦交通場景等。目前,該平台通過阿裡雲彈性計算加速執行個體EAIS對外提供服務。彈性計算加速執行個體EAIS,将異構算力資源池化的同時,與CPU計算資源解耦以增加配置靈活性,結合震旦平台的EAIS,将彈性、靈活、以及高性能完美結合,為使用者提供高成本效益的深度學習計算解決方案。

每秒處理107萬張圖檔!阿裡雲打破MLPerf推理性能測試紀錄

繼續閱讀