來源:阿裡巴巴基礎設施 阿裡雲基礎設施公衆号

業界首個深度學習開放接口标準開源了!
9月18日,在剛剛結束的雲栖大會上,阿裡雲智能研究員/基礎設施首席異構計算科學家張偉豐博士宣布對行業開源業界首個深度學習開放接口标準ODLA(Open Deep Learning API, 面向深度學習的開放接口,以下同)。
ODLA開源連結演講視訊連結(請掃以下二維碼選擇“大規模高擴充異構計算池化技術”)
張偉豐博士在雲栖大會上宣布開源ODLA
ODLA是業界首個面向深度學習的異構硬體統一API标準
在今年上半年的2020 OCP 全球峰會上,張偉豐博士公開了阿裡雲定義的ODLA接口标準,這是業界首個面向深度學習的異構硬體統一API标準,此次開源為行業标準化共建更進了一步。
ODLA是一個為加速深度學習的統一異構硬體程式設計接口。ODLA規範了深度學習計算任務的定義和執行,實作上層應用和底層異構硬體平台的解耦,讓AI異構計算更簡單,實踐代碼“生成一次,随時連結,随處執行”(generate once, link anytime and run anywhere)的願景。
張偉豐博士在2020 OCP 全球峰會上公布ODLA接口标準
AI的蓬勃發展,不斷促進應用和技術創新,也帶來新的挑戰。AI應用越來越大的算力需求,讓AI加速硬體迎來了黃金時代,湧現了各種Domain-Specific(領域專用) 的AI加速硬體。目前市面上已經有十餘種AI加速硬體(新興AI晶片持續湧現中)及其配套的SDK接口,由于缺少統一的異構硬體接口标準,AI應用開發者需要學習掌握多種硬體特性和相應的代碼優化适配技術,同時AI晶片廠商也面臨針對不同架構的适配以及不同算法的定制開發,進而導緻雙方在時間和資源上進行大量的重複投入。
雖然業界在軟硬體解耦上都進行了積極的探索,如AI架構層插件方式(如下圖所示),但是這樣的方案需要為每一種硬體裝置開發一層厚重的插件,具有明顯的不足,比如(1)硬體耦合性太緊,為不同硬體開發的後端代碼不能複用;(2)開發難度較大,需專業掌握各種硬體的SDK接口;(3)更新和維護成本比較高,一旦AI加速硬體的SDK更新或調整,後端相關的接口調用也需做相應的更新。
異構AI加速硬體業界現有對接方案
ODLA是輕量高效的異構硬體統一接口标準
為了解決前述問題,讓AI應用在異構硬體之間進行快速的平滑切換,阿裡雲開發了業界首個面向深度學習的異構硬體統一API标準ODLA(如下圖所示),在AI架構層和異構AI加速硬體間定義一套多模态API接口标準,進行軟硬體解耦,讓AI上層應用軟體和底層硬體彼此獨立開發演進,并極大提升開發和部署效率。
基于ODLA的異構AI硬體對接方案
ODLA主要特性及優勢
- 透明接口層,零損耗。
- 接口抽象和統一,軟硬體解耦:通過面向AI的多粒度算子抽象,定義統一的接口,解耦具體軟硬體,平滑遷移業務;實作代碼複用,提升開發和部署效率。
- 多模态執行方式:支援多種執行模式,覆寫解釋執行、編譯執行、載入預編譯代碼等場景,相容各種硬體的運作模式。
- AI全場景支援:支援推理和訓練,适配雲、邊、端全場景AI業務;擁有廣泛的算子定義和豐富的接口(裝置管理、會話管理、執行管理、事件同步/異步、資源查詢、性能監控等)。
- 卓越的擴充性,支援AI晶片廠家獨特屬性和自定義算子。
一個好的标準不僅依賴技術能力和前瞻性判斷,更需要結合場景打磨和應用效果驗證。正如演講材料中提到的,ODLA是在阿裡雲異構計算編譯架構基礎上,經過阿裡巴巴豐富的應用場景、強大的算法技術和多種異構AI加速硬體應用經驗中不斷地總結和提煉出來的,是輕量高效的異構硬體統一接口标準。
阿裡巴巴已經在多種主流AI加速硬體進行ODLA的落地實踐,實踐效果證明:通過ODLA,在不同硬體上技術适配和應用部署的工作量可以從原來的數十人月縮短到數人月,提升10倍效率。另外,通過ODLA可以更好的與AI計算架構進行軟硬協同,快速利用現有的編譯優化技術,達到最佳性能。以下是某款AI加速硬體基于ODLA與阿裡巴巴編譯架構協同的性能優化對比:
某款AI加速硬體基于ODLA方案的性能對比
ODLA讓AI異構計算更簡單,推進AI算力的通用化和普惠
阿裡雲不斷進行基礎設施技術創新和前沿科技突破,為雲計算、人工智能等提供先進的基礎設施。這些創新不僅通過阿裡雲直接普惠廣大使用者,也共同推進了行業技術進步。此前阿裡雲已将多個伺服器領域的技術成果開放,如存儲領域的OpenChannel SSD(AOC SSD)規範、雲資料中心伺服器技術标準方升開放項目、基礎架構重構的浸沒式液冷技術等。ODLA是在AI異構計算領域的異構加速硬體接口的開放,旨在推動該領域建立統一的接口标準和生态,讓AI異構計算更簡單,降低AI應用在新AI加速硬體的開發門檻,推進AI算力的通用化和普惠。
阿裡雲已經釋出了第一版ODLA,目前已經獲得多種主流AI硬體支援, 更多的合作生态還在持續擴大中。歡迎更多的技術夥伴參與ODLA共建!