背景
随着AI技術在各大産業的應用落地,企業對AI技術的人力投入和資源投入也越來越大,尤其是在深度學習場景,許多知名企業都成立了AI實驗室,并采購了大量了GPU資源用于深度學習訓練和推理,而在目前市場,主流的GPU在提供強勁算力的同時,也給企業帶來了昂貴的成本,說白了,AI創業公司想盈利,除了獲得更大的商機訂單外,還要解決資源成本的問題。飛天AI平台自9月雲栖大會釋出後,首次推出線上推理高性能優化的産品級服務——PAI Blade,它可以幫助企業提升推理效率,大大節省在推理場景的GPU資源。

那麼PAI Blade的能力如何被使用上呢?
點選連結,使用PAI Blade能力,和技術團隊交流:釘釘群:21946131
線上推理是抽象的算法模型觸達具體的實際業務的最後一公裡,PAI已經對外推出了
PAI-EAS線上模型服務,幫助大家解決模型服務化的問題,目前已經吸引數百家企業入駐。但是在這個環節中,仍然還有這些已經是大家共識的痛點和訴求:
- 任何線上産品的使用者體驗都與服務的響應時長成反比,複雜的模型如何極緻地壓縮請求時延?
- 模型推理通常是資源常駐型服務,如何通過提升服務單機性能進而增加QPS同時大幅降低資源成本?
- 端-邊-雲是現在模型服務發展的必然趨勢,如何讓離線訓練的模型“瘦身塑形”進而在更多裝置上快速部署使用?
是以,線上推理的加速優化成為了AI界的重要研究領域。在前段時間,有不少使用者看到了
天貓精靈業務如何使用機器學習PAI進行模型推理優化,來咨詢如何在自己的業務中get同款技術紅利,今天為大家帶來的這個好消息就是,高性能線上推理優化架構PAI-Blade終于在公共雲和大家見面啦!
PAI-Blade發展曆程
PAI-Blade是阿裡雲機器學習團隊研發的面向通用場景的深度學習推理優化架構。經過1年多的發展,在阿裡集團内部已經服務了包括安全部、AI Lab、阿裡媽媽、搜尋、達摩院、ICBU、CCO、新零售、菜鳥、X Lab等衆多部門,滿足集團内不同業态豐富業務場景下的多樣化需求,模型涵蓋了圖像識别、目标檢測、OCR檢測識别、自然語言處理、語音識别、智能問答、人機對話、搜尋、推薦、視訊處理、文本分類等各類大家所熟知的AI子領域。
PAI-Blade對内首先需要服務好規模體量大、對RT/QPS要求嚴格、以及高影響力的關鍵業務。典型的案例比如阿裡機器翻譯,需支援21個語種、48個語向,在整個電商的完整鍊路上提供包括SEO,商品詳情、搜尋、評論,實時溝通等多個場景,針對集團内衆多國際化業務提供全面的實時翻譯能力,以及在大型會議上提供實時語音翻譯、同聲傳譯服務等。每天提供近十億級的線上翻譯服務,峰值數萬QPS的語句翻譯能力。如此規模體量的線上服務對于響應時間、吞吐量和資源成本都是極其敏感的。經過PAI-Blade的優化,實作2-3倍,在有些場景下甚至更高的性能提升。目前可以穩定支援200ms以内的響應時延,日調用7.5億次,5000億字元的并行處理能力,以及雙11期間數倍于此的服務需求。
同樣體量較大的業務還包括安全相關服務、搜尋、推薦、天貓精靈等。業務細節這裡不一一展開,總而言之對于規模體量較大的業務,優化所涉及的模型和熱點雖有很多不同,但相似的是都有衆多的服務場景和快速的模型疊代,以下整理了部分業務效果資料:
業務/部門 | 模型類别 | 模型 | 加速比 |
---|---|---|---|
菜鳥無人車 | (2D&3D) 目标檢測 | 自研模型 | RT 3.9x |
ICBU | 自研檢測模型 | 模型RT加速2x | |
大知識産權業務 | RefineDet,caffeNet,自研模型 | QPS 2.5x | |
天貓精靈 | ASR | 自研BERT模型 | QPS 2.8x |
CCO阿裡店小蜜,AliOS車載場景等 | 自然語言處理 | QPS 3.43x | |
新零售業務 | 文本分類 | TextCNN | QPS 1.3x |
安全部鑒黃業務 | 内容識别 | QPS 5.48x | |
視訊搜尋業務 | 視訊 | QPS 1.8x |
通常來說,不同的業務場景具有不同的需求層次。而PAI以Blade為核心,提供了一整套從模型優化,到一鍵式線上部署(包括部署環節優化),到離線runtime推理,到線上熱點分析、tuning的全棧模型優化加速解決方案。在集團内部我們提供了不同層次,多種形式的接入方式。經過衆多業務場景賦能過程中的反複打磨,PAI-Blade除了能夠把針對不同業務的優化能力提煉沉澱到自研架構中,還鍛造了一整套工程體系,努力簡化使用者的使用鍊路和上手成本。基于這些最佳實踐,我們将全棧的推理優化能力進行了抽象和封裝,并于2019歲末,以非常簡單易用的形态呈現在
PAI公共雲産品中,正式開始對外公測,歡迎大家随時來撩,目前在上海Region免費試用。
極簡試用體驗
在阿裡雲機器學習PAI平台上,僅需四步即可實作模型從優化至部署調用全流程。
- 在PAI控制台您可以一鍵上傳您的深度學習模型,支援多種模型格式,包括Tensorflow (saved model or frozen pb)、Keras(.h5)、Caffe、Onnx等模型
飛天AI平台年度巨獻,線上推理優化正式上線,讓深度學習成本直降50% - 快速體驗在不同卡型(Nvidia P4/Nvidia T4/Nvidia P100/Nvidia V100)上基于不同優化政策(O1無損優化、O2量化壓縮優化)的優化效果。
飛天AI平台年度巨獻,線上推理優化正式上線,讓深度學習成本直降50% - 需要更高優化效果的使用者,也可以直接在我們提供的 進階配置框 來提供更多模型資訊
- 優化過程通常在幾分鐘即可完成,性能加速資料列看到優化後模型的latency加速的資料
- 每次優化任務都會産出一個新的模型挂在原模型的子模型清單中。之後根據不同政策下産出模型的效果對比,您可以直接選擇優化效果最優的模型部署至 PAI-EAS服務 ,這裡需要注意先建立和優化時GPU卡相同的 資源組 再進行模型部署
飛天AI平台年度巨獻,線上推理優化正式上線,讓深度學習成本直降50% - 我們提供了封裝好的Blade服務調用 用戶端SDK ,服務部署完成後可以直接使用SDK進行高效服務調用。
敬請期待
- 支援優化後模型的自定義Processor開發
- 支援更多通用模型架構,将更多無需關心的資訊對使用者屏蔽
- 通過簡單易用的使用方式提供更多層次更靈活的優化政策