魚羊 發自 凹非寺
量子位 | 公衆号 QbitAI
AI領域這股大模型之風,可謂是席卷全球,越吹越勁。
單說2021年下半年,前有微軟英偉達聯手推出5300億參數NLP模型,後又見阿裡達摩院一口氣将通用預訓練模型參數推高至10萬億。
而就在最近,紮克伯格還宣布要豪砸16000塊英偉達A100,搞出全球最快超級計算機,就為訓練萬億參數級大模型。
大模型正當其道,莫非小模型就沒啥搞頭了?

就在“中國工程院院刊:資訊領域青年學術前沿論壇”上,阿裡巴巴達摩院、上海浙江大學高等研究院、上海人工智能實驗室聯手給出了一個新的答案:
須彌藏芥子,芥子納須彌。
大小模型協同進化,才能充分利用大模型應用潛力,建構新一代人工智能體系。
此話怎講?
這就得先說說大模型“軍備競賽”背後的現實困境了。
大小模型協同進化
核心問題總結起來很簡單,就是大模型到底該怎麼落地?
參數規模百億、千億,乃至萬億的大模型們,固然是語言能力、創作能力全面開花,但真想被部署到實際的業務當中,卻面臨着能耗和性能平衡的難題。
說白了,就是參數量競相增長的大模型們,規模太過龐大,很難真正在手機、汽車等端側裝置上被部署應用——
要知道,1750億參數的GPT-3,模型大小已經超過了700G。
達摩院2022年十大科技趨勢報告中也提到,在經曆了一整年的參數競賽模式之後,在新的一年,大模型的規模發展将進入冷靜期。
不過在這個“陣痛期”,倒也并非沒有人試吃“大模型工業化應用”這隻螃蟹。
比如,支付寶搜尋框背後,已經試點內建業界首個落地的端上預訓練模型。
當然,不是把大模型強行塞進手機裡——
來自阿裡巴巴達摩院、上海浙江大學高等研究院、上海人工智能實驗室的聯合研究團隊,通過蒸餾壓縮和參數共享等技術手段,将3.4億參數的M6模型壓縮到了百萬參數,以大模型1/30的規模,保留了大模型90%以上的性能。
具體而言,壓縮後的M6小模型大小僅為10MB,與開源的16M ALBERT-zh小模型相比,體積減少近40%,并且效果更優。難得的是,10MB的M6模型依然具有文本生成能力。
在移動端排序模型部署方面,這支研究團隊同樣有所嘗試。
主流的模型壓縮、蒸餾、量化或參數共享,通常會使得到的小模型損失較大精度。
該團隊發現,把雲上排序大模型拆分後部署,可形成小于10KB的端側精細輕量化子模型,即保證端側推理精度無損失,同時實作了輕量級應用端側資源。這也就是端雲協同推理。
在阿裡的應用場景下,研究團隊基于這樣的協同推理機制,結合表征矩陣壓縮、雲端排序打分作為特征、實時序列等技術和資訊,建構了端重排模型。
該技術試點部署在支付寶搜尋、淘寶相關應用中,取得了較為顯著的推理效果提升,且相關百模設計解決了在不犧牲熱門使用者服務體驗的同時,最大化冷門使用者體驗的難題。
從以上的案例中,不難總結出大模型落地應用的一條可行的途徑:
取大模型之精華,化繁為簡,通過高精度壓縮,将大模型化身為終端可用的小模型。
這樣做的好處,還不隻是将大模型的能力釋放到端側,通過大小模型的端雲協同,小模型還可以向大模型回報算法與執行成效,反過來提升雲端大模型的認知推理能力。
達摩院、浙大和上海人工智能實驗室,還進一步将這一技術路線總結為端雲協同AI範式:
雲端大模型作為超級大腦,擁有龐大的先驗知識,能進行深入的“慢思考”。
而端側小模型作為四肢,能完成高效的“快思考”和有力執行。
兩者共同進化,讓AI向具有認知力和接近人類水準的智能邁進。
基于這樣的思考和實踐經驗,三方聯合研究團隊最新推出了端雲協同平台洛犀。
該平台旨在将端雲兩側的最佳實踐以文檔、算法元件、平台服務的形式沉澱下來,為開發者提供一站式端雲協同模型訓練、部署、通信能力。
具體而言,洛犀平台可拆解為端側、雲側、端雲鍊路三部分。
其中,端側以Python/js package的形式提供服務,稱為Luoxi-lite,包含表征、文本了解、圖計算等能力。
端雲鍊路側,平台提供實作端雲協同關鍵的通信能力,包括方案分發鍊路、資料通信鍊路。
端雲協同的模型訓練沉澱在雲端,稱為Luoxi-cloud,包含端模型訓練等。
目前,除了前文提到的部署于搜尋場景的M6模型、排序模型,研究團隊還借助洛犀完成了圖神經網絡、強化學習等技術在端雲協同範式下的部署。
值得一提的是,1月12日,洛犀平台中雲上大模型核心技術“超大規模高性能圖神經網絡計算平台及其應用”,獲得了2021年中國電子學會科學技術進步獎一等獎。
芥子納須彌,加速大模型落地應用
說了這麼多,簡單總結一下就是,大模型展現的效果再怎麼驚豔,對于業界而言,終歸是落地應用方為真。
是以,對于大模型發展的下一階段來說,比拼的将不僅僅是誰燒的GPU更多、誰的模型參數規模更大,更會是誰能把大模型的能力充分應用到具體場景之中。
在這個大模型從拼“規模”到拼“落地”的過渡時期,達摩院、浙大、上海人工智能實驗室三方此番提出的“須彌藏芥子、芥子納須彌”的思路,便格外值得關注。
“龐大的須彌山如何納入極微小的種子中?”
對于當下大模型、小模型的思辨而言,解決了這樣一個問題,也就在充分利用大模型能力、探索下一代人工智能系統的路途上更進了一步。
結合曆史上計算形态的變化,随着物聯網技術的爆發,在當下,盡管雲計算模式已經在通信技術的加持下得到了進一步強化,但本地計算需求也在指數級持續湧現,将全部的計算和資料均交由集中式的雲計算中心來處理并不符合實際。
就是說,發展既發揮雲計算優勢、又調動端計算靈活性的計算模式,才是當下的需求所在。
也正是在這樣端雲協同的趨勢之下,大小模型的協同演進有了新的範式可依:雲側有泛化模型,端側有個性化模型,兩個模型互相協作、學習、推理,實作端雲雙向協同。
而這,正解決了我們在開頭提到的,大模型落地過程中面臨的性能與能耗平衡之困。
正如浙江大學上海高等研究院常務副院長吳飛教授所言,從大模型到終端可用的小模型,關鍵在于“取其精華、化繁為簡”,實作高精度壓縮;而在端雲協同架構之下,小模型的實踐積累對于大模型而言,将是“集衆智者無畏于聖人”。
你覺得呢?
— 完 —