天天看點

華為雲盤古大模型:下礦坑、測台風、進産線,沒時間作詩

作者:甲子光年
華為雲盤古大模型:下礦坑、測台風、進産線,沒時間作詩
紮根行業,沒有釋出“盤古Chat”。

作者|塗明 朱悅

編輯|趙健

封面|《霍比特人3:五軍之戰》

“百模大戰”又添一員!

據不完全統計,在短短七個月時間内,全球“有名有姓”的大模型便已多達數百個,僅在中國就有至少80個。而在今天,“百模大戰”中又有一支強軍湧現——在華為開發者大會2023上,華為雲釋出了盤古大模型3.0。

過去半年,華為在燥熱的大模型市場顯得異常低調。雖然早在2021年4月,盤古大模型1.0就已經釋出,早于今天大部分的大模型。但是,當ChatGPT掀起的大模型熱席卷全球時,與百度、阿裡等大廠相比,華為的聲量要小的多。

似乎是為了解釋此前的“低調”,也似乎是為了喊話眼下“琴棋書畫詩文”俱全的AI應用現狀。今天,華為常務董事、華為雲CEO張平安明确喊出了盤古大模型的價值觀:“不作詩,隻做事。”

華為雲盤古大模型:下礦坑、測台風、進産線,沒時間作詩

“不作詩”表明華為不會推出類似ChatGPT、百度文心一言、阿裡通義千問等面向C端使用者的聊天機器人産品,而“隻做事”意味着盤古大模型把重心放在了B端行業大模型的落地上。

盤古大模型All in B端市場,這一判斷也與ChatGPT的市場走勢形成了對比。今年6月,ChatGPT的全球流量環比下滑了10%,意味着人們對于聊天機器人産品的興趣正在降低,相比之下,to B市場還是一片藍海。

華為本身就是做企業市場起家,對于服務企業使用者有更為豐富的經驗。

雖然表面看起來華為雲是各大雲廠商中對大模型的反應最慢的一家,但實際上盤古大模型已經在政務、金融、制造、煤礦、鐵路、制藥、氣象等十幾個行業的數百個場景落地,在國内雲廠商中獨樹一幟。同時,與盤古大模型3.0一同上線的,還有華為雲昇騰AI雲服務。

大模型普遍被雲廠商看作是下一個重要的增長點。根據IDC資料,華為雲2022年在國内的市場佔有率位居第二,僅次于阿裡雲之後。而在行業市場的充分布局,有望讓華為雲進一步搶占市場。

這場關于AI的雲端戰争,已經正式打響了。

1.更新至3.0,盤古大模型有哪些亮點?

盤古大模型3.0都包含什麼?據張平安介紹,這是一個涵蓋三級體系的“大家夥”。

三級體系是華為在2022年4月提出的概念,即基礎大模型L0、行業大模型L1,以及場景大模型L2。三者層層遞進,從通用能力逐漸向各個垂直領域演進,由此“重塑行業”,支撐起華為“AI for industries”的宏大目标。

華為雲盤古大模型:下礦坑、測台風、進産線,沒時間作詩

具體而言,盤古大模型在L0層面包含五大基礎大模型,分别是語音語義大模型(NLP)、視覺大模型(CV)、科學計算大模型、多模态大模型和圖網絡大模型。

其中,盤古NLP大模型是業界首個千億參數的中文預訓練大模型,首次使用了Encoder-Decoder架構(與谷歌T5相同),可以讓大模型兼具語言的了解與生成兩種能力。盤古NLP大模型由華為雲和循環智能聯合開發,由鵬城實驗室提供算力支援。

CV大模型參數量為30億,是業界首次實作按需抽取的模型;科學計算大模型主要解決各種科學問題,擁有湍流模拟、天氣預報、自然災害預警等多種能力;多模态大模型則具備圖像和文本的跨模态了解、檢索與生成能力;圖網絡大模型主要解決資料異質化問題,華為首創了圖網絡融合技術,極大拓展了大模型的泛化能力,讓一個模型能夠應用于多個任務。

在L0基礎大模型底座之上,華為結合行業資料進一步訓練,就是L1行業大模型。去年11月,華為雲首次公布了在礦山、氣象、藥物大分子、金融等四個領域的行業大模型;L2則是在L1行業大模型基礎上,更進一步深入細分場景的推理模型,比如金融領域的金融違約風險識别模型、櫃台從業人員工作流程指導模型等。

在今天釋出的盤古大模型3.0中,NLP大模型和多模态大模型得到了兩個重磅更新,其餘三大模型将從這些進步中獲益。

第一個更新發生在NLP大模型上。過去,大模型領域彌漫着一種“參數量至上”的評價氛圍,大廠之間的大模型參數量從數千萬迅速“卷”上了千億級别。張平安表示,其實對大模型而言,參數量的大小并不是最佳評價标準,如何用好參數、讓大模型運作地更穩定、對行業适應性更強,才更值得關注。

是以,在盤古大模型3.0中,華為在原有的千億級參數NLP模型外,還釋出了710億、380億、100億等多種參數級别的模型。張平安表示,“華為的AI管道裡跑了幾十款模型,之是以提供這麼多不同參數的模型,是因為要考慮到不同行業、不同應用場景下中,客戶對大模型的不同需求。核心是用最低的算力消耗,實作最比對的解決效果”。

華為雲盤古大模型:下礦坑、測台風、進産線,沒時間作詩

第二個更新則是“将大模型分為‘Data’、‘Foundation’和‘Capability’三層,彼此間互相解耦”。

據張平安介紹,Data指資料層,華為單獨為所有大模型設計了一個訓練資料池,Foundation層即基礎層,是不同參數大模型之間的差異,而Capability是能力層,各個大模型之間的能力層要做到一緻,即“所有大模型共用一個能力集”。張平安強調,“能力集是一個全新的設定”。

他舉了個例子,比如多模态大模型的能力集包括圖像生成、圖像了解等。能力集共用以後,一方面,這些能力集“可以直接被客戶調用”,另一方面“科學計算大模型、視覺大模型等也可以直接調用多模态大模型的能力”。

對于這一點改變,張平安表示,資料層解耦後,“每次訓練都可以明确調用的是哪些資料”,這有利于資料安全,并能解釋不同模型能力的差別。基礎層和能力層的解耦更重要,“基礎層和能力層解耦以後,你不管用什麼參數級别、基礎類型的大模型,300億也好,1000億也好,多模态也好,科學計算也好,在能力上完全一緻。”

Foundation和Capability為什麼一定要解耦?這種變化的威力有多大?

張平安認為,将能力集獨立出來,做到完全解耦,是讓大模型配适不同場景所必須的一步。而在這種變化的基礎上,華為盤古大模型成功從“小作坊”的生産模式進入到“工業化”時代,盤古大模型是以有能力“重塑千行百業”。

2.AI for Industries,盤古沒時間作詩

L0層面的變化,帶來了L1層面的躍進。

在盤古大模型3.0釋出會上,張平安和華為雲EI服務産品部部長尤鵬一起展示了盤古大模型應用在礦山、鐵路、氣象、金融、制造、程式設計、視訊等七個行業領域時的威力。

比如在礦山行業,盤古大模型的能力是實作礦洞的無人巡檢、遠端作業。

在礦山作業危險度極高,由于礦洞中光線昏暗、浮塵密布、視野限制較大,攝像頭能發揮的作用不大,是以礦山中的巡視檢查工作一般都要由人工來完成。而通過盤古透塵大模型與視覺大模型,從業人員不用下井就能夠輕易識别井下情況,實作遠端操作。

目前,華為在礦山領域已經與山東能源集團及其技術公司雲鼎科技達成深度合作,雙方共同開發了21個場景化應用,覆寫了7大業務系統,在全國的8個礦井裡做到了規模化使用,能夠覆寫煤礦采、掘、運通、洗等全流程下的1000多個細分場景。

還有鐵路領域,盤古大模型的能力是助力貨車完成安全檢測。

據張平安介紹,中國總共擁有超過100萬輛貨車,每年跑在鐵路上的貨物高達将近五十億噸。為保證這些貨車的安全,傳統的做法是在軌道旁邊安裝高速錄影機,火車經過時對其底部進行高速攝影,拍攝圖檔送到檢測員手中,人工識别可能的故障點。

這是一套工作量極大且不甚可靠的工作方法。張平安做過統計,一個交通樞紐假如每天要過站1000輛貨車,則需要采集的照片數量為400萬張。這些工作需要260個有經驗的檢測員四班倒才能完成。

而應用盤古視覺大模型之後,一雙盤古眼就能看完所有的圖檔,由盤古進行初篩,初篩之後再由檢測員确認具體的危險。據統計,盤古大模型可以将400萬張照片篩至20萬張照片,篩除率高達95%,且故障的檢測漏檢率為0,能将檢測效率提升20倍,極大降低人工工作負擔。

類似的例子還有很多,比如氣象預測領域,傳統的預測方法要占用3000台伺服器,計算4~5小時才能完成,而盤古大模型隻需要在單台機器上工作10秒,張平安透露,盤古氣象預測模型的結構已經成為歐洲氣象局的參考之一。昨天(7月6日),盤古雲氣象大模型的相關論文還登在了國際頂級學術期刊《Nature》上。

在金融行業,華為與中國工商銀行合作打造金融大模型,幫助優化員工工作流程。工行在全國有4萬個網點、20萬+員工,應用華為大模型後,單次業務辦理流程能從5環降低為1環,單次結算時間減少5分鐘;在制造業,盤古大模型已經走進華為的制造生産線,其天籌集求解器已經被用于幫助華為設計排産計劃,排産工作的耗時從三小時排一天計劃,縮短到1分鐘排出未來三天計劃。在視訊領域,盤古大模型可以用三分鐘完成過去三個人花三天才能完成的工作量。

據華為雲人工智能首席科學家田奇介紹,在過去幾年,華為雲人工智能項目已經應用超過1000個項目中,其中30%用在客戶的核心生産系統裡,平均可以推動客戶盈利能力提升18%。張平安對此很驕傲,在華為開發者大會上多次呼籲,“讓我們為盤古大模型鼓個掌。”

張平安表示,“很多大模型,表現看起來都很好,會寫詩、會畫畫、會講故事,華為不一樣,華為的盤古大模型不會作詩,隻會做事”,他強調了華為的AI for Industries戰略,“盤古大模型是要紮根行業的,它要下礦坑、測台風,沒時間作詩”。

3.昇騰AI雲服務已上線

華為雲盤古大模型的創新力來自什麼?

張平安提到,一方面來自大模型自身模型的創新,另外一方面來自堅實的AI堆棧,即AI根技術。AI根技術包括底層算力、AI計算架構、AI開發平台、AI工程平台等。如果沒有成熟的AI根技術,大模型也很難發揮出出色的價值。

華為雲盤古大模型:下礦坑、測台風、進産線,沒時間作詩

對于底層算力,英偉達的GPU晶片是訓練大模型的最佳載體。但由于晶片禁令,華為是無法使用業内最成熟的GPU與配套軟體的。是以,華為隻能依靠自研的晶片。

在算力層,華為建構了“鲲鵬CPU+昇騰GPU”為基礎的昇騰AI雲算力底座。在訓練千億參數的盤古大模型時,華為調用了超過2000塊的昇騰910,進行了超過2個月的訓練。

基于昇騰AI雲算力底座,華為雲有“CANN+MindSpore”的AI架構。CANN作為華為針對AI場景推出的異構計算架構,向上支援多種AI架構,向下服務AI處理器與程式設計,而MindSpore作為全場景AI計算架構,實作端邊雲全場景靈活部署,以及一站式開發平台ModelArts,完成對計算、通信、存儲和算法多方面的優化。

通過這樣深度的AI堆棧,華為雲可以為盤古提供堅實可靠的AI基礎。如果需要更大的大模型叢集系統,還可以在通信方面進行深度優化。

張平安還表示,雖然無法使用業内最先進的大模型,但在AI昇騰雲算力的基礎上,它的效能不僅不落後,而且還達到了目前業界主流GPU的1.1倍。

盤古的快速疊代和更新離不開昇騰AI雲的支援。而華為雲不僅向行業輸出大模型,現在也可以向行業輸出訓練大模型的AI服務了。

就像微軟與OpenAI合作,向企業客戶與開發者提供微軟Azure OpenAI服務一樣,華為雲現在開始也可以向企業客戶與開發者提供昇騰AI雲服務。

華為雲盤古大模型:下礦坑、測台風、進産線,沒時間作詩

昇騰AI雲提供單叢集2000P FLOPS的算力,支援千卡訓練一個月以上不中斷,已經在貴安與烏蘭察布兩座城市的AI算力中心上線了,而下一座即将上線的是蕪湖AI算力中心。昇騰AI雲不僅支援華為MindSpore架構,同時也支援行業内主流的AI架構,如PyTorch、TensorFlow等。

在客戶層面,昇騰AI雲已經取得了一些進展。張平安提到,美圖在30天内将70多個AI應用遷移到了昇騰雲上,同時華為雲與美圖開發人員一起對30多個算子進行了深度優化。優化後的算子與以前相比,AI算力的效能提升了30%。

華為雲盤古大模型:下礦坑、測台風、進産線,沒時間作詩

大模型正在重塑各行各業,這并非是某一家企業的遊戲,而是需要企業、開發者和夥伴更加緊密地協作,共同創新,共享價值和機遇。張平安提到,已經有許多客戶和夥伴已經在創新應用中使用盤古大模型,優化企業流程,提高效率,推動行業智能化更新。

4.盤古幕後:華為雲的“特戰部隊”

雖然華為雲官方宣布盤古大模型的立項時間是在2020年,但實際上對于大模型的探索早就開始了。

2019年12月,華為諾亞方舟實驗室的NLP團隊就開源過兩個基于BERT路線進行優化和改進的預訓練模型——哪吒和TinyBERT。但該模型後續就沒有更多下文了。

2020年3月,華為諾亞方舟實驗室計算機視覺首席科學家田奇,在内部轉崗至華為雲團隊,擔任人工智能領域首席科學家。他将是後來的盤古大模型團隊的負責人。

田奇是計算機視覺領域的專家。他大學畢業于清華大學電子工程系,碩士畢業于美國德雷塞爾大學,後赴美國伊利諾伊大學香槟分校學習,師從Thomas S. Huang教授,并獲得博士學位。在2002年至2019年期間,曆任美國德克薩斯大學聖安東尼奧分校計算機系助理教授、副教授、正教授。

華為雲盤古大模型:下礦坑、測台風、進産線,沒時間作詩

華為雲人工智能領域首席科學家田奇

2018年,田奇做出了一個改變人生軌迹的決定,離開學術界,加入華為。對此,他曾如此解釋:“我在德克薩斯大學聖安東尼奧分校做了17年的老師,教的大學學生換了一批又一批,永遠是18歲到22歲。但我一直希望能夠将我們共同做過的東西投入到真實場景中,看能不能給社會提供作用、發揮價值。”

就在田奇加入華為雲的這個夏天,OpenAI釋出了GPT-3,模型參數從上一代GPT-2的15億陡升至1750億,在人工智能領域掀起巨大震動。當時,谷歌、Meta等國際巨頭已經圍繞預訓練大模型展開激烈競争,而在國内,預訓練大模型的發展還極為有限。根據IDC《2022中國大模型發展白皮書》的資料,2020年之前,中國大模型的數量隻有2個。

當時的華為雲已經把AI作為重要賽道。在看到預訓練大模型在解決AI應用碎片化、處理大規模多任務上表現出來的強大性能之後,華為雲也開始“彙聚英才”,準備進軍大模型。2021年時,該團隊包含20多名博士、30多名工程師、3名廣受關注的“華為天才少年”,還有50多名來自全國C9高校的專家。

田奇希望給盤古大模型找到差異化突破口。當時國外對NLP大模型的關注度較高,而且已經取得了較好的成績,但國内外對CV方面的大模型關注度都不高。是以,華為雲盤古大模型沒有局限在NLP領域,而是從CV着手,與NLP并行,二者結合語言、圖像,搞多模态。同時,還特别看重華為一向非常重視的科學計算。

2020年11月,盤古大模型在華為雲内部立項成功。為了盡快追趕上國際水準,田奇将這個團隊稱之為“特戰隊員”,他們需要克服時間、資料、算力資源等等難題。

為此,田奇團隊采取廣泛合作的對策。例如資料方面,他們找到了氣象局等合作夥伴;資源、算力方面,又尋求與鵬城實驗室進行合作。成員本身也需要随時調整身份做其他工作,比如CV專家可能也會去參與NLP和多模态大模型的開發,甚至他的CV知識都會靈活運用到其它領域中。在後期,這些技術專家們還需要更長遠地去考慮商業化模式方面的問題。

在奮戰6個月之後,華為雲盤古大模型終于面世,并在接下來的兩年中進行了兩次大版本的疊代,直到今天盤古大模型3.0的釋出。

華為雲提前種下的種子,已經比多數同行更早結出了果實。

繼續閱讀