天天看點

6000 字詳解華為盤古大模型:能否撐起世界 AI 另一極?

作者:極客公園
解耦——盤古大模型 3.0 來得晚,但瞄得準。

今天,華為在大模型領域狠狠秀了一把「肌肉」。

7 月 7 日,2023 華為開發者大會(HDC 2023)開幕。下午兩個多小時的主題演講裡,華為雲首次詳細披露了盤古大模型的進展,不僅釋出面向行業的盤古大模型 3.0,還詳細介紹了華為發展大模型的基礎技術能力。

盤古大模型 3.0 包括「5+N+X」三層架構,三層分别指 L0 層的 5 個基礎大模型、L1 層的 N 個行業通用大模型、以及 L2 層可以讓使用者自主訓練的更多細化場景模型。其采用完全的分層解耦設計,企業使用者可以基于自己的業務需要選擇适合的大模型開發、更新或精調,進而适配千行百業多變的需求。

6000 字詳解華為盤古大模型:能否撐起世界 AI 另一極?

華為輪值董事長胡厚崑在日前的 WAIC 大會上表示,華為發展大模型的核心是關注算力和應用。一方面是深耕算力,打造強有力的算力底座,來支撐中國的人工智能事業的發展。另一方面就是結合大模型,從通用大模型到行業大模型的研究創新,來真正讓人工智能服務好千行百業,服務好科學研究。

華為是國内最早布局大模型的雲服務商之一,早在 2021 年就已經釋出了盤古大模型。在發展大模型的道路上,華為從最底層建構了以鲲鵬和昇騰為基礎的 AI 算力雲平台,以及異構計算架構 CANN、全場景 AI 架構昇思 MindSpore,AI 開發生産線 ModelArts 等技術能力。

除了大模型和算力底座,會上,華為雲還重點介紹了盤古大模型與具體行業結合的典型案例,涉及的行業包括政務、氣象、鐵路、制造、金融,以及多個更新、重塑華為雲旗下軟體産品和服務的應用案例。

不論是基礎的技術能力,AI + 雲的産品服務體系,還是落到具體行業的應用案例,華為雲均展示出了高度成熟、成體系化的業務能力,這着實給行業帶來驚喜。在大家還在争論誰是中國的 OpenAI 時,華為雲已經開辟出了一條相當成熟的大模型發展道路。

華為在用自己的實踐證明,大模型很重要,但更重要的是用大模型解決行業和産品的痛點問題,做出能讓企業和使用者買單的産品和服務,為千行百業真正創造價值。

01

盤古大模型 3.0:

分層解耦架構

解耦,是今天釋出的盤古大模型 3.0 的關鍵詞。這也是過去幾個月來,實際調用大模型的行業客戶一個普遍的訴求。

一位頭部 SaaS 廠商在釋出自己的大模型更新應用時表示,「我們不自研大模型,而是在不同的業務場景中,哪個大模型擅長什麼事情,就接那個模型。」為了可以在不同的大模型之間切換,「我們自身産品架構上要做到與底層大模型無關,或者說松耦合。」

「盤古大模型的解耦設計,就是為行業着想」,在華為開發者大會上,華為常務董事、華為雲 CEO 張平安給出了盤古大模型的差異化路線。其核心是把盤古大模型的的各種層和能力解耦,讓行業使用者根據自己的需求去開發。

6000 字詳解華為盤古大模型:能否撐起世界 AI 另一極?

具體來說,盤古大模型 3.0 是一個面向行業的大模型系列,包括「5+N+X」三層架構:

「5」代表 L0 層的五個基礎大模型:包括自然語言、視覺、多模态、預測、科學計算大模型,提供滿足行業場景中的多種技能需求。

盤古 3.0 為客戶提供 100 億參數、380 億參數、710 參數和 1000 億參數的系列化基礎大模型,比對客戶不同場景、不同時延、不同響應速度的行業多樣化需求。同時提供全新能力集,包括 NLP 大模型的知識問答、文案生成、代碼生成,以及多模态大模型的圖像生成、圖像了解等能力,這些技能都可以供客戶和夥伴企業直接調用。無論多大參數規模的大模型,盤古提供一緻的能力集。

「5+N+X」三層架構中的「N」,代表 L1 層的 N 個行業大模型。行業大模型的提供方式有兩種:一方面,華為雲可以提供使用行業公開資料訓練的行業通用大模型,包括政務,金融,制造,礦山,氣象等大模型;另一方面,可以基于行業客戶的自有資料,在盤古大模型的 L0 和 L1 層上,為客戶訓練自己的專有大模型。

張平安表示:「盤古一出生就是為行業服務,提供了多種大模型的部署、開發和推理形态,可以像華為生成盤古大模型一樣,生成自己的行業大模型,隻需要輸入自己的私有資料。」并且,訓練資料也和大模型解耦。

「5+N+X」中的 X,則代表 L2 層為客戶提供了更多細化場景的模型,更加專注于政務熱線、網點助手、先導藥物篩選、傳送帶異物檢測、台風路徑預測等具體行業應用或特定業務場景,為客戶提供「開箱即用」的模型服務。

通過「5+N+X」的這三層大模型,華為雲建構了自己的大模型底座。

在昨天的世界人工智能大會上,華為輪值董事長胡厚崑形象地闡述道:「最基層對标的是通用大模型,我們叫做基礎大模型。這層我們形象的叫做讀萬卷書,就是要做好海量的基礎知識的學習。這一層之上還打造了行業模型和場景模型,叫做行萬裡路。從讀萬卷書到行萬裡路還有很多的挑戰要克服,很關鍵的一點就是要把各行各業的知識與大模型進行充分的比對和融合,華為正在和各個行業的夥伴一起進行努力。」

此外,大模型的創新不僅僅是模型自身的創新,更依賴于 AI 的各項根技術創新。會上,華為諾亞方舟實驗室主任姚駿介紹了盤古大模型的技術底座。

華為在最底層建構了以鲲鵬和昇騰為基礎的 AI 算力雲平台,以及異構計算架構 CANN、全場景 AI 架構昇思 MindSpore,AI 開發生産線 ModelArts 等,為大模型開發和運作提供分布式并行加速,算子和編譯優化、叢集級通信優化等關鍵能力。基于華為的 AI 根技術,大模型訓練效能可以調優到業界主流 GPU 的 1.1 倍。

6000 字詳解華為盤古大模型:能否撐起世界 AI 另一極?

算力是訓練大模型的基礎。在本次大會上,張平安宣布單叢集 2000P Flops 算力的昇騰 AI 雲服務在華為雲的烏蘭察布和貴安 AI 算力中心同時上線。昇騰 AI 雲服務除了支援華為全場景 AI 架構昇思 MindSpore 外,還支援 Pytorch、Tensorflow 等主流 AI 架構。

同時,這些架構中 90% 的算子,都可以通過華為端到端的遷移工具平滑遷移到昇騰平台。例如,美圖僅用 30 天就将 70 個模型遷移到了昇騰,同時華為雲和美圖團隊一起進行了 30 多個算子的優化以及流程的并行加速,AI 性能較原有方案提升了 30%。

此外,在大模型訓練過程中經常會遇到 GPU 故障,研發人員不得不經常重新開機訓練,時間長,代價大。昇騰 AI 雲服務可以提供更長穩的 AI 算力服務,千卡訓練 30 天長穩率達到 90%,斷點恢複時長不超過 10 分鐘。

02

賦能千行百業

任正非此前曾表示,「人工智能軟體平台公司對人類社會的直接貢獻可能不到 2%,98% 都是對工業社會、農業社會的促進。但是應用平台不是我們的選項,我們會做 AI 的底層算力平台。」

讓大模型走進千行百業,已經成為華為發展大模型的工作重心。會上,華為雲介紹了盤古大模型在政務、鐵路、氣象、金融等七個領域的應用案例。

政務

6000 字詳解華為盤古大模型:能否撐起世界 AI 另一極?

在政務領域,華為雲攜手深圳市福田區政務服務資料管理局,上線了基于盤古政務大模型的福田政務智慧助手小福,能夠精準了解群眾咨詢意圖,改變傳統的一網通辦模式。通過對超過 20 萬條政務資料進行精調,包括 12345 熱線、政策檔案、政務百科等,政務助手掌握了豐富的法律法規、辦事流程等行業知識。

華為雲介紹,盤古政務大模型的核心,是認知能力。讓城市公共系統從看得見到看得懂,完成從感覺,到認知、處置的閉環。并根據不同場景,提供問答、文案生成、視訊感覺、多模态了解等不同的能力。

6000 字詳解華為盤古大模型:能否撐起世界 AI 另一極?

華為雲介紹了兩個典型場景:首先是一個咨詢場景,企業使用者向政務助手咨詢相關的投資扶持政策,政務助手可以介紹相關的法規政策,并為咨詢者提供适當的建議;第二個場景,如上圖所示,是一個基于對話和多模态能力的政務處理場景,從業人員可以根據攝像頭拍攝的圖檔,智能分析圖檔中的違規情況。

鐵路

6000 字詳解華為盤古大模型:能否撐起世界 AI 另一極?

在鐵路領域,華為展示了貨車檢測助手的應用案例。

傳統列檢員每天要檢測數百萬張列車圖檔,檢測鐵路網絡運作的貨車是否存在故障問題。引入盤古大模型後,可以精準識别現網運作的 67 種貨車、430 多種故障,無故障圖檔篩除率高達 95%。換言之,列檢員隻需要檢測過去 1/20 的列車圖檔,相當于提高了 20 倍的工作效率。

煤礦

在煤礦領域,盤古礦山大模型已經在全國 8 個礦井規模使用,一個大模型可以覆寫煤礦的采、掘、機、運、通、洗選等業務流程下的 1000 多個細分場景,讓更多的煤礦勞工能夠在地面上作業,不僅能讓煤礦勞工的工作環境更加舒适,而且可以極大地減少安全事故。

氣象

6000 字詳解華為盤古大模型:能否撐起世界 AI 另一極?

氣象領域是華為雲釋出會上介紹的重點,就在幾天前,盤古氣象大模型的研究成果發表在國外頂級期刊《Nature》,被審稿人評價為:讓我們重新審視氣象預測的未來。

6000 字詳解華為盤古大模型:能否撐起世界 AI 另一極?

原來預測一個台風未來 10 天的路徑,需要在 3000 台伺服器的高性能計算機叢集上花費 5 小時進行仿真。現在基于預訓練的盤古氣象大模型,通過 AI 推理的方式,研究者隻需單台伺服器上單卡配置,10 秒内就可以獲得更精确的預測結果。

6000 字詳解華為盤古大模型:能否撐起世界 AI 另一極?

目前,盤古氣象大模型可以用于預測海浪、高溫、台風、寒潮等氣象,相比傳統的氣象預測速度更快、準确率也更高。此前盤古和氣象局合作,提前 10 天預測了「瑪娃」的路徑。此外,盤古也提前兩天預測到了芬蘭寒潮到來,相比歐洲氣象局的預測。盤古的預測也更接近真實氣溫,

金融

在金融領域,盤古大模型與工商銀行合作,打造了一系列探索性的應用。

其中一個典型的場景是提高銀行櫃員的工作效率。工行在全國有數萬個網點,20 萬網點櫃員。他們需要在各種業務間切換,這會浪費大量的時間。

6000 字詳解華為盤古大模型:能否撐起世界 AI 另一極?

盤古金融大模型對銀行的各種操作、政策、案例文檔進行預訓練,能根據客戶的問題,為櫃台從業人員自動生成流程和操作指導,将原來需要平均 5 次的操作降低為 1 次,辦結時間縮短 5 分鐘以上。

而這隻是最初級的應用,華為正在與金融行業探索,未來将大模型運用到信貸分析等更多的金融場景。

制造業

華為本身也是一家制造企業,其生産制造的硬體産品,涉及通信基站、手機、汽車、晶片等多個領域。基于過去積累的經驗,華為将盤古大模型引入到生産制造領域。

6000 字詳解華為盤古大模型:能否撐起世界 AI 另一極?

過去單産線制定器件配置設定計劃,往往要花費 3 個小時以上才能做齊 1 天的生産計劃。盤古制造大模型學習了華為産線上各種器件資料、業務流程及規則以後,能夠對業務需求進行準确的意圖了解,并調用天籌 AI 求解器插件,1 分鐘即可做出未來 3 天的生産計劃。

藥物研發

在藥物研發領域,原來一款新藥研發平均需要 10 年時間、花費 10 億美金。盤古藥物分子大模型助力西安交通大學第一附屬醫院劉冰教授團隊發現全球 40 年來首個新靶點、新類别的抗生素,并将先導藥物研發周期縮短至 1 個月、研發成本降低 70%。

03

大模型融入華為雲産品體系

除了在千行百業的落地實踐,華為雲盤古大模型也深度融入了華為雲的産品服務,重構産品創新。

盤古大模型+華為雲服務

盤古大模型加持下,華為雲一系列 B 端産品服務被更新重構。會上,華為雲介紹了資料服務、雲客服、BI、雲搜尋四項服務更新的細節。

6000 字詳解華為盤古大模型:能否撐起世界 AI 另一極?
  • 在資料服務中,通過盤古大模型的文案生成和代碼生成技術,能夠提升資料撰寫和前端代碼編寫效率,将新産品上市周期大為縮短。
  • 在雲客服,通過嵌入行業知識庫和意圖挖掘能力的對話問答,實作全流程 AI 優先作答,提升客服工作效率 30%。
  • 在 BI,通過 NL2SQL 和 AutoGraph 智能路由,實作 SQL 到可視化圖表的自動推薦,通過多輪自然語言互動,讓人人都能便捷地從資料中洞察業務細節。
  • 在雲搜尋,通過多模态 Embedding 和 NL2API 技術,實作視訊、文本、圖譜等廣泛場景搜尋,借助強大的語義了解和泛化能力,讓搜尋準确率提高 15%。

盤古大模型+CodeArts 代碼工具

6000 字詳解華為盤古大模型:能否撐起世界 AI 另一極?

華為雲将 CodeArts 研發工具與盤古大模型相結合,正式釋出了面向開發者的智能程式設計助手 CodeArts Snap。

該工具訓練了 760 億行精選代碼、1300 萬篇技術文檔,具備智能生成、智能問答、智能協同三大核心功能,可以實作一句對話讓代碼生成、一次點選即可自動注釋和生成測試用例,一條指令即可智能部署,讓每個軟體開發者都有自己的程式設計助手。

盤古大模型+數字人

6000 字詳解華為盤古大模型:能否撐起世界 AI 另一極?

華為雲通過盤古基礎大模型賦能 MetaStudio 數字内容生産線,打造了盤古數字人大模型,提供模型生成和模型驅動兩大服務,并已經使用了 20 萬小時音視訊資料進行了預訓練。

基于這兩大服務,開發者可以快速生成和驅動數字人模型,賦能線上教育、文娛直播、企業會議等行業應用,讓每個企業員工實作「數字人自由」。例如,使用者隻需在華為雲 MetaStudio 的服務頁面上傳 20 秒的個人視訊,就可以快速生成個性化的數字人講解視訊,過去 3 個研發人員 3 天完成的工作,現在隻需要 3 分鐘就可以完成。

盤古大模型+具身智能

會上,華為雲還提到了盤古大模型在機器人領域的應用,并示範了一段視訊。

6000 字詳解華為盤古大模型:能否撐起世界 AI 另一極?

過去向機器人下指令需要開發者進行程式設計,而基于盤古大模型的自然語言了解能力,機器人可以識别自然語言,執行指令,并具備全域感覺引導的自主智能。會上,華為示範了一段視訊,使用者不需要輸入程式指令,隻需要用自然語言向機器人下令,機器人就可以完成拿取物品等指令,過程中會根據所處的環境情況作出自主判斷(比如移開擋住目标物體的雜物),進而完成任務。

華為介紹,上述示範并非概念視訊,而是來自真實的産品,并在 HDC 大會期間在會場展出。

04

總結和思考:

華為能成 AI 另一極嗎?

張平安表示,「為了幫助全球客戶、夥伴、開發者訓練和使用大模型,我們緻力于為全球客戶打造世界 AI 另一極,為所有 AI 開發者提供新的選擇」。

甚至更早之前,早在今年 3 月,任正非就曾在公司内部表達過相似的意思。他表示 AI 大模型上會風起雲湧,不隻是微軟一家。任正非的理由,其實也是今天華為雲努力的方向,即人工智能軟體平台公司對人類社會的直接貢獻可能不到 2%,98% 都是對工業社會、農業社會的促進。

比如在中國、德國的工廠,都在推進人工智能對工業的促進,進而實作無人化的生産;比如天津港口的碼頭,貨物裝卸也試了無人化,代碼一輸入,從船上自動把集裝箱搬運過來,然後用汽車運走;比如山西的煤礦,在地下采用 5G+人工智能後,人員減少了 60-70%,大多數人在地面的控制室穿西裝工作。

這些都是過去數年 AI 已經大規模運用到産業側的執行個體,這些産業的共同點是有龐大的規模和産值,一點點效率的提升都能帶來巨大的收益。

而大模型的出現,實質上是提供了更加高效的生産力工具。一方面,對于這些原本已經在擁抱 AI 的産業,意味着更高的效率和更快的改造程序;而效率更高,也意味着對更多行業來說,更容易算好「經濟賬」,AI 有潛力從變革所謂幾大行業,變成改造千行百業。

這是華為為什麼要堅決走進産業的原因,實際上阿裡雲、騰訊雲、火山雲和百度雲等國内主要的雲服務大廠,也是相近的思路。而方向一緻、起點接近的情況下,在這場競賽中誰能跑的最快,比拼的就是從算力、大模型底座、平台、産品到具體解決方案的全鍊條能力。

因為衆所周知的原因,華為拿不到當下公認的全球最先進的計算晶片,看起來在這場競賽中先天不足。但從今天的釋出會來看,華為完全看不到受上遊掣肘而落後于人,在大模型的關鍵鍊條上,都拿出了成熟的産品、案例,解耦化的盤古大模型架構更是讓人眼前一亮。事實上,考慮到今天國産化的需求,在算力上不落後于人的華為,被卡脖子的劣勢,很可能變成自主可控的優勢。

大模型成為華為的新機遇,看起來正在成為現實。

繼續閱讀