天天看點

重磅!登Nature正刊後,華為雲盤古大模型3.0來了

作者:智東西
重磅!登Nature正刊後,華為雲盤古大模型3.0來了

智東西

作者 | 李水青

編輯 | 心緣

智東西7月7日東莞報道,在今日啟動的華為開發者大會2023(Cloud)上,華為常務董事、華為雲CEO張平安宣布推出盤古大模型3.0,從通用大模型、行業大模型及場景模型“L0~L2”三個層面為行業提供大模型服務。

盤古3.0提供100億參數、380億參數、710億參數和1000億參數的系列化基礎大模型,預訓練資料中包含了超3萬億tokens,推出了NLP大模型的知識問答、文案生成、代碼生成,以及多模态大模型的圖像生成、圖像了解等全新能力集。

同日,華為雲昇騰AI雲服務在烏蘭察布和貴安上線。張平安稱,昇騰AI雲服務可提供更長穩的AI算力服務,千卡訓練30天長穩率達到90%,斷點恢複時長不超過10分鐘。昇騰AI雲服務支援華為MindSpore以及PyTorch、TensorFlow等主流AI架構,支援便捷遷移。

重磅!登Nature正刊後,華為雲盤古大模型3.0來了

華為雲推出昇騰AI雲服務

随着ChatGPT在全球爆火,當下全球已釋出上百個大模型,中國内已有80多個大模型釋出。華為雲于2020年就啟動盤古大模型立項,2021年4月推出盤古系列大模型,包括業界首個千億參數中文語言預訓練模型,并在當時就現場示範了對話機器人。然而,華為今年上半年卻一直隐而不發,引起産業的關注。

為何華為雲今年上半年一直沒有消息?

張平安現場首先正面回答了這一問題。他說,華為盤古大模型“不寫詩,隻做事”,華為的理念是AI for Industry(AI賦能産業),是以要将盤古大模型緻力于深耕各個行業。盤古大模型在礦業、鐵路、氣象、金融、政務、制造、軟體開發、數字内容生成等多個領域的落地成果在現場得以展示。

重磅!登Nature正刊後,華為雲盤古大模型3.0來了

華為雲團隊現場示範政務大模型用于圖文結合問答

現場,智東西與部分媒體對張平安等華為高管進行了采訪。

當被問及華為雲做大模型的差異化競争力時,張平安尤其強調行業結合:“我們的科學家、數學家可以下到礦井、蹲車庫、下田頭,是以盤古真的是和行業的痛點深度結合而來,這是華為盤古大模型最大的優勢。”就在昨日,國際頂級學術期刊《自然》(Nature)登載了華為雲盤古氣象大模型成果,與張平安的闡述形成呼應。

一、盤古3.0面世:NLP、多模态新更新,模型服務“開箱即用”

張平安說:“希望盤古大模型成為每個行業、企業和個人的專家助手,讓工作更輕松。”盤古大模型3.0是一個面向行業的大模型系列,簡單來說,主要通過以下“5+N+X”三層架構,在不同層面,建構不同的能力。

重磅!登Nature正刊後,華為雲盤古大模型3.0來了

盤古大模型3.0的“5+N+X”三層架構

1、L0基礎模型層:提供五大模型服務,NLP、多模态模型大更新

首先是L0基礎模型層,包括自然語言處理(NLP)、視覺(CV)、多模态、預測、科學計算五個基礎大模型,提供滿足行業場景中的多種技能需求。

具體來說,盤古3.0為客戶提供100億參數、380億參數、710億參數和1000億參數的系列化基礎大模型,比對客戶不同場景、不同時延、不同響應速度的行業多樣化需求。

同時,盤古3.0提供全新能力集,包括NLP大模型的知識問答、文案生成、代碼生成,以及多模态大模型的圖像生成、圖像了解等能力,這些技能都可以供客戶和夥伴企業直接調用。張平安說,無論多大參數規模的大模型,盤古提供一緻的能力集。

重磅!登Nature正刊後,華為雲盤古大模型3.0來了

盤古L0基礎大模型層架構圖

盤古大模型3.0的預訓練資料中包含了超過3萬億tokens,使用超1000+TB資料訓練,指令微調資料達千萬級,是以也可以稱之為“讀萬卷書”。

2、L1行業大模型層:行業通用大模型+客戶專有大模型,“行萬裡路”

然後是L1層行業大模型。如果說最底層的基礎模型是做好海量基礎知識的學習,相當于“讀萬卷書”,打好基礎;那麼行業大模型、場景模型就相當于“行萬裡路”。

在L0基礎大模型之上,針對不同行業和場景,客戶可基于盤古3.0進行專項知識和經驗的訓練。一方面,L1層提供使用行業公開資料訓練的行業通用大模型,包括政務、金融、制造、礦山、氣象等大模型;另一方面,客戶也可以基于自有資料,在盤古大模型的L0和L1層上訓練自己的專有大模型。

重磅!登Nature正刊後,華為雲盤古大模型3.0來了

盤古L1行業大模型層架構圖

3、L2場景大模型層:專注細分場景,“開箱即用”

最後是L2場景大模型層。張平安說,華為雲為客戶提供了更多細化場景的模型,更加專注于政務熱線、網點助手、先導藥物篩選、傳送帶異物檢測、台風路徑預測等具體行業應用或特定業務場景,為客戶提供“開箱即用”的模型服務。

張平安談道,盤古大模型采用完全的分層解耦設計,可以快速适配、快速滿足行業的多變需求。客戶既可以為自己的大模型加載獨立的資料集,也可以單獨更新基礎模型,也可以單獨更新能力集。

在L0和L1大模型的基礎上,華為雲還為客戶提供了大模型行業開發套件,通過對客戶自有資料的二次訓練,客戶就可以擁有自己的專屬行業大模型。同時,根據客戶不同的資料安全與合規訴求,盤古大模型還提供了公用雲、大模型雲專區、混合雲多樣化的部署形态。

此外,華為雲2000P Flops單叢集的昇騰AI雲服務在烏蘭察布和貴安同時上線。

據張平安稱,昇騰AI雲服務可提供更長穩的AI算力服務,千卡訓練30天長穩率達到90%,斷點恢複時長不超過10分鐘。昇騰雲服務除了支援華為的AI架構MindSpore外,還支援PyTorch、TensorFlow等主流AI架構,架構中的90%算子,都可以通過華為的遷移工具從GPU平滑遷移到昇騰。

重磅!登Nature正刊後,華為雲盤古大模型3.0來了

張平安:盤古大模型3.0采用全棧自研技術

二、氣象大模型登Nature正刊,盤古發力行業“不作詩 隻做事”

“盤古為行業而生,就要為行業着想,更好地服務千行百業的客戶。”張平安說。

7月5日,國際頂刊Nature登載了華為雲盤古氣象大模型研發團隊研究成果,成為近年來首篇以中國科技公司為唯一署名機關發表的Nature正刊論文。審稿人高度評價該模型:“華為雲盤古氣象大模型讓人們開始重新審視氣象預報模型的未來,模型的開放将推動該領域的發展。”

本次,張平安談及這一成果的行業落地情況。作為首個精度超過傳統數值預報方法的AI預測模型,盤古氣象大模型的預測速度也有大幅提升。原來預測一個台風未來10天的路徑,需要在3000台伺服器的高性能計算機叢集上花費5小時進行仿真。現在基于預訓練的盤古氣象大模型,通過AI推理的方式,研究者隻需單台伺服器上單卡配置,10秒内就可以獲得更精确的預測結果。

重磅!登Nature正刊後,華為雲盤古大模型3.0來了

盤古氣象大模型落地全球多地

除了氣象大模型成果,張平安還在現場展示了盤古大模型在政務、煤礦、金融、制造、醫藥研發、鐵路等諸多行業發揮的價值。

比如在政務領域,華為雲攜手深圳市福田區政務服務資料管理局,上線了基于盤古政務大模型的福田政務智慧助手小福,能夠精準了解群眾咨詢意圖,改變傳統的一網通辦模式。據稱,盤古政務大模型對超過20萬條政務資料進行精調,包括12345熱線、政策檔案、政務百科等,掌握了豐富的法律法規、辦事流程等行業知識。

在煤礦領域,盤古礦山大模型已經在全國8個礦井規模使用,一個大模型可以覆寫煤礦的采、掘、機、運、通、洗選等業務流程下的1000多個細分場景,讓更多的煤礦勞工能夠在地面上作業,不僅能讓煤礦勞工的工作環境更加舒适,而且可以極大地減少安全事故。

重磅!登Nature正刊後,華為雲盤古大模型3.0來了

盤古礦山大模型已在8個礦井複制使用

在鐵路領域,盤古鐵路大模型能精準識别現網運作的67種貨車、超430種故障,無故障圖檔篩除率高達95%,成為貨運列檢員身邊有力的數字助手,将列檢員從每日數百萬張的“圖海”檢測中解放出來。

在金融領域,盤古金融大模型可以對銀行的各種操作、政策、案例文檔進行預訓練,能根據客戶的問題,為櫃台從業人員自動生成流程和操作指導,将原來需要平均5次的操作降低為1次,辦結時間縮短5分鐘以上。盤古大模型讓數十萬網點櫃員都擁有自己的智慧助手。

在制造領域,過去單産線制定器件配置設定計劃,往往要花費3個小時以上才能做齊1天的生産計劃。盤古制造大模型學習了華為産線上各種器件資料、業務流程及規則以後,能夠對業務需求進行準确的意圖了解,并調用天籌AI求解器插件,1分鐘即可做出未來3天的生産計劃。

重磅!登Nature正刊後,華為雲盤古大模型3.0來了

盤古大模型助力制造業降本增效

在藥物研發領域,原來一款新藥研發平均需要10年時間、花費10億美金。盤古藥物分子大模型助力西安交通大學第一附屬醫院劉冰教授團隊發現全球40年來首個新靶點、新類别的抗生素,并将先導藥物研發周期縮短至1個月、研發成本降低70%。

張平安說:“我們始終堅持AI for Industries的戰略,在深耕行業的道路上不斷前行。我堅信大模型将重塑千行百業,而每一個開發者,都将是改變世界的英雄。”

結語:深耕行業,國内大模型走深向實

回顧華為盤古大模型的發展曆程,其在2021年就推出了NLP、CV、科學計算、多模态等基礎大模型;于2022年4月推出盤古2.0,而後陸續釋出了盤古氣象大模型、盤古海浪大模型、盤古金融OCR大模型、盤古礦山大模型等行業大模型。今日,随着盤古3.0的推出,其有望進一步推動大模型在行業真正走深向實,我們有望看到大模型落地行業的程序大大加快。

一手抓算力底座,一邊加速大模型落地行業。可以看到,在當下“百模大戰”的背景下,華為盤古大模型走出了一條相對差異化的道路。很多人都在問國内大模型與ChatGPT的差距有多大,但實際上Chat(聊天)僅僅是大模型的一個很小的能力,當下ChatGPT的通路量也在減少,以OpenAI為代表的公司下一步也需要在千行百業中探索大模型落地的真實剛需。當AI大模型落地進入深水區,或許在行業落地跑在前面的玩家更容易脫穎而出。

繼續閱讀