天天看點

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

作者:投研鋒向

今年以來,以GPT為代表的預訓練大模型引發技術和商業的熱潮。展望國内大模型,華為在該領域積累深厚,其在晶片算力、模型算法、應用場景等多個環節具有完整布局的頭部公司,具備優秀的大模型研發與應用能力,有望快速實作商業化。2021年華為首次釋出了盤古大模型,其能夠賦能千行百業,實作AI商業化落地。複盤華為盤古大模型的發展可以發現,其基礎大模型、行業大模型、細分場景模型已經在不同領域率先取得成功,并帶動了産業鍊及相關公司發展。

下面我們将主要介紹盤古大模型的概念、作用以及大模型的架構等,并對盤古大模型的發展路徑、各類大模型細分和其産業鍊及相關公司進行詳細梳理,希望對大家了解盤古大模型有所啟發。(更多投研内容可關注公衆号《 投研鋒向 》加入社群,體驗更多0預期差紀要資訊)

01

概述

1、概念及作用

華為盤古大模型布局已久,多個基礎大模型即将上線。華為在2020年開始在大模型有布局,2021年華為盤古大模型首次釋出。2021年4月25日,在華為開發者大會(Cloud)上,華為雲釋出了盤古系列超大規模預訓練模型。

盤古大模型由NLP大模型、CV大模型、多模态大模型、科學計算大模型等多個大模型構成,通過模型泛化,解決傳統AI作坊式開發模式下不能解決的AI規模化、産業化難題。根據華為雲官網,華為即将上線NLP大模型、CV大模型、以及科學計算大模型(氣象大模型)。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

2、大模型從學術走向産業

華為雲盤古預訓練大模型自2021年4月正式釋出以來持續深耕技術、不斷疊代,形成了“L0基礎大模型-L1行業大模型-L2細分場景大模型”的發展路徑,完成從學術大模型到産業大模型的轉變,在煤炭、醫藥、電力等多個領域實作了應用。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

此外,在華為部署的物聯網、智能座艙、智能駕駛等領域,盤古大模型有望得到應用,為這些領域提供更加智能化的技術支援。比如,華為在MWC19期間宣布,華為終端将實施1+8+N全場景戰略,“1個太陽”指的是手機,“8個行星”指的是平闆、TV、音響、眼鏡、手表、車機、耳機、PC八大業務,而“N個衛星”指的是移動辦公、智能家居、運動健康、影音娛樂及智能出行各大闆塊的延伸業務。提高手機這一入口的智能化水準,提供語音識别、人機互動,有助于豐富使用者的“全家桶”裝置體驗。比如在智能駕駛中,大模型可用于提升自動駕駛系統的智能控制和決策能力,優化車輛的智能駕駛功能。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

3、盤古大模型架構

盤古大模型呈金字塔架構,算力為底層支撐。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

02

鲲鵬+昇騰搭建基礎AI算力

小模型到大模型成為重要發展趨勢,大模型對軟硬平台提出更高要求。1)大模型能夠解決AI模型定制化和應用開發碎片化,可以吸收海量的知識,提高模型的泛化能力,減少對領域資料标注的依賴。2)大模型有利于激活深度神經網絡對大規模無标注資料的自監督學習能力,同時對于AI架構的深度優化和并行能力都有很高的要求,是深度學習架構下将AI做到極緻的集大成者。

除模型本身的優化外,盤古的優異性能依賴于基礎算力設施、AI專用架構與平台的搭建。1)算力:鲲鵬CPU+昇騰GPU提供底層算力支撐,同時還基于華為CANN采用了算子量化、算子融合優化等技術,将單算子性能提升30%以上。2)全場景AI架構:華為MindSpore創新性地采用了“流水線并行、模型并行和資料并行”的多元自動混合并行技術,大幅降低了手動編碼的工作量,并提升叢集線性度20%。3)AI平台:ModelArts平台提供E級算力排程,同時結合實體網絡拓撲,提供動态路由規劃能力,為大模型訓練提供了最優的網絡通信能力。

華為以鲲鵬和昇騰作為根基,打造“一雲兩翼雙引擎”的計算産業布局,持續建構開放生态。其中,雙引擎指圍繞“鲲鵬”與“昇騰”打造的兩個基礎晶片族,構築異構的計算架構。華為已成為同時擁有“CPU、NPU、存儲控制、網絡互連、智能管理”5大關鍵晶片的廠商。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

1、鲲鵬

鲲鵬包括伺服器和PC機晶片。鲲鵬920是業界首顆64核的資料中心處理器,性能比業界主流處理器高25%、記憶體帶寬高60%;同時把CPU、橋片、網絡和磁盤控制器“4合1”。鲲鵬處理器走到現在已曆時十多年。華為認為,最強算力的通用伺服器需要具備至少64核、8個記憶體通道、PCIe4.0、多合一SoC、xPU高速互聯、100GE高速I/O等六個特征。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理
盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

2、昇騰

昇騰計算産業是基于昇騰系列處理器和基礎軟體建構的全棧AI計算基礎設施、行業應用及服務。主要昇騰系列晶片、系列硬體、晶片使能、CANN(異構計算架構)、AI計算架構、應用使能等。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

(1)硬體系統

昇騰,基于華為自研DaVinci架構的AI處理器,可應用于訓練和推理場景;昇騰910訓練晶片與英偉達A100算力基本相當,昇騰310推理晶片,功耗僅8W。華為Atlas人工智能計算解決方案基于昇騰系列AI處理器,通過子產品、闆塊、小站、伺服器、叢集等豐富的産品形态,打造面向“端、邊、雲”的全場景AI基礎設施方案,涵蓋資料中心解決方案、智能邊緣解決方案。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

華為擁有性能國内領先的訓練、推理卡。華為Atlas 300T Pro訓練卡配合伺服器,為資料中心提供強勁算力的AI加速卡,單卡可提供最高280 TFLOPS FP16算力,加快深度學習訓練程序。華為Atlas 300I Pro推理卡單卡最大提供140 TOPS INT8算力,為資料中心推理提供更強大支援支援8 core*1.9GHz CPU計算能力。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

(2)昇騰計算基礎軟體體系

昇騰計算基礎軟體體系包括異構計算架構CANN以及對應的驅動、運作時、加速庫、編譯器、調試調優工具、開發工具鍊MindStudio和各種運維管理工具等,開放給廣大的開發者和客戶。

CANN通過提供多層次的程式設計接口,以全場景、低門檻、高性能的優勢,支援使用者快速建構基于平台的AI應用和業務。

在推理部署方面,昇騰AI在MindStudio中提供了分布式推理服務化、模型輕量化、動态加密部署三方面能力,通過多機多卡分布式推理,可以大幅提高計算吞吐量。

(3)MindSpore(AI架構)

超大規模AI對AI架構提出新的挑戰。即使單卡算力實作突破,對于大規模模型及訓練資料,僅依靠單卡的記憶體與算力,不但訓練時間過長,不确定性也會随之加大,是以大規模模型的訓練通常需要使用多機多卡來實作,同時也衍生出算力單元之間的通信問題。超大規模AI對AI架構提出的挑戰可以概括為如下六堵牆:

1)記憶體牆:以鵬程•盤古大模型為例,參數量200B,模型訓練過程中需要存儲參數、激活、梯度、優化器狀态,一個模型的訓練就需要占用近4TB的記憶體。業界主流訓練卡,如昇騰910,一張卡的記憶體是32GB,也就是說需要100多張卡才能跑一個模型。

2)計算牆:鵬程·盤古200B參數量的大模型,需要3.6E23 FLOPS算力,即使能把昇騰910 256T的理論算力發揮出來,也需要44年才能訓練完。

3)通信牆:大模型并行切分到叢集後,模型切片之間會産生大量通信,進而産生通信瓶頸。隻有綜合考慮參數量、計算量、計算類型、叢集網絡帶寬拓撲等,才能設計出性能較優的并行切分政策。

4)效率牆:算法的分布式并行開發一直是并行計算領域的一大難題,如何讓使用者高效編寫分布式并行的代碼,也是各種AI架構研究的重點和難點;在HPC時代是MPI程式設計範式,大資料時代是MapReduce程式設計範式,而超大規模AI時代需要建立新的程式設計範式。

5)調優牆:昇騰E級算力叢集有4096個節點,在E級算力叢集上訓練一個千億參數規模的模型,節點之間的通信關系非常複雜,要保證計算的正确性、性能和可用性,手動調試難以全面兼顧,需要一個自動化及可視化的叢集分析工具。

6)部署牆:超大規模AI從訓練到部署需要一個轉換,同樣以鵬程•盤古大模型為例,訓練時用了千卡,雲上推理部署需要64卡,中間需要把千卡的訓練無縫地轉接到64卡的推理。同時,為了進一步降低推理成本,需要把模型進行壓縮,實作一張卡就能運作。

分布式并行實作算力增強、資料處理加速和模型訓練。業界主流的分布式并行類型包括資料并行、模型并行和混合并行三種,圍繞切分的内容(資料切分、模型切分)來劃分。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

昇思Mindspore是華為推出的全場景深度學習架構。人工智能領域的技術創新和産業發展,都離不開深度學習架構和平台。從2010年以前的深度學習開源架構Theano、Torch的釋出,到2015年谷歌釋出TensorFlow并風靡全球,再到近兩年中國國産架構陸續釋出并占有一席之地,開源深度學習架構市場不斷推陳出新。在2020年的華為開發者大會上,華為自研的MindSpore深度學習架構正式開源,與外海主流的TensorFlow、國内百度研發的PaddlePaddle等業内主流架構共同組成了中國人工智能創新的重要基礎設施。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

Mindspore旨在實作易開發、高效執行、全場景覆寫三大目标。正如“昇思”兩個字的含義,“昇”代表昇思是昇騰計算産業的重要組成,結合昇騰發揮極緻性能,“思”代表着昇思深度思考産業界技術演進方向緻力于打造最佳體驗的AI架構。昇思MindSpore支援端、邊、雲等不同場景下的靈活部署,提供了Python程式設計範式簡化AI程式設計,動靜圖統一等編碼方式優化調試方式。Mindspore還包括了多個領域套件、模型庫、工具元件和安全增強庫,以及可視化調試調優工具,并提供了友好的設計和高效的執行,旨在提升資料科學家和算法工程師的開發體驗,并為昇騰AI處理器提供原生支援,以及軟硬體協同優化。

MindSpore支援多元度混合并行。MindSpore是業界首個支援全自動并行的架構,MindSpore多元度自動并行,通過資料并行、算子級模型并行、Pipeline模型并行、優化器模型并行、異構并行、重計算、高效記憶體複用,及拓撲感覺排程,實作整體疊代時間最小(計算時間+通信時間)。程式設計接口高效易用,實作了算法邏輯和并行邏輯解耦,串行代碼自動分布式并行。此外,MindSpore通過多元度混合并行,解決了模型及叢集的Scale Out問題,實作了訓練到推理模式的快速切換。以鵬程•盤古為例,鵬程•盤古是最大的稠密形式的中文預訓練語言模型,擁有200B參數,訓練時使用了2048卡,推理時需要64卡。并行訓練模式采用了資料并行、模型并行、優化器并行、流水并行、重計算等,而推理時隻需采用模型并行和流水并行。基于MindSpore的分布式并行能力,鵬程•盤古可自動從分布式訓練模式轉換成分布式推理模式,并實作服務化封裝,可以對外提供RESTful接口,支援快速上線大模型服務。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

MindSpore平台的強大能力助理國産大模型發展。因昇思MindSpore具備豐富的并行能力,能輕松完成4096卡叢集、萬億參數規模的訓練任務,是以支撐了國内多個領域首發大模型的訓練,這些大模型涉及知識問答、知識檢索、知識推理、閱讀了解、文本/視覺/語音多模态、生物制藥、遙感、代碼生成等。基于Transformer Encoder、Transformer Decoder、MOE、乃至Clip與Diffusion的結構的大模型,均可以基于昇思MindSpore AI架構訓練。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

從應用執行個體來看:在網際網路領域,華為雲ModelArts基于算法優化、語音質檢等途徑,有效提升了T3出行司乘安全檢測模型的準确率和召回率,使危險駕駛事件率下降38.6%,同時大幅降低模型開發和傳遞周期。在自動駕駛領域來看,針對AI算法訓練,華為雲ModelArts支撐端到端訓練效率提升;分布式多級緩存技術可以将訓練時長縮短50%;針對大規模叢集訓練,拓撲感覺排程和動态軟路由技術可以提升訓練性能30%。

昇思MindSporeAI計算架構位居AI架構第一梯隊。按照Papers with Code網站的統計資料,2022年使用昇思MindSpore的頂級會議論文已經超過600篇,在國内AI架構中排名第一,在全球範圍内僅次于PyTorch。

(4)應用使能層

昇騰應用使能MindX,可以支援上層的ModelArts和HiAl等應用使能服務,同時也可以支援第三方平台提供應用使能服務。

行業應用是面向幹行百業的場景應用軟體和服務,圍繞昇騰計算體系,誕生了大量優秀的應用比如網際網路推薦、自然語言處理、視訊分析、圖像分類、目辨別别、語音識别、機器人等各種場景,昇騰計算産業也擁抱各種雲服務場景,支援Iaas,Paas,SaaS等多種雲服務模式,同時,端邊雲協同的能力,會原生的建構在整個技術架構中,推動昇騰計算成為全場景的AI基礎設施。

ModelArts便于使用者快速建立和部署模型。一個AI商業化項目要經過資料标注、算法、訓練、應用等多個步驟,華為通過ModelArts,将流程全面打通,并簡化提效,使得開發者能夠專注于模型本身的開發與優化。ModelArts是面向AI開發者的一站式開發平台,提供海量資料預處理及半自動化标注、大規模分布式訓練、自動化模型生成及端-邊-雲模型按需部署能力,幫助使用者快速建立和部署模型,管理全周期AI工作流。“一站式”是指AI開發的各個環節,包括資料處理、算法開發、模型訓練、模型部署都可以在ModelArts上完成。從技術上看,ModelArts底層支援各種異構計算資源,開發者可以根據需要靈活選擇使用,而不需要關心底層的技術。同時,ModelArts支援Tensorflow、PyTorch、MindSpore等主流開源的AI開發架構,也支援開發者使用自研的算法架構。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理
盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

03

L0:基礎大模型

1、盤古NLP大模型:中文了解和下遊應用能力優異

在2021年4月的HDC.Cloud大會上,盤古NLP大模型釋出,其由華為雲和循環智能聯合開發的,由鵬城實驗室提供算力支援。

盤古NLP大模型是業内首個千億參數的中文大模型,性能優異。在預訓練階段,NLP大模型學習超過40TB行業文本資料和400萬小時的行業語音資料,具有1100億參數,具備強大的通用中文知識儲備。同時通過行業資料的小樣本調優,帶來具體場景中的應用性能提升。

從性能角度來說,盤古NLP大模型兼顧生成能力與了解能力。從模型結構出發,有别于其他企業訓練的NLP大模型,盤古看重的不僅是大模型有生成能力,還要有更強的了解能力,是以華為采用了Encoder和Decoder的架構,來保證盤古大模型在生成和了解上面的兩個性能。在權威的中文語言了解評測基準CLUE榜單中,盤古NLP大模型釋出之時,在總排行榜及分類、閱讀了解單項均排名第一,重新整理三項榜單世界曆史紀錄;總排行榜得分約為83.05,多項子任務得分業界領先,向人類水準(85.61)邁進了一大步。

盤古NLP大模型通過遷移學習實作少樣本學習的目标,将P-tuning、priming等最新技術融入到盤古的微調架構中,進一步提升微調效果,通過龐大的行業知識庫進行訓練,使其更适合在複雜商用場景下使用。在當時,盤古的微調對模型提升的能力甚至超過了GPT-3。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

盤古NLP大模型兼顧通用知識和行業經驗。盤古NLP大模型在預訓練階段沉澱了大量的通用知識,同時也可以通過少樣本學習對意圖進行識别,轉化為知識庫和資料庫查詢。通過功能的子產品化組合支援行業知識庫和資料庫的嵌入,進而對接行業經驗,使能全場景的快速适配與擴充。比如在華為雲和循環智能合作建構的金融客服場景中,盤古NLP大模型能更好地賦能銷售環節,幫助服務人員快速提升業務水準,重塑消費者體驗。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

2、鵬程·盤古NLP大模型:全球首個開源的2000億參數的中文大模型

2021年5月的華為生态大會2021上,超大模型“鵬程•盤古”重磅亮相,由鵬城實驗室聯合相關技術團隊開發。

其基于Transformer的Decoder架構設計,最大版本參數量達2000億。以鵬城實驗室為首的聯合團隊在基于昇騰910晶片的E級智能算力平台(鵬城雲腦II)上訓練了全球首個全開源2000億參數的自回歸中文預訓練語言大模型:鵬程•盤古。其基于Transformer的Decoder架構改進而來,分為26億、131億、2070億三個版本。

其收集了不同來源的海量資料,并通過資料預處理方式提升資料品質,以滿足大模型的資料需求。收集了包含開放資料集、ommon Crawl原始網頁資料、百科資料、新聞資料、電子書籍等近80TB的原始資料。先通過基于規則的資料清洗、基于模型的過濾、資料去重等資料預處理方式,再通過人工和模型分别對資料品質進行評估,并且通過不斷疊代前兩個步驟來提升資料品質,最終形成了1.1TB的高品質訓練資料集。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

為實作在下遊任務中廣泛而高效的應用,進一步做出了以下改進:1)通過模型壓縮的方式降低模型參數,最終使顯存占用降低50%,系統性能波動僅為2%左右。2)将模型從Mindspore架構成功移植到PyTorch架構下。3)設計并開放了線上體驗服務,目前已處理上萬條使用者請求。

在26億參數的基本版的基礎上優化疊代推出了增強版,在相對小的參數規模上具有優越的性能。通過創新應用多任務學習、任務統一格式、提示微調和持續學習技術,對基本版模型進行能力擴充和增強,使模型性能得到大幅提升。形成基于鵬程·盤古模型進行提示微調和持續學習的應用新範式,更好地識别使用者的任務說明,同時能盡量保持模型的原始生成能力。參數量為26億規模,在中英文翻譯、開放域知識問答、文本分類、摘要生成等方面的能力提升顯著,在一張V100 GPU卡上就可以完成多路并行推理。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

3、盤古CV大模型:整合三大功能,應用效果佳

在2021年4月的HDC.Cloud大會上,盤古CV大模型釋出,提供三方面功能,在落地應用方面具有較強優勢。

盤古CV大模型是一個超30億參數的CV大模型,預訓練時輸入了10億級圖像,能同時滿足底層圖像處理與高層語義的了解需求。在功能方面,盤古CV大模型提供了大模型預訓練、大模型部署和大模型疊代三個功能:

(1)在預訓練中,盤古CV大模型中包含了資料處理、架構設計和模型優化三個步驟,支援階層化空間特征聚合、監督式對比語義調整等算法,可以将圖像的表征效率提升數千倍。

(2)在大模型部署中,盤古CV大模型中專門設計了模型抽取和知識蒸餾算法,能夠根據使用者需求抽取高效子模型,并且確定将大模型學習到的知識最大限度地傳遞給子模型。

(3)在大模型疊代中,盤古CV大模型配備了資料挖掘和增量學習子產品,其中的一比特監督學習、雙向自步學習等算法能夠減少90%以上的人力幹預;同時類别增量、難例增量學習等技術也能夠在增量學習過程中減少90%以上的算力消耗。配合基于圖網絡的模型融合技術,盤古CV大模型最終可實作閉環疊代,模型的泛化能力也會在使用過程中逐漸增強。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

盤古CV大模型首次兼顧了圖像判别與生成能力,捕捉樣本決定性資訊。1)圖像中精準識别階層化的資訊非常重要,例如“如何區分白色貓和白色狗的圖檔”,白色不是最重要的資訊,動物才是圖檔中起決定性的資訊。把握好圖檔中階層化的資訊,能夠快速的定位到圖檔中哪部分資訊是起決定作用的,讓算法以自适應的方式去關注比較重要的地方或内容,這樣就容易捕捉樣本之間的關系。2)盤古CV首次兼顧了圖像判别與生成能力,能同時滿足底層圖像處理與高層語義的了解需求,同時能夠融合行業知識的微調,快速适配各種下遊任務。

盤古CV大模型服務于智能巡檢、智慧物流等場景。盤古CV大模型在電力巡檢行業中已實作行業應用,助力國家電網。它利用海量無标注電力資料進行預訓練,并結合少量标注樣本微調的高效開發模式,節省人工标注時間。在模型通用性方面,結合盤古搭載的自動資料增廣以及類别自适應損失函數優化政策,大幅降低了模型維護成本。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

4、多模态領域研究進展:從模型設計和資料集層面推進多模态大模型發展

多模态大模型具備圖像和文本的跨模态了解、檢索與生成能力,通過跨模态語義關聯實作視覺-文本-語音多模态統一表示,采用一個大模型即可靈活支撐圖-文-音全場景AI應用,可用于産品設計、藝術創作、語音播報、海報創作等領域。

紫東·太初是中科院自動化所與MindSpore社群聯合打造的全球首個圖、文、音三模态大模型,于2021年9月釋出。紫東太初大模型首次實作語音生成視訊功能,開拓性地實作了圖-文-音語義統一表達,同時兼具跨模态了解和生成能力。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

紫東·太初将文本+視覺+語音各個模型高效協同,實作超強性能,在圖文跨模态了解與生成性能上都能領先目前業界的SOTA模型,高效完成跨模态檢測、視覺問答、語義描述等下遊任務。模型的視訊了解與描述性能在2021年ACM Multimedia(國際多媒體大會)和ICCV(國際計算機視覺大會)兩項人工智能領域國際頂會的視訊語義了解與視訊描述中均展現出目前最高水準。

2022年11月,釋出論文《FILIP:FINE-GRAINED INTERACTIVE LANGUAGE-IMAGE PRE-TRAINING》,通過細粒度互動的語言-圖像預訓練提升預訓練效率。通過一種跨模态後期互動機制,FILIP實作了較為精細的圖文對齊(CLIP和ALIGN僅通過每個模态的全局特征的相似性來模拟跨模态互動)。這種跨模态後期互動機制通過最大化token級别的圖文相似度來引導對比學習的訓練目标進行訓練。FILIP成功地利用了圖像塊和文本單詞之間的細粒度表達,在多個下遊任務中取得最佳性能,同時提升了大規模訓練和推理的效率。

2022年10月,釋出論文《Wukong:A 100Million Large-scale Chinese Cross-modal Pre-training Benchmark》開源首個億級中文多模态資料集-悟空,填補中文社群資料空白。Clip等模型的推出展現了視覺和語言兩種模态聯合訓練的潛力,但在中文領域缺乏兼具數量和品質的大型跨模态資料集。“悟空”的出現使這一情況得以改善,其包含來自網絡的1億個中文圖文對。還采用基于圖像和基于文本的過濾政策來進一步完善悟空資料集,使其成為了迄今為止最大的中文視覺語言跨模态資料集。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

04

L1:行業大模型

1、氣象大模型:業内首個精度超過傳統數值預報方法的氣象預測模型

氣象預報精度首次超過傳統數值方法,速度提升1000倍。盤古氣象大模型提供秒級天氣預報,例如重力勢、濕度、風速、溫度,氣壓等變量的1小時-7天預測。借助創新的3DEST網絡結構以及分層時間聚合算法,盤古氣象大模型在氣象預報的關鍵要素(例如,重力勢、濕度、風速、溫度等)和常用時間範圍上(從一個小時到一周)精度均超過目前最先進的預報方法。盤古氣象大模型在一張V100顯示卡上隻需要1.4秒就能完成24小時的全球氣象預報,速度相比傳統方法提升1000倍以上。

盤古氣象大模型支援廣泛的下遊預報方案,如在台風路徑預測任務上,相比傳統數值氣象預報方法,盤古氣象大模型可以降低20%以上的位置誤差。如右下圖所示,紅色軌迹為盤古大模型預測的台風線路,黑色為台風的實際運作線路,藍色為傳統方法ECMWF-HRES預測的台風線路。盤古大模型的預測精确度比ECMWF-HRES高出不少,預測十分精确。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

2、礦山大模型:盤活工業資料,助力礦山行業顯著實作降本增效

覆寫廣泛細分場景,助力礦山行業降本增效。基于盤古CV模型開發的盤古礦山大模型旨在解決AI在煤礦行業落地難、門檻高等問題,隻需導入海量無标注的礦山場景資料進行預訓練,盤古礦山大模型即可進行無監督自主學習,僅一個大模型就能覆寫煤礦的采、掘、機、運、通等業務流程下的1000多個細分場景,讓AI應用在煤礦普及更容易。

在主運場景中,基于盤古礦山大模型的AI主運智能監測系統能夠精準識别大塊煤、錨杆等異常情況,異物識别準确率達98%。此外,相較于人工巡檢,盤古礦山大模型實作了全時段巡檢,幫助從業人員及時地發現問題,避免因漏檢造成的安全事故,縮短停機時間,同時提升井下巡檢人員的工作效率。

在掘進場景中,基于盤古礦山大模型的掘進作業序列智能監測,動作規範識别準确率超過95%,用規範的AI流程來替代不确定的人工流程,讓AI成為礦工規範作業的好幫手,保障井下作業安全。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

3、藥物分子大模型:開啟AI藥物研發新模式

創新藥研發資金及時間成本極高,篩選失敗率高,為解決以上痛點,2021年9月,華為正式釋出華為雲盤古藥物分子大模型。依托華為雲一站式醫療研發平台EIHealth,盤古藥物分子大模型學習了17億個藥物分子的化學結構,具有以下三大技術和創新能力:1)提出了針對化合物表征學習的全新深度學習網絡架構。參考化學領域的化合物分子表達形式及轉換方式,華為雲盤古藥物分子大模型首次采用“圖-序列不對稱條件變分自編碼器”架構,可自動找出化合物關鍵的分子特征指紋,極大提升了下遊任務的準确性。2)進行了超大規模化合物表征模型訓練。華為雲盤古藥物分子大模型對市面上真實存在的17億個藥物分子的化學結構進行預訓練,在化學無監督學習模式下,實作結構重構率、合法性、唯一性等名額全面優于現有方法。3)生成了擁有1億個新化合物的資料庫。華為雲盤古藥物分子大模型的分子生成器生成了1億個創新的類藥物小分子篩選庫,其結構新穎性為99.68%,并且可以有效地生成理化性質相似的新化合物,為發現新藥創造可能性。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

05

L2:細分場景模型

目前L2細分場景模型主要包含OCR金融大模型,其覆寫了通用文字識别場景。

OCR金融大模型精度高,覆寫通用文字識别場景。基于華為盤古多模态大模型,OCR金融大模型解決了OCR領域算法普适性不強的問題,通過獨有的對比學習與掩膜圖像模組化相融合的自監督學習方法,學習并充分利用大規模的無标簽資料,實作一個模型覆寫多個領域的全部通用文字識别場景,并将标注工作量降低90%。此外,盤古OCR大模型在11項經典資料集測試中取得顯著的精度提升,而且與原本領先的文字識别算法相比,盤古OCR大模型的精度平均提升5%以上。

企業可自主建構OCR服務建構能力。盤古金融OCR大模型可以平滑蒸餾出體積相差1000倍的大、中、小模型,滿足在多種裝置上高效運作的使用條件,覆寫金融、零售、電商、地産等行業的新型單據、卡證、表格的識别需求。此外,華為雲盤古OCR大模型能夠提供二次訓練能力,企業可在通用模型基礎上快速訓練出适應業務場景的新模型,讓企業自主掌握OCR服務建構能力。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

06

産業鍊及相關公司

1、産業鍊概述

從華為大模型産業鍊來看,華為盤古大模型處于産業鍊中遊。産業鍊上遊包括盤古大模型的硬體供應商、服務提供商,下遊為盤古大模型的應用。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

硬體供應上,算力硬體包含企業廣電運通;連接配接器包含企業意華股份;桌面雲終端包含企業星網銳捷;光器件包含企業光迅科技、華工科技。

服務提供上,網絡規劃建設包含的企業有特發資訊;網絡管維企業有潤建股份;IDC建設企業有光環新網。

行業應用合作夥伴中,AI應用包含企業創維數字;華為生态包含企業初靈資訊(鴻蒙)、天源迪科(鲲鵬);雲通信包含企業彩訊股份、夢網科技;雲計算包含企業光環新網。

2、上下遊相關公司

(1)廣電運通

金融機具龍頭。公司包括金融科技和城市智能兩大主營業務,(1)金融科技方面,公司連續14年位居國内金融機具市占率第一,是國内金融機具的龍頭企業,提供ATM、清分機、智能業務庫等一系列産品;(2)城市智能方面,公司提供“智能終端+大資料”提供對應解決方案,建構智能安防、智能交通、智慧民生等多項業務場景。

公司旗下廣電五舟具備研發和生産伺服器、PC等多種算力産品的能力。公司旗下廣電五舟提供國内高性能計算産品及解決方案、雲伺服器全系列産品、邊緣計算和軟硬一體化産品、智能計算産品、自主研發的存儲産品和行業解決方案,目前産品廣泛應用于政府、教育、網絡安全、科研、人工智能、網際網路等行業及領域。作為華為鲲鵬整機合作夥伴和昇騰AI戰略夥伴,依托華為鲲鵬和昇騰AI等軟硬體技術支援,廣電五舟目前已推出華為鲲鵬、昇騰系列伺服器、信創有為系列産品、自主研發的存儲産品、PC、雲終端和行業解決方案等,深度融入昇騰AI生态體系。

(2)星網銳捷

國内領先的ICT基礎設施及AI應用方案提供商。星網銳捷成立于2000年,并于2010年在A股上市。公司緻力于在智慧網絡、智慧雲、智慧金融、智慧通訊、智慧物聯、智慧娛樂、智慧社群等領域紮根,為企業級客戶提供資訊化解決方案。2022年,公司實作營收157.41億元,同比增長16.18%;實作歸母淨利潤5.76億元,同比增長6.37%。公司主營業務分為智慧網絡、智慧雲、智慧通訊、視訊資訊應用、智慧社群、車聯網及通訊模組等六大業務闆塊,其中智慧網絡闆塊主要由銳捷網絡(2022年上市)負責。根據IDC資料,2022年銳捷網絡在中國以太網交換機市占率排名第三;在中國資料中心交換機市占率排名第三;在中國企業級WLAN市占率排名第三,其中Wi-Fi6産品出貨量排名第一。

子公司升騰資訊推出R2232A鲲鵬伺服器,打造鲲鵬桌面雲方案。升騰資訊成立于2002年,為公司全資子公司,主要經營桌面雲、智慧營業廳解決方案和雲支付三大業務,具有全系列桌面雲産品,包括雲方案、雲終端、雲伺服器、存儲器和交換機。在華為全連接配接大會(2019)上,升騰資訊釋出了首款鲲鵬桌面雲方案,該方案基于鲲鵬處理器的終端整機和伺服器,以及威訊雲平台,建構最新一代的鲲鵬桌面雲方案,方案能夠實作彈性調配雲端和終端資源,敏銳感覺使用者需求,同時具備資料不落地的特性,為客戶提供安全、易用的桌面雲2.0解決方案,全面滿足政務辦公等各類場景的雲上辦公體驗。根據IDC報告,2021年升騰威訊桌面雲終端出貨量市占率達20.3%,連續4年位列第一。

(3)創維數字

機頂盒及寬帶接入領域龍頭。創維數字成立于2002年,于2014年深圳A股上市,是國内機頂盒及寬帶接入領域行業龍頭。公司主營業務為全球使用者提供全面系統的超高清終端呈現、寬帶網絡連接配接和超高清行業應用綜合解決方案,主要産品有智能盒子終端、寬帶網絡通訊連接配接裝置、汽車電子及車聯網、物聯網等系列産品及營運與服務,基于國内外營運商客戶的定制化需求,提供對應解決方案、系統內建及終端産品,其中數字機頂盒終端為公司核心産品。公司與華為雲合作緊密,目前公司與華為在AI技術的一些垂直領域有相關的交流和應用。

“雙千兆”帶動寬帶連接配接業務營收增長。在寬帶網絡“雙千兆”趨勢下,國内寬帶連接配接裝置已開始更新換代,公司寬帶連接配接産品多次中标營運商集采招标項目,份額顯著提升。近年來公司寬帶業務增速亮眼,中标情況喜人,在中國移動2022-2023年智能家庭網關産品集中采購(第一批次)的五個采購包均有中标。

(4)光迅科技

光迅科技是國内少有的布局晶片-子產品-系統全産業鍊的光通信廠商。公司産品主要包括無源光器件、光纖放大器、光子產品等,涵蓋固網接入和無線接入,廣泛應用于資料中心和電信市場。公司作為國内少有的自主研發光晶片的企業,可以有效改善自身光器件、光子產品等産品的生産成本,擴大盈利空間。

公司布局矽光領域光晶片及光子產品,已可提供100G、400G矽光晶片方案。公司擁有PLC(平面光波導)、III-V、SiP(矽光)三大光電晶片平台,其中矽光晶片平台支援直接調制和相幹調制方案。2018年,由公司依托國家資訊光電子創新中心、光纖通信技術和網絡國家重點實驗室、中國資訊通信科技集團聯合研制的“100G矽光收發晶片”成功投産,可實作100G/200G全內建矽基相幹光收發內建晶片和器件的量産。目前,公司100G矽光子產品已實作量産,并可提供400G的矽光晶片方案,公司400G客戶包括BAT和華為。2021年12月,公司聯合國家資訊光電子創新中心、鵬城實驗室等宣布完成1.6T/s矽基晶片的聯合研制和功能驗證,實作了大陸矽光晶片向Tb/s級的首次跨越。

(5)特發資訊

特發資訊主營光纖光纜、通信裝置、軍工資訊化及智慧服務四大業務闆塊。其中,通信裝置闆塊主要由三大子公司負責,光網科技從事光器件研發,特發東智主要通過ODM模式進行路由器、機頂盒等網絡終端的生産制造,四川華拓重點負責光子產品的研發與制造。軍工資訊化闆塊主要由成都傅裡葉和神州飛航兩大子公司負責,從事軍工智能終端、軟體、大資料平台等業務,為各軍兵種提供先進的裝備資訊化産品。智慧服務闆塊聚焦5G時代的基建,提供智慧網絡工程及資料中心的規劃設計、建設施工及營運維護。

承接鵬城雲腦等多個AI項目建設。公司曾承接鵬城雲腦二期建設內建項目和許昌市中原人工智能計算中心項目工程項目。鵬城雲腦主要用于AI大模型領域,約70%的機時服務于鵬城實驗室以外的企業、高校、科研院,已支撐近千個國産AI模型的訓練,包括全球首個全開源的兩千億參數中文預訓練語言大模型“鵬程·盤古”、全球首個知識增強千億大模型“鵬城-百度·文心”、性能達國際先進水準的十億參數視覺大模型“鵬程·大聖”等。

(6)彩訊股份

産業網際網路解決方案和技術服務提供商。公司緻力于為電信、金融、能源、交通等行業的大中型企業級政府部門等客戶提供基于統一辦公平台、企業郵件系統、大資料智能分析平台、一體化營銷資源管理平台、終端管理平台、統一認證平台等産品的網際網路應用平台的産品開發、系統建設、運維及營運支撐服務,助力各行業的數字化轉型和産業更新,推動傳統産業鍊的降本增效。

公司是華為首百家鲲鵬+昇騰ISV合作夥伴之一;是華為智能計算的安全郵件系統合作夥伴,公司Richmail郵件産品同時獲得了華為鲲鵬、華為昇騰技術認證。同時彩訊股份與華為是信創領域的合作夥伴,是華為計算的銀牌經銷商,與華為在雲通信方面有業務合作。

(7)光環新網

深耕通信行業多年,IDC與雲計算業務雙輪驅動。公司專注網際網路資料中心服務領域已超過20年,積累了豐富的設計、建設與營運管理經驗,目前已成長為國内頭部的IDC服務提供商。公司資料中心業務形成了以北京為中心輻射京津冀,以上海為中心輻射長三角及以長沙為中心盤活華中及西部地區發展的戰略,資料中心覆寫北京、上海、天津、河北燕郊、湖南長沙、新疆烏魯木齊、浙江杭州等七個城市及地區,投産機櫃達4.7萬個。雲計算業務方面,公司是亞馬遜雲科技中國(北京)區域營運商,目前已營運近6年時間,公司持續完善其本地化業務服務體系,為廣大企業客戶提供領先的、适合中國市場需求的基于亞馬遜雲科技的雲服務産品。

多個資料中心仍在建,雲計算業務保持擴張。公司持續響應國家算力網絡建設号召,在全國各地進行資料中心建設。目前公司在全國範圍内在建及儲備項目規劃機櫃數量超過11萬個,截止2022年上半年,在建工程金額總計10.6億元,主要用于資料中心建設;此外,雲計算方面,為順應算力網絡的發展趨勢,公司憑借自身在資料中心、雲計算以網絡上的優勢,着手進行“雲電腦”與“雲手機”的研發,并于2022年下半年起,逐漸向市場推出雲電腦與雲手機服務。公司與華為于2022年6月簽署了戰略合作協定,雙方未來在低碳資料中心、智能光伏儲能、智慧網絡、鲲鵬、昇騰AI計算産業、新型雲計算業務等領域開展産品、服務及商業模式創新等方面的全面合作。

3、礦山大模型相關公司

2021年3月,華為成立煤礦軍團,同年9月正式釋出礦山鴻蒙作業系統,是首個基于鴻蒙系統的商用物聯網操作平台。截止目前,華為智能礦山業務已與北路智控、龍軟科技、雲鼎科技、梅安森等多家公司達成合作。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

4、工業CV大模型、AI+OCR大模型相關公司

華為在工業CV大模型、AI+OCR大模型實施方面與能科科技、賽意資訊、神州資訊等多家公司達成合作。

盤古大模型行業:架構分析、發展路徑、産業鍊及相關公司深度梳理

07

未來展望

1、大模型有望持續快速疊代

盤古大模型基于ModelArts開發,NLP/CV等系列即将上線。能夠認為,盤古大模型背靠ModelArts以及華為内外部廣闊應用生态,模型釋出後有望持續快速疊代,進一步實作語義了解力、資訊生成可靠性等名額的大幅提升。

2、盈利模式有望快速成熟

小樣本成本+應用場景,商業化有望加速。公司即将上線的三大模型均已有對應的落地場景,效果提升巨大。憑借ModelArts與小樣本甚至零樣本訓練成本大幅降低。能夠認為,盤古大模型兼顧技術創新與商業落地,盈利模式有望快速成熟。

END

想要擷取海量投研資訊?

想要了解事件背後的邏輯、最硬核的投研邏輯?

(更多投研内容可關注公衆号《 投研鋒向 》加入社群,體驗更多0預期差紀要資訊)

免責申明:以上内容僅供學習交流,不構成投資建議。

繼續閱讀