華為盤古大模型背後的故事

跨越AI開發天塹：華為雲盤古大模型的故事

有這樣一個案例，某工廠的IT負責人想要應用AI，咨詢之後卻發現開發成本過于高昂，人才、算力、算法等條件都不具備，最後隻能作罷。

有這樣一位朋友，任職于某家AI技術供應商，他們推出的行業解決方案備受好評，卻在實際進入商業化階段時，發現大量客戶都需要定制，隻能讓公司的AI專家四處奔波，解決使用者的細小問題，最後利潤卻連人員開支都無法覆寫。

還有一條朋友圈。一位AI開發者扼腕惋惜于中文世界缺少NLP預訓練大模型。

其實，這些朋友都遇到了同一個問題：一道名為“AI開發”的産業天塹。

當我們談論AI時，總是會将其效果等同于資料集、實驗室裡的能力上限，卻忽略了在真實的開發、訓練、部署中，AI有着太多碎片化與不确定性的因素。

而跨過這道産業天塹，也成為了一場名副其實的全球大賽。這場賽跑中至關重要的一個項目，名為“預訓練大模型”。

随着預訓練大模型的産業與戰略價值在國際上水漲船高，緻力于将AI打造為新一代資訊技術核心抓手的中國産學各界出現了一絲緊迫。

中文世界什麼時候能迎來強大可用的預訓練大模型？面對AI開發的”天塹”，我們有什麼自己的辦法？

就在種種聲音不斷發酵的同時，華為雲人工智能領域首席科學家田奇，正在和團隊一同發起一次安靜的沖鋒。

這次沖鋒的“行動代号”，叫做——盤古大模型。

天塹：“小作坊式”的AI開發困境

試想一下，如果每家企業在進行研發時，都需要自己做螺絲、軸承、齒輪這些基礎部件，那整個社會的工業化從何說起？

但在AI領域，卻真的會出現這種情況。如今，AI技術的企業滲透率僅僅為4%，距離産業爆發期還有相當長的路要走。究其原因，并不是AI缺乏價值，而是開發過程中存在大量的碎片化因素。每家想要應用AI的企業，可能都需要一些技術水準很高的人才來進行獨立的架構設計與調參。這就像每家工廠都需要聘請設計師來設計螺絲，是一種相當粗放、原始的手工作坊模式。

來到華為雲的田奇，就和同僚們共同發現了這樣的問題。

加入華為之前，田奇已經是業界知名的AI領域學者。他是美國伊利諾伊大學香槟分校博士、IEEE Fellow，也是原德州大學聖安東尼奧分校計算機系正教授。在高校任教17年之後，帶着學術界的前沿思考和科研成果，田奇與團隊來到了産業一線。而他們首先關注到的，就是廣泛存于各個角落的AI開發困境。

由于傳統的NLP、機器視覺模型開發都來自研究機構，是以其開發模式也天然與實驗室對齊，缺乏産業界要求的效率、标準化與成本可控。

比如說，一家企業的一個項目，往往都需要開發一系列定制化的小模型。但每個模型的開發周期都相對較長，并且需要不斷完成各種資料清洗、資料增強、模型适配等等瑣碎繁雜的工作。這個過程中，開發人員會選擇自己熟悉、擅長的模型與開發方式，又導緻每個模型之間差異化很大。一旦出現問題就可能推倒重來，而人員變動更可能讓所有努力付之東流。

這種開發模式，存在着“三高”的問題：開發人員專業性要求高、綜合成本高、不可控程度高。

那麼如何突破這道産業天塹呢？從工業體系的邏輯上看，核心方案就是提升AI開發前置工作的标準化程度，把不同開發者所需模型的公約部分提前訓練好。這就是工業化中的零件化、标準化和流程化。

在探索AI工業化的過程中，預訓練大模型逐漸成為了行業認可的方案。它的邏輯就是提前将知識、資料、訓練成果沉澱到一個模型中，然後将這個基礎釋放到産業。由不同行業、不同企業的開發者在此基礎上進行二次開發和微調。就像一個工業化社會的第一步，是完善重型機械的建造能力。AI工業化的來臨，也需要首先擁有作為底座的“重型機械”。這也成為了盤古大模型團隊在華為雲體系中的首要任務。

翻越開發天塹，在于能築“重器”。

登山：盤古大模型背後的人與事

想要打造一個屬于中文世界，并且适配各種真實産業場景的AI預訓練大模型，首先擺在研發團隊面前的是兩大門檻。一個是技術門檻，大模型需要非常好的并行優化來確定工作效率，這對網絡架構設計能力提出了很高要求；第二是資源門檻，大模型訓練需要極大的算力。後來在訓練千億參數的盤古大模型時，團隊調用了超過2000塊的昇騰910，進行了超過2個月的訓練。這對于一般企業來說顯然難以承擔。

總之，想要快速打造一個可堪重用的AI大模型，需要調用各方的力量，并且精準完成技術上的進化。

2020年夏天GPT-3的出現，讓歐美AI界産生了對預訓練大模型的極高興趣。但在國内，産業界對NLP預訓練大模型的關注還相對較少。而機器視覺領域的預訓練大模型，在全球範圍内都是十分陌生的新鮮事物。

此時，剛剛在2020年3月份加入華為雲團隊的田奇，開始組建團隊并且進行方向梳理。到了8月，團隊迎來了核心專家的加入。随後在9月，團隊開始推動盤古大模型的立項，希望能夠在華為雲的産業基座上，完成适配各個産業AI開發的大模型。

來到2020年11月，盤古大模型在華為雲内部立項成功，也完成了與合作夥伴、高校的合作搭建。在開始打造盤古大模型的時候，團隊确立了三項最關鍵的核心設計原則：一是模型要大，可以吸收海量資料；二是網絡結構要強，能夠真正發揮出模型的性能；三是要具有優秀的泛化能力，可以真正落地到各行各業的工作場景。

接下來就是選擇賽道的問題。NLP領域的預訓練大模型當時已經得到了廣泛關注，自然是盤古大模型的重中之重。同時，AI在産業中應用的更廣泛需求是機器視覺能力，是以盤古大模型同時也瞄準這一領域，同時開啟了NLP和機器視覺兩個領域的大模型開發。

與此同時，盤古大模型也做好了未來規劃。首先希望能夠把機器視覺、NLP、語音，甚至計算機圖形學的技術結合起來，形成多模态的預訓練大模型，增強預訓練大模型的跨領域協同落地能力。另外，AI落地中還有一個十分重要的領域是科學計算。海洋、氣象、制藥、能源等領域都有非常強的知識處理、科學計算需求。用AI的方法去求解科學計算問題，将帶來十分巨大的價值潛力。是以，多模态與科學計算大模型，将是盤古接下來的行動方向。

确定了建設方案與賽道選擇之後，接下來的研發工作可以順理成章地開展，同時也必然經曆創造性研究中難免産生的一系列挑戰。

比如盤古大模型的核心開發過程，就是以海量有效資料進行模型預訓練，實作吸收大量資料之後模型的高度智能化。那麼資料和算力從哪來，就成為了一個不可避免的問題。在盤古大模型的開發過程中，華為雲和合作夥伴的多方推動，確定了所需資料和算力資源的保障到位。即便華為雲擁有非常好的資源基礎，在千億參數級别的大模型面前也依舊存有不足。為此，田奇團隊也嘗試了與合作夥伴的緊密協作，調用一切資源來確定開發進度。比如團隊同著名的鵬城實驗室合作，來完成了模型訓練所需算力的調用。

而在資料與知識方面，盤古大模型的開發團隊經常會遇到與具體行業知識體系、資料系統的磨合問題。這在具體過程中經常出現意料之外的情況。比如一個醫學資料的準确率，顯然應該依賴醫學專家的解答。但在具體場景中，往往醫學專家的判斷準确率也并不高。這類AI之外領域的情況，往往會反向影響到盤古大模型的開發。為此，盤古大模型團隊需要與具體的行業專家進行反複溝通，希望把他們的知識或者直覺感受，轉化為計算機可量化的模型，再對訓練出的結果進行協同驗證。這種反複的跨領域溝通與關聯，才最終可能達成關于AI的共識。

在盤古大模型開發過程中，由于時間緊張、訓練難度與成本巨大，并且還是機器視覺與NLP雙模型同時推動，自然也需要内部團隊的“超人發揮”。田奇回憶，團隊内部都叫自己“特戰隊員”，也就是角色需要經常互換，工作需要互相支撐，哪裡缺人就要哪裡頂上。一個技術專家，同時也要考慮很多産業落地、商業化方面的問題。

支撐着盤古大模型不斷攻堅克難的團隊，起初僅有少數幾個人，他們是讓盤古大模型得以從實驗室走向産業的中堅力量。如今團隊已陸續壯大起來，已包括20多名博士、30多名工程師、3名廣受關注的“華為天才少年”，還有50多名來自全國C9高校的專家。

翻山越嶺從來不易，智能時代亦是如此。

翻越：“盤古”究竟強在何處？

2021年4月，華為雲盤古大模型正式對外釋出。其中盤古NLP大模型是業界首個千億參數的中文預訓練大模型，在CLUE打榜中實作了業界領先。為了訓練NLP大模型，團隊在訓練過程中使用了40TB的文本資料，包含了大量的通用知識與行業經驗。

而盤古CV大模型，在業界首次實作了模型的按需抽取，可以在不同部署場景下抽取出不同大小的模型，動态範圍可根據需求，覆寫特定的小場景到綜合性的複雜大場景；提出的基于樣本相似度的對比學習，實作了在ImageNet上小樣本學習能力業界第一。

這些資料下，我們可以進一步考察盤古大模型的優勢和能力點在何處。

首先我們知道盤古大模型有機器視覺模型，回到NLP領域中，在盤古大模型的研發過程中，團隊考慮到真實的産業場景中有大量的内容了解需求，比如客服、智能對話等等，于是給盤古大模型設計了兼顧架構，能夠同時高度完成了解與生成任務。

再來看具體一些的技術差異，盤古大模型提升了複雜場景下的小樣本學習能力，在小樣本學習上提升了一個數量級的效率；在微調能力上，盤古有着更好的資料吸收了解能力，可以在真實行業場景中實作提升模型應用效率；再有盤古大模型內建行業知識的能力更強，其采用更靈活的子產品設計，能夠根據業務場景适配，提升行業知識吸收效率。

在技術創新之外，盤古大模型還是一個天然瞄準AI工業化、現實場景的項目。在立項初期，研發團隊就與合作夥伴進行了一系列商業化驗證，以此來確定盤古大模型走入真實産業場景中的效率和适應能力。這也是盤古大模型的一大差異，它并非為實驗室而創造，而是将工業化的一面放置在更高的優先級上，是一個以商業價值驅動研發創新的“實幹模式”大模型。

再有一點，盤古大模型與其他預訓練大模型不同的是，團隊在研發過程中始終将生态化、協同創新納入考量。盤古大模型是一個開放、可生長的産業實體，可以在各個環節引入生态合作夥伴、高校科研團隊，以及不同領域AI開發者的力量。這樣確定了盤古大模型的融入産業鍊條、搭建生态化合作的能力。從技術化、商業化、生态化三個層面，盤古大模型都驅動預訓練大模型來到了一個新的階段，建造了一個從“作坊式AI開發”到“工業化AI開發”的轉換基礎。

盤古之力，在于合力。

燈火：大模型的落地進行時

雖然剛剛釋出幾個月，但從立項之初，盤古大模型就已經開展了一系列産業合作。這些來自千行百業的“盤古故事”，可以讓我們看到大模型與AI開發之變帶來的真實影像。

在物流場景，盤古大模型協助浦發銀行建構了“物的銀行”——浦慧雲倉。在人員行為、貨物檢測方面，可以實作性能提升5%到10%；同時開發效率也極大提升，原本需要1到2個月的開發工作，現在隻需要兩三天就可以完成，開發中的人力、算力、維護成本都極大降低。

在盤古大模型的落地程序中，也經常會出現一些“意外”的驚喜。比如在國家電網巡檢案例中，由于缺陷種類複雜多樣，傳統的方法需要對大多數缺陷适配特定模型以滿足性能需求，這樣100餘種缺陷就需要開發20+模型，造成模型疊代維護困難。盤古大模型創造性的提供行業預訓練模型，得益于其突出的特征表達能力，能夠做到一個模型适配所有缺陷，極大地提升了開發效率，同時識别效果平均提升超過18%。同時，盤古大模型還提供針對零樣本的缺陷檢測功能，能夠快速判斷新缺陷，真正貼近于巡檢員能力。

這樣的案例不斷增多，讓盤古大模型的行業認可度節節攀升。繼而也讓“預訓練大模型是AI工業化主要途徑”成為行業共識與産業發展方向。目前，盤古大模型已經在100多個行業場景完成驗證，包括能源、零售、金融、工業、醫療、環境、物流等等。精度提升、效率加強、開發成本下降，逐漸成為盤古大模型走向産業的幾個“标簽”。

萬家燈火初上，百業AI将興。

思索：AI工業化的虹吸與變革

盤古大模型的故事當然剛剛開始，但從它的立項、研發和落地程序中，我們卻可以得到一些關于AI工業化的思考。

從曆史中看，一種産品的工業化程序必然需要經曆研發為重—基座為重—産品為重三個層級。比如說我們熟悉的智能手機，在經曆了微型處理、無線通訊、螢幕觸控等技術的儲備階段之後，最終形成了一套标準化的內建邏輯與基礎産業鍊。這一階段，廠商不必再花費巨資進行基礎研發，而是可以用相對較低的成本完成零部件采購與內建制造。也隻有這樣，廠商才能打磨産品，雕琢功能，消費者才能用上物美價廉的智能手機。

将這個邏輯回溯到AI領域。自深度學習為代表的AI第三次興起之後，這項技術得到了快速發展。但其基礎業态還處于“研發為重”的第一階段。行業中缺乏公開、有效、低成本的産業基礎，最終導緻很多理論上成立的落地方案難以成行。

而盤古大模型的價值，恰恰就在于推動AI的低成本、可複制。雖然在打造大模型的階段需要耗費巨大的研發成本與資源，但一旦突破産業規模期，将帶來全行業的普惠價值。田奇認為，目前我們處在AI工業化開發模式起步後的快速發展階段，而大模型是最有希望将AI進行落地的一個方向。

從這個角度看，我們在觀察、思考和推動預訓練大模型發展時，就不應該停留在科研基礎設施的角度，而是應該以産業應用為導向，引導各方全力以赴，謀求AI工業化程序的質變契機。

從盤古大模型的故事中看，這個過程需要多重力量的攜手與跨界。比如說，田奇加入華為，一度被視作AI學者進入産業界的代表性事件。而今天來看，這種“跨界”和“變化”确實起到了作用。田奇有着最新的研究方法、技術創新能力與國際視野；而在華為雲的産業結構中，田奇團隊也找到了學術界所不具備的驅動力——在産業界，科學家必須思考功耗、效率、成本、商業場景等等一系列真實問題，“學以緻用”需要落進方方面面。

再比如，盤古大模型的開發過程，也是一場AI學者與工程師，同各行業專家、企業的對話。鐵路、物流、醫學、天文，種種知識要融入大模型之中，這就需要更強的協同能力與互相了解。

産學研的縱向融合，不同行業領域的橫向協同，誕生了AI在工業化階段必須經曆的虹吸效應。從這個角度看，盤古大模型也是一次産業、科研的虹吸範本。

這種“協同發力、重裝行動”的盤古大模型模式，或許将在未來一段時間内不斷湧現，也将成為雲計算與AI産業的戰略重心。而其影響，可能是AI開發的綜合門檻下降，一系列産業與社會價值的提升，以及戰略級AI基礎設施的完備。

田奇回憶說，在打造大模型的過程中，他更多考慮的是可能帶來的商業價值。如果不能複制推廣，那麼大模型可能就是“一個隻能在實驗室中被觀賞的東西”。團隊希望大模型能夠在更多場景中被使用，這樣才能帶來改變。

當更多科學家、行業專家、AI架構師，用這樣的角度和動力去思考AI、推動AI、建造AI，橫亘在AI面前的産業天塹，最終會成為登山者的豐碑，成為AI工業化變革的标志。

也許有一天，我們在聊AI往事的時候，會記住這麼幾個字：

AI落地，“盤古”開天。

華為盤古大模型背後的故事

繼續閱讀

叫闆蘋果MacBook？華碩無畏Pro15新品上架，這顆骁龍AI晶片不一般

資料分析十大模型之一：漏鬥模型

誰才是新能源汽車座艙天花闆？鴻蒙座艙名聲在外，但新的挑戰者已經出現了！#智能座艙#6月12日，長城汽車釋出CoffeeO

今日競價打闆總結（6月13日）1-3号日線結構壓力較大，競價有瑕疵或有誘多嫌疑，都沒入場，但最終全都封闆。4号競價尚可，

大模型“價格戰”打響，AI界迎來大變天？

大模型應用之路：從提示詞到通用人工智能（AGI）

首批通過！商湯小浣熊獲信通院代碼大模型評估最高評級

iPhone 16會殺死大模型APP嗎？

華為開發者大會：HarmonyOS Next系統、盤古5.0大模型等技術亮相

大模型在持續學習領域的最新研究進展與綜述

【好文轉發】大模型為什麼能把業務系統拉通?

阿裡通義Qwen2拿下大模型最新測評全球開源第一周鴻祎發文祝賀：未來開源模式一定會超過閉源

AI手機風口下，位元組選擇做手機廠商的大模型供應商

一個生産動畫效果的文生圖模型：AnimateDiff

英偉達開源最強通用模型Nemotron-4 340B：開啟AI合成資料新紀元！

高效組織團隊會議，關鍵在于會前明确目标、準備充分；會中引導讨論、聚焦核心；會後總結成果、跟蹤行動。這三點構成了會議成功的