華為AI存儲「求解」大模型

比起大模型前台的火熱，人們的注意力很少關注到産業鍊上遊。

畢竟，相較于ChatGPT流利的回答、豐富的趣味性，帶來工作效率的提升，晶片、存儲等硬體并不性感甚至略顯枯燥。

但人們不能忽視這樣一個問題：在産業分工極度明确的時代，行業進步從來不是某家廠商推動的結果，而是整條産業鍊的協同驅動。

ChatGPT驚豔全世界的背後，并非隻有OpenAI 無數天才工程師日夜的技術攻堅。Nvidia的GPU、Samsung的存儲器、Intel 的 CPU等硬體亦不可或缺。

從更底層的邏輯看，以ChatGPT為代表的大模型，本質上離不開兩個要素：海量有效的資料，和強大的算力。

在人工智能的三架馬車中，資料是生産原料，算力是基礎設施，算法則是大模型的邏輯表示，三者的關系逐層遞進，水乳交融。

毫無疑問，大模型的高樓，建立在資料和算力的基底之上。

如今，國内千行百業湧起大模型熱潮，進入“群魔共舞”時代，誰能做出中國版的ChatGPT尚且未知。

但訓練大模型所需要的GPU和存儲器，卻迎來了一次新的擴容機會。

今年5月底，GPU頭部玩家 Nvidia 的市值突破萬億美金，昭示着大模型這場火，首先蔓延至産業鍊上遊，讓企業吃到了第一波技術紅利。

與資料相伴相生的存儲器，在大模型的推動下，也正迎來一次技術革命和市場躍遷。

一、大模型熱潮下的資料：總量大、種類雜、多噪音

肇始于資料大爆炸，目前的資料量正在極速增長，從TB到PB再到驚人的ZB，如何存儲海量的資料，是諸多資料中心、企業必須要解決的問題。

另一方面，以大模型為代表的多模态AI，資料結構、類型遠比單模态AI複雜，資料量也更加龐大。

兩大趨勢互相疊加，市場對于存儲的增量需求呼之欲出。

站在微觀角度，企業研發大模型要經過以下幾個階段：資料歸集、資料預處理、模型訓練、推理應用，每個階段都離不開存儲。

在資料歸集階段，大模型所需要的資料量大且種類繁多。對于存儲而言，除了要擴容裝下資料，更重要的是把各種非結構化的資料整合在一起，并且安全地流轉，才能為企業所用。

這并非一件易事，因為資料格式、種類以及協定各不相同，企業需要花大量人力物力來打通壁壘，甚至建立起标準和生态，技術優勢和商業地位缺一不可。

而到了模型訓練階段，資料的品質決定着模型的上限。

換句話說，大模型依賴資料并不嚴謹，更準确的說法，應該是依賴有效資料。

以往的訓練模式，XPU通常直接調用所有資料進行訓練。

但在海量資料中，并非所有資料都能用得上，一些資料的存在反而會降低模型訓練效果，延長訓練周期。

是以，在預訓練階段，可以事先做資料預處理和歸集，排除這些資料“噪音”，留下幹淨有效的資料，以減少模型的“幻覺”。

更進一步，由于網絡波動、XPU故障，許多大模型在訓練時會中斷，即Checkpoint時刻，然後重新開機訓練。恢複過程中，訓練會退回到此前的一個節點，相當于有一部分會重新訓練一次，這既延長了時間，又增加了XPU功耗。

該問題的關鍵點在于，如何快速地接觸到Checkpoint的資料，恢複訓練，縮短時間，這對存儲的并發性、帶寬傳輸等要求極高。

最後一關是推理應用，大模型将直接與客戶面對面，是展現模型效果最有效的視窗。

這個視窗關系着使用者體驗，是以對于大模型的響應時間要求非常之高。

以ChatGPT為例，在一些簡單的問題上，使用者提問得到回答的平均時間在10s以内。如果時間太長，使用者體驗将會很糟糕，并且喪失對模型的信任，乃至給予差評。

這反應的是大模型推理的時延現象。通常來說，模型精度相近，時延越長，體驗越差。因而縮短時延，對于大模型廠商而言至關重要，類似問題其實可以在存儲上做創新，進行模型優化。

回歸第一性原理，訓練大模型的幾個難點，本質上都是圍繞如何利用好資料這一核心命題展開。

存儲作為資料的基礎硬體，并非僅僅隻是簡單地記錄資料，而是深刻參與到了資料歸集、流轉、利用等大模型訓練的全流程。

國内大模型百家争鳴，率先勝出的卻是GPU廠商Nvidia。那麼，按照XPU的增長邏輯，存儲也理所應當能夠複制Nvidia的造富奇迹。

這一制勝的法門在于，存儲廠商誰能搶先解耦大模型訓練的痛點，誰就能占據高地，成為第一個吃螃蟹的人。

二、AI存儲三要素：精度、效率、能耗

以往，訓練模型的方法簡單而粗暴：大量的資料加上人工，以及強大的算力，不斷調優，提高模型精度。

這種大力出奇迹的方法有用，但成本極高，一度成為許多AI公司脫不掉的舊長衫。

事實上，在AI的三架馬車之中，對任何一個環節的優化，都能降本增效。而此前的訓練方法，将側重點放在了算力方面，一些公司買了強大的XPU，訓練效率确實提高了，但模型訓練效果仍然較差，效率低、功耗大、精度低等問題層出不窮。

根本原因在于，算力隻是工具，而資料才是生産要素，隻提升工具而不優化資料的做法，抓錯了重點。

這就好比，巧婦難為無米之炊，一個再精幹的廚師，沒有好的食材，也很難做出一道精美可口的菜肴。

在類似大力出奇迹的模式下，過去幾年，國内的公司積累了大量的算力資源。現在面臨的問題是：如何把這些算力用上，而不至于備援、閑置，造成浪費，并且創造價值。

華為蘇黎世研究所存儲首席科學家張霁認為，在算力足夠的情況下，模型訓練的效率已經達到極緻，如果要進一步提高效率和模型效果，需要在資料上下功夫；更進一步，則是在資料依附的存儲器上做技術創新。

以前文提及的資料預處理為例，過去的訓練方式是XPU直接調用所有的資料訓練，用完之後放回存儲器，這種方式存在幾個問題。

首先，XPU調動的是所有資料，這些資料存在噪音，會影響訓練效果；其次，XPU在調用、放回資料時，會增加能耗及時間；最後，由于資料量過于龐大，單靠記憶體遠遠不夠，是以必須加載外存的方式來存儲資料，那麼資料在流轉時，面臨安全風險。

舉個簡單例子：

假設手機裡有一萬張照片，如何快速、準确地找到其中一張？

傳統的方式是，打開手機檔案夾，裡面會顯示一萬張照片，如果照片分辨率過高，手機加載圖檔還需要時間，然後由使用者一張一張比對、查找，低效而且容易出錯。

目前比較常見的是，在手機存入照片時，存儲器便已經提取照片的特征值，做好資料歸集。那麼當使用者想要查找照片時，隻需輸入圖檔的标簽，就能找到符合特征的圖檔，縮小了查找範圍。

從存儲的角度看，這裡面的邏輯，其實是存儲器做了資料預處理，當CPU在查找圖檔時，根據特征值，調用的是一萬張圖檔裡的一個小的資料集，是以速度快、能耗低，準确度高，并且不占用更多的計算資源。

對于大模型而言，上面的邏輯依然成立。

在存儲器端，企業可以先做資料預處理，剔除無效資料（噪音），并将資料做歸集整理，那麼XPU在調用資料時，則隻調用需要用到的資料，速度更快，效率更高，并且XPU的使用率，也得到提升。

并且，存儲器本身直接與資料接觸，是資料安全的第一關。是以在存儲器上對資料進行加密、保護，也能最大限度地保證資料的安全流轉。

如果說大力出奇迹是靠鋪算力來提升模型訓練效果，那麼在存儲器上對資料做預處理，則是從整個模型的訓練流程來縮減存算成本、提高效率和精度。

很明顯，前一種方式被廣泛使用并達到了極限，後一種方式正呈星火燎原之勢，開始席卷整個AI行業。

三、AI存儲如何讓企業用上大模型？

翻開ChatGPT的發展史，從1.0疊代到4.0，OpenAI投入了數以億計的資金，即便是當下，訓練一次的成本也高達數百萬美元。

說到底，現階段大模型還是一門燒錢的生意，沒有強大的資金實力和人才梯隊，根本上不了牌桌。

業界存在一個觀點：通用大模型隻能是大廠的遊戲。但這并不意味着，非大廠企業不能夠擁有自身的模型。

目前，在基礎大模型之上，建立行業大模型，成為普遍的商業範式。

對于缺少AI能力的企業而言，站在巨人肩膀上，無疑是一條省時省力且省錢的捷徑。

這些企業的比較優勢在于，靠近資料，而且這些資料真實有效。

這一優勢恰恰也是劣勢：很多企業不會用這些資料。

為此，企業不得不與基礎大模型廠商合作，将資料開放，訓練模型。

但對于部分企業，資料安全的重要性或許更甚于資料的價值。

那麼，如何在保證資料安全流轉的情況下，又能利用好資料，激活資料價值，擴充業務？

答案呼之欲出：在存儲器上，把企業資料，通過向量的方式，轉化為模型所需要的資料。并且，基于存儲器本身的安全管理，可實作資料的安全流轉。

這樣一來，企業不但可以訓練行業模型，并且隻需要維護這一小部分資料，入住門檻降低了；還能将資料的所有權掌握在自身手中，安全系數也升高了。

基于此，華為推出了兩款AI存儲産品：OceanStor A310 ，FusionCube A3000。

OceanStor A310 是一款深度學習資料湖存儲産品，可以為企業訓練大模型提供從“資料歸集、預處理到模型訓練、推理”的存儲支撐。

具體參數方面，OceanStor A310滿足多協定無損融合互通，支援96閃存盤，其帶寬達到400G/秒，IOPS達到1200萬，最高支援4096個節點的橫向擴充。

同時，OceanStor A310具備存内計算能力，内置的算力可以支援AI大模型接入分散在各個地方的原始資料，并實作跨系統、跨地域、跨多雲的全局統一資料視圖和排程，簡化資料的歸集流程。

FusionCube A3000則是一款訓/推超融合一體機，集存儲、網絡、計算、模型開發平台于一體，内置了OceanStor A300的存儲節點，面向百億級模型應用，并支援一站式安裝部署，2小時即可部署應用，并通過藍鲸應用商城提供業界主流大模型服務。

目前，華為FusionCube A3000産品既可以一站式傳遞，也支援內建其他的AI大模型軟體，并開發算力平台、網絡等。在其内置的OceanStor A300存儲節點上，廠商可以內建第三方GPU、軟體平台，建構适合自身的超融合節點。

簡而言之，OceanStor A310 和 FusionCube A3000，本質上是為了解決許多企業在建構行業模型時缺乏技術支撐的難題。

而且，這兩款産品本身适用于不同的客戶，前者适用于“存”，具備通用的能力；後者提供一站式傳遞能力，為企業實施大模型應用降低門檻。

AI存儲的未來

從工業社會到資訊社會，伴随着新技術的發展，資料的總量呈幾何級數增長。

如何利用好資料成為關鍵，而這又與存儲技術息息相關，兩者互相影響、互相作用。

當大模型這類技術開始“湧現”，市場對于新的存儲架構、技術的需求驟然加快。

華為蘇黎世研究所存儲首席科學家張霁認為，在傳統以XPU為計算中心的體系下，所有的資料都圍繞XPU展開，在這個過程中，資料的流轉會帶來能耗、效率、安全等諸多問題。

這些問題實際上可以通過資料和控制分離，利用技術創新，讓一些資料繞過CPU，直接“投喂”給GPU，一方面減少CPU負荷，另一方面提高GPU使用率，縮減整個訓練過程中的流程成本。

“模型訓練應該回歸到資料本身。”雷峰網雷峰網