天天看點

華為AI存儲「求解」大模型

作者:雷峰網

比起大模型前台的火熱,人們的注意力很少關注到産業鍊上遊。

畢竟,相較于ChatGPT流利的回答、豐富的趣味性,帶來工作效率的提升,晶片、存儲等硬體并不性感甚至略顯枯燥。

但人們不能忽視這樣一個問題:在産業分工極度明确的時代,行業進步從來不是某家廠商推動的結果,而是整條産業鍊的協同驅動。

ChatGPT驚豔全世界的背後,并非隻有OpenAI 無數天才工程師日夜的技術攻堅。Nvidia的GPU、Samsung的存儲器、Intel 的 CPU等硬體亦不可或缺。

從更底層的邏輯看,以ChatGPT為代表的大模型,本質上離不開兩個要素:海量有效的資料,和強大的算力。

在人工智能的三架馬車中,資料是生産原料,算力是基礎設施,算法則是大模型的邏輯表示,三者的關系逐層遞進,水乳交融。

毫無疑問,大模型的高樓,建立在資料和算力的基底之上。

如今,國内千行百業湧起大模型熱潮,進入“群魔共舞”時代,誰能做出中國版的ChatGPT尚且未知。

但訓練大模型所需要的GPU和存儲器,卻迎來了一次新的擴容機會。

今年5月底,GPU頭部玩家 Nvidia 的市值突破萬億美金,昭示着大模型這場火,首先蔓延至産業鍊上遊,讓企業吃到了第一波技術紅利。

與資料相伴相生的存儲器,在大模型的推動下,也正迎來一次技術革命和市場躍遷。

一、大模型熱潮下的資料:總量大、種類雜、多噪音

肇始于資料大爆炸,目前的資料量正在極速增長,從TB到PB再到驚人的ZB,如何存儲海量的資料,是諸多資料中心、企業必須要解決的問題。

另一方面,以大模型為代表的多模态AI,資料結構、類型遠比單模态AI複雜,資料量也更加龐大。

兩大趨勢互相疊加,市場對于存儲的增量需求呼之欲出。

站在微觀角度,企業研發大模型要經過以下幾個階段:資料歸集、資料預處理、模型訓練、推理應用,每個階段都離不開存儲。

在資料歸集階段,大模型所需要的資料量大且種類繁多。對于存儲而言,除了要擴容裝下資料,更重要的是把各種非結構化的資料整合在一起,并且安全地流轉,才能為企業所用。

這并非一件易事,因為資料格式、種類以及協定各不相同,企業需要花大量人力物力來打通壁壘,甚至建立起标準和生态,技術優勢和商業地位缺一不可。

而到了模型訓練階段,資料的品質決定着模型的上限。

換句話說,大模型依賴資料并不嚴謹,更準确的說法,應該是依賴有效資料。

以往的訓練模式,XPU通常直接調用所有資料進行訓練。

但在海量資料中,并非所有資料都能用得上,一些資料的存在反而會降低模型訓練效果,延長訓練周期。

是以,在預訓練階段,可以事先做資料預處理和歸集,排除這些資料“噪音”,留下幹淨有效的資料,以減少模型的“幻覺”。

更進一步,由于網絡波動、XPU故障,許多大模型在訓練時會中斷,即Checkpoint時刻,然後重新開機訓練。恢複過程中,訓練會退回到此前的一個節點,相當于有一部分會重新訓練一次,這既延長了時間,又增加了XPU功耗。

該問題的關鍵點在于,如何快速地接觸到Checkpoint的資料,恢複訓練,縮短時間,這對存儲的并發性、帶寬傳輸等要求極高。

最後一關是推理應用,大模型将直接與客戶面對面,是展現模型效果最有效的視窗。

這個視窗關系着使用者體驗,是以對于大模型的響應時間要求非常之高。

以ChatGPT為例,在一些簡單的問題上,使用者提問得到回答的平均時間在10s以内。如果時間太長,使用者體驗将會很糟糕,并且喪失對模型的信任,乃至給予差評。

這反應的是大模型推理的時延現象。通常來說,模型精度相近,時延越長,體驗越差。因而縮短時延,對于大模型廠商而言至關重要,類似問題其實可以在存儲上做創新,進行模型優化。

回歸第一性原理,訓練大模型的幾個難點,本質上都是圍繞如何利用好資料這一核心命題展開。

存儲作為資料的基礎硬體,并非僅僅隻是簡單地記錄資料,而是深刻參與到了資料歸集、流轉、利用等大模型訓練的全流程。

國内大模型百家争鳴,率先勝出的卻是GPU廠商Nvidia。那麼,按照XPU的增長邏輯,存儲也理所應當能夠複制Nvidia的造富奇迹。

這一制勝的法門在于,存儲廠商誰能搶先解耦大模型訓練的痛點,誰就能占據高地,成為第一個吃螃蟹的人。

二、AI存儲三要素:精度、效率、能耗

以往,訓練模型的方法簡單而粗暴:大量的資料加上人工,以及強大的算力,不斷調優,提高模型精度。

這種大力出奇迹的方法有用,但成本極高,一度成為許多AI公司脫不掉的舊長衫。

事實上,在AI的三架馬車之中,對任何一個環節的優化,都能降本增效。而此前的訓練方法,将側重點放在了算力方面,一些公司買了強大的XPU,訓練效率确實提高了,但模型訓練效果仍然較差,效率低、功耗大、精度低等問題層出不窮。

根本原因在于,算力隻是工具,而資料才是生産要素,隻提升工具而不優化資料的做法,抓錯了重點。

這就好比,巧婦難為無米之炊,一個再精幹的廚師,沒有好的食材,也很難做出一道精美可口的菜肴。

在類似大力出奇迹的模式下,過去幾年,國内的公司積累了大量的算力資源。現在面臨的問題是:如何把這些算力用上,而不至于備援、閑置,造成浪費,并且創造價值。

華為蘇黎世研究所存儲首席科學家張霁認為,在算力足夠的情況下,模型訓練的效率已經達到極緻,如果要進一步提高效率和模型效果,需要在資料上下功夫;更進一步,則是在資料依附的存儲器上做技術創新。

以前文提及的資料預處理為例,過去的訓練方式是XPU直接調用所有的資料訓練,用完之後放回存儲器,這種方式存在幾個問題。

首先,XPU調動的是所有資料,這些資料存在噪音,會影響訓練效果;其次,XPU在調用、放回資料時,會增加能耗及時間;最後,由于資料量過于龐大,單靠記憶體遠遠不夠,是以必須加載外存的方式來存儲資料,那麼資料在流轉時,面臨安全風險。

舉個簡單例子:

假設手機裡有一萬張照片,如何快速、準确地找到其中一張?

傳統的方式是,打開手機檔案夾,裡面會顯示一萬張照片,如果照片分辨率過高,手機加載圖檔還需要時間,然後由使用者一張一張比對、查找,低效而且容易出錯。

目前比較常見的是,在手機存入照片時,存儲器便已經提取照片的特征值,做好資料歸集。那麼當使用者想要查找照片時,隻需輸入圖檔的标簽,就能找到符合特征的圖檔,縮小了查找範圍。

從存儲的角度看,這裡面的邏輯,其實是存儲器做了資料預處理,當CPU在查找圖檔時,根據特征值,調用的是一萬張圖檔裡的一個小的資料集,是以速度快、能耗低,準确度高,并且不占用更多的計算資源。

對于大模型而言,上面的邏輯依然成立。

在存儲器端,企業可以先做資料預處理,剔除無效資料(噪音),并将資料做歸集整理,那麼XPU在調用資料時,則隻調用需要用到的資料,速度更快,效率更高,并且XPU的使用率,也得到提升。

并且,存儲器本身直接與資料接觸,是資料安全的第一關。是以在存儲器上對資料進行加密、保護,也能最大限度地保證資料的安全流轉。

如果說大力出奇迹是靠鋪算力來提升模型訓練效果,那麼在存儲器上對資料做預處理,則是從整個模型的訓練流程來縮減存算成本、提高效率和精度。

很明顯,前一種方式被廣泛使用并達到了極限,後一種方式正呈星火燎原之勢,開始席卷整個AI行業。

三、AI存儲如何讓企業用上大模型?

翻開ChatGPT的發展史,從1.0疊代到4.0,OpenAI投入了數以億計的資金,即便是當下,訓練一次的成本也高達數百萬美元。

說到底,現階段大模型還是一門燒錢的生意,沒有強大的資金實力和人才梯隊,根本上不了牌桌。

業界存在一個觀點:通用大模型隻能是大廠的遊戲。但這并不意味着,非大廠企業不能夠擁有自身的模型。

目前,在基礎大模型之上,建立行業大模型,成為普遍的商業範式。

對于缺少AI能力的企業而言,站在巨人肩膀上,無疑是一條省時省力且省錢的捷徑。

這些企業的比較優勢在于,靠近資料,而且這些資料真實有效。

這一優勢恰恰也是劣勢:很多企業不會用這些資料。

為此,企業不得不與基礎大模型廠商合作,将資料開放,訓練模型。

但對于部分企業,資料安全的重要性或許更甚于資料的價值。

那麼,如何在保證資料安全流轉的情況下,又能利用好資料,激活資料價值,擴充業務?

答案呼之欲出:在存儲器上,把企業資料,通過向量的方式,轉化為模型所需要的資料。并且,基于存儲器本身的安全管理,可實作資料的安全流轉。

這樣一來,企業不但可以訓練行業模型,并且隻需要維護這一小部分資料,入住門檻降低了;還能将資料的所有權掌握在自身手中,安全系數也升高了。

基于此,華為推出了兩款AI存儲産品:OceanStor A310 ,FusionCube A3000。

OceanStor A310 是一款深度學習資料湖存儲産品,可以為企業訓練大模型提供從“資料歸集、預處理到模型訓練、推理”的存儲支撐。

具體參數方面,OceanStor A310滿足多協定無損融合互通,支援96閃存盤,其帶寬達到400G/秒,IOPS達到1200萬,最高支援4096個節點的橫向擴充。

同時,OceanStor A310具備存内計算能力,内置的算力可以支援AI大模型接入分散在各個地方的原始資料,并實作跨系統、跨地域、跨多雲的全局統一資料視圖和排程,簡化資料的歸集流程。

FusionCube A3000則是一款訓/推超融合一體機,集存儲、網絡、計算、模型開發平台于一體,内置了OceanStor A300的存儲節點,面向百億級模型應用,并支援一站式安裝部署,2小時即可部署應用,并通過藍鲸應用商城提供業界主流大模型服務。

目前,華為FusionCube A3000産品既可以一站式傳遞,也支援內建其他的AI大模型軟體,并開發算力平台、網絡等。在其内置的OceanStor A300存儲節點上,廠商可以內建第三方GPU、軟體平台,建構适合自身的超融合節點。

簡而言之,OceanStor A310 和 FusionCube A3000,本質上是為了解決許多企業在建構行業模型時缺乏技術支撐的難題。

而且,這兩款産品本身适用于不同的客戶,前者适用于“存”,具備通用的能力;後者提供一站式傳遞能力,為企業實施大模型應用降低門檻。

AI存儲的未來

從工業社會到資訊社會,伴随着新技術的發展,資料的總量呈幾何級數增長。

如何利用好資料成為關鍵,而這又與存儲技術息息相關,兩者互相影響、互相作用。

當大模型這類技術開始“湧現”,市場對于新的存儲架構、技術的需求驟然加快。

華為蘇黎世研究所存儲首席科學家張霁認為,在傳統以XPU為計算中心的體系下,所有的資料都圍繞XPU展開,在這個過程中,資料的流轉會帶來能耗、效率、安全等諸多問題。

這些問題實際上可以通過資料和控制分離,利用技術創新,讓一些資料繞過CPU,直接“投喂”給GPU,一方面減少CPU負荷,另一方面提高GPU使用率,縮減整個訓練過程中的流程成本。

“模型訓練應該回歸到資料本身。”雷峰網雷峰網