天天看點

别讓存儲成為ChatGPT大模型訓練的關鍵瓶頸

當下科技行業be like...

别讓存儲成為ChatGPT大模型訓練的關鍵瓶頸

據說現在的科技公司,不是在搶GPU,就是在往搶GPU的路上……此前4月,特斯拉CEO馬斯克就購買了1萬塊GPU,他還稱公司将繼續大量購買英偉達的GPU。

在國内,近日也有報道稱,位元組跳動今年向英偉達訂購了超過10億美元的GPU,僅位元組一家公司今年的訂單,可能已接近英偉達去年在國内銷售的商用GPU總和。

而在企業這邊,為了“珍惜”來之不易的GPU,IT人員也在快馬加鞭,他們希望能讓GPU時刻忙碌,進而確定投資回報。不過有的企業可能會發現,GPU數量增加了,但GPU閑置卻越來越嚴重。

原因何在?

  • 别讓存儲成為你的關鍵瓶頸

如果說HPC的曆史教會了我們什麼的話,那就是不能以犧牲存儲和網絡為代價,過分關注計算。如果存儲無法以良好的性能及時将資料傳輸到計算單元,那麼即使你手握世界上最多的GPU,也無法将其轉化為效率。

IT分析公司 Small World Big Data 的分析師 Mike Matchett 表示,有些模型足夠小,可以在記憶體(RAM)中執行,進而将更多的注意力放在計算上。但如今像ChatGPT這樣的大模型,需要數十億個節點,無法儲存在記憶體中,因為成本太高。

“你無法在記憶體中存放數十億個節點,存儲變得更加重要。”Matchett 說。

一般而言,無論是怎樣的用例,在模型訓練的過程中都有四個共同點:

  1. 訓練模型
  2. 推理應用
  3. 資料存儲
  4. 加速計算

而在這些要素中,資料存儲在規劃過程中往往容易被忽視。

因為在建立和部署模型時,大多數的要求是迅速通過POC或測試環境,進而盡快開展模型訓練,資料存儲需求并不是優先考慮的。

然而,挑戰在于訓練或推理部署可能持續數月或數年時間。許多公司在這段時間裡迅速擴大了模型規模,而基礎設施也必須擴充以适應不斷增長的模型和資料集。

谷歌此前公布的數百萬ML訓練工作負載的研究報告表明,工作負載平均花費30%的訓練時間在輸入資料的管道上。雖然過去的一些研究工作側重于通過優化GPU來加速訓練,但在優化資料管道的各個部分方面仍然面臨許多挑戰。

别讓存儲成為ChatGPT大模型訓練的關鍵瓶頸
  • 确定合适的存儲系統

當你有了非常強大的算力後,真正的瓶頸變成了你能以多快的速度将資料輸入計算,進而得到結果。

特别是資料存儲和管理方面的挑戰,需要對資料增長進行規劃,這樣你就可以在前進的過程中不斷擷取資料的價值,特别是當你開始更進階的用例,如深度學習和神經網絡,這對存儲的能力、性能和規模提出了更高的要求。具體而言:

可擴充性

機器學習需要組織處理大量資料,而且資料量越大,模型的準确性相對也越高,這意味着企業每天必須收集和存儲越來越多的資料。而當存儲無法擴充時,資料密集型工作負載會産生瓶頸,這會限制性能并導緻昂貴的GPU閑置。

靈活性

靈活利用多種協定支援(包括NFS、SMB、HTTP、FTP、HDFS和S3),以確定滿足不同系統的需求,而不僅僅是單一類型的環境。

延遲

I/O的延遲對于建構和使用模型很重要,因為資料會被多次讀取和重讀。減少I/O延遲可以将模型的訓練時間縮短數天或數月。更快的模型開發直接轉化為更大的業務優勢。

吞吐量

當然,存儲系統的吞吐量對于高效的模型訓練也至關重要。訓練過程使用大量資料,通常以每小時TB為機關。

并行通路

為了實作高吞吐量,訓練模型會将活動拆分為多個并行任務。這通常意味着機器學習算法會同時從多個程序(可能在多個實體伺服器上)通路相同的檔案。存儲系統必須能夠在不影響性能的情況下應對并發需求。

  • 首屈一指橫向擴充NAS存儲 為模型訓練提供動力

憑借低延遲、高吞吐量和大規模并行I/O的卓越能力,戴爾PowerScale是GPU加速計算的理想存儲補充。

别讓存儲成為ChatGPT大模型訓練的關鍵瓶頸

PowerScale能夠有效地壓縮訓練和測試多位元組資料集的分析模型所需的時間。在PowerScale全閃存存儲中,帶寬增加了18倍,進而消除了I/O瓶頸,并且可以添加到現有的Isilon叢集中,以加速和釋放大量非結構化資料的價值。

此外,PowerScale的多協定通路能力,為企業運作工作負載提供了無限靈活性,這些工作負載既可以使用一種協定存儲資料,也能夠使用另一種協定通路資料。

别讓存儲成為ChatGPT大模型訓練的關鍵瓶頸

具體而言,PowerScale平台的強大功能、靈活性、可擴充性和企業級功能可幫助您應對挑戰:

●以高達2.7倍的性能加速創新,加快模型訓練周期。

●利用企業級功能、高性能、并發性和可擴充性消除I/O瓶頸,提供更快的模型訓練和驗證,提高模型精度,改善資料科學生産力,并使計算投資回報率(ROI)最大化。

别讓存儲成為ChatGPT大模型訓練的關鍵瓶頸

●通過在單個叢集中高達119PB的有效存儲容量,以更深的高分辨率資料集提高模型的準确性。

●利用靈活的部署和網絡彈性,使您能夠從小規模開始,獨立擴充計算和存儲,以實作大規模部署,并提供強大的資料保護和安全選項。

●通過靈活的就地分析和預先驗證的解決方案,提高資料科學的生産力,以實作更快的、低風險的部署。

●經驗證的設計基于同類最佳技術,包括 NVIDIA GPU加速和帶有NVIDIA DGX系統的參考架構。

PowerScale的高性能、高并發性能可滿足機器學習從資料采集、資料準備、模型訓練和模型推理各階段對存儲性能的要求;加上其搭載的OneFS作業系統,使所有節點能夠在同一OneFS驅動的叢集中無縫運作,并具有性能管理、資料管理、安全和資料保護等企業級功能,能更快幫助企業完成模型的訓練和驗證。

繼續閱讀