天天看點

做強算力生态,智神超算瞄準智算發展的關鍵

作者:通信世界

通信世界網消息(CWW)1956年,“人工智能”一詞首次被提出。彼時,資料與算力潛力尚未被挖掘,人工智能進入長達數十年的蓄勢待發區。進入21世紀以來,在大資料和大算力的支援下,深度學習的浪潮席卷人工智能,人工智能迎來繁榮發展期。相應地,以大模型為代表的人工智能加速增長,智算也逐漸成為大模型競賽的焦點。

在智算愈發重要的當下,國内智算進展如何?面臨哪些發展機遇?又有哪些挑戰尚待攻克?想要赢在智算賽道,又該抓住哪些關鍵風口?近日,在2024年中國工業經濟高峰論壇的智能算力産業高品質發展論壇上,通信世界全媒體記者采訪了北京智神超算網絡技術有限公司(以下簡稱“智神超算”)總經理夏珂,試圖碰撞思維火花,為上述問題增添注解。

做強算力生态,智神超算瞄準智算發展的關鍵

算力迎發展機遇,挑戰亦與之俱來

目前,國内外大模型發展成果有目共睹,最直覺地表現為大模型數量快速增長。國家網際網路資訊辦公室最新公布的生成式人工智能備案資訊顯示,截至2024年3月,大陸共有117個AI大模型完成了備案。大模型數量猛增的同時,規模也快速擴充,所需算力也逐漸呈現爆炸式增長。

作為一名身處算力服務一線的資深從業者,夏珂坦言,算力近幾年最直覺的變化莫過于在2016年的時候,計算還基本以小模型為主,場景多用于工業質檢、車牌識别、廣告推薦和點選率預估等等,算力使用也多聚焦在推理層面為主。而随着大模型興起,算力使用量也逐漸變化為從推理層場景為主過渡到訓練需求占比更大,尤其是随着訓練的大模型參數越來越大,傳統算力卡已經難以支撐如此大規模的算力,由此也帶來了底層算力架構的變革,也就是AI infrastructure。

大模型的訓練效果、成本和時間與底層算力有密切的關系。最直覺來看,大模型參數量從千萬到萬億級的指數型增長直接帶動了算力需求增加。以最為典型的ChatGPT來看,2020年5月的GPT-3參數量達到了1746億個,所需要的算力達到每天3640PFlop/s-day(假如每秒計算一千萬億次,需要計算3640天),曆經3年發展,2023年其推出的GPT-4參數數量就已經擴大到1.8萬億個,增長了10倍,據估算,GPT-4每天所需算力已達到248,842PFlop/s-day。

如此大規模依賴算力,既展現了算力的重要,也潛在預示了算力短缺将帶來巨大風險。要知道算力不足,會直接導緻模型的智能化更新變慢,模型的能力落後。

“算力的重要性毋庸置疑,但算力依然直面艱巨的挑戰。”夏珂認為大模型時代算力面臨的挑戰主要展現在3個方面。

一是GPU供給嚴重不足。據統計資料顯示,目前全球晶片缺口超過100萬張。就以在GPU行業獨領風騷的英偉達來看,一方面,其産能取決于核心邏輯晶片、HBM記憶體晶片、CoWoS封裝三者的疊加,産能難以準确預估;另一方面,在出貨方面也面臨諸多限制,有行業曝料,2023年第四季度,英偉達GPU供應量在全球範圍内都被嚴格限制,導緻全球市場都出現了明顯的供不應求。

二是開發生态難閉環。面對CUDA等仍處于生态壟斷地位,夏珂認為國内晶片公司目前走的兩條主要的路線,或相容CUDA,擁抱CUDA生态;或相容主流架構和大模型,形成自己的軟體生态。目前,好在衆多國産大模型出現,讓架構層的重要性降低。“大模型就好比移動時代的超級APP,會屏蔽掉底層的安卓或ios一樣,頭部大模型會屏蔽掉訓練架構,有望成為算力轉型的破局點。”夏珂這樣比喻道。

三是模型與産業結合落地漫長。就如同在工程建設上要用最小的代價達到滿意的效果,進而實作行業落地。夏珂提醒,大模型與産業的結合也應該針對具體場景具體分析,例如針對各種行業細分推理場景,可以建設邊緣側分部署叢集,或集中式大規模叢集;針對基礎大模型的訓練場景和行業大模型訓推場景,需要配置更多的算力,從千卡到萬卡甚至幾十萬卡級别的算力。

打破大模型訓練玄學,以做強算力生态取勝

既然算力與大模型結合緊密,是以業内也有“得算力者得大模型”的說法。但事實上也并非如此,擁有上千、上萬張GPU卡僅是成功的基礎,并且投入大規模算力叢集去做訓練,一旦出現訓練掉卡但沒有及時更換,會造成企業訓練前期的投入損失,金額可能是百萬或千萬級别,甚至更多。

對此,夏珂也作了一個形象的比喻,大模型訓練就好比是太上老君“煉丹”,既有技術成分也有其他各種各樣的因素,當搜集到足夠的高品質資料集後,訓練啟動,這時候需要經驗豐富的工程師團隊定期檢視進展并且優化,確定算力訓練的結果盡可能的收斂到合适的值;模型訓練出來後,要通過各種類似方式如低比特量化模型、模型剪枝等等降低模型推理成本。

由此可見,企業如果想借助大模型,實作業務提升,需要的不止是智能算力,還需要靈活可相容的架構平台,強大的基礎大模型,高品質的行業資料集,以及更為貼合業務場景的解決方案來落地行業大模型等。

對此,夏珂表示,要實作智算産業生态的關聯,需要鼓勵形成良好的商業模式,形成閉環;要處理好資金成本、算力資源與使用者需求三者之間的關系。同時利用自身和合作夥伴的軟體平台和相關優勢,緻力于做好智算産業生态中的算力營運,智神超算也願意為此貢獻出自己的力量。

據了解,目前,智神超算依托成熟算力供應鍊、建設、營運以及大模型優化等能力,能夠為國内外大模型訓練/推理場景提供強大的整體解決方案。聚合力而緻一,實作智算更好地用起來,智神超算還建構了一站式算力交易和服務平台,既能保證高性能算力排程,也能借助平台實作大模型行業應用。

就算力排程來看,夏珂介紹,智神超算的高性能排程主要展現在推理側,當客戶請求大模型服務的時候,優先選用服務能力更好、成本更低的節點來滿足客戶的算力需求。

此外,值得注意的是,為了推進智算産業生态程序,智神超算也在積極推動國産人工智能生态适配。夏珂介紹到,具體政策展現在3個方面。一是憑借多年行業積累,精準尋找使用者将已有算力用起來。二是在已有平台中投入更多國産晶片能力,并且做對應的适配。三是彙聚相關政策制定方、研究機構等多方力量,集合資源來推進産業生态建構。

集衆智者事無不成,聚合力者業無不興。相信未來,在智神超算及衆多合作夥伴的努力下,智算産業能夠彙聚更多的創新資源和智慧力量,形成更加緊密的産業聯盟與合作機制,為數字經濟發展乃至社會進步注入更多的生機與活力,共同開創更為美好的數字未來。

繼續閱讀