天天看點

壟斷機器學習GPU市場,黃仁勳:NVIDIA産品省下更多成本

作者:數位6頻道

在生成式人工智能(generativeAI)技術的帶動下,科技業界正掀起一波淘金熱潮,各企業莫不希望搶占先機。值得注意的是,在背後驅動這許多AI應用的,是NVIDIA的硬體産品,特别是于2020年推出、大受市場青睐的A100GPU。

壟斷機器學習GPU市場,黃仁勳:NVIDIA産品省下更多成本

NVIDIA執行長黃仁勳在法說會上大談AI,并提到,與NVIDIA參與打造的AI基礎建設相關的活動,以及與利用NVIDIAGPU架構Hopper與Ampere進行推論、影響大型語言模型的相關活動,都在過去2個月以來,呈爆發式成長。

根據CNBC引述NewStreetResearch統計資料,NVIDIA可供機器學習應用的GPU,全球市場占有率達到95%。相較于部分軟體可能隻要偶爾使用一小段時間的運算能力,機器學習工作負載往往會占掉計算機所有運算資源,有時持續幾小時甚至幾天時間。是以,旗下擁有熱門AI産品的企業,往往需要更多的GPU,來應付尖峰使用時段,或是拿來改良模型。部分AI相關企業,會以能夠使用到多少數量的A100,作為進步的标志,可見這項産品的代表性。

根據截至2022年11月的StateofAI報告,針對公有或私有雲端,以及各國家擁有的高效能運算(HPC)系統為對象進行統計,使用最多A100的業者是Meta,達2.14萬個,其中私有雲端占1.6萬個,其餘5,400個是公有雲端。不過此資料并未計入沒有公開資料的雲端服務供貨商。

壟斷機器學習GPU市場,黃仁勳:NVIDIA産品省下更多成本

A100 GPU大約1萬美元,并不便宜,由8個A100組成的DGXA100系統建議售價,甚至接近20萬美元。NewStreetResearch據此推算,導入微軟(Microsoft)Bing搜尋引擎的ChatGPT模型,假設需要8個A100,以在1秒之内針對1個問題做出1個回答;按這個速度,若需要服務所有Bing使用者,則得使用超過2萬台的DGX伺服器,是以光這些基建費用就至少40億美元。如果按照Google搜尋引擎的規模,則可能高達800億美元。

另外,最新版本的圖像生成器StableDiffusion,是通過256個A100訓練的。據Stability AI透露,單是模型訓練就花了60萬美元,但相比同業已經算非常便宜。而且這個費用還不包括推論與模型部署的部分。

壟斷機器學習GPU市場,黃仁勳:NVIDIA産品省下更多成本

黃仁勳受訪時也稱,以這類模型所需的運算量而言,NVIDIA産品其實并不昂貴——假設仰賴CPU運作的資料中心需要10億美元,透過NVIDIA的産品,則有辦法降到1億美元;如果再把運算資源放到雲端供100家企業分享,則這成本就幾乎可以忽略。黃仁勳強調,比起CPU,新創企業若善加利用NVIDIAGPU來訓練模型,可以省下很多成本。

繼A100之後,剛剛在2022年推出的新一代産品H100,是NVIDIA首款專為重要性與日俱增的transformer深度學習模型而設計的資料中心GPU。NVIDIA還曾表示,未來的目标,是把AI訓練速度,再提高百分之100萬以上。

繼續閱讀