天天看點

科技雲報道:不堪忍受英偉達霸權,微軟、OpenAI紛紛自研AI晶片

作者:科技雲報道

科技雲報道原創。

英偉達是當之無愧的“AI算力王者”,A100、H100系列晶片占據金字塔頂尖位置,是ChatGPT這樣的大型語言模型背後的動力來源。

但面對英偉達的獨霸天下,科技巨頭們都紛紛下場自研AI晶片。

10月6日,媒體援引知情人士消息稱,微軟計劃在下個月的年度開發者大會上推出首款為人工智能設計的晶片,來降低成本并減少對英偉達的依賴。

同一天,據媒體消息顯示,ChatGPT開發商OpenAI也正在探索AI晶片的可能性,并已評估潛在的收購目标,以加速自研晶片的研發。

科技雲報道:不堪忍受英偉達霸權,微軟、OpenAI紛紛自研AI晶片

事實上,不僅是微軟、OpenAI試圖自研AI晶片,AWS、谷歌、Meta等科技巨頭都已下場自研。

在醞釀數年後,這是否意味着英偉達的獨霸時代即将結束?

巨頭紛紛自研AI晶片

目前,包括谷歌、AWS、阿裡巴巴、百度、華為等國内外雲服務大廠都已有自研 AI 晶片用于資料中心,微軟和Meta也有相關計劃。是以對于頭部的AI技術大廠來說,自研AI晶片已經是一大趨勢。

微軟早就自研晶片

作為全球頭部雲廠商,微軟Azure需要大量AI處理器。尤其是和OpenAI合作以後,有消息稱微軟至少訂購了數十萬顆英偉達晶片。

是以,這幾年微軟在晶片研發上加快了程序,先是建立由前英特爾高管Rani Borkar上司的晶片部門;後又各處招兵買馬,其中就包括前蘋果晶片架構師Filippo;此外還和AMD展開了密切合作。

自2019年以來,微軟就開始研發一款名為"雅典娜"(Athena)的定制AI晶片,用于為大型語言模型提供動力,目前已在測試階段。

Athena的首個目标是為OpenAI提供算力引擎,以替代昂貴的英偉達A100/H100。如果明年大規模推出,Athena将允許微軟内部和OpenAI的團隊同時訓練和推理模型。

SemiAnalysis的分析師迪倫·帕特爾(Dylan Patel)表示,開發類似于雅典娜的晶片可能每年需要花費1億美元左右,ChatGPT每天的營運成本約70萬美元,大部分成本來源于昂貴的伺服器,如果雅典娜晶片與英偉達的産品擁有同等競争力,每個晶片的成本将可以降低三分之一。

有知情人爆料,微軟在晶片研發上已砸入了近20億美元。

OpenAI計劃收購

據媒體消息稱,OpenAI也正在探索制造自研人工智能晶片,并已開始評估潛在的收購目标。

報道稱,至少從去年開始,OpenAI就已讨論各種方案,以解決AI晶片短缺問題。

OpenAI已将擷取更多AI晶片列為公司首要任務,讨論方案包括自研AI晶片,與包括英偉達在内的其他晶片制造商更密切地合作,以及在英偉達之外實作供應商多元化。

谷歌最早自研TPU晶片

早在2013年,谷歌就已秘密研發一款專注于AI機器學習算法的晶片,并将其用在内部的雲計算資料中心中,以取代英偉達的GPU。

2016年5月,這款自研晶片公諸于世,即TPU。TPU可以為深度學習模型執行大規模矩陣運算,例如用于自然語言處理、計算機視覺和推薦系統的模型,其最初專為谷歌的超級業務雲計算資料中心而生。

2020年,谷歌實際上已在其資料中心部署了人工智能晶片TPU v4。

AWS推出訓練和推理晶片

從2013年推出首顆Nitro1晶片至今,AWS是最先涉足自研晶片的雲廠商,已擁有網絡晶片、伺服器晶片、人工智能機器學習自研晶片3條産品線。

2018年初,科技媒體Information爆料亞馬遜已經開始設計定制AI晶片。

AWS自研AI晶片版圖包括推理晶片Inferentia和訓練晶片Trainium。2018年底,AWS推出自研AI推理晶片Inferentia,可以以低成本在雲端運作圖像識别、語音識别、自然語言處理、個性化和欺詐檢測等大規模機器學習推理應用程式。

2020年底,AWS推出專用于訓練機器學習模型的Trainium。

2023年初,專為人工智能打造的Inferentia 2釋出。Inf2執行個體最多可支援1750億個參數,這使其成為大規模模型推理的有力競争者。

在AWS、微軟和谷歌這三家中,亞馬遜是唯一一家在伺服器中提供兩種類型晶片(标準計算晶片和用于訓練與運作機器學習模型的專用晶片)的雲提供商,其在2015年收購以色列晶片設計公司Annapurna Labs為這些努力奠定了基礎。

Meta基于RISC-V開源架構自研

直到2022年,Meta Platforms還主要使用CPU和專為加速AI算法而設計的定制晶片組合來運作其AI工作負載。

後來,Meta取消了于2022年大規模推出定制晶片的計劃,轉而訂購了價值數十億美元的英偉達GPU。

如今為了扭轉局面,Meta已經在開發内部晶片,并于5月19日公布了AI訓練與推理晶片項目。

據介紹,MTIA晶片的功耗僅為25瓦,占英偉達等市場領先供應商晶片功耗的一小部分,并使用了RISC-V(第五代精簡指令處理器)開源架構。

值得注意的是,Meta于5月初收購了英國AI晶片獨角獸Graphcore的AI網絡技術團隊,為其自研AI晶片奠定了基礎。

英偉達能否被撼動?

埃森哲公司報告指出,如今技術行業的AI滲透度明顯高出其他行業,而未來企業的成長潛力取決于其能在多大程度上應用生成式AI。更關鍵的是,熟練運用新技術也将成為國家發展的關鍵。

如今,AI技術在資料中心、智能汽車、遊戲等的應用落地方面取得了豐碩的成果,要實作AI大規模應用,背後必定要有大量AI晶片的算力支援。

資料顯示,英偉達的GPU是全球應用最為廣泛的 AI 晶片。

英偉達獨立GPU市場佔有率達80%,在高端GPU市場佔有率高達90%。2020年,全世界跑AI的雲計算與資料中心,80.6%都由英偉達GPU驅動。2021年,英偉達表示,全球前500個超算中,大約七成是由英偉達晶片驅動的。

顯而易見,英偉達已經壟斷了全球算力。

随着AWS、谷歌、微軟等巨頭加入自研AI晶片的道路,英偉達的壟斷地位是否能被撼動呢?

首先,晶片設計技術非常複雜。

高算力晶片的首要挑戰就是其複雜度,從晶片設計角度,高性能計算晶片中的計算單元、存儲通路以及晶片間的互聯都是需要仔細考慮。

英偉達之是以引領GPU創新,源于其架構底座不斷疊代,從2008年的Tesla架構到2020年的Ampere架構,每一次都是對硬體的更新與改進。代際之間産品性能提升顯著,性能和市場佔有率均領先全球。

其次,不可一世的CUDA生态。

比造芯更難的是搭建生态,全球GPU生态都來自CUDA。

CUDA,是英偉達2006年推出的通用并行計算架構生态,使GPU能夠解決複雜的計算問題。

毋庸置疑,CUDA是迄今為止最發達、最廣泛的生态系統,也是深度學習庫最有力的支援。

雖然有PyTorch支援更多GPU廠商,再加上OpenAI的Triton攪局,但無法撼動CUDA的統治地位。

随着人工智能領域的蓬勃發展,GPU和CUDA被從業者視為标配,使用GPU做加速計算已成為行業主流。雖然英偉達GPU本身硬體平台的算力卓越,但其強大的CUDA軟體生态才是推升GPU計算生态普及的關鍵力量。

目前CUDA 廣泛功能已與英偉達GPU硬體深度耦合,開發者早已熟悉其專有的程式設計語言CUDA,用于制作GPU驅動的應用程式。

如果換到其他廠商的定制晶片,就需要學習全新的軟體語言了,如何說服開發者使用這些AI晶片呢?

最後,晶片的具體生産也是一個挑戰。

如何確定晶片生産的良率,以及如何在進階封裝和先進工藝節點産能仍然有可能緊張的幾年内,獲得足夠的産能以量産,也是各大巨頭需要解決的問題。

總體而言,想要撼動英偉達的壟斷地位,并不是一朝一夕的事。各大科技巨頭要想在AI算力晶片上突圍,就必須在底座、專利、核心技術、人才建設、生态建設等各方面下大功夫。

【關于科技雲報道】

專注于原創的企業級内容行家——科技雲報道。成立于2015年,是前沿企業級IT領域Top10媒體。獲工信部權威認可,可信雲、全球雲計算大會官方指定傳播媒體之一。深入原創報道雲計算、大資料、人工智能、區塊鍊等領域。

繼續閱讀