天天看點

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

作者:中金研究
本周Open AI與谷歌分别釋出新一代模型:GPT-4o和Gemini系列模型。本文将介紹兩大AI巨頭在大模型領域的進展,并圍繞硬體、作業系統、算力等方面進行探讨。我們認為,随着AI在端側的逐漸落地,将帶動消費電子終端創新更新,并對雲端算力硬體系統尤其是推理側需求提出更高要求。

摘要

Gemini 1.5 Pro與GPT-4o有何異同?我們認為,GPT-4o是端到端模型的創新,帶來人機互動方式新突破;谷歌Gemini性能更新,AI能力廣泛接入旗下生态。對比來看,兩者都是原生多模态大模型,有望引發行業的效仿熱情,原生多模态或成為未來發展趨勢;但差異點在于,Gemini上下文視窗更大,且定價更具吸引力;GPT-4o模型性能更強,且更強調實際應用場景中的人機互動創新。

AI端側落地帶來消費電子終端人機互動方式變革,關注作業系統更新及應用前景。在硬體側,我們認為,此次兩大模型釋出從四個方面加快了AI落地端側的進度:1)多模态互動方式革新;2)AI語音助手拟人化;3) AI功能在移動裝置的應用前景;4)商業化前景。雖然目前大模型仍以雲端算力調用為主,但從目前各家在模型參數壓縮的努力,結合端側商業變現的前景,未來部分算力下沉到端側将成為必由之路,對應消費電子終端在硬體層面也将迎來創新更新。在作業系統及應用側,語音助手拟人化程度提升,一方面使AI agent成為可能,另一方面未來互動方式變化或帶來流量入口變化,深刻影響生态格局。

雲端算力硬體:GPT-4o部分功能的免費開放,Gemini能力的提升或對機關算力成本下探提出要求,AI infra面臨大幅優化。我們看到,當下行業對算力硬體性能、成本的衡量以訓練導向逐漸轉為推理導向。除了晶片端、網絡硬體端(如光子產品)持續更新外,系統工程能力也正不斷強化:為獲得更低的硬體使用率,降低推理成本,優化顯存、實施算子融合/算子實作優化、低精度(量化)推理、分布式推理均是主流實作方式。我們認為算力硬體市場有望随應用落地步入以價換量時代,市場規模或将持續增長。

風險

AI算法技術及應用落地進展不及預期,AI變現模式不确定,消費電子智能終端需求低迷。

正文

GPT-4o VS谷歌Gemini:大模型疊代到哪了?

圖表1:谷歌I/O大會與OpenAI春季釋出會内容一覽

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

資料來源:谷歌2024年I/O大會,OpenAI春季釋出會,中金公司研究部

Open AI:GPT-4o是端到端模型的創新,帶來人機互動方式新突破

5月13日,OpenAI在春季釋出會上推出新一代旗艦模型GPT-4o(o為omni,即包羅萬象之意)。GPT-4o在GPT-4的基礎上新增語言處理能力,可接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出;同時在時延、人類語氣模拟、表達等方面更加接近人類表達,是邁向更自然人機互動的一步。

低延遲、迅速響應提升語音助手拟人化能力。在GPT-4o之前,使用語音模型對話的平均延遲時間為2.8秒(GPT-3.5)和5.4秒(GPT-4)。得益于從三個模型到一個端到端模型的轉變,GPT-4o能在232毫秒内對音頻輸入做出反應,平均反應時間為320毫秒,這與人類在對話中的反應時間相近,提升了使用者體驗。

免費開放、API調用成本效益提升,有望打開商業化空間。OpenAI在釋出會上宣布GPT-4o将免費提供給所有使用者[1],付費使用者則可以享受五倍的調用額度。GPT-4o API相較于GPT-4 Turbo API,速度提升了2倍,價格僅為一半。

此外,GPT-4o釋出會也将重點放在了AI與實際應用場景的結合上。在大會上,Open AI展示了衆多GPT-4o以語音助手的方式與使用者進行多模态互動的實際場景,包括執行語音搜尋、圖像識别、情感回報識别等。這些實際場景的展示,使市場看到了未來AI潛在應用落地場景的廣闊空間。

圖表2:GPT-4o功能特點及應用場景情況

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

資料來源:OpenAI官網,上海開理悟智科技有限公司官網,中金公司研究部

谷歌:Gemini性能更新,AI能力廣泛接入旗下生态

2024年5月14日,谷歌召開2024年I/O大會,并釋出了一系列大模型産品以及AI應用。我們看到,OpenAI和谷歌雙方前後分别召開新品釋出會,大有互相較量之勢,例如Gemini 1.5 Pro之于GPT-4o、Project Astra之于ChatGPT-4o、Gems之于GPTs、Veo之于Sora等,展現出谷歌正加速縮小與OpenAI在AI大模型方面之間的差距。此外,我們認為AI Overview、Ask Photos、AI+Workspace等功能的推出,也反映出谷歌正積極憑借自身的産業、生态優勢,推動AI與應用的融合。

Project Astra對标ChatGPT-4o,打造更流暢、更豐富的人機互動體驗。Project Astra基于谷歌Gemini大模型,能夠同時處理視覺、語音等多模态信号,并展現出較強的了解、記憶和即時響應能力。我們觀察到,示範中Project Astra至少在智能手機(Google Pixel)以及智能眼鏡(prototype glasses)兩個硬體裝置上運作,我們認為AI大模型正加速向各類智能終端側部署應用。

圖表3:Project Astra示範demo

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

注:左圖為智能手機端運作,右圖為智能眼鏡端運作;

資料來源:谷歌2024年I/O大會,中金公司研究部

端側應用功能迎來更新。1)Gemini Nano:目前運作于端側的Nano模型僅用于文本模态,谷歌宣布将于今夏實作實時語音互動功能[2],并在今年晚些時候上線視訊互動功能,多模态功能趨于完善。2)Gems:與OpenAI的GPTs類似,Gems能夠定制具備特定特征的AI助理,為使用者提供健身、陪伴、烹饪、程式設計、寫作等任務的個性化協助。3)安卓系統更新:谷歌宣布新增三項AI功能:Circle to search、AI agent、模型本地化部署,在保障隐私安全的情況下,提升安卓系統的智能化水準。

谷歌憑借本身在生态上的優勢,積極推動AI與應用的融合。1)搜尋:AI Overview能夠在搜尋中自動總結全網内容,實作概覽、推理、規劃、排版等功能。2)相冊:Ask Photos通過自然語言實作對特定相冊照片的搜尋。3)辦公:在AI Workspace中新增工作總結、郵件問答、智能回複等功能,将AIGC賦能企業自動化,提升辦公生産效率。4)多模态:谷歌推出Imagen 3、Music AI Sandbox、Veo等大模型,分别對應圖像、音樂、視訊生成;其中Veo模型能夠根據多種模态資訊的提示,生成時長超1分鐘的1080P高清視訊,與OpenAI Sora的差距進一步縮小。谷歌目前産業覆寫智能終端、網際網路、企業、醫療、無人駕駛等多個産業,作為一家生态布局相當廣泛的科技大廠,我們認為谷歌在應用側落地具有先天的優勢。随着大模型技術的不斷成熟,我們預計谷歌有望加速應用落地。

對比:Gemini 1.5 Pro與GPT-4o有何異同?

傳統的多模态大模型,往往是不同模态的模型分别訓練後再融合在一起,雖然能夠用一個大模型實作對不同模态資料的處理,但是不同模态之間缺乏協調性。而Gemini和GPT-4o的訓練語料同時包括文本、圖像、音視訊等多種模态資料,所有輸入輸出都是在同一個神經網絡中進行處理。從兩家的demo來看,最終的效果是大模型能夠同時了解多模态資訊以及資訊之間的關系。我們認為,谷歌和OpenAI兩大行業領先企業均不約而同開發原生多模态大模型,有望引發行業的效仿熱情,原生多模态或成為未來發展趨勢。

圖表4:傳統多模态大模型架構

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

資料來源:V7 Labs,中金公司研究部

圖表5:Gemini原生多模态大模型

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

資料來源:谷歌官網,中金公司研究部

Gemini上下文視窗更大。2024年I/O大會上,谷歌宣布将Gemini 1.5 Pro的上下文視窗token數由100萬個擴容至200萬個,相當于2小時視訊、22小時音頻、超過6萬行代碼或超過140萬詞文本的資料體量,遙遙領先于其他大模型(Claude 3為20萬個tokens,而GPT-4o僅為12.8萬個)。

圖表6:Gemini 1.5 Pro、Claude 3、GPT-4 Turbo上下文視窗長度對比

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

資料來源:谷歌官網,中金公司研究部

Gemini定價更具吸引力。我們以12.8萬個tokens上下文長度為例,根據谷歌官網資訊,Gemini 1.5 Pro輸入、輸出價格分别為3.5美元/1M tokens、10.5美元/1M tokens,對比GPT-4o(上下文視窗為12.8萬個tokens)輸入5美元/1M tokens、輸出15美元/1M tokens的定價,Gemini 1.5 Pro的調用成本較GPT-4o下降30%。

圖表7:Gemini 1.5 Pro與GPT-4o的定價

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

注:GPT-4o上下文tokens長度為12.8萬個;

資料來源:谷歌官網,OpenAI官網,中金公司研究部

GPT-4o更強調實際應用場景中的人機互動的創新。我們能看到,GPT-4o釋出會并未過多展示技術細節,而是将大量時間用于展示GPT-4o如何在手機/PC産品上可能的應用場景,尤其AI語音助手充當了重要角色,在跨模态的人機互動中表現出色。

GPT-4o模型性能更勝一籌。根據OpenAI官網測評資料,GPT-4o在文本測試(如MMLU、MATH、HumanEval等)以及視覺了解測試(如MMMU、MathVista等)各類任務中均取得較Gemini 1.5 Pro更優的表現。我們認為,OpenAI的技術水準仍然領先于行業。

圖表8:主流大模型文本、視覺了解測試性能對比

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

資料來源:OpenAI官網,中金公司研究部

終端硬體:人機互動方式變革,AI端側落地加速

在AI發展逐漸進入應用變現的下半場後,如何将AI能力賦能給To C端的消費者成為了重要課題。我們觀察到,除了正常的模型及技術釋出外,本次GPT-4o及谷歌釋出會均将部分重點放在了展示AI在移動裝置,如手機、PC等的實際應用場景。我們認為,未來AI在端側的應用和消費者觸達變現或将成為新的發展側重點。

AI+消費電子終端,硬體更新趨勢明确

AI手機/PC漸行漸近,AI端側落地前景拓寬。

► 互動方式革新:端到端的多模态能力,使得人機互動方式不再局限于文本,豐富了互動形态,與手機現有應用的協同作用更強。

► AI語音助手拟人化:低延遲時間、能夠随時打斷、根據即時回報靈活調整輸出,和豐富的情感色彩,使AI語音助手更加拟人化,改變了過去AI語音助手隻能以回合制方式機械回答的冰冷形象。

► AI功能在移動裝置的示範,應用場景拓展:谷歌Gemini模型與安卓生态的結合、GPT-4o在iPhone上的示範,讓消費者看到了在手機系統與AI結合的可能,AI調用現有APP甚至跨APP的打通成為可能,并拓展出更為豐富的應用場景。

► 商業化前景:除了多元的應用場景外,GPT-4o面向免費使用者開放,考慮手機/PC這類To C市場的龐大使用者群體,AI在端側的廣闊前景受到更多關注。

圖表9:GPT-4o可以改變不同語調回答使用者問題

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

資料來源:GPT-4o釋出會,新智元,中金公司研究部

圖表10:GPT-4o在平闆上指導使用者做數學題

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

資料來源:GPT-4o釋出會,中金公司研究部

AI手機:目前小米、三星、谷歌等廠商均陸續推出了自己的AI手機産品。Counterpoint預測,2024年全球AI手機滲透率約8%,出貨量有望超1億部;2027年全球AI手機滲透率約40%,出貨量有望達5.22億部。

圖表11:各品牌最新釋出的AI手機

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

注:統計時間截至2024年5月15日,為不完全統計

資料來源:各公司官網,中金公司研究部

AIPC:AIPC上市或推動PC換機周期到來。考慮到AI在提高生産力、促進應用落地創新的潛在能力,IDC預測,AIPC 有望在2027年滲透率達到85%。

圖表12:各PC廠商對AIPC産品的布局情況

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

資料來源:聯想官網,惠普官網,戴爾官網,宏碁官網,榮耀官網,中金公司研究部

GPT-4o應用展現空間計算雛形,兼具空間感覺及使用者感覺。GPT-4o展示了初步的識别能力,使用者可以通過攝像頭識别手寫方程,提供解題提示,并逐漸引導解題過程,實時提供回報;同時GPT-4o可以感覺使用者的面部、姿态、語音和表情、情緒變化,其了解人類對話中的打斷習慣,能夠适時停下來聽,并給予相應回複,根據使用者語調生成自然、連貫且毫無機械感的對話。我們認為GPT-4o應用展現了空間計算的雛形,雖然在三維重構、空間感覺、使用者感覺等領域仍存在一定的提升空間,但新的軟硬結合生态及互動模式正在被逐漸建構。

圖表13:GPT-4o在“視訊通話”中感覺使用者面部表情

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

資料來源:OpenAI GPT-4o釋出會,中金公司研究部

AI落地端側的優勢在于對周邊感覺資料的利用,與空間計算相輔相成,或将引領AR産品走向更多應用場景。我們看到,目前Meta推出的Meta RayBan等AR眼鏡産品已經陸續出現了基于多模态的AI用例。硬體端,晶片廠商同步發力,對AR的重視程度不斷提高,産品定義從手機配件變為獨立裝置。

我們認為未來部分算力下沉到端側将成為必由之路。

圖表14:AI手機硬體更新趨勢

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

資料來源:《AI手機白皮書》(IDC及OPPO,2024年),IDC官網,中金公司研究部

圖表15:AIPC硬體更新趨勢

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

資料來源:Counterpoint,Trendforce,中金公司研究部

作業系統&應用:AI進入實時互動新紀元,關注作業系統更新及應用前景

人機互動更新,實時互動能力拓展AI應用落地場景

多模态互動能力較大豐富了AI應用的可能場景。此次GPT-4o端到端的互動能力,使得語音、文本、視訊、圖像等不同模态的打通成為可能,較大豐富了使用的場景。

圖表16:手機App Be My Eyes接入GPT-4o輔助盲人通過攝像頭進行周圍環境搜尋并輸出語音

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

資料來源:OpenAI GPT-4o釋出會,中金公司研究部

圖表17:谷歌Gemini “Ask with Video”可實作視訊搜尋功能

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

資料來源:谷歌2024 I/O大會,中金公司研究部

關注蘋果與安卓兩大陣營,底層系統打通将成趨勢

安卓生态:谷歌Gemini放大全生态優勢,有望打通安卓底層系統。更進一步地,我們認為未來AI與消費者的互動離不開大模型與手機作業系統的深度結合,包括底層作業系統的權限開放、跨APP的内容調用及統一輸出等。在這方面,谷歌基于其在安卓生态的強大影響力,已經開始布局。在本次I/O大會上,谷歌展示了Gemini與谷歌原生産品,尤其是安卓作業系統層面的深度結合。谷歌表示,本地運作的多模态Gemini Nano模型将登陸Pixel手機,Gemini APP将支援語音及視訊實時互動;谷歌将推出自定義AI助手功能Gems,可與“谷歌全家桶”進行互動。展望未來,我們預計谷歌有望憑借自身在安卓生态的強大優勢,加速其在移動裝置,尤其是安卓手機領域的AI功能滲透。

圖表18:谷歌2024年I/O大會對安卓系統的更新

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

資料來源:谷歌2024年I/O大會,中金公司研究部

蘋果:端雲協同,優化使用者體驗,推動終端加速智能化發展。本次GPT-4o展示主要以iPhone為主,同時也有Mac的亮相。除了手機APP端,OpenAI還推出了适用于macOS的桌面級應用。此前有新聞報道[3],蘋果正在與Open AI及谷歌就AI方面合作進行談判。我們認為蘋果在生成式AI或将通過端雲混合的方式實作,在手機、平闆、電腦及MR等端側,蘋果可以通過A+M系列晶片算力支援,完成中小模型訓練,需要時也可向雲端借用算力以完成訓練要求。目前蘋果已積累大量原生App,如Music、TV+、Fitness+及News等,我們認為蘋果在雲端大模型(如Ajax等)訓練後,結合使用者日常搜尋及使用習慣,有望實作個性化使用者推送。考慮蘋果已收購的AI Music等初創公司,我們認為蘋果有望結合使用者偏好實作定制化内容生成,進一步提高使用者粘性。

圖表19:蘋果AI模式探索(*号表示蘋果暫未正式釋出,但未來有布局潛力方向)

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

資料來源:蘋果官網, OpenAI、Google、Anthropic官網,中金公司研究部

安卓手機廠商:除了大模型廠商外,安卓手機廠商也在加快自身大模型研發。力圖在未來的AI端側時代占得先機,目前華為、小米、OPPO、vivo、三星、傳音等廠商均推出了大模型,并結合進自身的作業系統。

語音助手使AI Agent成為可能,流量入口或将迎來變化

語音助手拟人化程度提升,AI agent成為可能。此次GPT-4o最令觀衆眼前一亮的在于具有情感色彩、即時進行多模态回報的AI語音助手能力,同時谷歌釋出的Astra亦具有多模态的回報能力。從移動端AI的發展趨勢看,我們認為未來手機端AI Agent的發展方向是Agent自主調用手機端應用,讓使用者享受到專屬手機智能助理的服務,進而打破APP的隔閡,通過自主的規劃決策實作跨應用的操作。

圖表20:GPT-4o通過語音助手方式與使用者互動

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

資料來源:OpenAI GPT-4o釋出會,中金公司研究部

互動方式變化或帶來流量入口變化,深刻影響移動網際網路生态格局。我們前述AI Agent的互動模式,對應了或将替代獨立APP與消費者的直接接觸,而是将所有需求內建進入AI Agent中,這種人機互動方式的改變具有深遠意義。我們認為未來人機互動的模式有望從文本進化到語音等方式,同時人機互動也将呈現多模态結合的特點。同時,語音助手有望成為使用者擷取資訊及進行互動的重要入口,甚至直接幫助使用者進行内容篩選和内容生成。從遠期角度看,當互動出現跨APP調用後,APP以及應用商店的入口功能被削弱,目前移動網際網路生态的商業模式或許将出現變化。

雲端算力硬體:使用率為上,推理側落地需求推動AI Infra進入大幅優化期

GPT-4o部分功能的免費開放,Gemini能力的提升或對機關算力成本下探提出要求,AI infra面臨大幅優化。我們看到,雖然GPT-4o依舊是GPT-4級别的模型能力,但此次釋出大幅度針對端側應用進行了擴充;同時在免費有限次的使用中,互動時延縮短至232 毫秒内,逼近人類回報。Gemini 1.5 Flash是新推出的模型,重點優化了響應時間,兼顧快速和成本效益。從功能角度看,我們認為應用能力的推廣以及互動時延的降低均對于雲端算力晶片的推理能力提出了更高的要求。

圖表21:GPT-4o向使用者開放免費使用部分功能

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

資料來源:OpenAI GPT4o釋出會,中金公司研究部

應用加速開發推動算力資源向推理任務傾斜;推理過程預填充階段(Prefill)對單卡算力有較高需求,解碼階段(Decode)記憶體帶寬是推理性能限制因素。若使算力硬體系統針對推理任務優化,一方面可以直接通過更新硬體性能來解決。另一方面,由于每分每秒的GPU運作均是成本開銷,是以對于實際推理任務中,我們要先去衡量究竟是何種原因導緻系統效率瓶頸,并結合具體系統服務能力敏感名額來具體針對性的實施工程優化。實際應用情況中,我們多采用“以計算換存儲”或“以存儲換計算”來提升硬體使用率(算力使用率MFU及訪存使用率MBU),以減小延時,增加吞吐量,提升硬體使用率來降低推理成本。

圖表22:大模型推理優化方式詳解

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

資料來源:英偉達官網,中金公司研究部

從模型創新到加速應用落地,資本開支結構或将向邊緣推理側傾斜。2023年北美頭部四家雲廠商(亞馬遜、微軟、谷歌、Meta)資本開支合計達到1474.5億美元,結合各家指引,目前彭博一緻預期認為2024年資本開支總值同比增長33%至1966.1億美元,AIGC的發展驅動資本開支總量擡升。而結合此次GPT-4o釋出會中,我們看到随着應用加速部署,AI的發展脈絡逐漸從模型創新、向大模型端側部署傾斜,由此帶來的算力資源變化,或将帶動資本開支結構向邊緣推理側傾斜。

硬體方面的優化

英偉達推出GB200 NVL72,相比H100可為萬億參數語言模型提供30倍的實時LLM推理性能,有望助力産業探索應用開發。展望未來,我們看好GB200 NVL72憑借內建式的高算力、優異的互聯能力以及大幅度的記憶體帶寬,在推理任務側持續助力産業界探索應用開發,提供成本效益較高的算力解決方案。

圖表23:GB200 NVL72與H100推理速度對比

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

資料來源:英偉達官網,中金公司研究部

谷歌TPU疊代更新,晶片自研進一步深化。TPU v6 Trillium正式推出,谷歌表示其單片峰值計算性能較TPU v5e提高470%,能效較TPU v5e高出67%以上。從内部設計看,TPU v6擴充了矩陣乘法單元MXU,提高了時脈速度,将HBM的容量和帶寬提高了一倍、片間互聯的帶寬亦增加了一倍,同時配備了SparseCore專用加速器優化工作負載,最終實作性能與能效的大幅提升。

圖表24:谷歌TPU v6 Trillium

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

資料來源:谷歌2024年I/O大會,中金公司研究部

我們認為,由于AI資料中心GPU并行計算需要高頻中間計算結果通信,且通信效率影響整體計算叢集性能,是以對通信帶寬、網絡時延、網絡穩定性、自動化部署等提出較高需求。

C2C方面,GB200 NVL72利用全互聯的第五代NVLink網絡,單個GB200 Tensor核心GPU最高可支援18個100GB/s的NVLink連接配接,總雙向帶寬達到1.8TB/s,相比第四代NVLink實作翻倍,相較于2014年初代的160GB/s實作了12倍提升。

圖表25:NVLink雙向帶寬更新至1.8TB/s

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

資料來源:英偉達官網,中金公司研究部

NVSwitch是NVLink技術的延伸,解決GPU間通訊不均衡問題。新一代NVLink Switch系統最多可連576塊GPU,連接配接總帶寬最高達1PB/s。

B2B方面,200G SerDes賦能,X800系列交換機帶寬、端口速率同步更新。英偉達X800系列交換機和ConnectX-8網卡代表資料中心内B2B互聯的最高水準。ConnectX-800G智能網卡速率更新至800GB/s,最高支援48通道PCIe 6連接配接;其兼具通信優化和計算解除安裝功能,能夠與交換機協同提升B2B傳輸效率。

谷歌液冷資料中心穩步推進。2018年谷歌釋出TPU3.0 Pod将液冷技術引入資料中心,至今部署液冷系統的資料中心已達1GW。我們認為液冷作為散熱效率更高的方式,憑借提升算力部署密度及降低系統功耗的優勢,有望實作對傳統風冷的替代,未來滲透率有望繼續提升。

系統工程的優化

1)優化顯存:在推理過程中,除了模型在各個層級的權重本身占用顯存外,KV Cache(即Attention塊中的Key和Value矩陣,推理decode階段減少重複計算所需要緩存的部分)也占用了較大的顯存。目前大部分針對KV Cache的優化工作,主要集中在工程上。不過近期我們看到針對Attention塊的創新變化也在發生,如DeepSeek在其最新釋出的V2版本大模型中引入了MLA機制,獲得了較好的KV Cache降低效果,模型性能也保持了不錯的穩定性。我們看到業界在不斷尋求更優化的方法來降低KV Cache訪存開銷,以此來獲得更大的batch size以獲得更高的硬體使用率。

2)算子融合/算子實作優化:在模型訓練時,工程師一般會選擇小算子反複探求每步驟輸入輸出結果的關系來對模型做優化,而對于推理任務來看,在模型訓練完成後更多會使用大算子來獲得更加的硬體執行效率。在算子實作上(即如何将計算邏輯和晶片架構相結合)也可以發掘相對較頻繁執行的算子,并将其在GPU的實體實作上通過更優化的編譯政策來增大機關時間内GPU使用率。

3)低精度(量化)加速:推理過程中,權重的量化是加速推理重要方法之一。在推理時,我們發現FP16 權重通常能提供與 FP32 相似的精度,這代表着在推理時通過将權重量化為FP16,僅需一半 GPU 顯存就能獲得相同的結果,甚至采用更低精度如INT8/INT4來量化來獲得更好的效果。我們認為在一些專用處理器中往往存在一些專門為整型運算設計的加速單元,可以實作更好的算力使用率及能耗比。

4)分布式推理:雖然與訓練端相比,推理的計算量相差甚遠,但我們在前文中提及,大模型推理中部分場景是訪存受限的(尤其對于模型更新後更長的上下文視窗這類需求)。是以為提升GPU使用率,工程上會采用張量并行(Tensor Parallelism, TP,為模型并行的一種,屬于層内并行),将LLM模型參數進行切分,進而減少從顯存中讀取模型參數的耗時。

風險提示

AI算法落地進度不及預期:ChatGPT\GPT-4等模型不開源,同時存在着隐私資料洩露、模型竊取、資料重構、Prompt Injection攻擊等資料安全性問題、回答準确性問題、道德問題,威脅着模型應用的落地。

AI變現模式不确定:雖然AI的出現或将改變數字内容生産關系,但是:1)ToC端,除了GPT-4,其他AI模型的使用者還處于免費體驗的模式,同時以Microsoft 365、New bing等為代表的應用也仍處于免費體驗的模式,收費模式尚不确定;2)ToB端,目前大量初創企業接入的ChatGPT、GPT-4 API接口收費較低,未來的收費标準和模式也不确定。

消費電子智能終端需求低迷:受整體宏觀經濟、國際地緣政治沖突及半導體周期下行等因素疊加影響,消費電子市場受到較大沖擊,國内外市場需求均呈現不同程度的疲軟。若2024年消費電子需求回暖不及預期,我們認為硬體端受益AI的進展或将不及預期。

[1]https://openai.com/index/hello-gpt-4o/

[2]https://io.google/2024/intl/zh/

[3]https://www.japantimes.co.jp/business/2024/04/27/tech/iphone-openai-ai-features/

文章來源

本文摘自:2024年5月16日已經釋出的《AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元》

彭虎 分析員 SAC 執證編号:S0080521020001 SFC CE Ref:BRE806

溫晗靜 分析員 SAC 執證編号:S0080521070003 SFC CE Ref:BSJ666

成喬升 分析員 SAC 執證編号:S0080521060004

李詩雯 分析員 SAC 執證編号:S0080521070008 SFC CE Ref:BRG963

黃天擎 分析員 SAC 執證編号:S0080523060005 SFC CE Ref:BTL932

孔楊 聯系人 SAC 執證編号:S0080122110018

查玉潔 聯系人 SAC 執證編号:S0080122120012

李澄甯 分析員 SAC 執證編号:S0080522050003 SFC CE Ref:BSM544

石曉彬 分析員 SAC 執證編号:S0080521030001

賈順鶴 分析員 SAC 執證編号:S0080522060002 SFC CE Ref:BTN002

陳昊 分析員 SAC 執證編号:S0080520120009 SFC CE Ref:BQS925

法律聲明

中金 | AI浪潮之巅系列:AI端側落地加速,開啟實時互動新紀元

繼續閱讀