天天看點

英偉達股價下跌10%的背後,其實是中國大模型機會來了

英偉達股價下跌10%的背後,其實是中國大模型機會來了

英偉達股價下跌10%的背後,其實是中國大模型機會來了

上周五英偉達的股價經曆了一場風暴,最終出現股價下跌10%,市值消失1.5萬億人民币的悲劇。

表面上看,英偉達是被超威電腦這家公司帶崩的。

因為一開始超威電腦宣布自己不再釋出業績預告,而是等4月底直接釋出一季報。這被市場迅速解釋為超威電腦的業績不及預期,于是引發對于這家公司股票的抛售狂潮。

因為超威電腦實際上是生産以英偉達算力晶片為核心的邊緣計算裝置、伺服器以及儲存設備的公司,再加上這家公司跟英偉達深厚的聯系,很多時候被看作英偉達晶片市場變動的晴雨表。

畢竟有時候國内外網際網路巨頭到英偉達買算力晶片還要排隊,但隻要加錢就能從超微電腦拿到有英偉達晶片的算力伺服器。

然而,真正引發這一場恐慌式股災的,并不僅僅是超威電腦業績預告沒發這件事。

背後引動的深層原因才更加重要。

巨頭開始思考

在一個風和日麗的早晨,華爾街的股市卻經曆了一場“地震”。英偉達,這個晶片制造的巨頭,股價突然暴跌。一石激起千層浪,這場股價震蕩不僅讓投資者們心驚膽戰,更在行業内引發了深層次的思考。

記得就在不久前,英偉達釋出了算力強大的GB200晶片組,被譽為史上最強。那時的英偉達,風頭無兩,行業内一片歡騰。然而,好景不長,19日股價的暴跌,讓市場對英偉達未來的信心産生了動搖。

券商分析師們紛紛站出來解讀這一現象,他們的看法出奇地一緻:市場對英偉達晶片未來的需求産生了疑慮。這究竟是怎麼回事呢?

要了解這一轉變,我們得深入探究目前人工智能技術的核心——transformer架構。這個由Google在2017年提出的架構,已成為自然語言處理領域的翹楚。從OpenAI到微軟,從谷歌到META,幾乎所有美國的大模型都建立在這一架構之上。

Transformer架構的魔力在于它在語義了解和人工智能訓練上的卓越表現。但正如一枚硬币有兩面,它的劣勢也同樣明顯:無法将問題分解,必須整體訓練。這意味着,想要提升模型性能,就得不斷堆砌算力資源,開辟更多的問題教育訓練通道。

于是乎,英偉達的高性能算力晶片成為了行業的香饽饽。從A100到GB200,英偉達算力晶片的價格飙升了十幾倍,從3000美元一路漲至近4萬美元。而網際網路巨頭們為了提升大模型性能,不得不持續投入巨額資金購買更多晶片和電力資源。

英偉達股價下跌10%的背後,其實是中國大模型機會來了

以OpenAI的ChatGPT為例,據英美媒體報道,其運作需要高達3萬塊A100算卡,每天耗費50萬度電。這樣的投入規模讓人咋舌,更别提其他多家巨頭在人工智能領域的投入了。然而,這些投入并未能帶來相應的商業回報。據說OpenAI的營收僅占成本的不到三分之一,其他多家巨頭的财報也顯示類似的情況。

這種完全依靠巨額投入推動模型發展的思路,開始讓網際網路巨頭們感到力不從心。他們開始思考:這樣的發展模式真的可持續嗎?

在這種背景下,英偉達股價的暴跌無疑加劇了市場的恐慌情緒。投資者們開始擔心,一旦這種依靠巨額投入的發展模式難以為繼,英偉達的晶片需求是否會大幅下降?

這種擔憂并非空穴來風。畢竟,網際網路巨頭們正在面臨一個尴尬的現實:他們在人工智能領域的投入不斷增加,但商業回報卻遠遠無法覆寫成本。這種局面下,他們還能否繼續充當英偉達的“提款機”,實在是一個未知數。

而這種潛藏在水面下的趨勢,正是英偉達股價一有風吹草動就引發市場恐慌的根本原因。巨頭們的無奈,也折射出整個行業在追求技術進步與商業回報之間的艱難平衡。

新的救世主

在一個被英偉達晶片和高昂訓練成本所困擾的時代,網際網路巨頭們急需一位新的救世主來引領他們走出困境。這位救世主并非手持利劍的英勇騎士,也不是神秘的魔法師,而是一個名為MoE的機器學習模型架構。

曾經,巨頭們對英偉達晶片的依賴如同信仰一般堅定不移。然而,随着模型訓練成本的飙升,他們開始尋求新的出路。自主研發或采購更便宜的晶片?這固然是一個選擇,但晶片研發之路漫漫,而從英偉達的CUDA平台遷移更是耗時耗力。在這個速度為王的時代,時間就是金錢,巨頭們可耗不起。

于是,他們将目光投向了另一種可能——尋找一個能夠完美解決transformer架構劣勢、提升訓練效率的新模型架構。這時,MoE架構如同一位光芒四射的救世主,走進了巨頭們的視野。

MoE,全稱Mixture of Experts,是一種由多個“專家”模型組成的機器學習架構。想象一下,這些“專家”如同智囊團中的精英,各自擅長處理不同的資料任務。當面臨複雜問題時,他們齊心協力,共同攻克難關。

MoE架構的工作流程宛如一場精彩的交響樂章。資料首先來到一個智慧的“門衛”前,這位門衛眼光獨到,能夠準确識别出哪些專家最擅長處理這些資料。接下來,資料被精準地傳送到對應的專家手中。這些專家各自為戰,卻又協同作戰,最終将各自的智慧彙聚成一份完美的答卷。

令人驚歎的是,MoE架構通過巧妙地将大任務分解為小任務,實作了訓練資源的極大節約。與傳統的transformer架構相比,它所需要的推理和訓練資源大大降低。這不僅是技術上的一次革命性突破,更是為巨頭們帶來了實實在在的經濟效益。

更重要的是,MoE架構的成功運用需要深厚的技術功底。如何精準地切分任務、找到關鍵的神經網絡并訓練出卓越的專家模型,這都需要開發者們匠心獨運、精益求精。相較于不斷增長的硬體投入,這種對技術的軟性投入顯然更受巨頭們的青睐。

此外,MoE架構的特點有利于新興大模型企業的發展壯大,因為它們可以通過技術了解和發展來突破現有巨頭的硬體護城河。

英偉達股價下跌10%的背後,其實是中國大模型機會來了

是以,MoE架構開始以其獨特的魅力吸引着越來越多的大模型開發者。它不僅為巨頭們指明了一條破局之路,更為整個AI行業注入了新的活力。

中國大模型的機會來了

MoE這個在統計學中早已被提出的概念,在近年來開始受到人工智能研究者的關注。

但要說它真正嶄露頭角,還要回溯到2018年。那時的研究者們發現,這個沉寂多年的架構,或許能為日益龐大、複雜的大模型訓練提供新的解決方案。

然而,任何技術的成長都不是一帆風順的。MoE在訓練過程中遭遇了諸多挑戰,輸出結果的不穩定性和對特定專家的過度依賴都限制了它的廣泛應用。盡管谷歌等科技巨頭在此領域有所斬獲,但相比成熟的Transformer架構,MoE仍顯得有些稚嫩。

轉折出現在2023年6月,一篇名為《MoE Meets Instruction Tuning》的論文為MoE的發展指明了新的方向。研究者們從技術可行性的角度出發,為MoE難以控制的問題提供了有效的解決方案。這篇論文如同一股清流,為MoE注入了新的生命力。

僅僅半年後,Mistra AI在X平台上釋出了首個開源MoE模型,這一舉動無疑将MoE從純粹的理論研究推向了實際應用的前沿。與此同時,國内的模型研發團隊也嗅到了新的機遇。

MiniMax、新旦智能、元象科技等一批國内企業紛紛宣布投入MoE架構的研發,他們看到了MoE帶來的無限可能。MoE的核心思想“分而治之”讓這些企業看到了解決大模型訓練難題的希望。

對于國内的大模型開發方來說,MoE不僅解決了訓練過程中的諸多難題,更在推理方面展現出了獨特的優勢。傳統的大模型訓練方法往往伴随着龐大的計算資源和漫長的訓練周期,而MoE通過橫向拓展模型的方式,輕松提升了模型的性能,且不會給計算資源帶來過重的負擔。

在推理方面,MoE的Router機制使得在推理時隻需激活部分專家,大大降低了推理成本。這一優勢讓國内開發方在商業應用中更具競争力,也為他們帶來了更多的市場機會。

特别值得一提的是,MoE架構的靈活性和擴充性也為國内大模型市場帶來了新的活力。随着技術和資料的不斷積累,開發方可以輕松地增加新的專家到模型中,進一步提升模型的性能。這種靈活性使得MoE能夠迅速适應市場的變化和技術的發展。

如今,國内已有不少領先的團隊開始嘗試将MoE應用于大模型的開發中。百度的ERNIE模型就是其中的佼佼者,它通過MoE架構設計實作了對語言的深入了解和生成,廣泛應用于文本分類、情感分析和機器翻譯等領域。而昆侖萬維釋出的天工系列模型也是基于MoE架構打造的混合大模型,正在公測的天工3.0同樣展現了強大的性能。

可以說,MoE架構不僅僅是一種技術突破,它更代表了一種全新的研發理念和模式。在這種理念和模式的引領下,中國的大模型領域正迎來前所未有的發展機遇。

某種程度上講,這或許是中國在大模型領域追上甚至反超美國的關鍵所在。

作 者 | 張津京 

繼續閱讀