天天看點

AI四小龍闖關大模型

作者:經濟觀察報
AI四小龍闖關大模型

經濟觀察報報 記者 錢玉娟 當被稱為“AI下一代風口”的AIGC時代啟幕,ChatGPT激起的大模型浪潮也湧入中國後,原本深耕于AI賽道中的獨角獸們,被認為是紅利當頭、最應順勢而為的那個。

然而,要與一衆科技巨頭展開大模型競速,靠計算機視覺算法能力占領AI領域的“四小龍”——曠視科技、商湯科技、依圖科技和雲從科技,在本就分化的發展路徑上,各有不同的故事在發生。

過去的兩個月裡,商湯科技、雲從科技分别面市了“日日新SenseNova”大模型體系和“從容”大模型,反觀曠視科技與依圖科技,則被質疑“難産”。

被記者問及大模型的創新推進情況時,5月25日,曠視科技方面援引CEO印奇的話作出回應,“在過去四五年時間,我們對大模型這件事情一直非常深度follow的。”

印奇認為,大模型方向是确定的,曠視也會對其中的技術能力進行堅定投入,但“我們不會去趕這個熱點”。

同樣的疑問抛給依圖科技,盡管其創始管理團隊未予以答複,但内部一副總裁向記者透露,“作為AI公司,依圖很早就在關注Transformer和做相關方面的研究工作。”不過業務側進展如何,其表示目前沒有可以對外公布的訊息。

談及上述兩家公司的“低調”,來自雲從科技的一位管理中層有種個人了解,“我們和商湯比較幸運,在最困難的時候,登陸了二級市場,不然現在肯定也很難。”

做大模型,燒錢

上述管理中層人士以雲從科技為例指出,在投入基礎訓練模型的同時,還要做行業模型,“行業模型天然就是需要算力的。”他覺得雲從敢這樣做,底氣在于有資本的原始積累。

雲從科技在其2022年年報中披露,過去一年因籌資活動産生的現金流入達29.4億元,其中59%為其當年上市融資所得。

需要注意的是,大模型不但開發成本高,其因需求高算力,訓練成本也不容小觑。之于雲從科技,想要跨過算力這道門檻,其董事長兼總經理周曦的了解是,投入得到位,于是,重視研發投入的雲從科技,決定“一定要投一二十個億來做這件事”。

如何衡量雲從科技面向大模型的這筆投入,一組資料顯示,2019年-2022年的四年間,雲從科技在研發側的費用支出總計也就21億元。

舍得投入的同時,雲從科技不是沒有資金壓力。“現在買卡很緊張,買不到,就相當于無米之炊了。”上述管理中層人士給記者算了一筆賬,做一個ChatGPT大約需要耗費3萬張顯示卡,參考英偉達最新的GPU晶片H100,“一張卡動辄數十萬人民币”,一個大模型僅在算力這一基礎投入上,至少花費幾億元人民币。

據他透露,雲從科技雖然儲備有幾萬張顯示卡,但目前能用來做大模型訓練的卻很缺乏。一個更為嚴峻的現實,當下英偉達H100、A100、A800等幾款GPU晶片,都出現了全球斷貨現象,包括雲從科技在内的正在進行大模型訓練及優化更新的企業,都在尋找算力卡的替代和解決方案。

競争之下,雲從科技抛出了定向增資計劃。距離“從容”大模型面市也就一個半月前,雲從科技公告稱,欲為“行業精靈”大模型研發項目,募集資金不超過36.35億元。

由于雲從科技去年5月27日才登陸科創闆,上市未滿一年便進行如此大規模募資,也引發監管機構疑慮。在“從容”大模型釋出前兩天,雲從科技披露公告稱,收到上交所下發的《關于雲從科技向特定對象發行股票申請檔案的稽核問詢函》。

這一消息發出當天,5月16日,雲從科技的股價低開走低,盤中一度逼近跌停。整整十天之後,截至記者發稿前,上述雲從科技管理中層人士表示,定增計劃的稽核結果“應該還有一段時間(才能公布)”,他希望這筆錢能讓團隊,“多采購一些不同的算力卡,以備模型的疊代更新和優化。”

商業化故事,難講

其實,在推出“日日新”大模型體系時,商湯科技聯合創始人、大裝置事業群副總裁陳宇恒就當場糾正了一個誤區:不是“買了很多GPU,就可以去搭建超大規模的訓練叢集。”

不過,記者看到,彼時的商湯對外展示出了自己的“雄厚實力”:曆時五年建設的大裝置上,總共有27000塊的GPU晶片卡,是亞洲目前最大的智能計算平台之一。

“秀肌肉”的同時,商湯科技董事長兼CEO徐立還不忘對外釋放AI大模型的商業化前景,“商湯并不需要再額外投入太多,甚至已經開始通過大模型獲得收入。”

不過,講好大模型的故事,并沒有那麼容易。

盡管商湯科技的2022年度财報,首次實作了五年以來的虧損收窄,其研發支出也同比實作雙位數增幅,但因其大模型釋出當天,對“秒畫”平台的操作示範環節涉嫌“抄襲”AI模型站Civitai上的圖檔,瞬時,商湯科技“匆忙”闖關被熱議,其大模型的實際效果更被質疑與業界預期不符。

商湯科技、雲從科技等以視覺算法技術見長的企業,雖是AI 1.0時代的寵兒,但在《ChatGPT:讀懂人工智能新紀元》一書作者、前沿科技領域觀察分析人士陳根看來,邁向AI 2.0時代,尤其大模型浪潮湧起,上述企業在自然語言模型相關的技術儲備和路徑上都欠缺。

“釋出大模型,隻是為了迎合技術概念熱潮。”陳根直指商湯科技當下的現實境遇,初始投資者沒有實作良好的收益,“它正面臨投資人退出的壓力,要麼通過改善公司盈利能力來促進股價,要麼就是抓住資本熱點來促進股價。”

顯然,從商湯科技的經營層面來看,扭虧雖然有趨勢,但轉向盈利“基本看不到希望”,陳根對于AI企業借助概念熱點“講故事”的方式,不置可否。即便曠視科技、依圖科技目前沒有對外實際公布,他也不覺得這些企業在大模型上存在“難産”。

“本身就是個技術故事,隻是這個故事還一直在研發中心研發。”陳根說。

在接受媒體采訪時,印奇有這樣一句話令人印象深刻,“我們不會做純對話的事情。”他對ChatGPT進行解構後,發現對話應用背後的大模型,包含知識引擎和邏輯引擎兩部分,而印奇對曠視科技在邏輯引擎方面的能力予以肯定,他透露,曠視科技專門成立了一個叫“Foundation Model”的小組,“隻做核心的模型設計,不做工程化的事。”

印奇認為,在當下大模型已經形成“大一統”的局面,多模态發展共識下,核心看誰在深度學習的模型領域有更深的了解和更強的模型設計功底。

新風口下,蓄勢

曠視研究院主任研究員張祥雨,目前就擔任“Foundation Model”小組的負責人,他自ChatGPT釋出以來,基本上每天都在使用,除了摸索這個智能機器人擁有的知識儲備,“我更關注它的邏輯推理能力。”

在張祥雨看來,目前包括ChatGPT在内的大模型技術應用,其實背後的邏輯是,在一個AI模型裡,不斷增加資料和模型大小,來實作性能的持續提升,這與規模化效應有關。當曠視科技也進入其中摸索,面臨的挑戰是,視覺與自然語言的差異。

身在曠視科技,張祥雨正在思考,如何把視覺模型中的資料有效利用起來,再設計相關的無監督、自監督的方法,讓模型能在其中進行深度的了解學習。

“我更希望看到創業公司一邊賺錢、一邊賺資料,一邊賺知識。”藍馳創投管理合夥人朱天宇覺得,企業邁向AGI時代,除了大模型應用,還要考慮切入的場景中,能否持續獲得新資料,資料能否反哺AI模型的訓練,進而讓場景中的智能化服務的品質效率更高。

不難想象,這是一個可以循環起來的閉環。微觀AI四小龍,除了曠視科技、依圖科技仍被資本市場拒之門外,每家公司都憑借各自的技術特點,在智慧城市、安防、物流、醫療等垂直領域形成了一定的優勢壁壘。

陳根對依圖科技有所關注,這家AI公司在人工智能醫療領域的優勢,完全有機會基于醫療這一垂直領域“打造一個GPT醫生”。這樣的例子不勝枚舉,再比如商湯科技,在智慧城市治理方面,也有獨特的資料與技術優勢……陳根呼籲外界,在通用大模型技術應用外,更多關注AI四小龍“是否能打造出更多垂直領域應用的專業化GPT”。

朱天宇則強調,不能迷信大模型,反倒要非常重視大資料,“人工智能還是源于大資料蓬勃發展,沒有資料,人工智能也是無米之炊。”來自雲從科技的管理中層也有共識,“閉門造車”式訓練AI模型,沒有來自千行百業的資料,根本訓練不出來一個真正智能化的大模型。

“沒有深入這個行業,你連資料長什麼樣,業務怎麼樣,都不了解。”目前,這位雲從科技管理中層就專注于借助“從容”大模型,深入不同行業進行優化測試,進而研發出專屬于某垂直領域的行業大模型。

當然,行業落地需分階段,上述雲從管理中層看到,一些廠商号稱“敢去做行業模型”,但從現實看,其推出的基礎大模型多停留在網際網路産業,“卡就那麼幾萬張,訓練萬億資料規模的大模型,卡都占了一大半,哪有資源來訓練行業模型?”

采訪的最後,上述企業管理中層透露,目前雲從科技的算力卡資源,傾向于行業模型訓練,“基礎模型訓練的算力晶片,最多不能超過1/3。”