天天看點

股價漲超30%後暫停交易,商湯日日新5.0有何亮點?

作者:王琦 785

21世紀經濟報道記者 董靜怡 上海報道

4月23日,商湯科技SenseTime舉辦技術交流日活動,釋出了商湯“日日新SenseNova5.0”。

自去年4月首次釋出,商湯“日日新SenseNova”大模型體系已正式推出五個大版本疊代。基于超過10TB tokens訓練、覆寫大量合成資料,“日日新SenseNova 5.0”(以下簡稱:日日新5.0)采用混合專家架構(MoE),推理時上下文視窗可以有效到 200K 左右。

據悉,本次更新主要聚集增強了知識、數學、推理及代碼能力,對标 GPT-4 Turbo,主流客觀評測上達到或超越 GPT-4 Turbo。

4月24日開盤後,商湯股價大漲,一度漲超36%。上午11點15分,商湯科技公告臨時停牌。截至停牌,公司股價為0.80港元/股,漲幅達31.15%,總市值達268億港元。

商湯科技回應21世紀經濟報道記者稱,昨日日日新大模型5.0釋出會廣受好評,受到市場極大關注;依照上市規則及港交所建議,公司将進一步刊發相關公告。

下午,商湯釋出公告表示,董事會注意到最近B類股份的交易價格及交易量發生不尋常波動,B類股份于4月24日上午11時15分起暫停買賣。公司已向聯交所申請B類股份于4月25日上午9時正起恢複買賣。

突破資料瓶頸

如何完成日日新5.0的更新?商湯科技董事長兼CEO徐立在技術交流日點出了關鍵路徑。

“商湯在尺度定律的指導下,會持續探索大模型能力的KRE三層架構(知識-推理-執行),不斷突破大模型能力邊界。”徐立表示。

大模型的研發在行業當中有一條大家認知的基本法則,業内稱之為“Scaling Law 尺度定律”。在尺度定律通常意義下,随着模型的參數變大、資料量變大、訓練時長加長,則算法性能會越來越好。是以,要形成通用人工智能模型,對于算力的消耗就變成一種必然要求。

徐立表示,實際上還有兩條隐藏的假設,第一,可預測性,在小尺度上做很多實驗,跨越5-7個數量級尺度依然保持對性能的準确預測;第二,保序性,在小尺度上驗證了性能優劣,在更大尺度上依然保持。

“尺度定律是資源配置的引導器,可以指導我們在有限的研發資源上找到最優的模型架構和資料配方,讓模型能夠更高效地完成學習的過程。”徐立表示。

基于實驗結果,小模型在優化資料的情況下,性能可逼近甚至超越跨資料級的大模型。然而,資料一直是AI持續提升的瓶頸,也是日日新5.0最主要的提升之一。

在知識層面上,日日新5.0采用了超過10TB的Tokens,這確定了高品質資料的完備性,為模型提供了豐富的知識基礎。

在推理層面上,日日新5.0通過合成構造思維鍊資料,這種資料構造方法有助于模型更好地了解和推理行業特定的邏輯和知識。

據介紹,在文科能力方面,“日日新5.0”的創意寫作能力、推理能力及總結能力均有提升,相同的中文知識注入後,可獲得更好的了解總結及問答,為教育、内容産業等垂直應用場景提供輔助。在理科能力方面,“日日新5.0”數理能力、代碼能力及推理能力提高,為金融、資料分析等場景落地提供基礎。

多模态能力上,支援高清長圖的解析和了解以及文生圖互動式生成,實作複雜的跨文檔知識抽取及總結問答展示,以及具備豐富的多模态互動能力。

徐立表示,“日日新 5.0 大模型體系綜合能力全面對标GPT-4 Turbo,技術領跑加速生成式AI向産業落地的全面躍遷。”

端雲協同

過去的一年,雲端的大模型在各個行業都是有了廣泛的應用。但智能終端,如手機、PC、汽車,也是通用人工智能應用的一個非常廣泛的載體和場景。

徐立表示,今年是大模型在端側應用爆發的元年,“端側能力的應用其實是大模型鋪開最核心的關鍵。”

為了滿足移動終端使用者對大模型技術的應用需求,商湯此次也推出了1.8B(18億)參數規模的端側大模型。據了解,其在中端平台實作18.3字/s的平均生成速度,旗艦平台達到78.3字/s。

另一方面,端側大模型的也是彌補雲端的不足。

首先是模型性能與成本平衡的挑戰。商湯科技聯合創始人、首席科學家王曉剛在日前接受21世紀經濟報道記者采訪時表示,如果幾十億個端側裝置都在不停地調用雲端大模型,将需要消耗巨大算力;另一方面涉及資料的傳輸和延遲,某些特定的場景應用需要快速決策。王曉剛舉例,在自動駕駛裡,大模型的部署必須發生在端側。

他進一步表示,不同的應用對于模型的準确率或體驗的要求是不一樣的,也就意味着,對于模型要求不是非常高的應用可以用端側模型。

是以,端雲協同解決方案應運而生,在端雲結合的架構中,端側裝置(如智能手機、IoT裝置等)上部署有較小的、針對特定任務優化的模型。這些模型可以快速響應使用者的需求,處理一些不需要大量計算資源的任務。

雲端則擁有更強大的計算資源和更大的模型,可以處理更複雜或需要大量資料的任務。雲端模型通常具有更多的參數,能夠提供更深層次的學習和推理能力。

端雲結合的MoE架構可以通過智能化判斷協同發揮端雲各自優勢,需要聯網搜尋或處理複雜場景時分流至雲端處理,部分場景端側處理占比超過80%,進而顯著降低推理成本。

王曉剛向記者表示,通過智能地選擇最合适的模型,端雲結合可以提供更快的響應時間和更準确的結果,進而優化使用者體驗。

商湯表示,将端側大模型應用的普及推廣作為今年的戰略重點。

此外,對于金融、代碼、醫療、政務等重點行業邊緣側日益增長的AI應用需求,商湯還推出企業級大模型一體機。王曉剛認為,與垂直行業相結合是展現模型“差異化”的一個關鍵名額,“而模型的應用價值在哪、還能朝哪些方向優化,這些需要行業進行牽引。”

更多内容請下載下傳21财經APP

繼續閱讀