商湯大模型體系“日日新”帶來什麼驚喜？和ChatGPT之類比“會有一點差距，但可以很快追上。”

圖說：語言大模型“商量”展示新民晚報記者郜陽攝

在AGI（通用人工智能）火得發燙的這個春天，商湯科技沒有缺席。

在上海臨港的人工智能計算中心（AIDC），“日日新”大模型體系，正式問世。

“日日新”的名字來源于《禮記·大學》中的“苟日新，日日新，又日新”，展現大模型日新月異，不斷進化之意。這一大模型體系可提供自然語言生成、内容生成、自動化資料标注、自定義模型訓練等多種能力，同時結合決策智能大模型，助力實作AGI。

10日的技術交流日上，商湯不僅展示了“日日新”大模型體系下的語言大模型“商量”，還展示了文生圖生成模型“秒畫”、AI數字人視訊生成平台“如影”、3D背景建築生成平台“瓊宇”和3D物體生成平台“格物”。

在商湯科技董事長兼CEO徐立看來，這是一次大模型的“超市開張”，提供了完整的産業鍊。

會處理問題也會學習新知

“幫我寫一句語言大模型的廣告智語，這個語言大模型的名字叫‘商量’。”

“與商量攜手，讓語言成為你的優勢，開啟無限可能。”對最新研發的語言大模型“商量”的表現，人們已然見怪不怪。

難度更新，程式員加載了專利法的PDF檔案，提出了“專利法申請周期，今年的規定有沒有新的變化？”的疑問，“遲疑”片刻，“商量”結合學習到的内容和更新的知識，給出了“最快可能在2年之内獲得授權”的回答。

“這是擁有1800億級參數的中文大語言模型，在互動式引導過程中精進判斷力與創作智能，在多輪對話、問診與程式設計等垂域表現突出，并全方位覆寫各種應用。”徐立介紹，“另外，‘商量’還能做到知識自動及時更新。”

“商量”的問診本領更令人驚歎——“最近加班很辛苦，眼睛都黃了”，面對這一需求，“商量”沒有直接給出答案，而是詢問“還有其他不适的症狀嗎？”當人類告訴它，“手掌也有點黃，并持續一個多月後”，它謹慎地分析道：“可能是黃疸”“建議盡快預約肝功能檢查”“提醒您注意休息和保持健康的生活方式”。

“‘商量’不斷演進的語言能力和推演能力，将為與頂尖醫院合作搭建未來醫療服務場景提供可能。與新華醫院合作開發的随訪，與嘉會醫院搭建的網際網路問診等都已落地。”徐立說。

對了，“商量”還內建了“AI代碼助手”功能。在公司内部實測中，它将代碼編寫效率提高了62%，在測試集上的一遍通過率達40.2%。“新的軟體開發範式已經産生。在新的二八定律下，未來80％的代碼将由AI生成，實作‘AI for AI’。”徐立感歎。

據悉，“日日新”大模型體系已面向合作夥伴開展内測，未來主要面向B端業務。

“有天賦的運動員”

在商湯科技聯合創始人、首席科學家王曉剛看來，大模型是個非常有天賦的運動員，在教練——人的調教下，不需要一招一式來示範，隻需要“點撥”一番，這個天賦異禀的運動員就能完成新的動作。

“日日新”體系下文生圖創作平台“秒畫”的展示印證了他的看法。面對“生成有80年代港風特點的女生”特點的圖檔需求，“秒畫”的第一次創作隻可謂差強人意。沒關系，那就給幾張港風範滿滿的圖檔，沒過一會，“秒畫”又創作了新的作品。這一次，台下掌聲雷動。

同樣驚豔的還有AI數字人視訊生成平台“如影”——僅需一段5分鐘的真人視訊素材，就可以生成出聲音及動作自然、口型準确、多語種精通的數字人分身。

相比之下，過去的一些模型則是領域内的“專屬模型”，它是一個刻苦的運動員，天賦沒那麼高，得“耐心地教”：一種教法是人工标注大量的資料，另一種則是高天賦的運動員在掌握新動作後，自動産生了很多資料，再“喂”給專屬模型去學習。

“通用人工智能大模型帶來了人工智能範式的一個變化。”王曉剛認為，它以極低的成本、非常高效的方式不斷解決各個領域裡新出現的各種開放性任務，并大幅提升了研發效率和人工智能覆寫的範圍。

要知道，此前ChatGPT和GPT-4 能表現出高超的圖檔和語言了解能力，就是因為“湧現現象”——大模型的數規模達到一定程度時，其解決問題的能力就會發生突變——打個比分來說就是“大力出奇迹”，或者說就是“開竅了”。“一個強大的模型，能通過強化學習和人類回報不斷解鎖新的能力，進而更高效地解決海量的開放式任務，實作從‘資料飛輪’到‘智慧飛輪’的演進。”王曉剛解釋，這最終會達到“人機共智”，就有了延續的“湧現現象”。

算力支撐提供模型即服務

一個回避不了的問題擺在了商湯科技聯合創始人、大裝置事業群副總裁陳宇恒面前：在大模型領域，國内和國外差了多少？

“會有一點差距，但這段差距是可以很快追上的。”陳宇恒顯得很有信心，“大模型技術依托的幾大要素即為大算力、大資料和模型設計。”

“在AI大模型時代，資料、算法和算力這三要素在經曆新的演變，大模型參數量将以指數級速率提升，而資料量随着多模态的引入也将大規模增長，是以必然會導緻對算力需求的劇增。”徐立補充道。

目前業界訓練大模型，對大算力的需求非常旺盛，而真正好用的基礎設施卻十分稀缺。在技術交流日的舉辦地：臨港AIDC，就是曆時5年建成的AI大裝置，共有27000塊GPU晶片卡，可以輸出5.0 exaFLOPS的總算力，是亞洲目前最大的智能計算平台之一。而基于大裝置的能力，商湯目前已建構了計算機視覺、自然語言處理、AI内容生成、多模态、決策智能等多個領域的大模型，持續演進能力并廣泛支援各種應用。

事實上，就在上個月，商湯釋出了開源社群多模态多任務通用大模型“書生2.5”，其擁有30億參數，可為自動駕駛、機器人等通用場景任務提供高效精準的感覺和了解能力支援。

記者了解到，基于AI大裝置和“日日新”大模型體系，商湯将面向行業夥伴提供涵蓋自動化資料标注、自定義大模型訓練、模型增量訓練、模型推理部署、開發效率提升等多種大模型即服務。

“基于預訓練大模型的自動化資料标注可實作相較于人工資料标注近百倍的效率提升。”陳宇恒介紹，“而模型推理部署服務可将大模型推理效率提高100%以上，降低用模型提供服務的成本。”此外，商湯也向行業開發人員開放大量預訓練模型及AI開發工具鍊，全面賦能開發效率。

這兩年，AI的熱點很多，先有元宇宙，再來大模型。對此，陳宇恒表示，元宇宙是人工智能大模型極佳的應用場景，也是多種技術的結合體。其中一系列大模型驅動的技術能力，可以很好解決元宇宙中内容制作成本過高的痛點。

“AI企業要發揮自己的優勢，避免盲目跟風，持續地積累和沉澱，但要在機會來臨的時候，快速敏銳地抓住。”陳宇恒說。

新民晚報記者郜陽