盡管走上行業風口不過一年多時間，但AI大模型的基礎研發和應用場景的讨論熱度始終高企。到2024年，AI大模型邁入應用元年的聲音更是一時甚嚣塵上，行業果真走出這一步了嗎？

事實上，鑒于“研發和應用兩手抓”需要的能力與資本都巨大，行業之中配得上這一拷問的公司并不多：百度“文心一言”、阿裡“通義千問”、昆侖萬維“天工”、商湯“日日新”、科大訊飛“星火”等等企業及其大模型，都是牌桌上的有力角逐者。

真正要在其中脫穎而出，不僅需要性能超前的基礎大模型，同時也要與之相配、并有“爆品”潛質的産品應用場景。對此，昆侖萬維以“天工3.0”和“天工SkyMusic”嘗試回答。

4月17日，昆侖萬維自研四千億級大語言模型“天工3.0”正式開啟公測并同步開源。這一采用4000億級參數的MoE混合專家模型，是目前全球模型參數最大、性能最強的MoE模型之一，相較上一代在模型語義了解、邏輯推理等多個性能次元均有明顯提升。

技術層之外，這可能也是AI應用領域的潛在引領者之一。與“天工3.0”一同開啟公測的還有昆侖萬維的AI音樂生成大模型“天工SkyMusic”，該大模型在小範圍邀測時已經激起不小的音樂創作浪潮。

而不僅是音樂，“天工3.0”目前已将AI能力內建進搜尋、寫作、長文本閱讀、對話、代碼等多個高頻應用場景，為大模型領域即将開啟的落地應用之戰籌備砝碼。

至此，一個完整的AI大模型技術與應用生态正在成型。這是AI大模型叙事最重要的章節之一，它可能就此建立一條行業分水嶺。

天工SkyMusic，引領AIGC音樂浪潮

自OpenAI将大模型推上行業風口以來，屬于中國市場的“百模大戰”已經拉開序幕一年有餘，進入2024年，行業關注點開始從技術研發向應用落地逐漸傾斜——無可置否，大模型的落地應用才是決定其技術與價值的長尾名額。

就所有内容模态而言，音頻内容是相比文本和圖檔更好了解人類情感的方式，同時，音樂也是人類情感表達最充沛且不受地域和文化限制的内容載體。是以，衆多落地場景之中，音樂創作成為普羅大衆最易上手和感受到趣味性的AIGC場景。對于AI公司而言，這是一個将自己推向C端市場、獲得大衆認知的有利機會。

天工SkyMusic正是昆侖萬維面向音樂行業釋出的大模型，此前于4月2日面向社會開啟邀測，今天随天工3.0正式釋出。該大模型自邀測階段就受到行業專家及音樂從業者的廣泛關注，它不僅是國内唯一公開可用的AI音樂生成大模型，同時也是中國首款AI音樂大模型SOTA模型，更是中國的自研大模型技術第一次在AIGC領域領跑全球。

在大模型領域中，SOTA模型指的是被認為是“State of the Art”（SOTA）的模型。正如OpenAI被視為文本大模型和視訊生成大模型的SOTA，"State of the Art"這個術語通常用于描述某個特定領域或技術中目前最先進、性能最好的技術或方法。

在與海外頂尖的AI音樂大模型Suno V3的橫向測評中，天工SkyMusic在人聲&BGM音質、人聲自然度、發音可懂度等領域顯著領先對手，并以6.65分的綜合得分超越Suno V3，成為全球AI音樂SOTA模型。

目前，AI音樂生成有兩大技術路徑，分别是符号音樂生成路線和大模型音樂音頻生成路線。前者是指先标注大量樂譜，再訓練模型，最後生成的結果也是樂譜，需要額外的算法或工具将樂譜轉換成音樂；後者則是直接學習并生成音頻波形，樂器、人聲、旋律、音量、音符等等都一體化端到端生成，但這種方式不僅艱難、成功經驗稀缺，還需要高昂的算力和資金。

天工SkyMusic選擇的是技術意義上更難的音頻生成路線。不僅如此，由于這一路線所覆寫的Song、BGM（Background Music）、Speach三個領域中，Song領域因為包含人聲、生成技術難度更高，始終沒有出現極佳方案。對此，天工SkyMusic投入大量資源實作了一定技術突破，使得該領域的生成品質終于得到提升。

值得注意是，天工SkyMusic是音樂AIGC領域罕見公開自身技術路徑的産品。其由“Encoder-DiT-Decoder”三大核心子產品組成的技術路線圖，成為了“音頻路線+人聲Song路線”的重要技術參考。

相較于行業中的同類産品，天工大模型帶動天工SkyMusic擁有了更突出的産品優勢。

例如，其擁有獨創的參考音樂生成與方言歌曲生成的能力。參考音樂生成是指，使用者可上傳自有參考音樂，或選擇“天工SkyMusic”資料庫中現有的參考音樂，進而生成風格、唱腔類似的歌曲，這種能力能夠結合創意、技術和音樂制作技巧，讓使用者利用現有的音頻資源來創作出更加豐富多彩的音樂作品；

方言歌曲生成能力包含粵語、成都話、北京話、上海話等，這不僅能擴大其閱聽人範圍，還能加強音樂創作生成的多樣性。同時，基于強大的資料庫及訓練模型，天工SkyMusic還可打造出更具辨識度的自然人聲，這也将使其差別于普通音樂AIGC産品較濃的“AI人聲質感”。

此外，天工SkyMusic可通過歌詞控制情緒變化，實作如顫音、歌劇、吟唱等多種歌唱技巧，還支援創作說唱、民謠、放克、古風、電子等多種音樂風格。

這種音樂創作上的靈活性和普适性，為天工SkyMusic的創作成果帶來了更多趣味。在其公布的大量demo中，《龍行龘龘》演繹了戲曲唱腔與電子音樂如何完美融合；《悟空》從歌詞上貼合了人物本身的傳奇色彩與不羁性格，其獨特了解與領悟最終與旋律合二為一；《Pack my bags》則诠釋了歐美流行音樂的精妙之處，其女聲唱腔兼具歐美女歌手的音色與技巧。

借此，天工SkyMusic得以大幅降低音樂創作的門檻，讓每個使用者都能夠更加容易創作屬于自己的旋律和歌曲，這使其有望成為行業中最重要的全民音樂創作工具之一。而随着該音樂大模型的不斷進化，它還有可能加入專業音樂人改善創作品質、提高創作效率的輔助程序中，逐漸推動建立屬于自己的AI音樂創作者生态。

開源MoE大模型的時代來臨

事實上，天工SkyMusic隻是昆侖萬維邁向AIGC大千世界的第一站。自天工3.0釋出後，這一大模型将覆寫聽、說、讀、寫、畫、唱等更多高頻AIGC應用場景，正式開啟一個多模态大模型時代。

從單一模态逐漸過渡到多模态，進而建構世界模型，是業界共識度最高的，邁向AGI的演進路徑。而在OpenAI展現GPT-4和GPT-4V的能力之後，行業便一直在等候一個更具場景覆寫力的多模态大模型，将大模型技術的應用現實進展再往前推一把。

昆侖萬維“天工3.0”正是登場于這樣的背景之下。“天工3.0”采用了4000億級參數MoE混合專家模型，是全球模型參數最大、性能最強的MoE模型之一，并已同步選擇開源。相較上一代，其在模型語義了解、邏輯推理、通用性、泛化性等領域均有明顯提升。

具體而言，“天工3.0”的模型能力提升集中于邏輯推理能力、語義了解能力、專項Agent訓練和内容創作能力四大方面。邏輯推理方面，“天工3.0”數學與推理能力均提升超過30%；語義了解則能夠更好了解和處理使用者自然語言Query中的複雜語義資訊，包括隐喻、多義詞等。

專項Agent訓練是此次模型能力提升的核心。目前，AI Agent（智能體）已經成為大模型技術的主流落地方向，而“天工3.0”針對模型獨立規劃、調用、組合外部工具及資訊的模型Agent能力進行了專項訓練，使其能夠獨立生成并調用代碼，完成包括圖表繪制、工具調用、語義判斷等多項複雜使用者需求。

自此，“天工3.0”成為具備多個領域專業知識和能力的全能專家。它能夠對複雜任務進行拆解優化，更深入了解使用者需求，也具備實時判斷并調用專用模式擴充基座模型的能力，最大程度提升模型性能。諸如産業研究、産品橫評、資訊分析、圖檔生成、圖表繪制等需求場景，已經可以由“天工3.0”較為高效覆寫。

對AI使用者而言，“天工3.0”性能更新最直覺的價值就展現在AI搜尋場景上。在資訊呈現方式上，天工AI的研究模式可提高問答的專業性質，圍繞使用者的某個簡單指令進行相關問題的延伸，自動生成研究大綱、圖譜、實踐總結、思維導圖，而增強模式可對模糊問題做進一步引導，幫助使用者擷取更有效的資訊，提高回複品質。

同時，天工3.0展現出行業同類AI搜尋引擎所不具備的差異化優勢。——它不僅有文本回複能力，還有圖文并茂能力，在文本回答的同時附帶圖檔或視訊，幫助使用者加強資訊了解。

在内容創作層面，基于專項Agent訓練等帶來的性能提升，“天工3.0”的内容創作能力已有跨階段性發展。

在基礎推理與了解方面，天工3.在數學推理能力的提升，也讓它能夠更準确地了解使用者需求。

在上一代AI搜尋、AI語音、AI對話、AI二次元漫畫生成等強大内容創作能力基礎上，“天工3.0”又發展出了更強的多模态性能，例如在對話中，結合文本需求實時生成圖檔、或實時分析内容及圖表的能力，成為了集合聽、說、讀、寫、搜、畫、看、唱等能力的千億級開源MoE大模型。

至此，天工3.0得以實作多模态的深度融合與應用。對行業而言，這将帶來更高效智能的解決方案，同時降低AI技術的研發門檻和使用成本，最大化共享技術能力和經驗。

降低AIGC使用門檻，推動産業更新

從ChatGPT驚豔亮相那一天起，就持續關注AI大模型發展的使用者們，大概可以體會到“天工3.0”給行業帶來的顯著沖擊力——它不僅在技術層面提高了自身競争力，也在實際應用層面逐漸覆寫當下高頻應用場景，同時向搭建大模型應用生态的目标大步前進。

在這一視角下，天工3.0的釋出意義不隻是大模型應用場景的更新，它還加速了AI應用的普及，促使更多企業和開發者參與到AI引領的科技變革中。

從天工SkyMusic到天工3.0釋放的多模态能力，行業已經可以預測到昆侖萬維意圖掀起的AIGC浪潮。

因為不僅是中國首個音樂AIGC SOTA，作為全球最大規模開源MoE大模型，天工3.0有能力帶領更多領域的創作者群體自由出入AIGC的了解與生成的通道，利用多模态的深度融合與應用，大幅降低内容生産的門檻與成本，重新定義創作效率和品質标準。這種影響力将逐漸促進整個内容生産行業進化，釋放更多的創作力和内容價值。

這不僅是一家公司的使命願景，也是一個行業實作突破的硬性階段目标。為此，昆侖萬維已付諸多年實踐。

自釋出天工系列大模型以來，昆侖萬維已在AGI和AIGC兩大方向上完成自己的業務矩陣布局：從千億級大語言模型到多模态AI内容生成能力，從AI搜尋、AI音樂、AI 社交等再到國内領先的AI Agent開發平台，無論是模型技術還是工程能力，都竭力站穩國内AI企業頭部陣營，做好為産業提供支撐的準備。

在這背後，走向AGI和促進AIGC應用發展，始終是這家企業的目标與使命。如今，随着“天工3.0”的釋出與展示，昆侖萬維在“All in AGI與AIGC”這一戰略征程上再下一城，即将把大模型戰事推向新的高潮。

大模型邁入應用元年昆侖萬維推出中國首個音樂SOTA模型

天工SkyMusic，引領AIGC音樂浪潮

開源MoE大模型的時代來臨

降低AIGC使用門檻，推動産業更新

繼續閱讀

中國人在歡度假期，世界卻發生了3個悲劇，美英在中東不宣而戰

匠心永續｜傳承創新，Ta助力中國烘焙走向世界舞台

2001年，北韓間諜船僞裝成中國漁船，日軍發現後瘋狂進行攻擊

賣給菲律賓飛彈，印度想在南海添亂，中國的反制，讓印度很不舒服

看了不起的四大發明，帶孩子領略中國科技從古至今的魅力！

邊境談判取得進展，印度防長揚言不向中國低頭，但希望與中國友好

馬斯克突擊訪華背後， “中國制造2025”已實作86%，美媒驚呼失望

挑戰中國基建？印度砸28億建最大辦公樓，網友：沒中國一個小區大

“五一”音樂計劃到站啦！托蒂、範巴斯滕都要來觀山湖和你“蹦迪”

免簽後首個“五一”假期！這些國家為迎接中國遊客做足了準備

李玉蓉：中國共産黨對蘇區“剪刀差”問題的闡釋與應對

若戰争爆發，美國可以迅速出兵10萬人，那麼中國能集結多少兵力？

馬斯克推遲訪印後，轉身去了中國，印度人得知後，後槽牙都咬碎了

2024年中國科幻研究中心年會暨成果釋出會在我區順利召開

2024第七屆中國科普作家協會科幻創作研究基地年會暨學術論壇召開

2024第八屆中國科幻大會“元宇·光年”科普科幻教育論壇成功舉辦

大模型邁入應用元年 昆侖萬維推出中國首個音樂SOTA模型

天工SkyMusic，引領AIGC音樂浪潮

開源MoE大模型的時代來臨

降低AIGC使用門檻，推動産業更新

繼續閱讀

大模型邁入應用元年昆侖萬維推出中國首個音樂SOTA模型