作者 | 香草

編輯 | 漠影

智東西4月17日報道，昆侖萬維今日重磅推出4000億參數開源大模型天工3.0，其采用MoE（混合專家模型）架構，相比2個月前的天工2.0，邏輯推理、語義了解、複雜需求應對、内容創作等4大核心能力大幅提升。

天工3.0新增了圖表對比生成、研究模式、增強模式、擴圖修圖等功能，并針對性地訓練了模型的Agent能力，使得模型能夠“獨立思考”，規劃、拆解使用者需求，完成複雜任務。

同時，基于天工3.0打造的天工SkyMusic也是中國首個音樂AIGC SOTA（領域最佳水準），其采用音樂音頻領域類Sora模型架構，是國内唯一公開可用的音樂生成大模型。

天工SkyMusic大幅降低了音樂創作門檻，雖然仍處于起步階段，但其已經在音樂生成領域取得了不錯的效果。4月初開啟邀測後，天工SkyMusic背景送出測試申請的人次超百萬。

視訊加載中...

▲廣場舞神曲版《再别康橋》（來源：智東西）

天工3.0大模型的釋出，代表了昆侖萬維“All in AGI與AIGC”戰略路徑上的又一裡程碑時刻。功力大增的天工3.0大模型，到底有多好用？能在哪些方面顯著提升生産力？智東西第一時間體驗了天工3.0。

一、全球最大開源MoE模型，4000億參數、4大核心能力更新

天工3.0參數規模達到4000億級，是全球最大規模的開源MoE大模型。相較于上一代，天工3.0的模型技術知識能力提升超過20%，數學、推理、代碼、文創能力提升超過30%。

▲天工3.0成為全球最大開源MoE大模型

天工3.0基座大模型在邏輯推理能力、語義了解能力、應對複雜需求能力和内容創作能力4個方面大幅提升。作為多模态大模型，天工3.0內建了AI搜尋、AI寫作、AI長文本閱讀、AI圖檔生成、AI音樂生成等功能，在MMBench等多項權威多模态測評結果中超越GPT-4V。

▲天工3.0多模态性能超越GPT-4V

基于模型能力的提升，天工3.0還新增了多輪搜尋及綜合工具調用、AI搜尋研究模式、AI搜尋增強模式等功能，可以高效地完成産業分析、産品對比等各類複雜需求。

在研究模式中，天工3.0能夠圍繞簡單指令進行相關問題的延伸，自動生成研究大綱、圖譜、實踐總結、思維導圖等。

例如，我讓天工3.0研究“OpenAI發展曆程”。在全網搜尋後，它能以分段提煉等形式呈現搜尋結果，并自動總結大綱、繪制思維導圖。

▲天工3.0總結OpenAI發展曆程（圖源：智東西）

在增強模式中，天工3.0能夠針對使用者的複雜Query進行拆解、細化，通過追問、資訊了解與補全，使其在自然語義了解方面性能更強，更好地面對不确定性知識。

比如我輸入了提示詞“2024年科技圈”，這個需求的難度是比較大，會包含多種細分需求的提示詞。天工3.0能立即意識到這個問題并進一步追問，它還貼心地提供了行業發展趨勢、産品市場規模、投資環境等方向選擇。在我選擇“發展趨勢”後，它基于聯網擷取的資料很快給出了包含AI、AIoT、新能源等趨勢資訊的回答。

視訊加載中...

▲天工3.0增強模式（來源：智東西，視訊有加速）

基于多輪搜尋及綜合工具調用功能，天工3.0可以将使用者任務拆解成細分環節，實時判斷是否需要聯網或調用工具，進行單輪或多輪的聯網搜尋、工具調用。

聯網當然要考察最新的時事熱點，我決定問問天工3.0“成都迪士尼”最近為什麼這麼火，天工3.0随即準确地解釋了這個梗的來源及事件經過。然後我跳轉話題，問“迪士尼遊玩攻略”，天工3.0聯系上下文，給出了成都的出行攻略。改成問上海迪士尼的天氣也完全沒問題，通過調用天氣元件工具，天工3.0能夠直接給出近幾日上海的天氣預報。

▲天工3.0多輪搜尋及綜合工具調用功能（圖源：智東西）

在圖像生成方面，天工3.0的改圖擴圖能力取得突破，可以讓它繪制一張風景圖，并逐漸在圖中增加新的物品或元素：

▲天工3.0圖像繪制（圖源：智東西）

對于使用者而言，天工3.0不僅适用于産業分析、市場研究、産品對比、知識管理等工作場景，也适用于内容創作、教育教育訓練、智能搜尋、語音合成、圖像和音樂生成等娛樂場景。

學生黨、打勞工可以利用天工3.0的研究模式和增強模式，通過簡單的查詢獲得全面而精煉的資料，文獻搜集、資料彙總等所需的時間大幅縮短，提升工作學習效率。

内容創作者可以利用天工3.0的AI音樂生成、AI語音、AI圖像生成等功能，提高創作效率和品質，同時創作門檻降低，人人都可以成為“作曲家”、“插畫師”。

此外，在ToB領域，企業使用者也可以利用天工大模型建構專屬Agent，實作專屬知識庫，實作自動調用制定工具、完成複雜指令遵循Agent建構等，提升工作效率、優化決策過程、增強産品和服務的競争力。

二、國内首個音樂AIGC SOTA，秒級生成80秒歌曲、人聲“以假亂真”

近期，海外的音樂生成産品Suno、Udio爆火，AI音樂生成領域受到了前所未有的關注。但這些産品面向海外市場設計，對于國内使用者而言有一定的使用門檻。

基于天工3.0打造的天工SkyMusic，不僅是目前國内唯一公開可用的AI音樂生成大模型，而且在人聲&BGM音質、人聲自然度、發音可懂度等性能方面，以6.65分的綜合得分超越Suno V3，成為全球AI音樂SOTA模型。

▲天工SkyMusic綜合性能超越Suno V3

天工SkyMusic可以生成80秒44100Hz采樣率雙聲道立體聲歌曲，支援生成說唱、民謠、放克、古風、電子等多種音樂風格，還能學習顫音、歌劇、吟唱、男女對唱、自動和聲等歌唱技巧。

此外，天工SkyMusic還擁有獨創的參考音樂生成與方言歌曲生成能力。使用者可上傳或選取現有的參考音樂，生成與之風格、唱腔類似的歌曲，進一步降低了使用門檻；也可以生成粵語、成都話、北京話等方言，傳播地域文化。

其使用方法也非常簡便，使用者隻需下載下傳天工APP，填寫歌詞或使用AI生成歌詞，再選擇或上傳一首參考歌曲，點選“生成”即可在不到半分鐘的時間内生成音樂，并且每首歌都提供三個版本可供選擇。

基于天工SkyMusic的SOTA能力和情感表達優勢，你可以為自己喜歡的古詩詞配上旋律：

視訊加載中...

▲抒情版《長恨歌》（來源：智東西）

這首《長恨歌》是我用徐佳瑩的歌曲《身騎白馬》作為參考生成的，天工SkyMusic生成的音樂在伴奏上層層遞進，在旋律上也展現出了主歌和副歌的段落差異。

也可以将網絡熱梗改編成說唱版：

視訊加載中...

▲說唱版網絡熱梗（來源：智東西）

這段話是近期網絡上比較火的“加密文學”，參考音樂是天工官方提供的一則說唱指南。作為“音樂小白”，我對說唱歌曲中的Verse、Flow等專業術語了解并不多，但能聽出來這個AI嘴皮子确實挺快（Doge）。

如果不想選擇現有的歌詞，可以通過AI生成歌詞功能，讓AI為你續寫。以下是我用AI生成的關于“不想上班”的文案，基于“土味神曲”《5:20AM》生成一首新歌：

視訊加載中...

▲AI創作土搖版歌曲（來源：智東西）

方言歌曲生成能力方面，智東西選取了陳奕迅經典粵語歌《富士山下》的歌詞，以周傑倫的《青花瓷》作為參考曲目輸入，生成了這首具有國風特色的青花瓷版《富士山下》：

視訊加載中...

▲青花瓷版富士山下（來源：智東西）

如此逼真的人聲“以假亂真”能力，以及高度還原音樂風格等各種環節的可控性，天工SkyMusic是如何做到的？

據了解，現有AI音樂大模型企業普遍沒有公開自己的技術路徑，是以沒有可借鑒和參考的開源音樂大模型。昆侖萬維在技術路徑探索上做了非常多的嘗試，花費了大量研發資源，最終摸索出下圖這條路：

▲天工SkyMusic技術原理圖（圖源：昆侖萬維）

在AI音樂生成領域，有兩大技術路徑，符号派與大模型派。天工SkyMusic選擇了難度更大、效果更好的大模型音樂音頻生成路線。

在音頻生成路徑上，又有三個細分領域：Song、BGM、Speech。過去很多AI音樂研究都集中在無人聲的BGM領域，有人聲的Song賽道幾乎沒有好的解決方案。而天工SkyMusic，就是在Song領域取得了極大突破，大幅提高了AI音樂生成技術在Song領域的模型表現，開創了音頻生成大模型的成功案例。

具體來說，天工SkyMusic采用與Sora類似的模型架構，包含三大核心子產品——Encoder、DiT（Diffusion Transformer）和Decoder。其中，Large-scale Transformer負責譜曲，學習Music Patches的上下文依賴關系，同時完成音樂可控性；DiT負責演唱，通過LDM（Latent Diffusion Model）讓Music Patches被還原成高品質音頻。

從上述案例及跟Suno V3的橫評中可以看出，相比海外其他AI音樂大模型，天工SkyMusic在AI人聲合成的細膩度、可識别度上表現優秀，咬字發音，并且支援粵語、成都話等方言語種。

雖然尚處于起步階段，但天工SkyMusic已經讓很多使用者感受到了音樂創作的樂趣。同時，昆侖萬維選擇将寶貴的技術架構公開，也展現了其對開源社群生态、産業共同發展的重視。

三、建構六大AI業務矩陣，國内首推AI搜尋、AI音樂産品

大模型狂飙500天，如何将其能力落地到應用産品仍是困擾衆多AI廠商的難題。大模型殺手級應用何時出現？

昆侖萬維董事長兼CEO方漢告訴智東西，C端+免費可能成為大模型落地的主要路徑。在網際網路時代，美國的谷歌、微軟，國内的百度、阿裡等都是靠這個邏輯成為網際網路巨頭，同樣的道理也将延伸到大模型時代。

一方面，C端使用者上限高達80億；另一方面，訂閱模式門檻高，使用者接受程度相對較低。而要做到免費，AI UGC（使用者生産内容）平台是一個好的商業模式。

根據風投機構a16z上月釋出的生成式AI産品Top 100報告，ChatGPT、Gemini等通用内容生産應用仍占據消費級AI應用大頭。與6個月前的排名相比，有兩個新類别首次進入排行：音樂和生産力。

Suno是唯一進入排行的音樂生成産品，這表明音樂生産工具逐漸闖入消費者視野，成為下一個有潛力的C端應用落地路徑。而生産力類别上榜7款産品，包括寫作、視訊摘要、搜尋引擎、文章總結等領域。

這與昆侖萬維的産品布局路徑不謀而合。

2023年4月，昆侖萬維提出“All in AGI和AIGC”戰略，不局限于單一的産品或技術，而是建構一個完整的AI生态系統，逐漸了形成AI大模型、AI搜尋、AI音樂、AI社交、AI遊戲、AI視訊六大業務矩陣。

其中，AI大模型和AI搜尋作為底座，是所有AIGC能力的基礎，音樂、視訊、社交、遊戲等方向則是昆侖萬維在AGI道路上的探索，展現了其AI UGC平台商業模式。

2023年8月，昆侖萬維推出國内第一款AI搜尋産品——“天工AI搜尋”，深度融合AI大模型能力，通過人性化、智能化的方式，為使用者提供快速、可靠的互動式搜尋服務，助推傳統搜尋跨越式邁入AI時代。

本月初，昆侖萬維推出國内第一款AI音樂生成産品——“天工SkyMusic”，采用音樂音頻領域類Sora模型架構，支援生成80秒44100Hz采樣率雙聲道立體聲歌曲，降低了音樂創作門檻，人人都可以用音樂來表達情感。

昆侖萬維為何能夠在國内市場兩次首發國内第一款AI細分應用創意新品？

這離不開其前瞻性的戰略布局、深厚的技術積累、強大的研發實力以及對市場需求的敏銳洞察。

昆侖萬維從2020年開始布局AIGC和大模型領域，至今已積累近四年的相關工程研發經驗，且研發投入巨大。據其2023年第三季度報告，公司前三季度研發費用達到6.2億元，同比增長28.18%。同時，公司十分重視開源生态，天工大模型在開發過程中也得到了開源社群上百位AI科學家的助力。

此外，昆侖萬維對市場需求有着敏銳的洞察力，看到了AI技術在搜尋引擎、音樂創作等場景的巨大潛力。自2023年4月釋出天工大模型之後，團隊就開始了大模型與搜尋引擎的融合嘗試，并于同年8月推出中國首款AI搜尋産品——天工AI搜尋。天工SkyMusic則展現了昆侖天工探索研究的一個重要方向——情感AGI。

結語：All in AGI與AIGC，昆侖萬維交出最新答卷

随着天工3.0大模型的開源公測，我們見證了昆侖萬維AI技術的又一裡程碑。

天工3.0以其4000億參數的MoE架構，不僅在邏輯推理、語義了解等核心能力上實作了飛躍，更在多模态領域展現了其強大的應用潛力。天工SkyMusic的成功推出，更是将音樂創作的門檻降至新的低點，讓每個人都能輕松玩音樂。

昆侖萬維“All in AGI與AIGC”的戰略布局，在展現了對未來技術趨勢前瞻性的同時，彰顯了其在AI領域的雄心壯志。我們期待看到更多優秀的國産大模型及AIGC産品，通過在邁向AGI的道路上各種創新探索，為更多行業及人們日常生活帶來改變。

天工3.0正式開放！4000億參數MoE開源，開啟音樂生成ChatGPT時刻

一、全球最大開源MoE模型，4000億參數、4大核心能力更新

二、國内首個音樂AIGC SOTA，秒級生成80秒歌曲、人聲“以假亂真”

三、建構六大AI業務矩陣，國内首推AI搜尋、AI音樂産品

結語：All in AGI與AIGC，昆侖萬維交出最新答卷

繼續閱讀

“食”全“酒”美！漳縣音樂啤酒節來啦！！！

還在用傳統的休息方式嗎？今天我要分享一種變态休息法，讓你休息1小時超越别人10小時！1.首先，科學睡眠是關鍵。每天保證7

太精彩了！新川學子舉辦露天音樂會，滿舞台都是青春和才華流淌！

《歌手2024》引爆網絡，音樂人伯遠熱情“請揭榜”！

劉強東帶章澤天聽音樂會，男方緊盯小天，怕走散主動牽手好恩愛

Ella陳嘉桦密集排練迎Hito音樂獎，笑談生活哲學與身體調養

戶外音樂節、汽車美食嘉年華……好玩西樵“五一”邀你來探秘！

再不學就等着被淘汰吧，比ChatGPT更好用的Ai神器

楊坤瘋了？音樂還能這樣定義？

《十二封信》：情感之旅，音樂之美

OpenAI秘密上線神秘模型，疑似ChatGPT4.5進行公開測試

元氣森林音樂節二合一？取消又開始到底是怎麼一回事！

五一假期音樂節彙總！汪蘇泷、毛不易、單依純、吳克群、羅大佑

【時光音樂·迎五一】7小時系列之華語經典老歌【大合集】展播集

劣迹藝人改名混進内地音樂節，被網友實名舉報，比田馥甄背景還強

劉強東帶章澤天看音樂會，全程手牽手膩歪得很，章澤天素顔清純，