天天看點

天工3.0正式開放!4000億參數MoE開源,開啟音樂生成ChatGPT時刻

作者:智東西
天工3.0正式開放!4000億參數MoE開源,開啟音樂生成ChatGPT時刻

作者 | 香草

編輯 | 漠影

智東西4月17日報道,昆侖萬維今日重磅推出4000億參數開源大模型天工3.0,其采用MoE(混合專家模型)架構,相比2個月前的天工2.0,邏輯推理、語義了解、複雜需求應對、内容創作等4大核心能力大幅提升。

天工3.0新增了圖表對比生成、研究模式、增強模式、擴圖修圖等功能,并針對性地訓練了模型的Agent能力,使得模型能夠“獨立思考”,規劃、拆解使用者需求,完成複雜任務。

同時,基于天工3.0打造的天工SkyMusic也是中國首個音樂AIGC SOTA(領域最佳水準),其采用音樂音頻領域類Sora模型架構,是國内唯一公開可用的音樂生成大模型。

天工SkyMusic大幅降低了音樂創作門檻,雖然仍處于起步階段,但其已經在音樂生成領域取得了不錯的效果。4月初開啟邀測後,天工SkyMusic背景送出測試申請的人次超百萬。

視訊加載中...

▲廣場舞神曲版《再别康橋》(來源:智東西)

天工3.0大模型的釋出,代表了昆侖萬維“All in AGI與AIGC”戰略路徑上的又一裡程碑時刻。功力大增的天工3.0大模型,到底有多好用?能在哪些方面顯著提升生産力?智東西第一時間體驗了天工3.0。

一、全球最大開源MoE模型,4000億參數、4大核心能力更新

天工3.0參數規模達到4000億級,是全球最大規模的開源MoE大模型。相較于上一代,天工3.0的模型技術知識能力提升超過20%,數學、推理、代碼、文創能力提升超過30%。

天工3.0正式開放!4000億參數MoE開源,開啟音樂生成ChatGPT時刻

▲天工3.0成為全球最大開源MoE大模型

天工3.0基座大模型在邏輯推理能力、語義了解能力、應對複雜需求能力和内容創作能力4個方面大幅提升。作為多模态大模型,天工3.0內建了AI搜尋、AI寫作、AI長文本閱讀、AI圖檔生成、AI音樂生成等功能,在MMBench等多項權威多模态測評結果中超越GPT-4V。

天工3.0正式開放!4000億參數MoE開源,開啟音樂生成ChatGPT時刻

▲天工3.0多模态性能超越GPT-4V

基于模型能力的提升,天工3.0還新增了多輪搜尋及綜合工具調用、AI搜尋研究模式、AI搜尋增強模式等功能,可以高效地完成産業分析、産品對比等各類複雜需求。

在研究模式中,天工3.0能夠圍繞簡單指令進行相關問題的延伸,自動生成研究大綱、圖譜、實踐總結、思維導圖等。

例如,我讓天工3.0研究“OpenAI發展曆程”。在全網搜尋後,它能以分段提煉等形式呈現搜尋結果,并自動總結大綱、繪制思維導圖。

天工3.0正式開放!4000億參數MoE開源,開啟音樂生成ChatGPT時刻
天工3.0正式開放!4000億參數MoE開源,開啟音樂生成ChatGPT時刻

▲天工3.0總結OpenAI發展曆程(圖源:智東西)

在增強模式中,天工3.0能夠針對使用者的複雜Query進行拆解、細化,通過追問、資訊了解與補全,使其在自然語義了解方面性能更強,更好地面對不确定性知識。

比如我輸入了提示詞“2024年科技圈”,這個需求的難度是比較大,會包含多種細分需求的提示詞。天工3.0能立即意識到這個問題并進一步追問,它還貼心地提供了行業發展趨勢、産品市場規模、投資環境等方向選擇。在我選擇“發展趨勢”後,它基于聯網擷取的資料很快給出了包含AI、AIoT、新能源等趨勢資訊的回答。

視訊加載中...

▲天工3.0增強模式(來源:智東西,視訊有加速)

基于多輪搜尋及綜合工具調用功能,天工3.0可以将使用者任務拆解成細分環節,實時判斷是否需要聯網或調用工具,進行單輪或多輪的聯網搜尋、工具調用。

聯網當然要考察最新的時事熱點,我決定問問天工3.0“成都迪士尼”最近為什麼這麼火,天工3.0随即準确地解釋了這個梗的來源及事件經過。然後我跳轉話題,問“迪士尼遊玩攻略”,天工3.0聯系上下文,給出了成都的出行攻略。改成問上海迪士尼的天氣也完全沒問題,通過調用天氣元件工具,天工3.0能夠直接給出近幾日上海的天氣預報。

天工3.0正式開放!4000億參數MoE開源,開啟音樂生成ChatGPT時刻

▲天工3.0多輪搜尋及綜合工具調用功能(圖源:智東西)

在圖像生成方面,天工3.0的改圖擴圖能力取得突破,可以讓它繪制一張風景圖,并逐漸在圖中增加新的物品或元素:

天工3.0正式開放!4000億參數MoE開源,開啟音樂生成ChatGPT時刻

▲天工3.0圖像繪制(圖源:智東西)

對于使用者而言,天工3.0不僅适用于産業分析、市場研究、産品對比、知識管理等工作場景,也适用于内容創作、教育教育訓練、智能搜尋、語音合成、圖像和音樂生成等娛樂場景。

學生黨、打勞工可以利用天工3.0的研究模式和增強模式,通過簡單的查詢獲得全面而精煉的資料,文獻搜集、資料彙總等所需的時間大幅縮短,提升工作學習效率。

内容創作者可以利用天工3.0的AI音樂生成、AI語音、AI圖像生成等功能,提高創作效率和品質,同時創作門檻降低,人人都可以成為“作曲家”、“插畫師”。

此外,在ToB領域,企業使用者也可以利用天工大模型建構專屬Agent,實作專屬知識庫,實作自動調用制定工具、完成複雜指令遵循Agent建構等,提升工作效率、優化決策過程、增強産品和服務的競争力。

二、國内首個音樂AIGC SOTA,秒級生成80秒歌曲、人聲“以假亂真”

近期,海外的音樂生成産品Suno、Udio爆火,AI音樂生成領域受到了前所未有的關注。但這些産品面向海外市場設計,對于國内使用者而言有一定的使用門檻。

基于天工3.0打造的天工SkyMusic,不僅是目前國内唯一公開可用的AI音樂生成大模型,而且在人聲&BGM音質、人聲自然度、發音可懂度等性能方面,以6.65分的綜合得分超越Suno V3,成為全球AI音樂SOTA模型。

天工3.0正式開放!4000億參數MoE開源,開啟音樂生成ChatGPT時刻

▲天工SkyMusic綜合性能超越Suno V3

天工SkyMusic可以生成80秒44100Hz采樣率雙聲道立體聲歌曲,支援生成說唱、民謠、放克、古風、電子等多種音樂風格,還能學習顫音、歌劇、吟唱、男女對唱、自動和聲等歌唱技巧。

此外,天工SkyMusic還擁有獨創的參考音樂生成與方言歌曲生成能力。使用者可上傳或選取現有的參考音樂,生成與之風格、唱腔類似的歌曲,進一步降低了使用門檻;也可以生成粵語、成都話、北京話等方言,傳播地域文化。

其使用方法也非常簡便,使用者隻需下載下傳天工APP,填寫歌詞或使用AI生成歌詞,再選擇或上傳一首參考歌曲,點選“生成”即可在不到半分鐘的時間内生成音樂,并且每首歌都提供三個版本可供選擇。

基于天工SkyMusic的SOTA能力和情感表達優勢,你可以為自己喜歡的古詩詞配上旋律:

視訊加載中...

▲抒情版《長恨歌》(來源:智東西)

這首《長恨歌》是我用徐佳瑩的歌曲《身騎白馬》作為參考生成的,天工SkyMusic生成的音樂在伴奏上層層遞進,在旋律上也展現出了主歌和副歌的段落差異。

也可以将網絡熱梗改編成說唱版:

視訊加載中...

▲說唱版網絡熱梗(來源:智東西)

這段話是近期網絡上比較火的“加密文學”,參考音樂是天工官方提供的一則說唱指南。作為“音樂小白”,我對說唱歌曲中的Verse、Flow等專業術語了解并不多,但能聽出來這個AI嘴皮子确實挺快(Doge)。

如果不想選擇現有的歌詞,可以通過AI生成歌詞功能,讓AI為你續寫。以下是我用AI生成的關于“不想上班”的文案,基于“土味神曲”《5:20AM》生成一首新歌:

視訊加載中...

▲AI創作土搖版歌曲(來源:智東西)

方言歌曲生成能力方面,智東西選取了陳奕迅經典粵語歌《富士山下》的歌詞,以周傑倫的《青花瓷》作為參考曲目輸入,生成了這首具有國風特色的青花瓷版《富士山下》:

視訊加載中...

▲青花瓷版富士山下(來源:智東西)

如此逼真的人聲“以假亂真”能力,以及高度還原音樂風格等各種環節的可控性,天工SkyMusic是如何做到的?

據了解,現有AI音樂大模型企業普遍沒有公開自己的技術路徑,是以沒有可借鑒和參考的開源音樂大模型。昆侖萬維在技術路徑探索上做了非常多的嘗試,花費了大量研發資源,最終摸索出下圖這條路:

天工3.0正式開放!4000億參數MoE開源,開啟音樂生成ChatGPT時刻

▲天工SkyMusic技術原理圖(圖源:昆侖萬維)

在AI音樂生成領域,有兩大技術路徑,符号派與大模型派。天工SkyMusic選擇了難度更大、效果更好的大模型音樂音頻生成路線。

在音頻生成路徑上,又有三個細分領域:Song、BGM、Speech。過去很多AI音樂研究都集中在無人聲的BGM領域,有人聲的Song賽道幾乎沒有好的解決方案。而天工SkyMusic,就是在Song領域取得了極大突破,大幅提高了AI音樂生成技術在Song領域的模型表現,開創了音頻生成大模型的成功案例。

具體來說,天工SkyMusic采用與Sora類似的模型架構,包含三大核心子產品——Encoder、DiT(Diffusion Transformer)和Decoder。其中,Large-scale Transformer負責譜曲,學習Music Patches的上下文依賴關系,同時完成音樂可控性;DiT負責演唱,通過LDM(Latent Diffusion Model)讓Music Patches被還原成高品質音頻。

從上述案例及跟Suno V3的橫評中可以看出,相比海外其他AI音樂大模型,天工SkyMusic在AI人聲合成的細膩度、可識别度上表現優秀,咬字發音,并且支援粵語、成都話等方言語種。

雖然尚處于起步階段,但天工SkyMusic已經讓很多使用者感受到了音樂創作的樂趣。同時,昆侖萬維選擇将寶貴的技術架構公開,也展現了其對開源社群生态、産業共同發展的重視。

三、建構六大AI業務矩陣,國内首推AI搜尋、AI音樂産品

大模型狂飙500天,如何将其能力落地到應用産品仍是困擾衆多AI廠商的難題。大模型殺手級應用何時出現?

昆侖萬維董事長兼CEO方漢告訴智東西,C端+免費可能成為大模型落地的主要路徑。在網際網路時代,美國的谷歌、微軟,國内的百度、阿裡等都是靠這個邏輯成為網際網路巨頭,同樣的道理也将延伸到大模型時代。

一方面,C端使用者上限高達80億;另一方面,訂閱模式門檻高,使用者接受程度相對較低。而要做到免費,AI UGC(使用者生産内容)平台是一個好的商業模式。

根據風投機構a16z上月釋出的生成式AI産品Top 100報告,ChatGPT、Gemini等通用内容生産應用仍占據消費級AI應用大頭。與6個月前的排名相比,有兩個新類别首次進入排行:音樂和生産力。

Suno是唯一進入排行的音樂生成産品,這表明音樂生産工具逐漸闖入消費者視野,成為下一個有潛力的C端應用落地路徑。而生産力類别上榜7款産品,包括寫作、視訊摘要、搜尋引擎、文章總結等領域。

這與昆侖萬維的産品布局路徑不謀而合。

2023年4月,昆侖萬維提出“All in AGI和AIGC”戰略,不局限于單一的産品或技術,而是建構一個完整的AI生态系統,逐漸了形成AI大模型、AI搜尋、AI音樂、AI社交、AI遊戲、AI視訊六大業務矩陣。

其中,AI大模型和AI搜尋作為底座,是所有AIGC能力的基礎,音樂、視訊、社交、遊戲等方向則是昆侖萬維在AGI道路上的探索,展現了其AI UGC平台商業模式。

2023年8月,昆侖萬維推出國内第一款AI搜尋産品——“天工AI搜尋”,深度融合AI大模型能力,通過人性化、智能化的方式,為使用者提供快速、可靠的互動式搜尋服務,助推傳統搜尋跨越式邁入AI時代。

本月初,昆侖萬維推出國内第一款AI音樂生成産品——“天工SkyMusic”,采用音樂音頻領域類Sora模型架構,支援生成80秒44100Hz采樣率雙聲道立體聲歌曲,降低了音樂創作門檻,人人都可以用音樂來表達情感。

昆侖萬維為何能夠在國内市場兩次首發國内第一款AI細分應用創意新品?

這離不開其前瞻性的戰略布局、深厚的技術積累、強大的研發實力以及對市場需求的敏銳洞察。

昆侖萬維從2020年開始布局AIGC和大模型領域,至今已積累近四年的相關工程研發經驗,且研發投入巨大。據其2023年第三季度報告,公司前三季度研發費用達到6.2億元,同比增長28.18%。同時,公司十分重視開源生态,天工大模型在開發過程中也得到了開源社群上百位AI科學家的助力。

此外,昆侖萬維對市場需求有着敏銳的洞察力,看到了AI技術在搜尋引擎、音樂創作等場景的巨大潛力。自2023年4月釋出天工大模型之後,團隊就開始了大模型與搜尋引擎的融合嘗試,并于同年8月推出中國首款AI搜尋産品——天工AI搜尋。天工SkyMusic則展現了昆侖天工探索研究的一個重要方向——情感AGI。

結語:All in AGI與AIGC,昆侖萬維交出最新答卷

随着天工3.0大模型的開源公測,我們見證了昆侖萬維AI技術的又一裡程碑。

天工3.0以其4000億參數的MoE架構,不僅在邏輯推理、語義了解等核心能力上實作了飛躍,更在多模态領域展現了其強大的應用潛力。天工SkyMusic的成功推出,更是将音樂創作的門檻降至新的低點,讓每個人都能輕松玩音樂。

昆侖萬維“All in AGI與AIGC”的戰略布局,在展現了對未來技術趨勢前瞻性的同時,彰顯了其在AI領域的雄心壯志。我們期待看到更多優秀的國産大模型及AIGC産品,通過在邁向AGI的道路上各種創新探索,為更多行業及人們日常生活帶來改變。

繼續閱讀