天天看點

大模型邁入應用元年 昆侖萬維推出中國首個音樂SOTA模型

作者:酒死了

盡管走上行業風口不過一年多時間,但AI大模型的基礎研發和應用場景的讨論熱度始終高企。到2024年,AI大模型邁入應用元年的聲音更是一時甚嚣塵上,行業果真走出這一步了嗎?

事實上,鑒于“研發和應用兩手抓”需要的能力與資本都巨大,行業之中配得上這一拷問的公司并不多:百度“文心一言”、阿裡“通義千問”、昆侖萬維“天工”、商湯“日日新”、科大訊飛“星火”等等企業及其大模型,都是牌桌上的有力角逐者。

真正要在其中脫穎而出,不僅需要性能超前的基礎大模型,同時也要與之相配、并有“爆品”潛質的産品應用場景。對此,昆侖萬維以“天工3.0”和“天工SkyMusic”嘗試回答。

4月17日,昆侖萬維自研四千億級大語言模型“天工3.0”正式開啟公測并同步開源。這一采用4000億級參數的MoE混合專家模型,是目前全球模型參數最大、性能最強的MoE模型之一,相較上一代在模型語義了解、邏輯推理等多個性能次元均有明顯提升。

大模型邁入應用元年 昆侖萬維推出中國首個音樂SOTA模型

技術層之外,這可能也是AI應用領域的潛在引領者之一。與“天工3.0”一同開啟公測的還有昆侖萬維的AI音樂生成大模型“天工SkyMusic”,該大模型在小範圍邀測時已經激起不小的音樂創作浪潮。

而不僅是音樂,“天工3.0”目前已将AI能力內建進搜尋、寫作、長文本閱讀、對話、代碼等多個高頻應用場景,為大模型領域即将開啟的落地應用之戰籌備砝碼。

至此,一個完整的AI大模型技術與應用生态正在成型。這是AI大模型叙事最重要的章節之一,它可能就此建立一條行業分水嶺。

天工SkyMusic,引領AIGC音樂浪潮

自OpenAI将大模型推上行業風口以來,屬于中國市場的“百模大戰”已經拉開序幕一年有餘,進入2024年,行業關注點開始從技術研發向應用落地逐漸傾斜——無可置否,大模型的落地應用才是決定其技術與價值的長尾名額。

就所有内容模态而言,音頻内容是相比文本和圖檔更好了解人類情感的方式,同時,音樂也是人類情感表達最充沛且不受地域和文化限制的内容載體。是以,衆多落地場景之中,音樂創作成為普羅大衆最易上手和感受到趣味性的AIGC場景。對于AI公司而言,這是一個将自己推向C端市場、獲得大衆認知的有利機會。

天工SkyMusic正是昆侖萬維面向音樂行業釋出的大模型,此前于4月2日面向社會開啟邀測,今天随天工3.0正式釋出。該大模型自邀測階段就受到行業專家及音樂從業者的廣泛關注,它不僅是國内唯一公開可用的AI音樂生成大模型,同時也是中國首款AI音樂大模型SOTA模型,更是中國的自研大模型技術第一次在AIGC領域領跑全球。

在大模型領域中,SOTA模型指的是被認為是“State of the Art”(SOTA)的模型。正如OpenAI被視為文本大模型和視訊生成大模型的SOTA,"State of the Art"這個術語通常用于描述某個特定領域或技術中目前最先進、性能最好的技術或方法。

在與海外頂尖的AI音樂大模型Suno V3的橫向測評中,天工SkyMusic在人聲&BGM音質、人聲自然度、發音可懂度等領域顯著領先對手,并以6.65分的綜合得分超越Suno V3,成為全球AI音樂SOTA模型。

大模型邁入應用元年 昆侖萬維推出中國首個音樂SOTA模型

目前,AI音樂生成有兩大技術路徑,分别是符号音樂生成路線和大模型音樂音頻生成路線。前者是指先标注大量樂譜,再訓練模型,最後生成的結果也是樂譜,需要額外的算法或工具将樂譜轉換成音樂;後者則是直接學習并生成音頻波形,樂器、人聲、旋律、音量、音符等等都一體化端到端生成,但這種方式不僅艱難、成功經驗稀缺,還需要高昂的算力和資金。

天工SkyMusic選擇的是技術意義上更難的音頻生成路線。不僅如此,由于這一路線所覆寫的Song、BGM(Background Music)、Speach三個領域中,Song領域因為包含人聲、生成技術難度更高,始終沒有出現極佳方案。對此,天工SkyMusic投入大量資源實作了一定技術突破,使得該領域的生成品質終于得到提升。

值得注意是,天工SkyMusic是音樂AIGC領域罕見公開自身技術路徑的産品。其由“Encoder-DiT-Decoder”三大核心子產品組成的技術路線圖,成為了“音頻路線+人聲Song路線”的重要技術參考。

大模型邁入應用元年 昆侖萬維推出中國首個音樂SOTA模型

相較于行業中的同類産品,天工大模型帶動天工SkyMusic擁有了更突出的産品優勢。

例如,其擁有獨創的參考音樂生成與方言歌曲生成的能力。參考音樂生成是指,使用者可上傳自有參考音樂,或選擇“天工SkyMusic”資料庫中現有的參考音樂,進而生成風格、唱腔類似的歌曲,這種能力能夠結合創意、技術和音樂制作技巧,讓使用者利用現有的音頻資源來創作出更加豐富多彩的音樂作品;

方言歌曲生成能力包含粵語、成都話、北京話、上海話等,這不僅能擴大其閱聽人範圍,還能加強音樂創作生成的多樣性。同時,基于強大的資料庫及訓練模型,天工SkyMusic還可打造出更具辨識度的自然人聲,這也将使其差別于普通音樂AIGC産品較濃的“AI人聲質感”。

此外,天工SkyMusic可通過歌詞控制情緒變化,實作如顫音、歌劇、吟唱等多種歌唱技巧,還支援創作說唱、民謠、放克、古風、電子等多種音樂風格。

這種音樂創作上的靈活性和普适性,為天工SkyMusic的創作成果帶來了更多趣味。在其公布的大量demo中,《龍行龘龘》演繹了戲曲唱腔與電子音樂如何完美融合;《悟空》從歌詞上貼合了人物本身的傳奇色彩與不羁性格,其獨特了解與領悟最終與旋律合二為一;《Pack my bags》則诠釋了歐美流行音樂的精妙之處,其女聲唱腔兼具歐美女歌手的音色與技巧。

借此,天工SkyMusic得以大幅降低音樂創作的門檻,讓每個使用者都能夠更加容易創作屬于自己的旋律和歌曲,這使其有望成為行業中最重要的全民音樂創作工具之一。而随着該音樂大模型的不斷進化,它還有可能加入專業音樂人改善創作品質、提高創作效率的輔助程序中,逐漸推動建立屬于自己的AI音樂創作者生态。

開源MoE大模型的時代來臨

事實上,天工SkyMusic隻是昆侖萬維邁向AIGC大千世界的第一站。自天工3.0釋出後,這一大模型将覆寫聽、說、讀、寫、畫、唱等更多高頻AIGC應用場景,正式開啟一個多模态大模型時代。

從單一模态逐漸過渡到多模态,進而建構世界模型,是業界共識度最高的,邁向AGI的演進路徑。而在OpenAI展現GPT-4和GPT-4V的能力之後,行業便一直在等候一個更具場景覆寫力的多模态大模型,将大模型技術的應用現實進展再往前推一把。

昆侖萬維“天工3.0”正是登場于這樣的背景之下。“天工3.0”采用了4000億級參數MoE混合專家模型,是全球模型參數最大、性能最強的MoE模型之一,并已同步選擇開源。相較上一代,其在模型語義了解、邏輯推理、通用性、泛化性等領域均有明顯提升。

具體而言,“天工3.0”的模型能力提升集中于邏輯推理能力、語義了解能力、專項Agent訓練和内容創作能力四大方面。邏輯推理方面,“天工3.0”數學與推理能力均提升超過30%;語義了解則能夠更好了解和處理使用者自然語言Query中的複雜語義資訊,包括隐喻、多義詞等。

專項Agent訓練是此次模型能力提升的核心。目前,AI Agent(智能體)已經成為大模型技術的主流落地方向,而“天工3.0”針對模型獨立規劃、調用、組合外部工具及資訊的模型Agent能力進行了專項訓練,使其能夠獨立生成并調用代碼,完成包括圖表繪制、工具調用、語義判斷等多項複雜使用者需求。

大模型邁入應用元年 昆侖萬維推出中國首個音樂SOTA模型

自此,“天工3.0”成為具備多個領域專業知識和能力的全能專家。它能夠對複雜任務進行拆解優化,更深入了解使用者需求,也具備實時判斷并調用專用模式擴充基座模型的能力,最大程度提升模型性能。諸如産業研究、産品橫評、資訊分析、圖檔生成、圖表繪制等需求場景,已經可以由“天工3.0”較為高效覆寫。

對AI使用者而言,“天工3.0”性能更新最直覺的價值就展現在AI搜尋場景上。在資訊呈現方式上,天工AI的研究模式可提高問答的專業性質,圍繞使用者的某個簡單指令進行相關問題的延伸,自動生成研究大綱、圖譜、實踐總結、思維導圖,而增強模式可對模糊問題做進一步引導,幫助使用者擷取更有效的資訊,提高回複品質。

大模型邁入應用元年 昆侖萬維推出中國首個音樂SOTA模型

同時,天工3.0展現出行業同類AI搜尋引擎所不具備的差異化優勢。——它不僅有文本回複能力,還有圖文并茂能力,在文本回答的同時附帶圖檔或視訊,幫助使用者加強資訊了解。

大模型邁入應用元年 昆侖萬維推出中國首個音樂SOTA模型

在内容創作層面,基于專項Agent訓練等帶來的性能提升,“天工3.0”的内容創作能力已有跨階段性發展。

在基礎推理與了解方面,天工3.在數學推理能力的提升,也讓它能夠更準确地了解使用者需求。

在上一代AI搜尋、AI語音、AI對話、AI二次元漫畫生成等強大内容創作能力基礎上,“天工3.0”又發展出了更強的多模态性能,例如在對話中,結合文本需求實時生成圖檔、或實時分析内容及圖表的能力,成為了集合聽、說、讀、寫、搜、畫、看、唱等能力的千億級開源MoE大模型。

至此,天工3.0得以實作多模态的深度融合與應用。對行業而言,這将帶來更高效智能的解決方案,同時降低AI技術的研發門檻和使用成本,最大化共享技術能力和經驗。

降低AIGC使用門檻,推動産業更新

從ChatGPT驚豔亮相那一天起,就持續關注AI大模型發展的使用者們,大概可以體會到“天工3.0”給行業帶來的顯著沖擊力——它不僅在技術層面提高了自身競争力,也在實際應用層面逐漸覆寫當下高頻應用場景,同時向搭建大模型應用生态的目标大步前進。

在這一視角下,天工3.0的釋出意義不隻是大模型應用場景的更新,它還加速了AI應用的普及,促使更多企業和開發者參與到AI引領的科技變革中。

從天工SkyMusic到天工3.0釋放的多模态能力,行業已經可以預測到昆侖萬維意圖掀起的AIGC浪潮。

因為不僅是中國首個音樂AIGC SOTA,作為全球最大規模開源MoE大模型,天工3.0有能力帶領更多領域的創作者群體自由出入AIGC的了解與生成的通道,利用多模态的深度融合與應用,大幅降低内容生産的門檻與成本,重新定義創作效率和品質标準。這種影響力将逐漸促進整個内容生産行業進化,釋放更多的創作力和内容價值。

這不僅是一家公司的使命願景,也是一個行業實作突破的硬性階段目标。為此,昆侖萬維已付諸多年實踐。

自釋出天工系列大模型以來,昆侖萬維已在AGI和AIGC兩大方向上完成自己的業務矩陣布局:從千億級大語言模型到多模态AI内容生成能力,從AI搜尋、AI音樂、AI 社交等再到國内領先的AI Agent開發平台,無論是模型技術還是工程能力,都竭力站穩國内AI企業頭部陣營,做好為産業提供支撐的準備。

在這背後,走向AGI和促進AIGC應用發展,始終是這家企業的目标與使命。如今,随着“天工3.0”的釋出與展示,昆侖萬維在“All in AGI與AIGC”這一戰略征程上再下一城,即将把大模型戰事推向新的高潮。

繼續閱讀