昆侖萬維方漢：将技術紅利轉為市場紅利，拿到垂直領域SOTA是前提

中國研發能在垂直領域取得全球的SOTA。

2024中國生成式AI大會于4月18-19日在北京舉行，在大會首日的主會場開幕式上，昆侖萬維董事長兼CEO方漢以《從天工SkyMusic音樂大模型談SOTA紅利》為題發表演講。

方漢強調了“技術領先”在AI領域的重要性，不同于網際網路時代産品的商業模式導向，大模型時代技術導向才能帶來市場上的領先優勢，吸引大量使用者并擷取紅利。

OpenAI在AI創企中的地位，本質上是其文本大模型的SOTA（目前技術名額第一）能力帶來的。對于目前的AI創業者，在圖像、視訊、音樂等任何賽道，隻要能取得SOTA，就能通過技術優勢獲得大量使用者，後續再通過産品創新、商業模式創新把使用者固化在平台上，形成自己的護城河。

在AGI和AIGC領域，昆侖萬維研發出了天工3.0模型，包含音樂大模型SkyMusic和全球最大規模的開源MoE大模型。其中音樂大模型SkyMusic就處于音樂領域的SOTA地位。

SkyMusic音樂大模型支援多種方言輸出，具有辨識度的自然人聲、降低音樂創作門檻和成本等，便于内容行業發展。基于音質、自然度和了解度方面的優勢，即使是沒有音樂背景的普通人也能夠利用該技術進行音樂創作，而這也将極大地擴充音樂創作的可能性和範圍。

此外，天工3.0大模型數學、推理、代碼等方面能力大幅提升，同時具有多輪搜尋與綜合工具的調用能力，将帶來内容行業的爆發，同時也将促進文化平權和打破壟斷，讓每個人更好地塑造和表達自我。

以下為方漢的演講實錄：

SOTA其實是一個學術上用得非常多的專有名詞，全稱是“State of the Art”，這個比較拗口，其實是目前技術名額第一的意思。這本來是在機器學習領域用來評估模型的一個技術名額，原本是個學術詞，為什麼會備受關注？

01 .在垂類領域拿到SOTA，才能将技術紅利轉化市場紅利

縱觀這一波大模型的投資以及創業浪潮，可以發現一個明顯的現象。在上一波移動網際網路，所有創業公司的CEO或者Leader基本上都是産品或者是商務背景，也就是說移動網際網路是商業模式和産品模式的創新，而這一波AI創業的大潮，所有AI公司的CEO基本上都是技術背景。

為什麼呢？因為在AI領域技術遠遠超過産品商業模式，技術的領先才能帶來業務上的紅利。

舉幾個例子，首先不可避免要談到這個行業的第一名，OpenAI。OpenAI為什麼現在估值這麼高，為什麼全世界對它這麼期許？因為本質上在ChatGPT之後，它在文本大模型上的SOTA地位一直非常穩固。直到Claude 3出來之後，才第一次有大模型可以接近GPT-4的位置，是以它趕忙抛出Sora，這是在視訊生成領域的SOTA。也就是說在最泛化的通用人工智能、文本大模型領域，OpenAI的SOTA紅利非常明顯。

但是我們看圖像生成賽道，DALL·E 3出來得非常早，但是很快像Midjourney、Stable Diffusion出來之後，這些中小型的創業公司擷取大量的使用者，遠遠超過OpenAI的DALL·E 3。為什麼？就是因為DALL·E 3沒有達到SOTA。SOTA被Midjourney以及後面的一些中小創業公司拿到，使用者肯定會選擇中小公司的産品，而不會選擇其他公司的産品。

也就是說在任何一個領域，對于我們所有的創業者和後來者，隻要你能在這個領域拿到技術名額上的第一，你就能夠擷取大量的使用者。在擷取大量使用者之後，才可以用你的産品模式、商業模式把這些使用者固化在你的平台上。

從長期來看，隻要新的大模型和新的競争者沒有明顯的代際壓制的話，你仍然能夠繼續靠這些使用者擷取紅利。就像Midjourney V6出來之後，它的SOTA地位已經不是很穩固了，但是使用者基礎仍然很堅實。

前面是我的一些背景介紹，當然中國企業因為進入大模型賽道，其實大家都蠻晚的，但是我們在全球的競争中心仍然是堅持技術第一，我們一定要在某個垂類領域拿到SOTA之後，才能夠由技術上的紅利，轉化為使用者和市場上的紅利。

02 .以天工大模型為底座，形成六大業務矩陣

首先給大家彙報一下昆侖萬維是從什麼時候開始做AGI和AIGC這件事情。

我們是2020年GPT-3出來的時候就成立了一支團隊做文本大模型的預訓練工作，2021年開始做音樂大模型的生成預研工作，當然我們也走過很多彎路，比如音樂大模型一開始走的符号生成，再轉到端到端。現在所有垂直賽道到終局一定是端到端。

2022年12月，我們釋出了中國首個開源文本大模型，當時海外的各種開源大模型也沒出來，這是來自中國企業的第一個基于中文的13B開源文本大模型。

2023年4月17日，我們釋出了天工1.0；8月23号釋出了國内首個AI搜尋“天工AI搜尋”。今年4月17日，我們釋出天工3.0，包含首個中國的音樂AIGC賽道的SOTA，也就是SkyMusic音樂生成模型，以及4000億參數的全球最大規模的開源MoE大模型。

目前我們有六大業務矩陣，包括AI大模型、AI搜尋、AI音樂、AI視訊、AI社交和AI遊戲。

雖然矩陣這麼多，但我們目标非常清晰。首先我們一定要做底座模型——天工大模型，從原來的文本大模型到現在的MoE大模型，再到下一代多模态大模型，我們一定要在底座大模型上持續去演進。

為什麼？因為現在有一個明顯的現象，所有垂直賽道的各種垂類模型，不管音頻、音樂、視訊、圖像還是3D模型其實都嚴重依賴于底座文本大模型的能力，如果底座文本大模型能力不行，各種垂類模型能力上限比較低。

社交、音樂、遊戲和視訊都屬于AIGC垂類賽道，我們認為在這些垂類賽道上隻要進行持續和長期的投入，就一定可以達到SOTA，進而擷取市場上的領先優勢。

03 .中國首個音樂AIGC上的SOTA，近2000萬首全量音樂資料集

首先給大家介紹一下天工音樂大模型SkyMusic，這個現在已經對全量使用者開放了，大家在App Store和應用商店搜尋“天工”，“天工”裡面有一個音樂的type，大家可以立刻去使用，這是中國第一個音樂AIGC上的SOTA。

這是我們把剁椒魚頭的菜單做成一首歌的案例示範，是用粵語演唱出來的。

這是天工AI音樂和龐博聯合的案例，我們把龐博寫的詞做成了一首歌。

下面說一下技術名額，目前SkyMusic和Suno V3版本相比，在人聲、BGM音質、人聲自然度、發音可懂度方面都已經擊敗了Suno。我們相信在下一個版本裡面可以把這個差距繼續拉大。

AI音樂大模型，自2021年開始研發到現在走過三年曆程，我們技術路線也在不斷地演進。去年8月份Sora沒有出來，我們就已經轉向Diffusion Transformer架構，因為這個架構是最為Scale up的一種架構。

我們的資料集包含将近兩千萬首全量的音樂資料集，并且經過三年多的清洗和處理，其資料品質是有保障的。我們采用類DiT架構做了SkyMusic音樂大模型的研發，目前這個大模型還隻是我們的第一個版本，後續在實驗室版本會實作更多的功能。

下面介紹一下我們有哪些非常獨特的優勢。

用過Suno的都知道，你選擇的是文本标簽和風格。我們現在的制作方法是，上傳一首你喜歡聽的歌，甚至你自己錄的一個旋律，我們都能根據這個生成音樂。這其實更像傳統的音樂工作者創作音樂的一個邏輯，很多音樂工作者先在腦海或者嘴巴哼出一段曲子，然後寫下來，根據這個再做主歌、副歌、編曲的工作，SkyMusic示例音源生成音樂的能力非常強。

第二，我們支援單一語種方言的輸出能力。目前中文版本已經支援四川話、粵語、北京話、天津話、上海話等多種方言版本，這個對于使用者來說是非常有意義的。

最後是更具辨識度的自然人聲。人聲的音源品質，以及對于各種人群，女聲、男聲、幼兒聲和成人聲，SkyMusic都有非常好的一個泛化。

當做到技術上的SOTA時，怎麼把技術上的SOTA轉為産品上的紅利？

我們認為所有的AIGC，包括音樂創作的大模型出來後，首先極大降低了音樂創作門檻。

就像我發的朋友圈，“人人皆可以歌明志”。以前我們做一首歌的邏輯是什麼？首先要從四五歲就開始學鋼琴、學樂理、學樂譜。我自己的孩子在鋼琴方面可能花了七八年才考到一個專業級别，這個訓練時間很長。如果他能成為一個作曲家，可能還要在大學裡面再學四年，學完四年之後這還隻是作曲，作完曲還要編曲，編曲完還要找歌手演唱、找錄音棚來錄。我們在市場上錄一首歌從頭到尾，哪怕用最簡化的配置、最普通的裝置也要兩萬人民币左右。

這就導緻了整個音樂創作，實際上僅僅依靠一個人是沒有能力創作歌曲的，但是有了SkyMusic大模型之後，所有人隻要花1分鐘時間，隻要你有歌詞，就能生成一首完整的歌曲，極大降低了音樂創作的門檻和造福全體内容行業。

以前大家知道所謂的配樂全是拿現有的曲子往視訊内容上配，今天可以把這個話題極大泛化，比如今天的主題演講，可以給每一位主題演講者配一首歌，比如微網誌上每一個大V給他們寫一首關于他們的歌曲，這個對于全體的内容行業都非常便利。

最後，SkyMusic證明中國研發也可以在垂直領域取得全球的SOTA，進而讓中國企業在全球的AIGC市場上去和國外的同行正面競争，擷取我們應有的市場佔有率。

04 .

4000億參數開源MoE大模型天工3.0，

拉低全領域創作門檻

下面介紹一下天工3.0，我們4月17日開啟公測的4000億參數的全球最大規模的開源MoE大模型，目前性能已經全部超越xAI釋出的3140億參數的MoE大模型Grok-1。這是天工3.0 400B參數的MoE大模型的技術底座，目前在MMBench推理能力測試中标藍色的是處于領先的技術名額，我們在這個技術名額上還是遙遙領先的。

天工3.0，功能全面更新，它更聰明，模型的技術知識能力提升超過20%；數學、推理、代碼、文創能力提升30%；内容創作能力，包括能搜尋、能寫作、能閱讀、能聊天，能夠語音對話，能夠文生圖，能夠給你作詞作曲。

給大家示範一下多輪搜尋與綜合工具的調用能力。圖中問題是成都迪士尼怎麼去，成都迪士尼實際上是一個梗，它是成都的一個小區，并不是真正的迪斯尼樂園。這時候通過搜尋和大模型結合就判斷出來成都迪士尼實際上是一個網絡梗，但它還是把怎麼去成都迪士尼這個小區規劃做出來。當你問到上海迪士尼天氣時候，大模型又生成一張天氣卡片，告訴你今天上海迪士尼下雨，最後再調用文生圖給你生成一張圖檔。

第二個研究模式，做研究需要寫大綱、寫知識圖譜和思維導圖，而天工3.0在自動搜尋之後不僅僅能生成表格，而且可以迅速生成大綱和自動生成腦圖，最後自動生成腦圖，可以即貼即用。

智能體廣場可以建構超強的AI智能體，去幫助你完成相應的工作。例如造一個智能體，幫助研究小米汽車和特斯拉汽車的一個差别，進行大量搜尋擷取大量資料後，模型開始生成文圖俱備的對比表格，對于做文案工作的同學非常關鍵。

05 .

昆侖萬維新使命：

實作AGI，讓每個人更好地塑造和表達自我

昆侖萬維作為一家中國的網際網路企業，現在的戰略是All in AGI與AIGC。我們在2023年宣布了公司的新使命：實作通用人工智能，讓每個人更好地塑造和表達自我。

為什麼要做這樣一個使命的修正？因為實作通用人工智能，本質上是基于文本大模型把人類所有的知識壓縮到我們的通用大模型裡面，這樣是通向通用人工智能的必經之路。

但是大家知道通用人工智能在現實中的落地是有先後之分的，什麼樣的場景會更容易落地？

其實也比較簡單，有人開玩笑說，大模型剛出來的時候大家都覺得所有做生産工作的同學會最早失業，所有做創意藝術的同學應該是位置是最穩固的。但實際上經過這段時間的發展，大家可以看到，所有做文藝創作的同學失業機率會更大一些，也就是說在内容生成領域，其實AI的落地更容易。

很簡單，因為内容生成領域容錯率極高，使用者對于内容錯誤忍耐度非常高。我們可以容忍我們畫上、視訊的人多一根手指頭、少一根手指頭。但是我們工作中，你哪怕小數點後面少一位，這都是巨大的生産事故。也就是說在容錯率高的内容賽道，這一波大模型和人工智能的發揮空間是非常大的。

我們在人工智能、AIGC領域，研究目的就是降低創作的門檻。不管是文生圖、文生視訊、文生音樂、文生音效還是文生3D資産，本質上就是移除所有前序我們所需要的長期的專業訓練，而讓任何一個人覺得隻要你會講故事，就可以創造出相應的内容來表達你自己。

這會帶來什麼樣的影響？首先大家知道創作内容的成本極大降低了，創作内容的門檻降低了。我們知道創作内容方面隻要門檻降低，創作内容的人數會急劇膨脹。

舉個例子，我小時候拍視訊都是電視台記者扛幾十公斤的錄影機拍，這時候創作者非常少。但是智能手機出現之後把拍攝者變成全中國十幾億人，人人可以拍視訊，結果就是短視訊行業的巨大發展。這一波AI把全領域的創作門檻都拉低了，結果是什麼？整個内容行業會迎來一個巨大的爆發。同時，它還帶來另外一個文化平權和打破壟斷的作用。

為什麼？我在非洲待了蠻長時間，在奈及利亞的時候，了解到奈及利亞拍一部在院線上線電影的平均成本是兩萬美金到二十萬美金之間，這樣拍出來的片子和中國四五億人民币拍出來的《流浪地球》、美國四五億美金拍出來的“漫威”系列電影相比，是毫無競争力的。但是在我們下一代AIGC技術出來之後，我們認為全世界所有的弱勢文化的人都可以用非常低廉的成本，創造出媲美歐美強勢文化的内容。

這樣的結果是什麼？每個弱勢文化的族群都可以通過AIGC技術來産生适合自己民族的文化、産生适合自己小語種的文化，這個對于全世界的文化平權是非常有意義的。這也就是第二條，讓每個人更好塑造和表達自我，這也是研發人員在文生音樂、文生視訊、文生小說、文生漫畫等内容創作領域持續不斷疊代改進的一個終極目的。

以上是方漢演講内容的完整整理。