語音領域的GPT時刻：Meta 釋出“突破性”生成式語音系統

我們知道，GPT、DALL-E 等大規模生成模型徹底改變了自然語言處理和計算機視覺研究。這些模型可以生成高保真文本或圖像，而且它們有個重要特點就是「通才」，可以解決沒訓過的任務。相比之下，語音生成模型在規模和任務泛化方面一直沒有「突破性」成果。

昨日，Meta 介紹了一種「突破性」的生成式語音系統，它可以合成六種語言的語音，執行噪聲消除、内容編輯、轉換音頻風格等。Meta 稱之為最通用的語音生成 AI。

相關研究論文也已公布。接下來我們具體看下這下項研究。

論文：https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/

Meta 表示，Voicebox 是第一個沒有經過專門針對語音生成的訓練，卻可以泛化到語音生成任務的模型。

與圖像和文本的生成一樣，Voicebox 可以建立多種樣式的語音輸出，包括從頭開始建立輸出和修改給定的樣本。Voicebox 可以合成六種語言的語音，以及執行噪聲去除、内容編輯、風格轉換和多樣化樣本生成。

在 Voicebox 出現之前，生成語音的 AI 需要使用精心準備的訓練資料對每項任務進行特定訓練。而 Voicebox 僅需要從原始音頻和随附的轉錄文本中學習，并且 Voicebox 可以修改給定樣本的任何部分。

Voicebox 基于一種稱為流比對（Flow Matching）的方法，該方法已被證明可以改進擴散模型。

在生成效果方面，Voicebox 的可懂度（詞錯率：1.9% VS 5.9%）和音頻相似度（0.681 VS 0.580）優于目前英文語音生成 SOTA 模型 VALL-E，并且速度快了 20 倍。在跨語言風格遷移任務上，Voicebox 優于 YourTTS，将平均詞錯率從 10.9% 降低到 5.2%，将音頻相似度從 0.335 提高到 0.481。

Voicebox 在詞錯率名額上的表現優于 Vall-E 和 YourTTS，實作新的 SOTA。

在英語和多語言基準的音頻風格相似度名額上，Voicebox 都取得了新的最佳結果。

語音生成新方法現有語音合成器的一大主要局限是它們的訓練資料都是針對目标任務準備的。這些輸入基本都要求是單調的幹淨資料，也是以難以擷取，資料量很有限，并且用這些資料訓練出的模型也隻能輸出單調的聲音。

Voicebox 基于流比對（Flow Matching）模型，這是 Meta 在非自回歸生成模型方面的最新進展，其可以學習到文本和語音之間高度非确定性的映射關系。非确定性映射很有用，因為這能讓 Voicebox 學習不同的語音資料而無需仔細标注這些變體。也就是說，Voicebox 可以在更多樣化的資料上訓練，是以可使用資料的範圍也大得多。

Meta 訓練 Voicebox 時使用的資料來自英語、法語、德語、西班牙語、波蘭語、葡萄牙語這六種語言，包含 50000 小時的錄音和轉錄文本以及公共領域的有聲書。Voicebox 的訓練目标是根據周圍語音和某片段的轉錄文本來預測該片段的語音。學習過基于上下文填充語音之後，該模型就能讓其用于各種語音生成任務，包括生成音頻錄音中的缺失片段（無需重建整個輸入）。

Voicebox 的這種多功能性使其可以很好地執行多種不同任務，包括：

基于語境的文本轉語音合成：僅需使用長度 2 秒的輸入音頻樣本，Voicebox 就能比對樣本的音頻風格并将其用于文本轉語音生成。這一能力具有重要的應用前景，比如可以為難以說話的人帶來語音表達能力，還能讓使用者為 NPC 角色和虛拟助手定制聲音。

跨語言風格遷移：給定一段語音樣本和對應的文本片段，不管是英語、法語、德語，還是西班牙語、波蘭語、葡萄牙語，Voicebox 都能以該語言讀出該文本。這是一種激動人心的能力，因為這能幫助人們自然而真實地交流 —— 即便他們不說同一種語言。

語音降噪和編輯：Voicebox 的上下文學習能力讓它可以在音頻錄音中生成無縫銜接的片段。要是音頻中出現了被噪聲污染的片段，它也可以為其重新合成，甚至無需重新錄音就能替換原音頻中說錯的詞句。使用者可以辨識原始音頻中被噪聲（比如犬吠聲）污染的片段，然後将其裁剪下來，再訓示 Voicebox 重新生成該片段。這項能力有望讓音頻編輯變得非常簡單，就像現在流行的圖像編輯工具調整圖像一樣。

多樣化的語音采樣：Voicebox 學習了多樣化的野外資料，是以可以生成就像在現實世界中說話的聲音，并且支援上述六種語言。未來，這種能力可用于合成資料，然後用于訓練語音助理模型等。Meta 的實驗結果表明，基于 Voicebox 合成語音訓練的語音識别模型的表現幾乎不遜于使用真實語音訓練的模型 —— 錯誤率僅高了 1%；而要是使用之前的文本轉語音模型合成的資料訓練，錯誤率會提升 45%-70%。

Meta 表示，Voicebox 作為首個能成功執行任務泛化的高效的多功能模型，将開創一個語音生成式 AI 的新時代。

但 Meta 也沒有否認這項技術可能被誤用乃至被惡意使用。為了應對這種可能性，降低潛在的風險，Meta 還建構了一種分類器，其宣稱可有效分辨真實語音和 VoiceBox 生成的音頻。

Voicebox 是生成式 AI 研究的重要一步。具備任務泛化能力的生成式 AI 模型正在催生出涉及文本、圖像和視訊生成的實際應用，這将讓生成式 AI 更上一層樓。

參考内容：https://www.engadget.com/metas-open-source-speech-ai-recognizes-over-4000-spoken-languages-161508200.htmlhttps://ai.facebook.com/blog/voicebox-generative-ai-model-speech/特别說明：本文僅用于學術交流，如有侵權請背景聯系小編删除。

- END -

轉載來源：機器之心

轉載編輯：何帥

稽核：李長庭肖志清陳欣怡楊瑾

語音領域的GPT時刻：Meta 釋出“突破性”生成式語音系統

繼續閱讀

恣意出行不懼秋日溫差第三代H6DHT-PHEV提升通勤、生活幸福感一天中的溫差能有多大？在這個深秋時節，大概就是早晚穿棉

都說智能化是電動車的核心賣點，那麼零跑C01的智能化做得怎麼樣呢？作為零跑汽車的忠實粉絲，今天我就從智能語音這個小的方向

雲栖大會正式開幕，汽車智能化成全場亮點？汽車智能化，曾經被衆多傳統車企們所忽視的方向，如今随着新能源的發展終于有了氣勢。

不知大家發現沒有最近打開高德導航，輸入目的地點選導航，語音系統會說：北鬥系統正在為您提供精準定位。這說明了高德地圖已經開

新奇駿語音系統便捷又廣泛

通過PAD，展現漢EV超高的智能化車載多媒體幾乎已成為家用轎車的标準化配置，超高的智能化、超強的配置，無疑給使用者帶來良好

馬上要過年了，又是一年一度的大掃除，今年疫情放開了，應該會有很多客人過來，家裡的地闆的衛生，就交給它了“米家全能掃拖機器

2023千元投影儀選購攻略業内人士告訴你的買前必看指南；授人以魚不如授人以漁，教小白怎麼用最簡單的方式看懂投影儀參數！買

先報下流水賬1月14号盲訂2月26号大定3月27号車生産完畢4月4号通知驗車4月17正式提車車型是100度4驅加裝雷射雷

寫文章一天收益幾分，參加個征文沒中獎還瓜分43，太香了！繼續寫征文吧，你們也可以試試，看我這篇寫的咋樣？阿維塔11，原來

語音呼叫系統IVR流程編寫文檔整理一、系統功能概述二、系統性能名額三、系統功能子產品四、系統節點指令描述五、典型應用附錄一、Smartele流程生成器通過調用DLL函數的用法

不誇張地說自從阿維塔11單電機版上市後，我就認為它是所有純電車裡面最具成本效益的中大型SUV，31.99萬起步，配置直接就

靠譜的人。你這是又研究甚呢？到了台新款內建竈蒸烤箱同步進行的，看它有些甚新功能？研究研究，剛好給我介紹介紹，我也學習學習

#新能源新奇功能體驗#我喜歡長安深藍SL03，尤其喜歡她，14.6英寸向日葵屏，據說是行業首創之舉，可自動随駕駛左右15

#頭号新車#廣汽埃安V說明書使用者手冊｜AIONV是廣汽埃安旗下的緊湊型SUV。埃安V緻力于打造一個豪華且舒适空間，豪華體