天天看點

文本自動生成6種語音,Meta推出多任務語音模型——Voicebox

作者:AIGC開放社群

近日,Meta(Facebook、Instagram等母公司)推出了可執行多種任務的生成式語音模型——Voicebox。(論文位址:https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/)

Voicebox支援文本自動生成英語、法語、德語、西班牙語、波蘭語或葡萄牙語6種語音,還提供去除噪聲、語音編輯、風格轉換和多樣化語音合成功能。總之,這是一個開創性語音模型,屬于語音模型界的“ChatGPT”。

Voicebox的主要用途:幫助媒體人輕松編輯音軌,例如,錄音時背景出現狗叫的聲音,通過Voicebox輕松去除;語音克隆 ,即便無法說話的人“啊~啊”兩聲,Voicebox僅需2秒鐘就能克隆其聲音,應用在文本轉語音功能;

Voicebox可生成6種自然語言的語音,是以,該功能可用于生成語音訓練資料,幫助企業、個人開發者更好的訓練語音助手模型。

文本自動生成6種語音,Meta推出多任務語音模型——Voicebox

目前,Meta在大語言、擴散、視覺切割、語音等領域,釋出了很多功能強大的模型,例如,其開源的LLaMA已成為類ChatGPT開源模型中應用最多、影響力最大的模型之一。

前不久在Meta的高層會議上,紮克伯格表示,未來Meta的Instagram、Whatsapp、Messenger等招牌産品都會引入生成式AI功能,為使用者提供文本生成、圖檔生成、AI聊天等服務,加大對生成式AI的布局趕上微軟、谷歌的腳步。

多數傳統的語音合成器需要使用單一、幹淨的音樂資料用于訓練,這就有兩個很大的局限性。第一,幹淨的音樂資料擷取較難,并且數量有限;第二,由于訓練資料有限,是以輸出的語音模型過于單調枯燥。

為了突破這些技術限制,Voicebox是基于Flow Matching模型(論文位址:https://arxiv.org/abs/2210.02747)建構而成,可以學習文本和語音之間高度不确定的映射聯系。

不确定性映射很有用,使得Voicebox 能夠從不同的語音資料中學習,而無需仔細标記這些變化。也就是說,Voicebox 可以在更大規模的資料集上進行訓練。

Voicebox使用超過5萬小時的語音錄音和來自英語、法語、西班牙語、德語、波蘭語和葡萄牙語,公共領域有聲讀物的轉錄音頻來訓練 Voicebox。

文本自動生成6種語音,Meta推出多任務語音模型——Voicebox

Voicebox可以在給定周圍語音和片段的轉錄本時,預測語音片段。在學會從上下文中填充語音後就能用于多種語音生成任務,例如,在錄音中間生成缺失部分,使得使用者無需重新建立整個輸入。

文本到語音合成:使用者使用長度僅為2秒的輸入音頻樣本,Voicebox 就可以自動比對樣本的音頻風格并将其用于文本到語音生成。該功能可以幫助很多無法說話的聾啞人,實作“說話”。

跨語言風格生成:給定一個語音樣本和一段英語、法語、德語、西班牙語、波蘭語或葡萄牙語的文本,Voicebox 都能以該語言讀出該文本。該功能可以幫助人們用自己的語音進行真實地交流,即便他們來自不同的國家、地區。

文本自動生成6種語音,Meta推出多任務語音模型——Voicebox

語音降噪和編輯:Voicebox 的上下文學習能力,可以在音頻錄音中生成無縫銜接的語音片段。例如,可以用于被噪聲破壞的語音、糾正說錯的文本等。是以,該功能可以幫助專業媒體人更快的編輯音頻。

文本自動生成6種語音,Meta推出多任務語音模型——Voicebox

多樣化語音采樣:從多樣化的自然資料中學習後,Voicebox 可以生成貼近現實說話的聲音,并且支援英語、法語、德語、西班牙語、波蘭語和葡萄牙語六種語言。是以,可用于生成語音資料,可幫助使用者更好地訓練語音助手模型。

文本自動生成6種語音,Meta推出多任務語音模型——Voicebox

Meta表示,由于語音模型存在濫用的風險,會被非法人員用于電信詐騙等,是以,目前不會分享Voicebox模型和代碼。但已經開放了Voicebox的論文,并且介紹了Meta如何建構一個高效的分類器,該分類器可以區分使用 Voicebox 生成的真實語音和音頻。

繼續閱讀