天天看點

Meta釋出生成式AI語音模型Voicebox,精通六種語言,支援多種語音功能 | 最前線

作者:36氪

作者 | 周愚

編輯 | 鄧詠儀

美國時間6月16日,Meta正式釋出語音生成模型Voicebox。據官網介紹,通過非自回歸“流比對”(Flow Matching)技術,研究人員無需手動标記不同資料,即可利用長達5萬小時的語言和有聲書文本訓練Voicebox。Voicebox生成語音的速度,可到達目前最先進的自回歸模型的約20倍。

不同于過去的語音AI模型一般隻有單一用途,Voicebox基于同一通用模型,即可實作基于文本的語音生成、語音編輯和降噪、跨語言轉換、多風格語言采樣等功能。

在英國文本到文字的轉換過程中,Voicebox的平均單詞錯誤率與音頻相似度(相較于真實語音)分别為1.9%和0.681,而目前最先進的英語模型Vall-E,則分别為5.9%和0.580。

此外,Voicebox還支援合成包括英語、法語、西班牙語、德語、波蘭語和葡萄牙語等六種語言的語音。在跨語言轉換的表現上,Voicebox同樣優于該領域領先的YourTTS,平均單詞錯誤率從10.9%降低到了5.2%,音頻相似度則從0.335提高到了0.481。

Meta釋出生成式AI語音模型Voicebox,精通六種語言,支援多種語音功能 | 最前線

Voicebox與其他語音生成模型單詞錯誤率對比。來源:Meta

Meta釋出生成式AI語音模型Voicebox,精通六種語言,支援多種語音功能 | 最前線

Voicebox與其他語音生成模型音頻相似度對比。來源:Meta

在訓練過程中,Voicebox會得到一個音頻樣本和相應的文本,然後部分音頻将被屏蔽,該模型需要根據前後音頻和給定的文本,生成被屏蔽的音頻片段。

經過這種訓練的模型可以直接或在少量微調後,适用于許多任務。以降噪和語音錯誤修改為例,Voicebox在實作這兩項看似不同的功能時,均是首先屏蔽出現噪音或錯誤的部分,然後基于前後已有的音頻和原文本或修改後的文本,重新生成該部分語音。

這也是Meta研發Voicebox的主要目标。在一篇披露Voicebox技術細節的論文中,Meta研究人員寫道:“研究目标是建立一個單一模型,通過上下文學習來執行多種基于文本的語音生成任務。”

Meta釋出生成式AI語音模型Voicebox,精通六種語言,支援多種語音功能 | 最前線

Voicebox通過前後音頻學習生成語音。來源:Meta

Voicebox并非是為特定應用程式訓練的生成模型,是以還可以執行許多未經過訓練的其他任務。

輸入長度僅為兩秒的音頻樣本,Voicebox就可以獲得相應的音頻樣式。而後,使用者隻需輸入文本就可以生成語音。Meta表示,這項功能可為語言功能障礙人士提供語音,或為NPC和虛拟助手定制聲音。

同時,Voicebox跨語言轉換的功能也可以幫助不同語言的人們進行順暢的交流。基于六種語言的語音樣本和給出的文本,使用者在Voicebox的幫助下便可以輕松生成目智語言的語音。

Voicebox還可以将其生成的語音用于模型訓練。Meta的研究結果表明,與真實語音訓練出的模型相比,使用Voicebox生成的語音訓練出的語音識别模型表現幾乎一樣好。

Meta釋出生成式AI語音模型Voicebox,精通六種語言,支援多種語音功能 | 最前線

Voicebox與其他主流語音生成模型功能對比。來源:Meta

盡管Meta研究團隊已經釋出了披露技術細節的相關論文,但Meta并沒有公開Voicebox的模型或代碼,認為“需要在開放和責任之間找到适當的平衡”。

Meta在社交平台上公開表示:“與其他強大的人工智能創新技術一樣,我們認為這項技術也可能會被濫用,造成意外傷害。”

繼續閱讀