Meta釋出生成式AI語音模型Voicebox，精通六種語言，支援多種語音功能

Meta釋出生成式AI語音模型Voicebox，精通六種語言，支援多種語音功能 | 最前線

作者：36氪 2023-06-19 16:14:00

作者 | 周愚

編輯 | 鄧詠儀

美國時間6月16日，Meta正式釋出語音生成模型Voicebox。據官網介紹，通過非自回歸“流比對”（Flow Matching）技術，研究人員無需手動标記不同資料，即可利用長達5萬小時的語言和有聲書文本訓練Voicebox。Voicebox生成語音的速度，可到達目前最先進的自回歸模型的約20倍。

不同于過去的語音AI模型一般隻有單一用途，Voicebox基于同一通用模型，即可實作基于文本的語音生成、語音編輯和降噪、跨語言轉換、多風格語言采樣等功能。

在英國文本到文字的轉換過程中，Voicebox的平均單詞錯誤率與音頻相似度(相較于真實語音）分别為1.9%和0.681，而目前最先進的英語模型Vall-E，則分别為5.9%和0.580。

此外，Voicebox還支援合成包括英語、法語、西班牙語、德語、波蘭語和葡萄牙語等六種語言的語音。在跨語言轉換的表現上，Voicebox同樣優于該領域領先的YourTTS，平均單詞錯誤率從10.9%降低到了5.2%，音頻相似度則從0.335提高到了0.481。

Voicebox與其他語音生成模型單詞錯誤率對比。來源：Meta

Voicebox與其他語音生成模型音頻相似度對比。來源：Meta

在訓練過程中，Voicebox會得到一個音頻樣本和相應的文本，然後部分音頻将被屏蔽，該模型需要根據前後音頻和給定的文本，生成被屏蔽的音頻片段。

經過這種訓練的模型可以直接或在少量微調後，适用于許多任務。以降噪和語音錯誤修改為例，Voicebox在實作這兩項看似不同的功能時，均是首先屏蔽出現噪音或錯誤的部分，然後基于前後已有的音頻和原文本或修改後的文本，重新生成該部分語音。

這也是Meta研發Voicebox的主要目标。在一篇披露Voicebox技術細節的論文中，Meta研究人員寫道：“研究目标是建立一個單一模型，通過上下文學習來執行多種基于文本的語音生成任務。”

Voicebox通過前後音頻學習生成語音。來源：Meta

Voicebox并非是為特定應用程式訓練的生成模型，是以還可以執行許多未經過訓練的其他任務。

輸入長度僅為兩秒的音頻樣本，Voicebox就可以獲得相應的音頻樣式。而後，使用者隻需輸入文本就可以生成語音。Meta表示，這項功能可為語言功能障礙人士提供語音，或為NPC和虛拟助手定制聲音。

同時，Voicebox跨語言轉換的功能也可以幫助不同語言的人們進行順暢的交流。基于六種語言的語音樣本和給出的文本，使用者在Voicebox的幫助下便可以輕松生成目智語言的語音。

Voicebox還可以将其生成的語音用于模型訓練。Meta的研究結果表明，與真實語音訓練出的模型相比，使用Voicebox生成的語音訓練出的語音識别模型表現幾乎一樣好。

Voicebox與其他主流語音生成模型功能對比。來源：Meta

盡管Meta研究團隊已經釋出了披露技術細節的相關論文，但Meta并沒有公開Voicebox的模型或代碼，認為“需要在開放和責任之間找到适當的平衡”。

Meta在社交平台上公開表示：“與其他強大的人工智能創新技術一樣，我們認為這項技術也可能會被濫用，造成意外傷害。”

Meta釋出生成式AI語音模型Voicebox，精通六種語言，支援多種語音功能 | 最前線