Meta 釋出語音生成 AI 模型 Voicebox

近日，Meta AI 宣布在生成式 AI 語音模型領域取得了突破：開發出了首個可泛化至多種語音生成任務的模型 Voicebox，無需專門訓練即可達成頂尖性能表現。Meta AI 研究人員分享了多段音頻樣本和一篇研究論文，其中詳細介紹了他們采用的方法和取得的成果。

與圖像及文本類生成系統一樣，Voicebox 能夠建立多種樣式的輸出，包括從零開始建立輸出、修改給定樣本等。但與以往不同的是，Voicebox 并非簡單建立圖檔或一段文字，而是直接生成高品質的音頻片段。該模型能夠為括英語、法語、西班牙語、德語、波蘭語和葡萄牙語在内的六種語言合成語音，同時執行噪聲去除、内容編輯、風格轉換和多樣化樣本生成等任務。

在 Voicebox 出現之前，生成式 AI 語音模型需要配合精心準備的訓練資料，就各項任務接受特定訓練。Voicebox 使用一種新的方法，可直接從原始音頻和随附的轉錄結果中學習。與隻能根據給定音頻片段續寫結尾的自回歸模型不同，Voicebox 能夠修改給定樣本中的任意部分。

據了解，Voicebox 能夠出色執行各種任務，具體包括：

結合上下文的文本到語音合成：使用長度僅為兩秒的輸入音頻樣本，Voicebox 即可比對樣本的音頻風格并據此進行文本到語音生成。後續項目有望為無法說話的人士提供語音支援，或者為遊戲 NPC 及虛拟助手快速生成對話語音。
跨語言風格轉換：給定一段語音樣本，外加一段英語、法語、德語、西班牙語、波蘭語或葡萄牙語的文本，Voicebox 即可生成對應的朗讀音頻。這種能力訟人興奮，未來可以幫助使用不同母語的人們通過自然且真實的方式開展交流。
語音降噪與編輯：Voicebox 的上下文學習為其賦予了強大的語音生成能力，可無縫編輯音頻中的片段。它能重新合成被暫時噪聲幹擾的語音部分，或者替換掉說錯的詞，而無需重新錄制整段語音。使用者可以找到語音中被噪聲（如狗叫聲）幹擾的原始片段，剪切出來并訓示模型重新生成。有朝一日，這種能力還可用于清洗和編輯音頻，且使用過程與目前流行的圖像編輯工具一樣輕松便捷。
多樣化語音采樣：利用多樣化的真實資料完成學習後，Voicebox 将可生成與人們的現實對話高度吻合的以上六種語言對話音頻。未來，此功能可用于生成合成資料，協助提升語音助手模型的訓練效果。研究結果表明，基于 Voicebox 生成的合成語音訓練出的語音識别模型，在性能上幾乎與使用真實語音的模型相當，錯誤率降低了 1%；與以往同類文本到語音模型相比，合成語音資料訓練結果的錯誤率更是大幅降低 45%至 70%。

Voicebox 的誕生，标志着生成式 AI 研究又向前邁出了重要一步。在文本、圖像和視訊生成等方面，具備任務泛化能力的可擴充生成式 AI 模型已經激發了人們對于跨任務潛在應用的濃厚興趣。Meta AI 希望音頻領域未來也能掀起同樣的潮流，同時繼續保持深耕和探索，關注其他研究人員如何在 Voicebox 的基礎之上尋求新的突破。

Voicebox 背後的 Flow Matching 技術

現有語音合成工具的主要局限之一，在于隻能就專門的任務配合準備好的資料接受訓練。這些單調而幹淨的輸入資料相對有限且難以收集，是以也導緻輸出結果變得同樣單調。

Meta AI 的研究人員基于“流比對”（Flow Matching）技術建構了 Voicebox，這項技術是 Meta 在非自回歸生成模型領域的最新進展，能夠掌握文本到語音之間高度不确定的映射。非确定性映射非常重要，它使得 Voicebox 能夠從不同的語音資料中學習，且無需對各種變化要素做詳盡标注。也就是說，Voicebox 能夠在多樣性更強、規模更大的資料之上進行訓練。

與目前最先進的英語模型 VALL-E 相比，Voicebox 在可懂度（即單詞錯誤率，前者為 5.9%，Voicebox 為 1.9%）和音頻相似度（0.580 對 0.681）方面均更加強大，且速度要快 20 倍。在跨語言風格遷移方面，Voicebox 也優于領先模型 YourTTS，能夠将平均單詞錯誤率從 10.9%降低至 5.2%，并将音頻相似度從 0.335 提高至 0.481。

Voicebox取得新的先進結果，在單詞錯誤率方面優于Vall-E和YourTTS。

Voicebox還分别在英語和多語言基準測試中的音頻風格相似性方面，達成了新的頂尖成績。

研究人員使用超過 5 萬小時的語音錄音，和來自英語、法語、西班牙語、德語、波蘭語和葡萄牙語的公共有聲讀物轉錄對 Voicebox 進行訓練。經過訓練後，Voicebox 能夠在給定前後語音和片段轉錄資料時預測出語音片段。它還能學會根據上下文補全語音，進而被應用于其他語音生成任務，包括在無需重建整個輸入的前提下生成音頻的中間部分。

“AI 孫燕姿”爆火後，再看語音生成濫用風險

Voicebox 擁有衆多令人興奮的用例，但 Meta 也承認其存在潛在的濫用風險，是以 Meta AI 的研究人員決定暫不公開 Voicebox 模型或代碼。Meta 在社交平台上公開表示：“與其他強大的人工智能創新技術一樣，我們認為這項技術也可能會被濫用，造成意外傷害。”

事實上，語音生成引發的濫用風險并不少見。以華語樂壇最近爆火的“AI 孫燕姿”為例，AI 讓孫燕姿翻紅的同時，也讓背後的風險顯露出來。一方面，AI 合成聲音可能涉及侵權問題，另一方面，也可能帶來一系列倫理和法律的風險。

大陸《民法典》第 1023 條第二款規定，對自然人聲音的保護，參照适用肖像權保護的有關規定。第 1019 條第一款規定，任何組織或者個人不得以醜化、污損，或者利用資訊技術手段僞造等方式侵害他人的肖像權。未經肖像權人同意，不得制作、使用、公開肖像權人的肖像。由此可見，比照對肖像的人格權保護，未經權利人的同意，也不得制作、使用、公開利用權利人的聲音。

此外，語音生成也會成為電信詐騙的利器。前段時間，美國和加拿大各地使用 AI 合成語音進行電信詐騙的案例多發，不少老年上當受騙。加拿大警方稱，最近加拿大各地都有不少類似案件發生，涉案金額已達數百萬加元。有受害者表示，犯罪分子使用的聲音和她兒子的聲音簡直一模一樣。在美國，類似的詐騙案件近期也呈上升趨勢。

作為首個能夠成功執行任務的多功能、高效泛化模型，Meta AI 堅信 Voicebox 即将開創生成式 AI 語音模型的新時代，但與其他強大的 AI 創新成果一樣，這項技術同樣可能因誤用引發意外危害。對于語音生成帶來的濫用風險，Meta 也想好了對策——建構一款高效分類器，用以區分由 Voicebox 生成的音頻和真實語音，借此緩解未來可能出現的種種風險。

在論文（https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/）中，Meta AI 研究人員還具體講解了如何建構一款高效分類器，用以區分真實語音和 Voicebox 生成的音頻。

參考連結：

https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/

http://www.xinhuanet.com/ent/20230620/85f213fc8b914b7a9ea17addc3cec01e/c.html

本文轉載來源：

https://www.infoq.cn/news/YF1LRfH3Ttt7eZ0mBPjQ

“AI 孫燕姿”爆火後，Meta 釋出通用語音生成 AI：支援多種語音功能

Meta 釋出語音生成 AI 模型 Voicebox

Voicebox 背後的 Flow Matching 技術

“AI 孫燕姿”爆火後，再看語音生成濫用風險

繼續閱讀

華為終端商用最近的聲音不小呀，前一段時間還成為人民網兩會專用筆記本，華為擎雲G540搭載的靜谧空間通話技術，可以在戶外或

華為擎雲G540和華為擎雲S540釋出，全新的擎雲商用筆記本打開了企業使用者辦公新時代。在這個數字化智能發展的大環境中，華

接下來聊一聊這幾天我帶着JBLLIVEFLEX的使用感受，JBLLIVEFLEX的半入耳式的設計，使得它的佩戴更加沒有壓

#當貝盒子H3##當貝盒子#最近買了當貝盒子H3,簡直是拯救了高清愛好者的錢包，不僅質感非常好，系統流暢，使用場景豐富。

澹台燼你個老6[靈光一閃]，玩高科技，烏鴉實時監控是吧！可移動，無死角，還帶語音功能。想盯哪裡盯哪裡[淚奔]

現在想買個不帶隐藏式門把手、虛拟按鍵、自動啟停和超大天窗（天幕）的車子太難了！我甚至情願買個五六年前甚至十年前的二手車，

4月27日，比亞迪護衛艦07在中國汽車工程研究院（以下統稱為中國汽研）頒發的中國汽車健康指數&IVISTA中國智

仿生人妻子：網友：有男的嗎？我想出2萬。快看這個美女機器人，男人正在給她下達無恥指令，啟動語音功能，開啟親密模式，所有指

KNL15玉盤喇叭是一個SIP對講喇叭&麥克風，适用于機場，車站、碼頭、學校、醫院、商場等企事業機關。建立了強大

#新能源新奇功能體驗#開車的朋友都有過，一邊開車一邊調整空調，特别是在高速上，其實是挺危險的一件事，我在剛開車的那段時間

Meta釋出生成式AI語音模型Voicebox，精通六種語言，支援多種語音功能 | 最前線

百元機更新版！貴一點，效果更好？測評見~前幾期平價系列帶大家看了幾款百元機，價格是挺香，就是這效果有些不盡如人意...今

#插混vs非插混，哪種才是真省心#豐田是全球量産混合動力技術車型最早，累計産量最高的汽車品牌。廣汽豐田第八代凱美瑞智能電

AITO問界迎來大規模OTA更新，涵蓋了七個功能以及十餘項體驗的優化。新增HUAWEIDATS實用功能：了它就可以有效降

#鴻蒙新版本##搭載了鴻蒙##8月份鴻蒙更新##華為開發者大會2023（Cloud）#華為2023開發者大會<HD