天天看點

Metor生成式A/語音:Voicebox驚豔問世。·Controlor在元宇宙上摔了大跟頭。2022年經曆大規模裁員,

作者:白蓮如風

Metor生成式A/語音:Voicebox驚豔問世。

·Controlor在元宇宙上摔了大跟頭。2022年經曆大規模裁員,但小紮絲毫沒有自暴自棄,而是一鼓作氣研發出了生成式Al語音系統voice box。語音的核心問題是什麼?需要大量的專業資料來對特定的AI語音進行訓練,耗時長、成本高而且能力單一。

voicebox是一種基于流比對的方法,能夠學習到語音和文本之間的非确定的映射關系,減少了繁瑣的語音标注環節。mentor訓練voicebox采用了六個國家的語言,英語、法語、德語、西班牙語、波蘭語、葡萄牙語,包含了5000個小時的錄音、轉錄文本以及公共領域的有聲書。

·Voicebox不僅能夠合成這6種語言,還能夠進行噪聲消除内容編輯、轉換音頻風格。因為擔心這種技術被濫用,現在Mentor并不打算公開語音的AI模型。

接下來看看生成式的語音系統到底厲害在哪裡?

·第一點,特定語境的文本轉語音。Y box僅需2秒左右的音頻樣本輸入就能将文字生成和樣本風格一緻的語音内容。這個技術的應用價值非常大,比如可以定制你喜歡的虛拟助手,可以讓有視聽障礙的人士像正常人一樣溝通和對話。

·第二點,跨語言風格遷移。給定一段語音樣本和對應的文本片段,不管是英語、法語、德語,還是西班牙語、波蘭語、葡萄牙語。voice box能以任何一種語言讀出文本,這不就是随身攜帶了一個翻譯機嗎?不同國家之間再也沒有語言障礙。普通人可以通過自己的語調,語氣來說外語,對于喜歡旅遊跨國工作的人真是太實用了。

·第三點,語音的降噪和編輯,噪音污染是語音系統的棘手問題。voicebox擁有上下文的學習能力,是以當音頻中出現被噪聲污染的片段可以通過voicebox進行自動裁剪并與整體的音頻無縫銜接。這項能力對于内容創造者真是太友好了。

拿我自己來講,我也經常編輯短視訊,但是在錄音的過程中難免會出錯,一旦等到視訊編輯完了再發現這個錯誤那已經太晚了,還得重新錄一遍。Voicebox可以自動化的解決這個問題。

·第四點多樣化的語音采樣。voicebox通過學習海量、多樣化的語音資料可以合成超級自然的人聲,未來不管是遊戲中的NCP還是數字人、影視配音,AI的表現會越來越接近真人。此外這種能力還可以合成資料幫助訓練語音助理,值得欣喜的是它的表現和使用真人語音資料訓練的模型差不多。這種方式可以極大降低語音應用的開發成本提升效率。

技術總是會有兩面性的,mentor為了降低這個技術被惡意使用,它建構了一種分類器能夠識别真人的聲音和voicebox創造出來的聲音。

好了今天先到這裡了,面對強大的Voicebox你心動了嗎?過去AI的核心價值是降本增效增收,未來價值體系變成如何讓"人人平等"。論文位址:speech-generation-at-scale/更多價值資訊關注公衆号:夏葉華。視訊号:Eva産品戰略。

Metor生成式A/語音:Voicebox驚豔問世。·Controlor在元宇宙上摔了大跟頭。2022年經曆大規模裁員,
Metor生成式A/語音:Voicebox驚豔問世。·Controlor在元宇宙上摔了大跟頭。2022年經曆大規模裁員,
Metor生成式A/語音:Voicebox驚豔問世。·Controlor在元宇宙上摔了大跟頭。2022年經曆大規模裁員,
Metor生成式A/語音:Voicebox驚豔問世。·Controlor在元宇宙上摔了大跟頭。2022年經曆大規模裁員,
Metor生成式A/語音:Voicebox驚豔問世。·Controlor在元宇宙上摔了大跟頭。2022年經曆大規模裁員,
Metor生成式A/語音:Voicebox驚豔問世。·Controlor在元宇宙上摔了大跟頭。2022年經曆大規模裁員,
Metor生成式A/語音:Voicebox驚豔問世。·Controlor在元宇宙上摔了大跟頭。2022年經曆大規模裁員,

繼續閱讀