天天看點

現實版「柯南變聲器」來了,搜狗變聲讓你聲音随心變一、搜狗語音變聲實測:逼真度高、自由度高二、受益表征學習突破 詳解搜狗變聲模型三、想象空間遠不止步于輸入法

近日,搜狗公司 CEO 王小川在一場大會上展示了搜狗變聲功能,可以讓你的聲音秒變志玲姐姐,下一秒變馬雲,下一秒再變高曉松。

這一語音變聲技術可以實作把任何人的聲音轉化成特定聲音,即「Anyone to One」. 這是表征學習在變聲應用方面的一個突破,搜狗将這項技術落地搜狗輸入法中,在行業率先實作落地商用。

在搜狗輸入法中,搜狗目前提供了明星、卡通人物、遊戲 IP、方言等幾個類别供 19 種特定聲音,你可以将自己的聲音自由變換成喜歡的聲音,目前在微信、QQ、陌陌等主要社交場景均可使用。

更為重要的是,當搜狗将自身的語音變聲技術、AI 合成主播技術等與行業結合,尤其尤其是與媒體、教育、内容制作、旅遊等場景結合,将會帶來更大的價值想象空間。

一、搜狗語音變聲實測:逼真度高、自由度高

在搜狗輸入法中,通過「變聲」功能,我們的聲音可以轉化為明星、動漫人物、遊戲人物等各種炫酷的嗓音。目前,搜狗輸入法的「變聲」功能可轉化為 19 種不同音色的語音,可以在微信、QQ 等聊天時使用,更像一種「語音表情包」,為社交增添新的玩法。

我們先看看語音變聲到底是什麼樣的:

現實版「柯南變聲器」來了,搜狗變聲讓你聲音随心變一、搜狗語音變聲實測:逼真度高、自由度高二、受益表征學習突破 詳解搜狗變聲模型三、想象空間遠不止步于輸入法

48

點選檢視原視訊

可以看出,搜狗語音變聲是一種将任意說話人音色實時高逼真度變換到指定說話人音色的技術,即把我們的說話内容和風格完整地遷移到特定對象的語音上。這種變聲要比單純的變音難很多,最重要的是模型需要通過深度學習從語音抽取特定的嵌入向量,這些嵌入向量表示了說話的内容、風格、情感、音色等資訊,并用目标音色代替原始音色實作變聲。

它主要有如下三大特點:

  • 高還原度的變聲:變聲結果和目标說話人的真實嗓音非常像; 
  • 自由度極高的變聲:使用者的語音沒有任何限制,標明目标嗓音後,不同使用者變聲後的嗓音能保持一緻。也就是說這是一種 Any-to-One 的方式,任意人變聲到一人的能力; 
  • 風格遷移的變聲:我們的說話内容、風格(語速、停頓、情感等)都能保留下來,隻是音色變換到標明的目标嗓音。

語音變聲是搜狗的創新,這是全新的發展領域比語音合成更具有廣泛的使用場景。同時,搜狗則在語音表征學習、遷移學習技術的突破基礎上,再進一步将其部署到産品中,率先在行業實作落地。

而 Any-to-One 的方式意味着,模型不對說話人做限制,就可以實作變聲到制定目标音色的遷移效果。模型訓練隻需要幾十分鐘的聲音語料即可學習到目智語音的特點,是以如果你想定制一個變聲語音,成本并不會很大。

二、受益表征學習突破 詳解搜狗變聲模型

搜狗語音互動中心進階總監陳偉表示,搜狗語音變聲技術的突破,主要是在表征學習的研究上取得的,基于大量的語音資料,從中學習到有效表達說話人不同次元資訊和屬性的表征。

針對變聲的任務需要學習到三類表征: 

  1. 說話人無關的内容表征:基于大量說話人語音資料,從中學習提取說話人無關表征的模型; 
  2. 目标說話人聲紋表征,它表示不同人的「嗓音」差别。不同的聲紋特征向量,對應着不同的目标音色; 
  3. 說話風格的表征,模型還應該學習到各種說話風格韻律相關的特征,例如語速的快慢和情感的起伏等。

搜狗建構的模型,主要會從說話人語音的音色、内容和韻律 (講話節奏、情感語氣等資訊) 三個次元描述相關特征。并将學習到的說話人音色特征替換成目标說話人,最後基于搜狗語音到語音的新技術生成變聲音頻。

當這三類特征都能學習出來時,通過模型的學習進行解碼生成對應目标音色的語音,進而實作将源說話人的内容和風格遷移到目标說話人的音色。

變聲的架構

那麼這些特征都是怎樣聯合,并完成變聲的呢?陳偉解釋了變聲功能的整體架構與過程,它是一個端到端的高效模型。對應上面所述的三類特征,編碼部分可以分為 A、B、C 三個子子產品。每一個子產品負責一類特征,最後結合三種特征而解碼為目智語音、。如下為變聲功能的整體架構:

現實版「柯南變聲器」來了,搜狗變聲讓你聲音随心變一、搜狗語音變聲實測:逼真度高、自由度高二、受益表征學習突破 詳解搜狗變聲模型三、想象空間遠不止步于輸入法

其中 A、B、C 組成了表征學習部分,後面的注意力機制和解碼器組成了語音變聲子產品。這裡可能令人疑惑的是,為什麼說 B 和 C 兩個嵌入向量能學習到内容與韻律,注意力機制又是怎樣結合三大特征?

嵌入向量是什麼?

A 的嵌入向量能學習到聲紋資訊并不難了解。如果嵌入向量能區分不同的說話人,那麼就表示它學習到了不同人的音色或嗓音,A 也就完成了對音色語料的聲紋特征編碼。

但問題是,為什麼 B 和 C 兩個子產品能從輸入音頻中學習到内容與韻律?

陳偉表示,這兩個向量都要加一些限制才能學習到不同的特征。現在很多模型學習到的表征都是采用無監督的方式,例如自編碼器、基于流的方法,學習到的表征并不能确定具體表示什麼。隻有人工再去判斷,我們才能知道它可能和語音、圖像的哪些屬性相關。

但是在 B 和 C 兩個子產品中,模型的目的非常明确,它希望學習到與内容和風格相關的特征。在這個過程中需要其它限制與監督資訊,使模型朝着具體的方向學習。具體而言,如果 B 希望學習到内容相關的特征,那麼可能就需要語音内容進行限制。隻有 B 的嵌入向量能重構出文本内容,這才表示它确實學到了。

注意在 B 中會有一個說話人歸一化的子產品,主要用來去除音色資訊。

注意的是什麼?

對于語音變聲中,若得到各種嵌入向量,并通過注意力機制權重成特征編碼,那麼就可以繼續通過 WaveRNN 等神經網絡聲碼器将其恢複為語音,進而最終得到帶有目标音色的音頻。

是以注意力機制到底「注意」的是什麼?

陳偉表示,整個注意力機制需要将三種不同的表征資訊進行對齊,其中說話人編碼器(A)學到的聲紋嵌入向量是與時間無關,是基于整段音頻學習到的表征矢量,但是對于内容和風格韻律而言,它們與時間相關,不同時間點的表征是不同的。

在時間序列上,模型需要逐幀地解碼而生成目智語音。在每一個時間步上,或者說每一步解碼上,模型都需要通過注意力機制确定到底要用那些内容、風格與目标說話人聲紋進行融合。融合這些資訊之後,模型才能完成整個序列的解碼,進而生成目标音色對應的語音。

三、想象空間遠不止步于輸入法

針對語音變聲技術在搜狗輸入法中的應用,陳偉表示,變聲功能上線第一天,使用次數就有數百萬次,目前使用者使用量在持續增長。在目前上線的目标音色中,林志玲的聲音是使用最多的,東北方言、磁性男聲等具有特色的嗓音,也非常受歡迎。

他還表示,搜狗輸入法除了解決效率問題外,正在不斷嘗試提升用使用者體驗,比如這次的搜狗變聲,讓輸入法變得更加有趣好玩。

但搜狗語音變聲技術的想象空間遠不止如此。

陳偉說,變聲能力本質解決兩個問題,一個是聲音美化(聲音濾鏡以及音色遷移),一個是隐私保護,這兩塊有非常大的潛在應用空間,甚至會對行業帶來重要的影響。

比如在教育行業,遠端直播 / 網絡課程非常紅火,但是有些老師往往帶有口音,國語并不标準。通過變聲技術,可以把網絡教師的音色變為一個國語标準的、更加有品質的音色,同時保留老師自身的内容、風格特色。

再比如未來的内容制作領域,以兒童故事、有聲内容為例,假如你擁有蠟筆小新的 IP 版權,結合變聲技術就可以以蠟筆小新的口吻講述小朋友喜歡的故事。

除了教育、有聲内容制作外,電商、旅遊、宣傳等中多領域,變聲技術都有用武之地。陳偉也表示,目前公司正在跟一些行業企業接觸,未來會走向行業應用。

搜狗語音變聲技術,再結合搜狗近期推出的 AI 合成主播,相信與内容制作、教育、娛樂等行業的進一步結合,将會有更大的商用空間有待探索。

現實版「柯南變聲器」來了,搜狗變聲讓你聲音随心變一、搜狗語音變聲實測:逼真度高、自由度高二、受益表征學習突破 詳解搜狗變聲模型三、想象空間遠不止步于輸入法

本文為機器之心原創,轉載請聯系本公衆号獲得授權。

繼續閱讀