背景
由愛奇藝平台傾力打造的S+級自制超級網綜《中國新說唱》上線,首播4小時破億,從播出效果來看, “吳亦凡 skr”“阿凡真的很嚴格”“那吾克熱 黑馬”“3bangz 快樂源泉”等話題迅速搶占微網誌熱搜榜,可謂口碑流量雙豐收。在全民說唱氛圍的刺激下,很多人都會有freestyle的欲望,但又缺乏說唱的創作環境,是以很多好的說唱靈感轉瞬即逝。
基于此,憑借深度學習和語音合成技術,我們團隊釋出了全民搞說唱(AI RAP),圍繞“讓使用者快樂更簡單,讓娛樂更有趣”的AI願景,滿足普通使用者一鍵生成專屬的RAP歌曲。

技術實作
相對平時說話,說唱具有語速快,發音邊界模糊等特點,端到端的語音合成模型可以較好地解決語音合成的連貫性問題,但是并不能精确擷取每個字的邊界資訊,同時在推斷的準确性和實時性方面也存在問題。而愛奇藝AI RAP技術在這個方面做了很多優化工作。
AI RAP融合了多項AI技術,首次将基于位置敏感的注意力(location sensitive attention)和Inference Mask聯合運用,顯著提高了對齊結果的正确率。然後根據對齊情況,将語音合成結果自動适配到背景音樂的節奏點,保證了使用者填的詞對應到背景音樂的各個節奏點上。最後根據節奏選取最優的拉伸政策,将語音中的各個詞拉伸到RAP歌曲對應的節拍數上。這樣,一首具有專業flow水準的“差不多先生”RAP就大功告成了。
在語音合成方面,Google提出的tacotron模型雖然能夠很好地還原訓練資料的音色,但是無法産生穩定的單調遞增對齊結果,容易出現漏字和重複的情況。是以,愛奇藝AI RAP對tacotron模型做了進一步優化,不僅顯著提高了對齊準确性和語音合成品質,并可支援不同音色的發音需求。
AI RAP的TTS模型結構
此外, AI RAP借鑒了tacotron2中的location sensitive注意力子產品,使其有能力感覺對齊過程中的位置相關資訊。同時,在推斷時加入inference mask,使注意力的準确率進一步提升,在網絡書籍測試集(8000+測試集,涵蓋各種長度)上的對齊準确率從80% 提升到100%。值得一提的是,inference mask與傳統的monotonic attention不同,它通過限制字間的注意力來保持單調性,進而保證了語音合成後的自然度和準确性。
基于8000+的測試集上的對齊準确率對比
注意力優化前
注意力優化後
注意力優化前後對比
在音色方面,愛奇藝AI RAP通過大量訓練集,訓練出帶有IP特征的音色,如蠟筆小新,小丸子,相聲男神和女神等,滿足了不同年齡段使用者的需求,真正實作使用者填詞,明星幫唱RAP的特色玩法。
此外,合成速度是傳統端到端模型的另一塊短闆。而愛奇藝AI RAP通過自研的波形恢複算法,來替代需多次疊代的Griffin-Lim算法,大大提升了語音合成速度。經過測試,在CPU上即可達到1秒鐘完成多達40個字的語音合成。
為了大家可以盡情玩和盡情分享互動,這次結合語音合成的速度優化,并采用分布式部署,可以支援每天百萬的使用者來RAP。
多種波形重建算法速度對比