高保真音色媲美真人，StyleTTS為QQ浏覽器「聽書」語音注入情感

今年 4 月，QQ 浏覽器宣布「小說頻道」正式變更為「免費小說」頻道，這意味着閱文平台旗下的萬千小說将免費供使用者閱讀。網絡文學已浮浮沉沉二十餘載，其閱讀方式也随之幾經改變。

與此同時，科技的發展也在革新着閱讀方式，例如語音合成技術的成熟讓越來越多的讀者選擇聽小說。語音合成技術中，讓聲音富有情感和表現力，一直是一大難點。而 QQ 浏覽器最近上線的「聽書」功能中，應用騰訊 PCG AI 互動部 StyleTTS 端到端合成架構業内創新技術讓合成語音有了情感的溫度，高保真音色可與真人媲美。

QQ 浏覽器使用的 StyleTTS 利用精心設計的語音語料庫進行聲學模型和文本處理模型的訓練，得到的模型深度挖掘了語音語言特性，合成的語音清晰、自然、親切、具有高表現力。現階段 QQ 浏覽器「聽書」功能已上線多種音色，每個音色都有自己的風格，滿足不同人群的閱讀喜好。在最新的一次更新中，QQ 浏覽器上線了三名作家 AI 音色包，不同尋常的玩法背後是 QQ 浏覽器為 AI 合成聲音進一步應用落地的嘗試。

端到端聲學模型，實作跨發音人的風格控制合成

其實，語音合成技術一直伴随着網文的發展，因為它的曆史更加久遠。1939 年貝爾實驗室利用共振峰原理制作的曆史上第一台電子合成器屬于語音合成的一個重要開端，直到上世紀 90 年代基于大語料庫的單元挑選與波形拼接合成方法出現，可以合成高品質的自然人語音。在神經網絡出現之前，波形拼接一直是語音合成的主要方式。波形拼接的基本原理就是根據輸入文本的資訊，從人工錄制與标注的語料庫中挑選合适的基元（通常為音素或音節），進行少量的調整，然後采用波形拼接的方式得到與待合成文本相對應的語音序列。但是波形拼接合成方法需要準備海量的高品質語料，而且拼出來的語音雖然能讓人聽懂，但很難做到自然流暢。當波形拼接合成應用在朗讀小說時，其合成語音比較僵硬，機械化的電子聲音并不能給聽衆帶來良好的聽覺體驗。而人類讀文章時有自然的換氣和停頓，韻律自然，聽起來才不會累。

深度神經網絡克服傳統的文本到語音轉換系統的局限性，比對口語中的語音頓挫和語調模式和韻律，并将語音單元合成為計算機語音。通過聲學模組化，即将文本特征轉換為聲學特征，利用半監督機器學習技術，實作了高精度、自動化的字音判别和貼近真人的語音生成效果。由此合成的語音在節奏、語調和頓挫感上都幾乎和真人一樣，具備人類語音一樣的自然韻律和詞彙清晰度。

StyleTTS 結構圖

端到端語音合成系統，由前端、聲學模型和聲碼器三部分組成。前端主要解決基于語義了解的文本發音問題，主要包含文本正則、分詞、字轉音、停頓預測等；聲學模型負責為語音賦予韻律，比如語速、語調、停頓、重音和情緒變化等；最後一部分聲碼器負責還原語音的聲學特征，也就是一般所說的嗓音或聲線，如振幅、頻率、波長等。

為了更貼近朗讀者的聲音特點，QQ 浏覽器此次用到的 StyleTTS 的端到端語音合成更加重視個性化與情感共鳴，合成效果也具有更高的自然度、辨識度，同時還能實作對語音轉換的風格、口音、情感等進行靈活選擇與控制，進而滿足不同場景的需求。在前期上線的 6 個音色是精心挑選的具有小說風格同時有一定特點的聲音，其中還包括東北女聲。

騰訊 PCG AI 互動部相關負責人向機器之心表示，在錄制音庫時，會專門加入一些東北方言文本，發音人按照方言朗讀。訓練 StyleTTS 聲學模型時使用無監督學習幀級 VAE 對韻律進行幀級表征，實作說話人音色與韻律解耦，而與口音相關資訊主要保留在韻律模型部分。在東北女聲上，使用方言、國語不同資料對韻律部分進行對抗訓練，加強韻律模型對口音的學習。

除了不同風格的音色以及方言，QQ 浏覽器運用的 StyleTTS 端到端合成架構支援通過不同人 (聲) 的韻律模型和音色模型重組搭配，能夠實作跨發音人的風格控制合成，并擁有抑揚頓挫的韻律節奏和豐富立體的情感表達，這對于語音合成來說是非常大的突破。此外，模型還加入說話人特征編碼、語種特征編碼等經典方法，進一步提升模組化能力。未來，利用 StyleTTS 架構優勢，可以讓同一人學習并具備多種風格和語種，就能給使用者帶來更多選擇。

生成語音中的韻律、表現力等由聲學模型決定，而清晰度則由聲碼器決定，聲碼器限制了最終合成語音的音質，同時也是整個語音合成模型的計算瓶頸。語音閱讀主要在移動端，不僅對音質有高要求，同時也對性能提出很大挑戰。StyleTTS 端到端合成架構采用 Multi-band MelGAN 分頻帶模組化，可以在較短時間内合成較好的音頻。針對移動端做了定制優化，在保證音頻品質沒有明顯下降的情況下，實作合成速度數倍提升。

關于語音合成在情感表達準确度的分辨，目前業内主要還是靠人工主觀測聽，通過 MOS 評分來判斷。為此，QQ 浏覽器正在聯合騰訊 PCG AI 互動部等多方建立一套更加細緻的音色生産和評分機制，從場景、風格、語速、年齡、語調、音質等多個次元進行詳細評分，綜合評價每一個音色的品質。

QQ 浏覽器的月活躍使用者如今達到 4.45 億，并且将免費小說作為一級入口放在了底部菜單欄，讓使用者打開浏覽器就能夠找到小說閱讀的界面，足可見小說在其 “内容 + 服務的綜合資訊平台” 定位中的重要性。免費小說為 QQ 浏覽器帶來增量的同時，也讓更多的優質 IP 得到了更大範圍的推廣。而 “聽書” 為讀者提供了另一種閱讀方式，在增加了使用者粘性的同時，也将吸引全新的讀者。為此，QQ 浏覽器也在 “聽書” 模式上進行不斷地嘗試，進而為讀者提供更好的閱讀體驗，StyleTTS 的應用則進一步滿足了 “聽書” 的個性化需求。

語音合成成本降低，探索閱讀新玩法

在剛剛過去的國際盲人節，QQ 浏覽器免費小說 “聽書” 功能更新，推出葉非夜、公子衍、青衫取醉三位閱文作家的 AI 音色包，并上線 “朗讀官” 頻道。名人更具有影響力和号召力，是以容易被選擇錄制音色包，而 QQ 浏覽器選擇了三位作者，可以看出 QQ 浏覽器在數字閱讀方面積極探索玩法持續創新的決心，聽作者讀自己寫的小說确實别有一番感受。

QQ 浏覽器免費小說頻道擁有閱文集團上千萬本小說以及上百萬作者資源，這意味着在閱讀上有足夠的空間去做創新。如此一來，讀者的體驗感和大衆化的預設語音會呈現巨大的不同。

傳統語音合成定制需要 10 小時以上的資料錄制和标注，對錄音人和錄音環境要求很高，從啟動定制到最終傳遞，制作周期長且成本高昂。而如今 QQ 浏覽器運用的 StyleTTS 通過海量高品質錄音資料建構了一個穩定的基礎模型，隻需要每種情感少量資料，就能很好的還原該發音人不同情緒效果，節省了大量的人力、物力及時間成本，且得到的效果幾乎與真人朗誦别無二緻。

在中國主流音頻平台上，有聲書受歡迎度以 66.3% 高居榜首。而相關研究資料顯示，中國現在已經成為全世界第二大有聲閱讀市場，2020 年中國的有聲閱讀市場規模已經超過 80 億元。預計到 2022 年，有望超過美國，成為全球第一大有聲閱讀市場。可以想象，随着 StyleTTS 這一技術的應用普及，有聲書行業也将随之發生巨大的改變。

如何讓人工智能具有人類的特質和技能？答案是不斷吸收和學習。谷歌曾讓它的 AI 讀 2000 多本言情小說，隻為它能像真人和人類對話，而且對話内容有更多的風格。而對于 StyleTTS 來說，為了能像真人一樣說話，同樣需要海量的錄音資料供其分析、歸納進而吸收。在 QQ 浏覽器「聽書」功能中落地為 StyleTTS 提供了豐富的實踐回報，而 AI 朗讀技術也将逐漸成熟、音色選擇多、豐富流暢，将讓聽書成為常态。

騰訊 PCG AI 互動部相關負責人表示，「聽書」是 StyleTTS 現在重要發展的領域，後續會在使用者個性化、多角色、情緒、情感等分析識别，甚至自動配樂、音效等更多嘗試，逼近真人配音制作的水準。此外，在短視訊、AI 互動、社交、實時通信等領域會有更多的應用探索。通過打造高品質、高效率的音視訊内容創作工具，幫助創作者們進行更好的創作。

高保真音色媲美真人，StyleTTS為QQ浏覽器「聽書」語音注入情感

繼續閱讀

小i機器人受邀赴韓交流，CFO首爾亞洲金融論壇演講

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普