來源 阿裡語音AI 公衆号
TTS(Text-To-Speech 語音合成) 是AI領域一顆小而美的“珍珠”,有了它,才讓智能應用和智能硬體長出“嘴巴”活起來。作為語音解決方案的發聲環節,它既可以像你現實中常見到的——主持人播報新聞、教師授課、明星導航。也可以定制特色人聲,用或奇趣、或軟萌、或激越的聲音來讀小說,朗誦詩歌,解說視訊等等。本文将為大家介紹基于阿裡最新 KAN-TTS語音合成技術的精品人聲定制産品。
什麼是語音合成?語音合成就是将文字轉換成一段自然流暢語音的技術。目前,語音合成技術在泛娛樂、教育及涉及人機互動業務領域有比較廣泛的應用。常見于語音導航、語音助手、電話客服;影視、遊戲的配音、有聲閱讀等等。不同的應用場景期望呈現的人聲各不相同,人聲模型定制産品應運而生。所謂人聲模型定制,就是通過語音合成技術,定制不同性别、年齡、風格、情緒的人聲模型以滿足不同業務和場景的需要。
從2010年deep learning技術引入到語音識别領域後,對推動語音技術發展起到了重要作用。但在TTS方向一直應用比較緩慢。直到2016年、2017年,随着Google的WaveNet、Tacotron和MILA的Char2Wav的提出,才将deep learning的強大能力賦予整個TTS方向。從音質、表現力和模組化難度幾個方面都取得顯著超越。最近兩年,學術界開始将第一流的成果帶入到實際産品中,随之而來的,就是TTS商業化應用的飛速發展。例如Google Cloud在2018年上線了基于TPU的WaveNet産品方案,Microsoft Azure在2018年上線了基于GPU的全Neural産品方案。阿裡雲也在2018年上線了全Neural産品方案,并且考慮到實際客戶和業務的擴充需求,曆經大量的優化後,該方案是目前業内唯一的完全基于CPU的全Neural産品化方案。
更新更好的技術上線,同為阿裡旗下的阿裡巴巴集團客服和螞蟻客服理所當然成為首批客戶,兩家客戶無論業務量還是技術要求均遠高于業界平均水準,這也從另外一個側面證明阿裡最新KAN-TTS技術架構的實際應用水準。2019年,天貓精靈上線的個性化語音訂制服務也出自KAN-TTS,它可以讓父母用手機錄10分鐘語音資料定制自己的聲音,合成故事給孩子聽。
除了阿裡集團内部采購應用,阿裡雲在2019年對外推出了基于KAN-TTS的快速低成本的新一代人聲模型定制服務,成功進駐第一财經移動端,根據使用者提供的少量财經新聞主播資料,定制了一款高表現力合成聲音,進而可以在第一财經APP上為使用者提供高體驗的新聞朗讀效果。
随着技術水準的進步和商業化應用的推進,阿裡基于KAN-TTS技術架構的人聲模型定制服務優勢進一步凸顯。通常來說,市場對産品的通用要求,一是價廉,一是質優,KAN-TTS下的人聲模型定制産品優勢恰在于此。
1.更低的成本。在傳統人聲模型定制的時候,由于受限于技術架構,整個定制需要的資料量是2萬句話(20小時)左右。按照人聲資料錄制的高标準要求,2萬句話往往對應着半年以上的錄音周期,需要發音人連續不斷的進行高品質高可靠性的錄音工作。這中間需要持續支付錄音人、錄音棚、錄音師、資料處理等各項費用。而且因為錄音周期過長,會增加定制項目的風險。比如發音人因感冒發燒等狀況會直接影響嗓子的發揮,比如錄音棚因故裝修等等。基于KAN-TTS強大的模型結構以及成百上千個發音人的資料,使得我們可以利用更少量的資料建構效果更好的TTS聲音。同時,我們開發了一套語料選取工具,可以做到用盡量少的資料覆寫盡量全的場景,進一步降低了錄音資料量。

上圖顯示了基于KAN-TTS架構下,不同資料量所帶來的定制效果。可以看出,即便是在2小時(2000句)以下的資料量時,基于KAN-TTS定制也可以取得不錯的定制效果,和10小時差距不大,明顯超過95%和真人錄音接近程度。相對于傳統定制而言,基于KAN-TTS的定制可以将資料量縮小到之前的十分之一,同時,定制周期也會從之前的半年以上縮短到一個月左右。
2. 更高的表現力。傳統人聲模型定制語音表現比較生硬單一,很難調試出适應不同場景、需求、有個性、有特色的語音産品。而基于KAN-TTS技術的人聲模型定制産品恰恰在這一方面表現突出。它能夠根據需求風格靈活定制更适合場景需求的産品。比如新聞産品要求發音準确、飽滿、正規;客服則要親切自然,注重交流,有時帶點口音更有親切感。KAN-TTS技術能夠更好的掌握每個人語音中的獨有特質,合成獨屬于你的特色語音,滿足個性化需求。
阿裡雲精品人聲定制産品在最新的KAN-TTS技術加持下,持續挖掘不同應用場景下人聲的特點,沉澱出一套小資料量定制高音質、高表現力人聲模型的産品能力。目前我們已在新聞播報、小說閱讀、智能硬體等多場景實作了産品落地。更多案例詳見官網。(
https://ai.aliyun.com/nls/customtts)
最後,語音合成産品更高階将通往何處?
從合成技術角度。追求的當然是更接近真人的音效、更細膩的音質、更自然的語音語調和更高的場景适配度。就目前來說,在KAN-TTS技術架構下定制的人聲模型,在這四個方面均有長足進步。
從應用門檻角度。目前大部分精品人聲模型定制的錄音采集工作依然要在專業的錄音棚,使用專業的錄音裝置,在專業的錄音指導下完成。如何能降低錄音的門檻,讓普通人可以在普通環境,使用普通裝置完成錄音采集,并可以保證采集的錄音滿足定制人聲模型的需求,是讓語音合成技術普惠的下一個努力目标。
從應用場景角度。随着應用日漸普及,使用者對于語音合成的聲音已不再滿足于親切、自然的發音,擁有個性化的聲音正在成為消費者購買時占比逐漸增加的參考次元。随着技術的提高,市場需求的發展,個性化TTS、情感TTS會在各細分場景得到更大的應用,比如知識付費、明星IP、智能硬體、實體/虛拟機器人等。對于那些擁有大量文本内容,例如書籍、UGC等和擁有自己的音頻内容,例如強IP或者IP類管道的客戶來說,語音合成或許是最适合他們的選擇。KAN-TTS技術架構下定制的人聲模型産品不但具有質優高效,成本低廉的優勢,而且合作方式更為靈活,可以提供TTS的雲/本地服務,還可以進行IP人聲定制或合作共建聲優工廠。
阿裡語音在追求世界一流技術的同時持續為客戶提供精品人聲定制服務,緻力實作科技創新和科技應用成果轉化的雙赢,更好的滿足客戶個性化需求!