天天看點

Inter Speech19

内容有很多是來之與論文, PPT, 知乎的回答, 侵權就加上您的資訊~ 謝謝.

1. VQ vae 不懂.

2. 噪聲權重的一個主要用途是測量音頻裝置中的殘餘噪聲,通常在節目材料的安靜時刻以嘶嘶聲或嗡嗡聲的形式出現。這裡權重的目的是為了強調我們的耳朵最容易感覺到的聽覺頻譜部分,并減弱對我們響度感覺影響較小的部分,以便得到一個與主觀效果很好相關的測量資料。

3.https://colab.research.google.com/github/kan-bayashi/INTERSPEECH19_TUTORIAL/blob/master/notebooks/sprocket/sprocket.ipynb#scrollTo=xWWpgTdGEbtO

4.https://colab.research.google.com/github/kan-bayashi/INTERSPEECH19_TUTORIAL/blob/master/notebooks/wavenet_vocoder/wavenet_vocoder.ipynb#scrollTo=4asoTN-wEbiH

5. 

  1. 發音人比較少時,可以在中文和英文在音素設計上,使得兩者存在交叉,或者直接使用IPA,實作音素共享;
  2. 發音人比較多時,給每個發音人提取音色和韻律向量,加入到encode端進行訓練,decode端
  3. 到底是要共享, 還是盡量不共享. 共享的發音一緻, 還是可以不一緻.

6. 最近也在做tacotron + world對接,我的想法就是隻用WORLD參數替換Mel譜圖(使用pyworld提取它們)并讓模型直接預測這些參數。不知道這個思路對不對?

base可以使用标貝科技開放的女生資料(大約10h)

基于tacotron + world的語音合成架構上線。由于資料集的音色不一緻和韻律不穩定,端到端的學習是比較困難的。補充輸入資訊可以彌補端到端模型韻律預測不準和音色波動的問題。另外,通過tacotron自适應的方法,base+x,base可以使用标貝科技開放的女生資料(大約10h),x的資料量可以做到一小時以内,合成效果可以媲美base資料合成效果。(試過x的資料隻用了100條,合成效果比較一般,能聽得清楚,但是仔細聽部分音會有點糊)

語音合成的發展趨勢,應該朝着base+x,保證x合成效果的前提下,不斷減少x的資料量,實作低成本合成,引爆行業。

對于跨域種和多特征人少樣本這種應用場景下,端到端的網絡仍然有明顯優勢

7. 

blizzard challenge 2019結果出爐,MOS分4.3分有點出乎意料了。羅正宇的資料音質比較差,口頭禅比較多。對于非定制TTS語料庫,前期的洗資料是非常重要的,包括拼音校對以及文本增删。合成文本上有英文字母,沒有使用base+x難以在英文字母上正常發音,特别是一些x和s這樣的無法和中文共享音素的。

近來搜狗的變聲功能已經上線,這種any to one的方式,偏娛樂性多一點,我測試過多種方言,有音素識别的sense但不明顯,語音拉長唱歌無法遷移,音色也不是很像,按娛樂性定位已經很不錯了。

8. https://cloud.google.com/text-to-speech/

9. http://ai.baidu.com/tech/speech/tts

10. https://mp.weixin.qq.com/s/W4X_h1m8Tp-fbHHDiWWGBA?

11. http://neuhub.jd.com/ai/api/speech/tts

12. 音頻/識别/合成算法QQ群(696554058) 靈聲訊音頻-語音算法實驗室

13. 我們将這種抑揚頓挫的資訊稱之為韻律(Prosody)。韻律是一個非常綜合的資訊,為了簡化問題,韻律又被分解成了如停頓,重讀等資訊。停頓就是告訴後端在句子的朗讀中應該怎麼停,重讀就是在朗讀的時候應該着重強調那一部分。這些所有的資訊綜合到一起,我們可以叫”語言學規格書”。  王木師兄的重音合成.

14. 實際的拼接并沒有這麼簡單,首先要選擇拼接單元的粒度,選好粒度還需要設計拼接代價函數等。 可以借鑒到switch語音合成中.

15. https://developer.rokid.com/#/tts

16. Lyrebird

17. https://http://twitter.com/FeitengLi/status/1021927225405267968

18. "原文說輸入是 textual features 而不是單純的 text",ClariNet和Deep Voice 3一樣,都是用char & phoneme joint representation (Section 3.2 in DV3 paper),全部是char input當然可以,支援phoneme是為了給線上産品留接口,用來及時幹涉比如Trump新發明的熱詞 "covfefe" 發音不準的情況——隻支援char的需要重新訓練。

19. 我覺得是因為使用離散分布丢失了0~255這些數之間的順序和距離關系。

20. 目前複現了 Single-Gaussian WaveNet 和 ParallelWaveNet(V2)(牆外)。

21. https://github.com/azraelkuan/parallel_wavenet_vocoder

22. 

2.3 生成式對抗網絡

生成式對抗網絡(Generative Adversarial Network,GAN)作為一種強大的生成式模型,已經成功地被應用到圖像生成和其他一些領域。GAN 的結構如圖 5 所示,由一個生成器 G 和一個鑒别器 D 組成。其中 G 作為參數合成系統中的聲學模型,目标是生成逼近自然語音的特征參數;而 D 的作用是評估 G 輸出的聲學特征與真實的聲學特征的相似度,并通過梯度的方式傳遞給 G,進而調整生成網絡使得輸出的聲學特征更加逼近自然語音。采用 GAN 的網絡結構,可以有效緩解參數合成帶來的聲學特征參數過平滑問題,進而使合成語音更加真實自然。傳統 GAN 的生成器以随機噪聲作為輸入,這裡輸入的是語言學資訊。而 G 的損失函數在傳統損失函數基礎上,還加入了輸出聲學特征和真實聲學特征的均方誤差。在訓練階段分别對 G 和 D 進行交叉訓練,即在每次疊代先固定 D 的參數, 對 G 進行訓練;然後再固定 G 的參數, 對 D 進行訓練。

Inter Speech19

23. 

語音合成目前的問題

1. 合成的速度,工業界要求快速,但目前有些技術并不能做到實時合成

2. 不夠自然

3. 工業界和學術界的分别(工業界依然還是拼接合成,但是學術界已經不主要研究這個了)

4. 目前大量的語言仍然無法合成,而且針對不同的語言需要獨立分析,例如需要尋找一個合适的phoneset

5. 工業界中的語音合成仍然需要大量的人工介入,例如專業的發音員,需要在錄音棚錄音,人工轉換成文本,人工做align的檢查,添加特定的詞彙到發聲詞典

6. proper intonation 合适的語調(韻律)

7. 個性化語音合成(快速地模仿一個人的聲音

個性化語音合成方向,做過一個比較新的思路,non-parallel voice conversion, 可以實作快速的語音模仿,不過還是受限于encoder和decoder,今年有個比賽vcc2018有個part是這個題目,有興趣可以了解下~

8. 歌唱以及情感語音合成

9. 兒童的語音合成

如何擷取目前語音合成的最新進展

1. 關注the Blizzard Challenge, 語音合成的年度比賽,例如2016年的比賽結果http://festvox.org/blizzard/bc2016/blizzard2016_overview_paper.pdf

2. 關注interspeech,例如2016年interspeech上的論文http://www.isca-speech.org/archive/Interspeech_2016/index.html

3. 關于大公司如谷歌、百度、科大訊飛,以及相關研究機構/學校的進展如中科院、愛丁堡大學等

24. WaveRNN,嵌入式平台都能跑.

25. 前端有很多發揮的空間,分詞,多音字,韻律預測,情感的預測,都不是很好解決。換句話說随着nlp 的發展,語音合成的前端部分還有很大的空間發展。

26. 正在英國參加ICASSP2019會議,語音合成基本沒人玩了,語音編碼也基本沒人玩了,聲紋識别也是快不行了。語音識别還在走。傳統的語音技術方向,現在都在考慮極為特殊的應用場景,比如環境很吵等。語音增強還是熱點.

27. 訊飛配音閣了解一下,有類似于真人發音的,就是價格高,是以沒有很好的市場化, 5個字,3塊錢.

28. 聲道模拟法。參數法利用的參數是語音信号的性質,它并不關注語音的産生過程。與此相反,聲道模拟法則是建立聲道的實體模型,通過這個實體模型産生波形。這種方法的理論看起來很優美,但由于語音的産生過程實在是太複雜,是以實用價值并不高。麥風陣列波束形成+目智語音信号處理+幹擾抑制+降噪+去混響.

其實聲道模拟在描述聲帶振動的時候,本質也是其它方法,比如參數法。但是接着就要通過聲門和聲管兩個傳輸函數。

可以直接在頻域做。當然,最近比較熱門的是将信号表達為正弦分量之和的方法,那麼也可以在時域做,也就是求出傳輸函數之後,對每個頻率分量去乘以相應頻點上的傳輸函數值。

聲門的傳輸函數一般認為是多極點模型,用極點位置描述。聲道的傳輸函數一般用(實/複)倒譜描述,認為是一個(零/最小)相移系統。

那麼其實說到底,聲道模拟法也還是參數法,隻是參數有人體實體學上的意義……

29. 韻律預測, 韻律合成, 對電子書不用人工标志情感. https://zhuanlan.zhihu.com/p/35119322

30. https://speechresearch.github.io/fastspeech/ FastSpeech: Fast, Robust and Controllable Text to Speech. 文字到語音 TTS,by 浙江大學和微軟.

31, 多使用一階差分, 二階差分.

32. 

一般認為語音的頻域信号(頻譜)相對于時域信号(波形振幅)具備更強的一緻性(可了解為對波形的一種歸納抽象,相同的發音頻譜上表現一緻但波形差别很大),經過加窗等處理後相鄰幀的頻譜具備連貫性,相比于波形資料具備更好的可預測性;另外就是頻譜一般處理到幀級别,而波形處理采樣點,數量多很多,計算量也自然更大,是以一般會先預測頻譜,然後經由vocoder重建波形。當然如果預測器性能夠好,肯定是直接預測波形效果更精細。tacotron後端使用wavenet作為vocoder,更大的作用其實是對預測的頻譜做一個音質上的提升,不僅僅是重建,而是一定程度上的找補。可參考wavenet sampleRnn waveRnn。

頻譜到波形隻是一個信号的轉換,涉及到重建波形的音質,不會改變其超音段特征如時長、音高等,是一種還原轉換,他們資訊是一緻的,隻是形式不同,就如空氣中傳播的時域聲波信号抵達耳蝸之後轉換成頻率信号一樣的道理。你說的情緒特性,應該在生成頻譜之前考慮。

這個方法和長河的PPG或者不帶資訊的Mel是沖突的. 其實換個名字, 叫做raw_mel, pre_mel就行.

不同的人說同一句話,他們的頻域信号是否表現一緻?如果我想通過tacotron模仿特定人的聲音,那特定人的聲音特征是在生成mel頻譜時就确定了還是vocoder後才确定的?

可以認為頻譜和波形是一緻的資訊,那不同人說同一句話的譜也當然是不一樣的(除非音色和韻律同時模仿得很像)。合成的時候譜決定了你聽到的,是以要想改變音色或者韻律特點,需在生成譜之前進行模仿變換。vocoder一般是為了改善音質而存在的。

33. 韻律評測, 很重要. https://zhuanlan.zhihu.com/p/43240701

34. 複現了Tacotron2 中文和英文 單語言合成, 音質滿足期望(忽略inference時間), 下一步方向在哪裡, 如果想Expressive, 靠譜的方法有什麼經驗嗎, 同時我嘗試下混語言:

expressive最簡單用look up table就可以,不過需要标注,繼續深化就是vae系列了,比如gmvae,木神應該更加熟悉這些東西,mixlingual現在看來有資料就能做,不過跨說話人的話,可能vocoder的影響就會變得很大

Expressive, 如果有标注的話, 就類似于,speaker id, 之後用look up table, 這個我去找找有沒有論文/資料集, 跑跑試試;

VAE (Encoder) 作為prosody Encoder, 這個應該是也要嘗試的, 雖然對于VAE我.....;

mixlingual/cross-lingual 雙語同人資料集有的話, 直接正常訓練, 不涉及speaker id和language id, 這個看看有沒有資料集 (或者把LJSPeech和标貝當成一個人), 但具體涉及到code-switching還有些細節 (比如訓練資料switch的比例和測試語句相差很大);

跨語言說話人, 特别是一種語言隻有一個說話人 (但是語料品質非常高),  如何做到voice clone, switch-coding, 确實是個難題, 但借助與VAE也可能有解決方法, 不過沒有明白師兄說的"可能vocoder的影響就會變得很大"的含義, 是指的整個網絡decoder端的網絡設計嗎

"可能vocoder的影響就會變得很大" 。我覺得是訓練wavenet啥的,跟說話人關系比較大

翻翻王木師兄的論文了, 重音

舉個例子啊,比如mixlingual的一句話: Amazon并購了Google

現在實際有兩個說話人,一個英文說話人,一個中文說話人,然後訓了一個multispeaker,multilingual的模型,在inference的時候,指定了中文說話人的ID,然後合成,這個時候英文部分的發音鐵定不好,這個時候就需要靠vocoder的魯棒性修了

就是英文從context text => aucostic feature會很難受, 因為他訓練的時候沒見過這個ID

但是網絡還是會硬着去搞(找平衡), 這樣的aucostic feature就不是那麼完美, 需要vocoder來修

當然還有共享phone集這些辦法

全共享phone這種, 其實音色遷移(統一)是很好的應該.

但是會丢掉每段語音内部自身語言的獨特性(韻律, 口音, 發音)

總而言之任重道遠

我其實設計了個很大的網絡

Inter Speech19

而且往往起效的其實是簡單的網絡,比如transformer

等到結束後, 整理清楚, 盡量簡化, 并且有用的, 和大家分享.!也是Liang's Task.

繼續閱讀