科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

2023-06-11 03:07:46

ICASSP 2023

近日，2023年IEEE聲學、語音與信号處理國際會議（2023 IEEE International Conference on Acoustics, Speech, and Signal Processing，ICASSP 2023）釋出錄用通知，清華大學人機語音互動實驗室（THUHCSI）有14篇論文被錄用。

ICASSP是由IEEE電氣電子工程師學會主辦的信号處理領域的頂級國際會議，在國際上享有盛譽并具有廣泛的學術影響力。本年度會議的主題是“人工智能時代下的信号處理”。

此次被錄用的14篇論文涉及智能語音互動領域的諸多研究方向，包括語音合成、歌唱合成、數字人生成、舞蹈生成、語音識别、關鍵詞識别、說話人識别、語音增強、語音分離、說話人提取、自然語言處理等。論文工作将學術科研與産業應用緊密結合，合作夥伴包括：香港中文大學、騰訊、元象、小米、地平線、華為、平安、傳音、好未來等。

1. Context-aware Coherent Speaking Style Prediction with Hierarchical Transformers for Audiobook Speech Synthesis

作者： Shun Lei, Yixuan Zhou, Liyang Chen, Zhiyong Wu, Shiyin Kang, Helen Meng

合作夥伴：元象科技有限公司、香港中文大學

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

如何為有聲讀物中多句連續文本生成符合上下文語境且具有連貫性的說話風格，對提升有聲讀物合成語音的表現力至關重要。本文為有聲讀物合成提出了一種結合多模态、多句子上下文資訊的說話風格預測方法。我們設計了一個基于層級變換器（Hierarchical Transformer）的上下文感覺風格預測器，在混合注意力掩碼機制的幫助下同時考慮文本側的上下文資訊和語音側的曆史語音風格資訊，以更好地預測上下文中每句話的說話風格。在此基礎上，我們提出的模型可以逐句生成具有連貫說話風格和韻律的長篇語音。實驗表明，該方法可以為單一句子和多個連續句子生成比基線更具有表現力和連貫性的語音。

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

2. LightGrad: Lightweight Diffusion Probabilistic Model for Text-to-Speech

作者： Jie Chen, Xingchen Song, Zhendong Peng, Binbin Zhang, Fuping Pan, Zhiyong Wu

合作夥伴：地平線資訊技術有限公司、WeNet開源社群、香港中文大學

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

本文提出了基于擴散機率模型的輕量化語音合成聲學模型LightGrad。如今，大量語音合成模型被部署在雲端以向客戶提供語音合成服務。基于雲服務的語音合成服務存在高延遲、洩露隐私的問題。将輕量化語音合成模型部署在終端裝置可以有效解決上述問題。但是，将基于擴散機率模型的語音合成聲學模型部署在終端裝置需解決兩個問題：（1）現有的擴散機率模型參數量較多；（2）現有的擴散機率模型推理時需要較多的去噪步數，推理時延較高。本文提出了一個輕量化U-Net擴散解碼器，同時應用了一個無需重新訓練模型的快速采樣方法，有效降低了基于擴散機率模型的語音合成聲學模型的參數量和模型推理時延。除此之外，LightGrad中還引入了流式合成以進一步降低推理時延。在中文和英文資料集上的實驗表明，與Grad-TTS相比，LightGrad在減少了62.2%的模型參數和65.7%的推理延時的同時，保持了合成語音的品質。

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

3. A Synthetic Corpus Generation Method for Neural Vocoder Training

作者： Zilin Wang, Peng Liu, Jun Chen, Sipan Li, Jinfeng Bai, Gang He, Zhiyong Wu, Helen Meng

合作夥伴：傳音科技有限公司、北京世紀好未來教育科技有限公司、香港中文大學

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

神經聲碼器因其合成高保真音頻的能力而受到青睐。然而，訓練一個神經聲碼器需要大量高品質的真實音頻語料庫，且音頻錄制過程往往需要大量的人力物力财力。為此，我們提出了一種用于神經聲碼器訓練的合成語料庫生成方法，它可以在幾乎沒有成本的情況下輕松生成數量不限的合成音頻。我們同時對多個目标領域的音頻的先驗特征進行模組化（例如演講、歌唱的聲音和器樂作品等），使生成的音頻資料具備這些特征。通過該方法，在不需要任何真實音頻的情況下，使用我們的合成語料庫訓練神經聲碼器就可以取得非常有競争力的合成結果。為了驗證我們所提出方法的有效性，我們對語音和音樂語料進行了主觀和客觀名額的實證明驗。結果表明，用我們的方法産生的合成語料庫所訓練的神經聲碼器可以泛化到多個目标場景，并具有出色的歌唱聲音（MOS： 4.20）和器樂作品（MOS： 4.00）的合成結果。

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

4. Enhancing the Vocal Range of Single-Speaker Singing Voice Synthesis with Melody-Unsupervised Pre-Training

作者： Shaohuan Zhou, Xu Li, Zhiyong Wu, Ying Shan, Helen Meng

合作夥伴：騰訊科技有限公司、香港中文大學

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

基于單歌手資料所訓練出來的歌聲合成模型往往受限于單歌手的音域範圍，無法較好地合成音域之外的歌聲。我們的工作提出了一種在多歌手資料集上進行旋律無監督預訓練的方法，以提高單歌手的歌唱音域範圍，同時不降低音色的相似度。具體來說，在預訓練階段，我們設計了一個音素預測器來預測幀級别的音素資訊，一個說話人編碼器用于模組化不同歌手的聲音，并且直接從音頻中預測f0值以提供音高資訊。這些預先訓練好的模型參數作為先驗知識被送入到微調階段，以提高單歌手的音域範圍。此外，我們的工作還有助于提高合成歌聲的聲音品質和韻律自然度：通過首次引入一個可微分的時長調節器來提升韻律自然度，以及一個雙向流模型來提高聲音品質。實驗結果表明，所提出的歌聲合成系統在更高的音域範圍上其歌聲品質和自然度方面都優于基線模型。

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

5. WavSyncSwap: End-to-End Portrait-Customized Audio-Driven Talking Face Generation

作者： Weihong Bao, Liyang Chen, Chaoyong Zhou, Sicheng Yang, Zhiyong Wu

合作夥伴：平安科技（深圳）有限公司

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

具有肖像定制功能的音頻驅動虛拟數字人生成，可以增強數字人在不同場景下應用的靈活性，如線上會議、混合現實和資料生成等。在現有方法中，音頻驅動虛拟數字人生成和換臉通常被視為兩個不同的獨立任務，其通過級聯的方式以實作相應的目标。在使用最新的Wav2Lip和SimSwap方法來實作該目标的過程中，我們遇到了一些問題：受影響的口型同步、丢失的紋理資訊和緩慢的推理速度等。為了解決這些問題，我們提出了一種結合了兩種方法優點的端到端模型。所提方法借助預訓練的語音-口型同步判别器生成高度同步的口型。此外，我們引入ArcFace和ID注入子產品以提供身份資訊，因為它與面部紋理具有很強的相關性。實驗結果表明，我們的方法實作了與真實視訊相當的口型同步準确度，并且相比級聯方法保留了更多的紋理細節，并提高了推理速度。

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

6. GTN-Bailando: Genre Consistent Long-Term 3D Dance Generation based on Pre-trained Genre Token Network

作者： Haolin Zhuang, Shun Lei, Long Xiao, Weiqin Li, Liyang Chen, Sicheng Yang, Zhiyong Wu, Shiyin Kang, Helen Meng

合作夥伴：元象科技有限公司、香港中文大學

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

音樂驅動的3D舞蹈生成是近年來熱門的研究方向。現有大多數的舞蹈生成方案缺乏對于舞蹈流派資訊（Genre）的考慮，導緻生成的舞蹈動作中流派不一緻，影響觀感。此外，舞蹈流派與音樂之間的相關性也沒有被考慮。為了解決該問題，我們提出了一個新穎的舞蹈生成架構GTN-Bailando。具體來說，首先，我們提出流派令牌網絡（Genre Token Network），其可以從音樂推斷流派，并将所推斷出的流派資訊引入至舞蹈生成架構中，以滿足生成舞蹈的流派一緻性。其次，為了提升流派令牌網絡的泛化能力，我們對其采用了預訓練和微調的政策。在AIST++資料集上的實驗結果表明，所提出方案在舞蹈品質和流派一緻方面皆優于現有最佳的舞蹈生成方案。

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

7. TrimTail: Low-Latency Streaming ASR with Simple but Effective Spectrogram-Level Length Penalty

作者： Xingchen Song, Di Wu, Zhiyong Wu, Binbin Zhang, Yuekai Zhang, Zhendong Peng, Wenpeng Li, Fuping Pan, Changbao Zhu

合作夥伴：地平線資訊技術有限公司、WeNet開源社群

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

本文提出剪尾（TrimTail）這一簡單粗暴卻有效的技巧，不需任何額外的對齊資訊，可與任意訓練損失（如Transducer損失及CTC損失）或任何模型架構在任意資料集使用，可成為解決ASR領域标簽延遲問題的“通解”。剪尾（TrimTail），具體而言，是指對原始音頻的末尾進行一定長度的修剪，對應地，剪頭（TrimHead）指對原始音頻的頭部進行修剪，拓尾（PadTail）指在原始音頻的尾部補一段值為零的序列，而拓頭（PadHead）是在頭部補一段值為零的序列。本文提出一個觀點，認為修剪這個操作可以壓縮語音-文本的對齊空間，剪尾可迫使預測标簽與先前的語音幀對齊，将對應的機率峰向前“擠”，如此可有效削減延遲。剪頭雖然也可以壓縮空間，但是由于開頭資訊被剪導緻缺失，緻使語音-文本失配嚴重。拓頭、拓尾的實驗結果（與剪尾相比，嚴格遵循了單一變量法則）表明延時增加，由于拓頭、拓尾相當于拓增了對齊空間，延遲增加也反向證明了所提觀點/解釋的正确性。實驗結果表明，相比于原模型，經過剪尾訓練的模型，能夠在保持詞錯率基本不變或性能微掉的情況下，在中文國語ASR資料集AISHEEL-1及英文ASR資料集Librispeech上取得約0.1至0.2s的延遲削減。

8. CB-Conformer: Contextual Biasing Conformer for Biased Word Recognition

作者: Yaoxun Xu, Baiji Liu, Qiaochu Huang, Zhiyong Wu, Shiyin Kang, Helen Meng

合作夥伴：元象科技有限公司、香港中文大學

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

由于源域和目标域不比對的問題，如何充分利用熱詞資訊（biased word）對提升語音識别模型的性能至關重要。在本工作中，我們提出了CB-Conformer，通過在傳統Conformer中引入上下文偏置子產品和自适應語言模型來提高熱詞識别的性能。上下文偏置子產品結合了音頻片段和上下文資訊，參數量隻占原始Conformer模型參數的0.2％。自适應語言模型根據熱詞召回率和精确度修改熱詞在語言模型内部的權重，進而更加專注于熱詞識别；與普通的固定權重的語言模型相比，所提的自适應語言模型與原始語音識别模型更為契合。此外，我們基于WenetSpeech資料集建構并開源了一個國語熱詞資料集。實驗表明，與Conformer相比，所提出的方法的語音識别字錯誤率降低了15.34％，熱詞識别召回率提高了14.13％，熱詞識别F1-score提高了6.80％。

9. Keyword-Specific Acoustic Model Pruning for Open Vocabulary Keyword Spotting

作者： Yujie Yang, , Kun Zhang , Zhiyong Wu, Helen Men

合作夥伴：華為諾亞方舟實驗室語音語義組、香港中文大學

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

開放詞彙語音喚醒系統允許使用者自定義喚醒詞，但由于語音喚醒需要被部屬在端側，其應用急需輕量化的模型設計。為了識别所有可能的喚醒詞，聲學模型需要具有識别人類所有發音的能力，但對特定的喚醒詞，聲學模型過剩的表達能力必然存在備援的參數。我們的工作旨在裁剪掉聲學模型中對識别關鍵詞無貢獻的參數。為此，我們設計了一個動态聲學模型，其參數與輸入有關。我們首次發現，動态聲學模型會使用相似的子網絡來處理具有相似發音的聲學信号，不同的參數有助于識别不同的音素。基于這一觀察，我們在音素識别任務中，進一步限制具有相同音素僞标簽的子網絡之間的結構相似性，進而可以修剪出識别不同音素的獨立子網絡。應用于端到端語音喚醒系統中時，僅有識别關鍵詞中音素的子網絡将被合并為一個識别目前關鍵詞的聲學模型，而那些對識别關鍵詞沒有貢獻的參數将被修剪掉。實驗表明，在開放詞彙語音喚醒任務中，我們的針對喚醒詞的聲學模型剪枝方法可以減少80%的聲學模型參數而不會導緻喚醒系統性能下降。

10. DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification

作者: Yuanyuan Wang, Yang Zhang, Zhiyong Wu, Zhihan Yang, Tao Wei, Kun Zou, Helen Meng

合作夥伴: 平安科技（深圳）有限公司、香港中文大學

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

資料增強對于提升深度神經網絡模型的泛化能力和魯棒性是至關重要的。目前說話人識别中常用的增強方法大都是直接在語音信号級别上進行資料增強，不但耗時，而且增強的樣本缺乏多樣性。在本文中，我們針對說話人識别提出了一種基于難度感覺的資料增強（DASA）方法。該方法可以在說話人特征空間中生成多樣化的訓練樣本，同時引入的額外計算成本可以忽略不計。首先，我們從說話人相關的協方差矩陣中獲得增強方向，以此擾動說話人特征來增加訓練樣本。其次，在訓練過程中為了估計出更準确的協方差矩陣，我們引入了DAAM-Softmax來獲得更魯棒的說話人特征。最後，我們假設增強的樣本數量達到無窮大，并結合DAAM-Softmax推導出DASA的封閉上界形式，進而實作了更好的相容性和更高的效率。我們進行了充分的實驗，結果表明所提出的方法可以顯著改進說話人識别的性能。

11. Inter-SubNet: Speech Enhancement with Subband Interaction

作者： Jun Chen, Wei Rao, Zilin Wang, Jiuxin Lin, Zhiyong Wu, Yannan Wang, Shidong Shang, Helen Meng

合作夥伴：騰訊天籁實驗室、香港中文大學

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

基于子帶的語音增強方法通過共享參數的模型并行處理子帶，以學習局部頻譜的共性，進而達到降噪的目的。通過這種方式，它們以較少的參數取得了顯著的降噪效果。然而，在一些複雜的聲學環境中，由于缺乏全局頻譜資訊，這些基于子帶的語音增強方法的性能會出現嚴重的下降。為此，在本文中，我們提出了子帶互動方法（Subband Interaction）作為一種補充全局頻譜資訊（如跨頻帶依賴和全局頻譜模式）的新方式，并在此基礎上提出了一個新的輕量級單通道語音增強架構，稱為Inter-SubNet。在DNS Challenge - InterSpeech 2021資料集上的實驗結果表面，我們所提出的InterSubNet相較于子帶模型性能有了巨大的提升，并超過了其它最先進的語音增強方法。這證明了我們所提出的子帶互動方法的有效性。

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

12. AV-SepFormer: Cross-Attention SepFormer for Audio-Visual Target Speaker Extraction

作者： Jiuxin Lin, Xinyu Cai, Heinrich Dinkel, Jun Chen, Zhiyong Yan, Yongqing Wang, Junbo Zhang, Yujun Wang, Zhiyong Wu, Helen Meng

合作夥伴：小米科技有限公司、香港中文大學

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

視覺資訊可以作為目标說話人提取的一個有效線索，對提高提取性能至關重要。在本文中，我們提出了AV-SepFormer，一個基于SepFormer的雙尺度注意力模型，利用交叉和自注意力融合和模組化來自音頻和視覺的特征。 AV-SepFormer将音頻特征分割成若幹塊，使其分辨率與視覺特征相當，然後采用交叉與自注意力來對多模态特征進行模組化。此外，我們還使用了一種新型的二維位置編碼，該編碼引入了塊間和塊内的位置資訊，并獲得了比傳統位置編碼更顯著的收益。我們的模型有兩個優點：音頻分塊後特征的時間分辨率與視覺特征相同，這緩解了音頻和視訊采樣率不一緻帶來的危害；通過結合交叉和自注意力，特征融合和語音提取過程被統一在一個注意力範式中。實驗結果表明，AV-SepFormer明顯優于其它現有方法。

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

13. TFCNet: Time-Frequency Domain Corrector for Speech Separation

作者: Weinan Tong, Jiaxu Zhu, Jun Chen, Zhiyong Wu, Shiyin Kang, Helen Meng

合作夥伴：元象科技有限公司、香港中文大學

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

目前主流的語音分離方法是基于時域的方法，即直接使用神經網絡模型對語音波形資訊進行編碼，提取特征，最終解碼得到分離後的語音。雖然時域方法在語音分離上取得突出的性能，但它在編碼上存在着不穩定性。這主要是因為時域方法在編碼中用可學習的卷積代替了語音信号進行中的快速傅裡葉變換（STFT），這種方法雖然能學習到一定的隐藏頻譜空間，但不一定和真實的頻譜空間一緻，導緻分離的語音和真實的語音在頻譜上存在幅度及相位誤差。在本文中，我們提出了TFCNet，其由時域的分離器和頻域的校正器構成。頻域校正器針對時域分離器的不足而特别進行設計，以便從幅度和相位兩部分糾正錯誤的頻譜資訊。在WSJ0-2mix和Libri-2mix資料集上的實驗結果表明，加入校正器後分離性能有了巨大提升，超過了之前最先進的語音分離方法。

14. Lexicon-Injected Semantic Parsing for Task-Oriented Dialog

作者： Xiaojun Meng，Wenlin Dai，Yasheng Wang，Baojun Wang，Zhiyong Wu，Xin Jiang，Qun Liu

合作夥伴：華為諾亞方舟實驗室語音語義組

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

對話系統使用基于層次表征的語義解析已經引起了廣泛的關注。面向任務的解析（TOP）是一種以意圖和槽值作為嵌套樹節點标簽的樹表示方法，被用于解析使用者的話語，以分析使用者意圖等。之前的TOP解析方法在利用詞典資訊方面受到了限制，而詞典資訊通常用于指導真實的對話系統。為了解決這個問題，我們首先提出了一種新的基于跨度解析器的跨度分割表示，它的性能優于現有的表示方法；然後提出了一種新的基于詞彙注入的語義解析器，它收集樹表示中語句詞語的槽值标簽作為詞典，并将槽值标簽作為特征注入到解析器的跨度表示中。模型的槽值消歧子產品使用基于BERT預訓練的二分類模型，對比對結果進行正/誤分類，删除詞典中不适當的跨度比對。實驗表明，我們的解析器在TOP資料集上得到了最好的解析精度（87.62%），也證明了我們提出的基于詞彙注入的解析器和槽值消歧模型的有效性。

科研快訊 | 14篇論文被信号處理領域頂級國際會議ICASSP錄用

智能語音信号處理語音識别人工智能

上一篇: 長文本口語語義了解技術系列①：段落分割實踐

下一篇: python 圖像識别定位_Python 3.6.3 利用 Dlib 19.7 和 opencv 實作人臉68點定位 ...

繼續閱讀