《A Survey on Neural Speech Synthesis》論文學習

文章目錄

《A Survey on Neural Speech Synthesis》論文學習
- 摘要
- 1 介紹
- - 1.1 TTS 技術的曆史
  - 1.2 調查的組成
- 2 TTS 中的關鍵元件
- - 2.1 主要分類
  - 2.2 文本分析
  - 2.3 文本分析
  - - 2.3.1 SPSS 中的聲學模型
    - 2.3.2 端到端 TTS 中的聲學模型
  - 2.4 聲碼器
  - 2.5 面向完全端到端 TTS
  - 2.6 其他分類
- 3 TTS 中的進階主題
- - 3.1 背景與分類
  - 3.2 快速 TTS
  - 3.3 低資源 TTS
  - 3.4 魯棒 TTS
  - - 3.4.1 增強注意力
    - 3.4.2 用持續時間預測取代注意力
    - 3.4.3 增強 AR 生成
    - 3.4.4 用 NAR 代取代 AR 生成
  - 3.5 富有表現力的 TTS
  - - 3.5.1 變異資訊的分類
    - 3.5.2 模組化變異資訊
    - 3.5.3 解纏、控制和轉移
  - 3.6 自适應 TTS
  - - 3.6.1 一般适應
    - 3.6.2 高效适應
- 4 資源
- 5 未來方向

摘要

文本到語音( Text to speech , TTS )，又叫語音合成，其目的是從給定文本合成可了解和自然語音，是語音、語言和機器學習領域的一個熱點研究課題，在業界有着廣泛的應用。

近年來，随着深度學習和人工智能的發展，基于神經網絡的 TTS 大大提高了合成語音的品質。

在本文中，我們對神經 TTS 進行了一個全面的調查，旨在提供一個良好的研究現狀和未來的趨勢。

我們重點讨論了神經網絡 TTS 的關鍵組成部分，包括文本分析、聲學模型和聲碼器，以及一些進階主題，包括快速 TTS 、低資源 TTS 、魯棒 TTS 、表達性 TTS 和自适應 TTS 等。

我們進一步總結了與 TTS 相關的資源(如資料集、開源實作)，并讨論了未來的研究方向。

這項調查可以服務于從事 TTS 研究的學術研究者和行業從業者。

1 介紹

文本到語音( Text to speech , TTS )，又稱語音合成( speech synthesis )，旨在從文本中合成出可了解、自然的語音(《Text-to-speech synthesis》)，在人類交際中有着廣泛的應用(《Understanding Human Communication》)，一直是人工智能、自然語言和語音處理領域的研究課題(《Artificial intelligence: a modern approach》，《Foundations of statistical natural language processing》，《Speech & language processing》)。

開發一個 TTS 系統需要關于語言和人類語音産生的知識，涉及多個學科，包括語言學(《Course in general linguistics》)、聲學(《Fundamentals of acoustics》)、數字信号處理(《Digital signal processing》)和機器學習(《Pattern recognition and machine learning》，《Machine learning: Trends, perspectives, and prospects》)。

随着深度學習的發展(《Deep learning》)，基于神經網絡的 TTS 蓬勃發展，針對神經 TTS 不同方面的大量研究工作應運而生(《Statistical parametric speech synthesis using deep neural networks》，《Wavenet: A generative model for raw audio》，《Tacotron: Towards end-to-end speech synthesis》，《Natural tts synthesis by conditioning wavenet on mel spectrogram predictions》，《Efficient neural audio synthesis》，《Deep voice 3: 2000-speaker neural text-to-speech》，《Neural speech synthesis with transformer network》，《Fastspeech: Fast, robust and controllable text to speech》)。

是以，近年來合成語音的品質有了很大的提高。

了解目前的研究現狀，找出尚未解決的研究問題，對于從事 TTS 工作的人是非常有幫助的。

雖然有多個調查論文統計參數語音合成(《Statistical parametric speech synthesis》，《Speech synthesis based on hidden markov models》，《Acoustic modeling in statistical parametric speech synthesis-from hmm to lstm-rnn》)和神經 TTS (《Speech synthesis techniques. a survey》，《A survey on text to speech translation of multi language》，《Survey on various methods of text to speech synthesis》，《A review of deep learning based speech synthesis》，《Towards robust neural vocoding for speech generation: A survey》，《A survey on speech synthesis techniques in indian languages》，《Review of end-to-end speech synthesis technology based on deep learning》)，全面調查神經 TTS 的基礎知識和最新發展仍然是必要的因為這一領域的主題是多樣的和迅速發展。

本文對神經系統 TTS 進行了深入而全面的研究。

在接下來的章節中，我們首先簡要回顧了 TTS 技術的發展曆史，然後介紹了神經 TTS 的一些基本知識，最後概述了本研究的概況。

1.1 TTS 技術的曆史

早在 12 世紀，人們就嘗試建造機器來合成人類語音。

18 世紀下半葉，匈牙利科學家沃爾夫岡·馮·肯佩倫( Wolfgang von Kempelen )用一系列的風箱、彈簧、風笛和共振箱制造出一些簡單的單詞和短句(《The speaking machine of wolfgang von kempelen》)，制造出了一個會說話的機器。

第一個建立在計算機上的語音合成系統出現在 20 世紀下半葉。

早期基于計算機的語音合成方法包括發音合成(《A model of articulatory dynamics and control》，《Prospects for articulatory synthesis: A position paper》)、共振峰合成(《Automatic generation of control signals for a parallel formant speech synthesizer》，《Mitalk-79: The 1979 mit text-to-speech system》，《Software for a cascade/parallel formant synthesizer》，《Review of text-to-speech conversion for english》)和串聯合成(《Rule synthesis of speech from dyadic units》，《Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones》，《Atr µ-talk speech synthesis system》，《Unit selection in a concatenative speech synthesis system using a large speech database》，《The festival speech synthesis system》)。

後來，随着統計機器學習的發展，統計參數語音合成( statistical parametric speech synthesis, SPSS )被提出(《Simultaneous modeling of spectrum, pitch and duration in hmm-based speech synthesis》，《Speech parameter generation algorithms for hmm-based speech synthesis》，《Statistical parametric speech synthesis》，《Speech synthesis based on hidden markov models》)，用于預測語音合成的頻譜、基頻、持續時間等參數。

從 2010 年開始，基于神經網絡的語音合成(《Statistical parametric speech synthesis using deep neural networks》，《On the training aspects of deep neural network (dnn) for parametric tts synthesis》，《TTS synthesis with bidirectional lstm based recurrent neural networks》，《Unidirectional long short-term memory recurrent neural network with recurrent output layer for low-latency speech synthesis》，《First step towards end-to-end parametric tts synthesis: Generating spectral parameters with neural attention》，《Emphasis: An emotional phoneme-based acoustic model for speech synthesis system》，《Wavenet: A generative model for raw audio》，《Tacotron: Towards end-to-end speech synthesis》)逐漸成為語音合成的主導方法，取得了更好的語音品質。

發音參數合成

發音合成通過模拟人類的發音器官如嘴唇、舌頭、聲門和活動聲道的行為來産生語音。

理想情況下，發音合成是最有效的語音合成方法，因為它是人類産生語音的方式。

然而，在實踐中很難對這些關節行為進行模組化。

例如，關節模拟的資料收集是困難的。

是以，發音合成的語音品質通常比後共振峰合成和串聯合成的語音品質差。

共振峰合成法

共振峰合成基于一組控制簡化源濾波器模型的規則産生語音。

這些規則通常是由語言學家開發的，以盡可能接近地模仿共振峰結構和語音的其他光譜特性。

語音是由一個附加的合成子產品和一個具有不同參數如基頻、語音和噪聲水準的聲學模型合成的。

共振峰合成可以産生高度可了解的語音，計算資源适中，非常适合于嵌入式系統，而且不像串聯合成那樣依賴于大規模的人類語音語料庫。

然而，合成的語音聽起來不那麼自然，而且有人工痕迹。

此外，很難為合成指定規則。

拼接合成

連接配接合成依賴于存儲在資料庫中的語音片段的連接配接。

通常，該資料庫由語音單元組成，從完整的句子到配音演員錄制的音節。

在推理中，串聯式 TTS 系統搜尋語音單元以比對給定的輸入文本，并通過串聯這些單元産生語音波形。

一般來說，串聯式 TTS 可以産生具有高清晰度和真實音色接近原始聲優的音頻。

然而，串聯式 TTS 需要龐大的錄音資料庫來覆寫所有可能的語音單元組合。

另一個缺點是生成的聲音不那麼自然和情緒化，因為串聯會導緻在重音、情緒、韻律等方面不那麼流暢。

統計參數語音合成

為了解決串聯式 TTS 的缺點，提出了統計參數語音合成( SPSS )。

其基本思想是，我們可以先生成生成語音所需的聲學參數(《An adaptive algorithm for mel-cepstral analysis of speech》，《Mel-generalized cepstral analysis-a unified approach to speech spectral estimation》，《Restructuring speech representations using a pitch-adaptive time frequency smoothing and an instantaneous-frequencybased f0 extraction: Possible role of a repetitive structure in sounds》)，然後使用一些算法(《Mel log spectrum approximation (mlsa) filter for speech synthesis》，《Cepstral analysis synthesis on the mel frequency scale》，《Straight, exploitation of the other aspect of vocoder: Perceptually isomorphic decomposition of speech sounds》，《World: a vocoder-based high-quality speech synthesis system for real-time applications》)從生成的聲學參數中恢複語音，而不是通過串聯直接産生波形。

SPSS 通常由三部分組成:文本分析子產品、參數預測子產品(聲學模型)和聲碼器分析/合成子產品(聲碼器)。

文本分析子產品首先對文本進行處理，包括文本歸一化(《Normalization of non-standard words》)、字素音素轉換(《Joint-sequence models for grapheme-to-phoneme conversion》)、分詞等，然後從不同粒度中提取語音、持續時間、詞性标簽等語言特征。

使用配對的語言特征和參數(聲學特征)來訓練聲學模型(例如，基于隐馬爾科夫模型( HMM ))，其中聲學特征包括基頻、頻譜或倒譜等，并通過聲碼分析從語音中提取。

聲碼器根據預測的聲學特征合成語音。

SPSS 比以前的TTS系統有幾個優勢:

1)自然，音頻更自然;

2)靈活性，友善修改參數控制語音生成;

3)資料成本低，比串聯合成需要更少的記錄。

然而， SPSS 也有它的缺點:

1)生成的語音具有較低的可了解性，由于人為因素，如低沉的，嗡嗡聲或嘈雜的音頻;

2)生成的聲音仍然是機器人的，可以很容易地差別于人類錄音的語音。

近 2010 年，随着神經網絡和深度學習的快速發展，一些工作首先将深度神經網絡引入 SPSS ，如基于深度神經網絡( DNN )(《Statistical parametric speech synthesis using deep neural networks》，《On the training aspects of deep neural network (dnn) for parametric tts synthesis》)和基于循環神經網絡( RNN )(《Acoustic modeling in statistical parametric speech synthesis-from hmm to lstm-rnn》，《Unidirectional long short-term memory recurrent neural network with recurrent output layer for low-latency speech synthesis》)。

然而，這些模型用神經網絡代替了 HMM ，仍然可以從語言特征中預測聲音特征，這是遵循 SPSS 的範式。

後來， Wang 等人(《First step towards end-to-end parametric tts synthesis: Generating spectral parameters with neural attention》)提出直接從音位序列生成聲學特征，而不是語言特征，這可以說是端到端語音合成的第一次探索。

在這個調查中，我們關注基于神經的語音合成，主要是端到端模型。

由于後來的 SPSS 也使用神經網絡作為聲學模型，我們簡要描述這些模型，但不深入的細節。

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

神經語音合成

随着深度學習的發展，基于神經網絡的語音合成被提出，它采用(深度)神經網絡作為語音合成的模型主幹。

SPSS 中采用了一些早期的神經模型來代替 HMM 進行聲學模組化。

後來又提出了 WaveNet ，直接從語言特征中生成波形，可視為現代第一個神經 TTS 模型。

其他模型如 DeepVoice 1/2 (《Deep voice: Real-time neural text-to-speech》，《Deep voice 2: Multi-speaker neural text-to-speech》)在統計參數綜合中仍然遵循這三個成分，但使用相應的基于神經網絡的模型對其進行更新。

此外，我們還提出了一些端到端模型(例如 Tacotron 1/2 (《Tacotron: Towards end-to-end speech synthesis》，《Natural tts synthesis by conditioning wavenet on mel spectrogram predictions》)， Deep Voice 3 (《Deep voice 3: 2000-speaker neural text-to-speech》)， FastSpeech 1/2 (《Fastspeech: Fast, robust and controllable text to speech》，《Fastspeech 2: Fast and high-quality end-to-end text to speech》))來簡化文本分析子產品，直接将字元/音素序列作為輸入，并利用梅爾譜圖簡化聲學特征。

後來，開發了完全端到端 TTS 系統，直接從文本生成波形，如 ClariNet (《Clarinet: Parallel wave generation in end-to-end text-to-speech》)， WaveGlow (《Waveglow: A flow-based generative network for speech synthesis》)和 EATS (《End-to-end adversarial text-to-speech》)。

與以往基于串聯合成和統計參數合成的語音合成系統相比，基于神經網絡的語音合成的優點是語音品質高，在可了解性和自然度方面，而且對人的預處理和特征開發要求較少。

1.2 調查的組成

本文主要綜述了神經 TTS 的研究工作，主要分為兩部分，如圖 2 所示。

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

TTS 中的關鍵元件

現代的 TTS 系統由三個基本元件組成：文本分析子產品、聲學模型和聲碼器。

如圖 1 所示，文本分析子產品将文本序列轉化為語言特征，聲學模型由語言特征生成聲學特征，聲碼器根據聲學特征合成波形。

我們在第二節中對神經 TTS 的三個組成部分進行了綜述。

具體來說，我們首先在第 2.1 節介紹了神經 TTS 的基本組成部分的主要分類，然後分别在第 2.2 節、 2.3 節和 2.4 節介紹了文本分析、聲學模型和聲碼器的工作。

我們在第 2.5 節中進一步介紹了對完全端到端 TTS 的研究。

雖然我們主要從神經 TTS 中關鍵成分的分類來回顧研究工作，但我們也在 2.6 節中描述了其他幾個分類，包括序列生成的方式(自回歸或非自回歸)、不同的生成模型和不同的網絡結構。

此外，我們還在 2.6 節中說明了一些具有代表性的 TTS 工作的時間演化。

TTS 中的前沿問題

除了神經 TTS 的關鍵組成部分外，我們還進一步綜述了神經 TTS 的幾個前沿問題，這些問題推動了 TTS 研究的前沿領域，解決了 TTS 産品中的實際挑戰。

例如，由于 TTS 是一個典型的序列到序列生成任務，輸出序列通常很長，如何加快自回歸生成，減少模型規模以實作快速語音合成是目前的研究熱點(第 3.2 節)。

一個好的語音合成系統應該生成自然和可了解的語音，而大量的語音合成研究工作旨在提高語音合成的可了解性和自然度。

例如，在用于訓練 TTS 模型的資料不足的低資源場景中，合成的語音可能具有低的可了解性和自然度。

是以，許多工作的目标是在低資源設定下建立資料高效的 TTS 模型(第 3.3 節)。

由于 TTS 模型面臨魯棒性問題，生成的語音中存在跳詞和重複問題會影響語音品質，是以很多工作都是為了提高語音合成的魯棒性(第 3.4 節)。

為了提高語言的自然性和表現力，很多作品對語言的風格/韻律進行模組化、控制和轉換，以生成富有表現力的語言(第 3.5 節)。

通過調整 TTS 模型來支援任何目标說話人的語音，對于 TTS 的廣泛應用是非常有幫助的。

是以，在有限的适配資料和參數下進行有效的語音适配對于實際 TTS 應用至關重要(章節 3.6 )。

為了進一步豐富這個調查，我們在第 4 節中總結了 TTS 的相關資源，包括開源實作、語料庫和其他有用的資源。

我們在第 5 節中總結了這一調查，并讨論了未來的研究方向。

2 TTS 中的關鍵元件

在本節中，我們将從神經 TTS 的關鍵組成部分(文本分析、聲學模型和聲碼器)的角度回顧研究工作。

我們首先在第 2.1節介紹這個觀點下的主要分類，然後分别在第 2.2 節、第 2.3 節和第 2.4 節介紹三個 TTS 元件。

此外，我們在第 2.5 節中回顧了關于完全端到端 TTS 的工作。

除了主要的分類法，我們還在 2.6 節中介紹了更多的分類法，如自回歸/非自回歸序列生成、生成模型、網絡結構，以及關于 TTS 的代表性研究工作的時間軸。

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

2.1 主要分類

我們主要從 TTS 的基本組成部分：文本分析、聲學模型、聲碼器和完全端到端模型的角度對神經 TTS 的工作進行分類，如圖 3a 所示。

我們發現這種分類與文本到波形的資料轉換流程是一緻的：

1)文本分析将字元轉換為音位或語言特征；

2)聲學模型從語言特征或字元/音素生成聲學特征；

3)聲碼器通過語言特征或聲學特征生成波形；

4)全端到端模型直接将字元/音素轉換成波形。

我們根據從文本到波形的資料流重新組織 TTS 工作，如圖 3b 所示。在文本到語音的轉換過程中，有幾種資料表示形式：

1)字元，即文本的原始格式。

2)通過文本分析得到的語言特征，包含豐富的語音、韻律等語境資訊。音素是語言特征中最重要的元素之一，在基于神經網絡的語篇識别模型中，音素通常單獨用于表示文本。

3)聲學特征是語音波形的抽象表示。在統計參數語音合成中，LSP (line spectral pairs)(《Line spectrum representation of linear predictor coefficients of speech signals》) ， MCC ( mel- 倒譜系數)(《An adaptive algorithm for mel-cepstral analysis of speech》) ，MGC ( mel- 廣義系數)(《Mel-generalized cepstral analysis-a unified approach to speech spectral estimation》) ， F0 和 BAP ( band aperiodicities )(《Restructuring speech representations using a pitch-adaptive time frequency smoothing and an instantaneous-frequencybased f0 extraction: Possible role of a repetitive structure in sounds》，《Aperiodicity extraction and control using mixed mode excitation and group delay manipulation for a high quality speech analysis, modification and synthesis system straight》) 作為聲學特征，可以通過諸如 STRAIGHT (《Straight, exploitation of the other aspect of vocoder: Perceptually isomorphic decomposition of speech sounds》) 和 WORLD (《World: a vocoder-based high-quality speech synthesis system for real-time applications》) 等聲碼器輕松轉換成波形。

4)波形，語音的最終格式。在基于神經網絡的端到端 TTS 模型中，通常使用 mel 譜圖或線性譜圖作為聲學特征，通過神經網絡的聲碼器将其轉換為波形。

從圖 3b 可以看出，從文本到波形可以有不同的資料流，包括：

1)字元→語言特征→聲學特征→波形；

2)字元→音素→聲學特征→波形；

3)字元→語言特征→波形；

4)字元→音素→聲學特征→波形；

5)字元→音素→波形，或字元→波形。

2.2 文本分析

文本分析( Text analysis , TTS )将輸入文本轉換為包含豐富語音和韻律資訊的語言特征，以友善語音合成。

在統計參數合成中，文本分析用于提取語言特征向量序列(《Speech synthesis based on hidden markov models》)，包含文本歸一化(《Rnn approaches to text normalization: A challenge》，《A hybrid text normalization system using multi-head self-attention for mandarin》)、分詞(《Chinese word segmentation as character tagging》)、詞性标注(《The effects of part of speech tagging on text to speech synthesis for resource scarce languages》)、韻律預測(《Locating boundaries for prosodic constituents in unrestricted mandarin texts》)和字素-音素轉換(《Sequence-to-sequence neural net models for grapheme-tophoneme conversion》)等功能。

在端到端神經 TTS 中，由于基于神經網絡的模型模組化能力大，直接将字元或音素序列作為輸入進行合成，大大簡化了文本分析子產品。

在這種情況下，仍然需要進行文本規範化以從字元輸入獲得标準的單詞格式，還需要進一步進行字素到音素轉換以從标準的單詞格式獲得音素。

雖然一些 TTS 模型聲稱完全端到端綜合，直接從文本産生波形，但文本規範化仍然需要處理任何可能的非标準格式的原始文本以供實際使用。

此外，一些端到端 TTS 模型結合了傳統的文本分析功能。

例如， Char2Wav (《Char2wav: End-to-end speech synthesis》)和 DeepVoice 1/2 (《Deep voice: Real-time neural text-to-speech》，《Deep voice 2: Multi-speaker neural text-to-speech》)将字元到語言的特征轉換到其管道中，純粹基于神經網絡，一些作品(《Predicting expressive speaking style from text in end-to-end speech synthesis》)通過文本編碼器明确預測韻律特征。

在本小節的其餘部分中，我們首先介紹統計參數綜合中的文本分析的典型任務，然後讨論端到端 TTS 模型中的文本分析的發展。

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

我們在表 1 中總結了文本分析中的一些典型任務，并介紹了每個任務的一些代表性工作如下。

文本标準化

将原始的書面文本(非标準詞)通過文本規範化轉換為口語詞，使 TTS 模型更容易發音。

例如， “1989” 年被标準化為"nineteen eighty nine"年， “Jan. 24"被标準化為"Janunary twenty-fourth”。

文本歸一化的早期工作是基于規則的(《Normalization of non-standard words》)，然後利用神經網絡将文本歸一化模組化為序列到序列的任務，其中源和目标序列分别是非标準詞和口語形式的詞(《Rnn approaches to text normalization: A challenge》，《Neural text normalization with subword units》，《Neural models of text normalization for speech applications》)。

最近，一些工作(《A hybrid text normalization system using multi-head self-attention for mandarin》)提出将基于規則的模型和基于神經的模型的優點結合起來，進一步提高文本規範化的性能。

詞語切分

對于基于字元的語言，如漢語，分詞(《Deep learning for chinese word segmentation and pos tagging》，《Max-margin tensor neural network for chinese word segmentation》)是從原始文本中檢測詞邊界是必要的，這對于確定以後的詞性标注、韻律預測和字素到音素轉換過程的準确性是重要的。

詞性标注

詞的詞性(詞性)，如名詞、動詞、介詞等，對于字音素轉換和韻律預測也很重要。

已有一些研究研究了詞性标注在語音合成中的作用(《The effects of part of speech tagging on text to speech synthesis for resource scarce languages》，《Improved pos tagging for text-to-speech synthesis》，《Morphological analysis based part-of-speech tagging for uyghur speech synthesis》，《Application of neural networks for pos tagging and intonation control in speech synthesis for polish》)。

韻律短語預測

語音的節奏、重音、語調等韻律資訊對應着音節長度、響度和音高的變化，在人類語音交流中起着重要的感覺作用。

韻律預測依賴于标注系統對每種韻律進行标注。

不同的語言有不同的韻律标注系統和工具（《Tobi: A standard for labeling english prosody》，《Autobi-a tool for automatic tobi annotation》，《The tilt intonation model》，《Automatic analysis of prosody for multilingual speech corpora》，《Slam: Automatic stylization and labelling of speech melody》）。

對于英語， ToBI (音調和分音索引)是一個流行的标簽系統，它描述了音調(例如，音調重音，短語重音和邊界音調)和分音(單詞之間的分音有多強)的标簽。

例如，在這個句子中 “Mary went to the store ?”， "Mary"和"store"可以強調，這個句子是升調。

許多著作(《Exploiting acoustic and syntactic features for prosody labeling in a maximum entropy framework》，《Automatic prosodic labeling with conditional random fields and rich acoustic features》，《Automatic prosodic events detection using syllable-based acoustic and syntactic features》，《Automatic prosody prediction and detection with conditional random field (crf) models》)研究了基于 ToBI 的不同模型和特征來預測韻律标簽。

在漢語語音合成中，典型的韻律邊界标簽由韻律詞( PW )、韻律短語( PPH )和語調短語( IPH )組成，可以構造三層層次的韻律樹(《Locating boundaries for prosodic constituents in unrestricted mandarin texts》，《Chinese prosody structure prediction based on conditional random fields》，《Automatic prosody prediction for chinese speech synthesis using blstm-rnn and embedding features》)。

一些研究(《一種用于統計參數語音合成的具有振幅和相位譜分層生成的神經聲碼器》，《Self-attention based prosodic boundary prediction for chinese speech synthesis》，《Implementing prosodic phrasing in chinese endto-end speech synthesis》)探讨了不同的模型結構，如 CRF (《Conditional random fields: Probabilistic models for segmenting and labeling sequence data》)， RNN (《Long short-term memory》)和自我注意(《Attention is all you need》)用于漢語韻律預測。

字素到音素 ( G2P ) 轉換

将字元(字素)轉換為語音(音素)可以大大簡化語音合成。

例如， “speech” 這個詞被轉換成 “s p iy ch” ,通常利用手工收集的字素-音素詞典進行轉換。

然而，對于像英語這樣的字母語言，詞典不能涵蓋所有單詞的發音。

是以，英語的 G2P 轉換主要負責生成詞彙外的單詞的發音(《Conditional and joint models for grapheme-to-phoneme conversion》，《Joint-sequence models for grapheme-to-phoneme conversion》，《Sequence-to-sequence neural net models for grapheme-tophoneme conversion》，《Grapheme-to-phoneme conversion using long short-term memory recurrent neural networks》，《Convolutional sequence to sequence model with non-sequential greedy decoding for grapheme to phoneme conversion》，《Token-level ensemble distillation for grapheme-to-phoneme conversion》)。

對于像漢語這樣的語言，雖然詞典可以涵蓋幾乎所有的字元，但有很多多音字隻能根據一個字元的上下文來決定。

是以，這類語言的 G2P 轉換主要負責多音字消歧，即根據目前語境決定合适的發音(《An efficient way to learn rules for grapheme-tophoneme conversion in chinese》，《Grapheme-to-phoneme conversion for chinese text-tospeech》，《Inequality maximum entropy classifier with character features for polyphone disambiguation in mandarin tts systems》，《A bi-directional lstm approach for polyphone disambiguation in mandarin chinese》，《Knowledge distillation from bert in pre-training and fine-tuning for polyphone disambiguation》，《Polyphone disambiguation for mandarin chinese using conditional neural network with multi-level embedding features》，《g2pm: A neural grapheme-to-phoneme conversion package for mandarin chinese based on a new open benchmark dataset》)。

通過以上文本分析，我們可以進一步建構語言特征，并将其作為 TTS 管道的後期輸入，如 SPSS 中的聲學模型或聲碼器中的聲學模型(《Wavenet: A generative model for raw audio》)。

通常，我們可以從音位、音節、單詞、短語和句子等不同層次對文本分析結果進行聚合，建構語言特征(《Speech synthesis based on hidden markov models》)。

讨論

雖然與 SPSS 相比，文本分析在神經 TTS 中似乎較少受到重視，但它已經以各種方式被納入神經 TTS 中：

1)多任務統一的前端模型。最近， Pan 等人(《A unified sequence-to-sequence front-end model for mandarin text-to-speech synthesis》)、 Zhang 等人(《Unified mandarin tts front-end based on distilled bert model》)設計了統一的模型來覆寫多任務範式下的文本分析中的所有任務，并取得了良好的效果。

2)韻律預測。韻律對語音合成的自然程度至關重要。

雖然神經 TTS 模型簡化了文本分析子產品，但在文本編碼中加入了一些韻律預測的特征，如音高(《Fastspeech 2: Fast and high-quality end-to-end text to speech》)、持續時間(《Fastspeech: Fast, robust and controllable text to speech》)、呼吸或填充停頓(《Adaspeech 3: Adaptive text to speech for spontaneous style》)的預測是建立在 TTS 模型中的文本(字元或音素)編碼之上的。

其他一些融合韻律特征的方法包括：

1)參考編碼從參考語音中學習韻律表征；

2)文本預處理訓練通過自我監督預處理訓練學習帶有内隐韻律資訊的好的文本表征(《Pre-trained text embeddings for enhanced text-to-speech synthesis》，《Exploiting syntactic features in a parsed tree to improve end-to-end tts》)；

3)通過專門的模組化方法(如圖網絡)整合文法資訊(《Graphspeech: Syntax-aware graph attention network for neural speech synthesis》)。

2.3 文本分析

在這一節中，我們回顧了聲學模型的工作，它從語言特征或直接從音素或字元生成聲學特征。

TTS 的發展,采取了不同的聲學模型,包括早期嗯和基礎款模型在統計參數語音合成( SPSS )(《Simultaneous modeling of spectrum, pitch and duration in hmm-based speech synthesis》，《Speech parameter generation algorithms for hmm-based speech synthesis》，《Statistical parametric speech synthesis using deep neural networks》，《On the training aspects of deep neural network (dnn) for parametric tts synthesis》，《TTS synthesis with bidirectional lstm based recurrent neural networks》，《Unidirectional long short-term memory recurrent neural network with recurrent output layer for low-latency speech synthesis》)，然後順序序列模型基于 encoder-attention-decoder 架構(包括 LSTM 、 CNN 和 self-attention )(《Tacotron: Towards end-to-end speech synthesis》，《Natural tts synthesis by conditioning wavenet on mel spectrogram predictions》，《Deep voice 3: 2000-speaker neural text-to-speech》，《Neural speech synthesis with transformer network》)和最新的前饋網絡( CNN 或 self-attention )(《Fastspeech: Fast, robust and controllable text to speech》，《Non-autoregressive neural text-to-speech》)用于并行生成。

聲學模型的目的是生成聲學特征，并利用聲碼器進一步轉換成波形。

聲學特征的選擇在很大程度上決定了 TTS 管道的類型。

人們嘗試了各種不同的聲學特征，如 mel- 倒譜系數( MCC )(《An adaptive algorithm for mel-cepstral analysis of speech》)、梅爾廣義系數( MGC )(《Mel-generalized cepstral analysis-a unified approach to speech spectral estimation》)、頻帶非周期( BAP )(《Restructuring speech representations using a pitch-adaptive time frequency smoothing and an instantaneous-frequencybased f0 extraction: Possible role of a repetitive structure in sounds》，《Aperiodicity extraction and control using mixed mode excitation and group delay manipulation for a high quality speech analysis, modification and synthesis system straight》)、基頻( F0 )、濁音/濁音( V/UV )、 bark-frequency 倒譜系數( BFCC )，以及最常用的梅爾譜圖。

是以,我們可以将聲音模型劃分為兩個時期：

1)在 SPSS 聲學模型，通常預測聲學特性，比如 MGC ， BAP 和 F0 等語言特征；

2)聲學模型基于神經端到端 TTS ，預測的聲學特性，比如從音素或字元到梅爾頻譜圖。

2.3.1 SPSS 中的聲學模型

在 SPSS （《Statistical parametric speech synthesis》，《Speech synthesis based on hidden markov models》）中，利用 HMM （《Simultaneous modeling of spectrum, pitch and duration in hmm-based speech synthesis》，《Speech parameter generation algorithms for hmm-based speech synthesis》）、 DNN （《Statistical parametric speech synthesis using deep neural networks》，《On the training aspects of deep neural network (dnn) for parametric tts synthesis》）或 RNN 等統計模型從語言特征中生成聲學特征(語音參數)，使用諸如 STRAIGHT （《Straight, exploitation of the other aspect of vocoder: Perceptually isomorphic decomposition of speech sounds》）和 WORLD （《World: a vocoder-based high-quality speech synthesis system for real-time applications》）等聲碼器将生成的語音參數轉換為語音波形。

這些聲學模型的發展是由以下幾個因素驅動的：

1)将更多的上下文資訊作為輸入；

2)輸出幀之間的相關性模組化；

3)更好地解決過平滑預測問題(《Statistical parametric speech synthesis》)，因為從語言特征到聲學特征的映射是一對多的。

我們在下文簡要回顧了一些工作。

Yoshimura 等人(《Simultaneous modeling of spectrum, pitch and duration in hmm-based speech synthesis》)、 Tokuda 等人(《Speech parameter generation algorithms for hmm-based speech synthesis》)利用 HMM (《An introduction to hidden markov models》)生成語音參數，HMM的觀測向量由梅爾倒譜系數系數( melcepstral coefficient, MCC )和 F0 等譜參數向量組成。

與以往的串聯式語音合成相比，基于 HMM 的參數化合成在改變說話人身份、情感和說話風格方面更加靈活。

讀者可以參考 Zen 等人(《Acoustic modeling in statistical parametric speech synthesis-from hmm to lstm-rnn》，《Statistical parametric speech synthesis》)、 Tokuda 等人(《Speech synthesis based on hidden markov models》)對基于 HMM 的 SPSS 的優缺點進行一些分析。

基于 HMM 的 SPSS 的一個主要缺點是合成語音的品質不夠好，主要是由于兩個原因：1)聲學模型的精度不好，而預測的聲學特征是過于平滑和缺乏細節，2)語音編碼技術還不夠好。

第一個原因主要是由于 HMM 的模組化能力不足。

是以，在 SPSS 中提出了基于 DNN 的聲學模型，提高了基于 HMM 模型的綜合品質。

之後，為了更好地模組化語音中的長時間上下文效應，利用基于 LSTM 的遞歸神經網絡來更好地模組化上下文相關性。

随着深度學習的發展，一些先進的網絡結構如 CBHG (《Tacotron: Towards end-to-end speech synthesis》)被用來更好地預測聲學特征(《Emphasis: An emotional phoneme-based acoustic model for speech synthesis system》)。

VoiceLoop (《Voiceloop: Voice fitting and synthesis via a phonological loop》)采用一種稱為語音循環的工作記憶從音素序列中生成聲學特征(如 F0 、 MGC 、 BAP )，然後使用 WORLD 聲碼器從這些聲學特征合成波形。

Yang 等人(《Statistical parametric speech synthesis using generative adversarial networks under a multitask learning framework》)利用 GAN (《Generative adversarial nets》)來提高聲學特征的生成品質。

Wang 等人(《First step towards end-to-end parametric tts synthesis: Generating spectral parameters with neural attention》)探索了一種端到端的方式，利用基于注意的循環序列傳感器模型直接從音素序列生成聲學特征，這可以避免之前基于神經網絡的聲學模型中要求的逐幀對齊。

Wang 等人(《A comparison of recent waveform generation and acoustic modeling methods for neural-networkbased speech synthesis》)對不同的聲學模型進行了深入的實驗研究。

SPSS 中的一些聲學模型如表 2 所示。

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

2.3.2 端到端 TTS 中的聲學模型

與 SPSS 相比，基于神經的端到端 TTS 的聲學模型有幾個優勢：

1)傳統的聲學模型要求語言特征和聲學特征之間的對齊，而基于序列到序列的神經模型通過注意隐式學習對齊或聯合預測對齊的持續時間，這是端到端的，需要較少的預處理。

2)神經網絡模組化能力的增加,語言特征被簡化到隻有字元或音素序列，和聲學特性改變了從低維壓縮倒頻譜(如 MGC )高維梅爾頻譜圖甚至更高維線性頻譜圖。

下面我們将介紹神經 TTS 中一些具有代表性的聲學模型，并在表 2 中提供了一個完整的聲學模型清單。

基于 RNN 的模型(例如， Tacotron 系列)

Tacotron (《Tacotron: Towards end-to-end speech synthesis》)利用編碼器-注意-解碼器架構，将字元作為輸入和輸出線性譜圖，并使用 GriffinLim 算法(《Signal estimation from modified short-time fourier transform》)生成波形。

我們提出了 Tacotron 2 (《Natural tts synthesis by conditioning wavenet on mel spectrogram predictions》)來生成 mel 譜圖，并使用附加的 WaveNet (《Wavenet: A generative model for raw audio》)模型将 mel 譜圖轉換為波形。

與 Tacotron 、參數 TTS 、神經 TTS 等之前的方法相比， Tacotron 2 大大提高了語音品質。

後來，很多工作從不同的方面對 Tacotron 進行了改進：

1)使用參考編碼器和風格标記來增強語音合成的表達性，如 GST-Tacotron (《Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis》)和 Ref-Tacotron (《Towards end-to-end prosody transfer for expressive speech synthesis with tacotron》)。

2)移除 Tacotron 中的注意機制，使用持續時間預測器進行自回歸預測，如 DurIAN (《Durian: Duration informed attention network for speech synthesis》)和 Non-attentative Tacotron (《Non-attentive tacotron: Robust and controllable neural tts synthesis including unsupervised duration modeling》)。

3)将 Tacotron 中的自回歸生成轉化為非自回歸生成，如 Parallel Tacotron 1/2 (《Parallel tacotron: Non-autoregressive and controllable tts》，《Parallel tacotron 2: A non-autoregressive neural tts model with differentiable duration modeling》)。

4)基于 Tacotron 建構端到端文本到波形模型，如 Wave-Tacotron (《Wave-tacotron: Spectrogram-free end-to-end text-to-speech synthesis》)。

基于 CNN 的模型(如 DeepVoice 系列)

DeepVoice (《Deep voice: Real-time neural text-to-speech》)實際上是一個通過卷積神經網絡增強的 SPSS 系統。

DeepVoice 通過神經網絡擷取語言特征後，利用基于 WaveNet (《Wavenet: A generative model for raw audio》)的聲碼器生成波形。

DeepVoice 2 (《Deep voice 2: Multi-speaker neural text-to-speech》)遵循了 DeepVoice 的基本資料轉換流程，并通過改進的網絡結構和多說話人模組化對 DeepVoice 進行了改進。

此外， DeepVoice 2 還采用了 Tacotron + WaveNet 模型管道，首先使用 Tacotron 生成線性譜圖，然後使用 WaveNet 生成波形。

DeepVoice 3 (《Deep voice 3: 2000-speaker neural text-to-speech》)利用全卷積網絡結構進行語音合成，從字元生成語音譜圖，并可擴充到真實的多說話人資料集。

DeepVoice 3 改進了之前的 DeepVoice 1/2 系統，使用了更緊湊的序列到序列模型，直接預測梅爾聲譜圖，而不是複雜的語言特征。

後來， ClariNet (《Clarinet: Parallel wave generation in end-to-end text-to-speech》)被提出以完全端到端的方式從文本中生成波形。

ParaNet (《Non-autoregressive neural text-to-speech》)是一種基于全卷積的非自回歸模型，可以加快梅爾譜圖的生成，獲得較好的語音品質。

DCTTS (《Efficiently trainable textto-speech system based on deep convolutional networks with guided attention》)與 Tacotron 共享類似的資料轉換管道，并利用一個完全卷積的基于編碼器-注意-解碼器網絡從字元序列生成梅爾譜圖。

然後使用譜圖超分辨率網絡獲得線性譜圖，并使用 GriffinLim 合成波形(《* Signal estimation from modified short-time fourier transform*》)。

基于 Transformer 的模型(例如， FastSpeech 系列)

TransformerTTS (《Neural speech synthesis with transformer network》)利用基于 Transformer (《Attention is all you need》)的編碼器-注意-解碼器架構從音素生成梅爾聲譜圖。

他們認為，基于 RNN 的編碼器-注意力-解碼器模型，如 Tacotron 2 ，存在以下兩個問題：

1)基于 RNN 的編碼器和解碼器由于具有周期性，不能并行訓練，基于 RNN 的編碼器不能并行推理，影響了訓練和推理的效率。

2)由于文本和語音序列通常很長， RNN 不擅長模組化這些序列的長相關性。

TransformerTTS 采用了 Transformer 的基本模型結構，并吸收了 Tacotron 2 的解碼器、前置/後置網絡、停止标志預測等設計。

它的語音品質與 Tacotron 2 類似，但訓練時間更快。

然而，與利用位置敏感注意等穩定注意機制的基于 RNN 的模型(如 Tacotron )相比， Transformer 中的編碼器-解碼器注意由于并行計算而不具有魯棒性。

是以，一些工作提出了增強基于 Transformer 的聲學模型的魯棒性。

例如， MultiSpeech (《Multispeech: Multi-speaker text to speech with transformer》)通過編碼器歸一化、解碼器瓶頸和對角注意限制來提高注意機制的魯棒性，而 RobuTrans (《Robutrans: A robust transformer-based text-to-speech model》)利用持續時間預測來增強自回歸生成的魯棒性。

之前的基于神經的聲學模型，如 Tacotron 1/2 ， DeepVoice 3 和 TransformerTTS 均采用自回歸生成，但存在幾個問題：

1)推理速度慢。自回歸梅爾譜圖的生成速度較慢，尤其是對于長序列(例如，對于 1 秒鐘的語音，如果跳數為 10ms ，這是一個長序列，則有近 500 幀梅爾譜圖)。

2)魯棒問題。在基于編碼器-注意-解碼器的自回歸生成中，文本和梅爾譜圖之間的注意對齊不準确是導緻生成的語音存在跳詞和重複等問題的主要原因。

是以， FastSpeech 被提出來解決這些問題：

1)采用前饋 Transformer 網絡并行生成梅爾譜圖，大大加快推理速度。

2)去掉了文本和語音之間的注意機制，避免了跳過詞和重複的問題，提高了魯棒性。

相反，它使用一個長度調節器來連接配接音素和梅爾譜圖序列之間的長度不比對。

長度調節器利用持續時間預測器預測每個音位的持續時間，并根據音位持續時間擴充音位隐藏序列，擴充後的音位隐藏序列可以比對梅爾譜圖序列的長度，便于并行生成。

. FastSpeech 有幾個優點：

1)極快的推理速度(例如，梅爾譜圖生成的推理速度提高 270 倍，波形生成的推理速度提高 38 倍)；

2)無跳過詞和重複問題的魯棒語音合成；

3)與以前的自回歸模型相同的語音品質。

FastSpeech 已經部署在微軟 Azure Text to Speech Service 中，以支援 Azure TTS 中的所有語言和地區。

FastSpeech 利用一個明确的持續時間預測器來擴充音素隐藏序列，以比對梅爾聲譜圖的長度。

如何獲得持續時間标簽來訓練持續時間預測器對生成語音的韻律和品質至關重要。

我們在第 3.4.2 節簡要回顧了具有持續時間預測的 TTS 模型。

接下來，我們将介紹一些基于 FastSpeech 的其他改進。

FastSpeech 2 被提出來進一步增強 FastSpeech ，主要從兩個方面：

1)使用真實的 mel 譜圖作為訓練目标，而不是從自回歸教師模型中提取 mel 譜圖。這簡化了 FastSpeech 中兩階段的師生蒸餾管道，也避免了蒸餾後目标譜圖中的資訊損失。

2)提供更多的變化資訊，如音高、持續時間和能量作為解碼器的輸入，進而簡化了文本到語音的一對多映射問題(《One-to-many neural network mapping techniques for face image synthesis》，《An asymmetric cycle-consistency loss for dealing with many-to-one mappings in image translation: a study on thigh mr scans》，《Tacotron: Towards end-to-end speech synthesis》，《Toward multimodal image-to-image translation》)。

FastSpeech 2 實作了比 FastSpeech 更好的語音品質，并保持了 FastSpeech 中快速、魯棒、可控語音合成的優勢。

FastPitch (《Fastpitch: Parallel text-to-speech with pitch prediction》)通過使用音高資訊作為解碼器輸入來改進 FastSpeech ，這與 FastSpeech 2 中的方差預測相似。

其他聲學模型(如 Flow 、 GAN 、 VAE 、 Diffusion )

除了上述聲學模型之外，還有很多其他聲學模型(《Melnet: A generative model for audio in the frequency domain》，《Deep feed-forward sequential memory networks for speech synthesis》，《Devicetts: A small-footprint, fast, stable network for on-device text-to-speech》，《Bidirectional variational inference for non-autoregressive text-to-speech》)，如表 2 所示。

基于流的模型長期以來一直被用于神經 TTS 。

在聲碼器(如 Parallel WaveNet (《Parallel wavenet: Fast high-fidelity speech synthesis》)， WaveGlow (《Waveglow: A flow-based generative network for speech synthesis》)， FloWaveNet (《Flowavenet: A generative flow for raw audio》))早期的成功應用之後，基于流的模型也被應用于聲學模型，如 Flowtron (《Flowtron: an autoregressive flow-based generative network for text-to-speech synthesis》)，這是一種自回歸的基于流的梅爾譜生成模型， Flow-TTS (《Flow-tts: A non-autoregressive network for text to speech based on flow》)和 Glow-TTS (《Glow-tts: A generative flow for text-to-speech via monotonic alignment search》)利用生成流進行非自回歸梅爾譜生成。

除了基于流的模型，其他生成模型也被用于聲學模型：

1) 基于 VAE 的 GMVAE-Tacotron (《Hierarchical generative modeling for controllable speech synthesis》)，BVAE-TTS (《Bidirectional variational inference for non-autoregressive text-to-speech》) 和 VAE-TTS (《Learning latent representations for style control and transfer in end-to-end speech synthesis》)。

2) GAN exposure (《A new gan-based end-to-end tts training algorithm》)、 TTS-Stylization (《Neural tts stylization with adversarial and collaborative games》)和 Multi-SpectroGAN (《Multi-spectrogan: High-diversity and high-fidelity spectrogram generation with adversarial style combination for speech synthesis》)均基于 GAN 。

3) Diff-TTS (《Diff-tts: A denoising diffusion model for text-to-speech》)， Grad-TTS (《Grad-tts: A diffusion probabilistic model for text-to-speech》)和 PriorGrad (《Priorgrad: Improving conditional denoising diffusion models with data-driven adaptive prior》)基于擴散模型 (《Deep unsupervised learning using nonequilibrium thermodynamics》，《Denoising diffusion probabilistic models》)。

2.4 聲碼器

總的來說，聲碼器的發展可以分為兩個階段：用于統計參數語音合成( SPSS )的聲碼器(《Straight, exploitation of the other aspect of vocoder: Perceptually isomorphic decomposition of speech sounds》，《World: a vocoder-based high-quality speech synthesis system for real-time applications》，《A neural vocoder with hierarchical generation of amplitude and phase spectra for statistical parametric speech synthesis》)和基于神經網絡的聲碼器(《Wavenet: A generative model for raw audio》，《Char2wav: End-to-end speech synthesis》，《Efficient neural audio synthesis》，《Waveglow: A flow-based generative network for speech synthesis》)。

SPSS 中一些流行的聲碼器包括 STRAIGHT 和 WORLD 。

我們以 WORLD 聲碼器為例，它包括聲碼器分析和聲碼器合成兩個步驟。

在聲碼器分析中，它對語音進行分析，得到梅爾倒譜系數、頻帶非周期性和 F0 等聲學特征。

在聲碼合成中，它根據這些聲學特征産生語音波形。

在這一節中，我們主要回顧了基于神經的聲碼器的工作，因為它們的高語音品質。

早期的神經聲碼器如 WaveNet (《Wavenet: A generative model for raw audio》，《Parallel wavenet: Fast high-fidelity speech synthesis》)， Char2Wav (《Char2wav: End-to-end speech synthesis》)， WaveRNN (《Efficient neural audio synthesis》)直接将語言特征作為輸入生成波形。

後來， Prenger 等人 (《Waveglow: A flow-based generative network for speech synthesis》)、 Kumar 等人(《Melgan: Generative adversarial networks for conditional waveform synthesis》)、 Yamamoto 等人(《Parallel wavegan: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram》)将梅爾譜圖作為輸入并生成波形。

由于語音波形很長，自回歸波形的産生需要大量的推理時間。

是以，生成模型如 Flow (《Nice: Non-linear independent components estimation》，《Improved variational inference with inverse autoregressive flow》，《Glow: generative flow with invertible 1 1 convolutions》)、 GAN 、 VAE 、 DDPM ( Denoising Diffusion probability Model，簡稱 Diffusion )(《Deep unsupervised learning using nonequilibrium thermodynamics》，《Denoising diffusion probabilistic models》)用于波形生成。

據此，我們将神經聲碼器劃分為不同的類别：

1)自回歸聲碼器，

2)基于 Flow 的聲碼器，

3)基于 GAN 的聲碼器，

4)基于 VAE 的聲碼器，

5)基于 Diffusion 的聲碼器。

我們在表 3 中列出了一些具有代表性的聲碼器，并描述如下。

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

自回歸語音編碼器

WaveNet 是第一個基于神經的聲碼器，它利用膨脹卷積自回歸生成波形點。

不同于 SPSS 中的聲碼分析和合成， WaveNet 幾乎沒有整合關于音頻信号的先驗知識，完全依賴端到端學習。

最初的 WaveNet 以及随後利用 WaveNet 作為聲碼器的一些作品(《Deep voice: Real-time neural text-to-speech》，《Deep voice 2: Multi-speaker neural text-to-speech》)，根據語言特征生成語音波形，而 WaveNet 可以很容易地适應線性譜圖(《Deep voice 2: Multi-speaker neural text-to-speech》)和梅爾譜圖(《Speaker-dependent wavenet vocoder》，《Deep voice 3: 2000-speaker neural text-to-speech》，《Natural tts synthesis by conditioning wavenet on mel spectrogram predictions》)的條件。

雖然 WaveNet 的語音品質很好，但其推理速度較慢。

是以，大量的工作(《Fast wavenet generation algorithm》，《Wg-wavenet: Real-time high-fidelity speech synthesis without gpu》，《Samplernn: An unconditional end-to-end neural audio generation model》)研究輕量級和快速聲碼器。

SampleRNN (《Samplernn: An unconditional end-to-end neural audio generation model》)利用層次遞歸神經網絡進行無條件波形生成，并進一步內建到 Char2Wav (《Char2wav: End-to-end speech synthesis》)中，以生成基于聲學特征的波形。

此外， WaveRNN (《An efficient way to learn rules for grapheme-tophoneme conversion in chinese》)被開發用于高效的音頻合成，使用循環神經網絡并利用包括雙 softmax 層、權剪枝和子尺度技術在内的多種設計來減少計算量。

Lorenzo-Trueba 等人(《Towards achieving robust universal neural vocoding》)， Paul 等人(《Speaker conditional wavernn: Towards universal neural vocoder for unseen speaker and recording conditions》)， Jiao 等人(《* Universal neural vocoding with parallel wavenet*》)進一步提高了聲碼器的魯棒性和通用性。

LPCNet (《Lpcnet: Improving neural speech synthesis through linear prediction》，《A real-time wideband neural vocoder at 1.6 kb/s using lpcnet》)将傳統的數字信号處理引入神經網絡，利用線性預測系數計算下一個波形點，同時利用輕量級 RNN 計算殘差。

LPCNet 根據梅爾倒譜系數( BFCC )特征生成語音波形，可以很容易地适應梅爾頻譜的條件。

接下來的一些工作從不同的角度對 LPCNet 進行了進一步的改進，如降低複雜度以實作加速(《Bunched lpcnet: Vocoder for low-cost neural text-to-speech systems》，《Gaussian lpcnet for multisample speech synthesis》，《Lightweight lpcnet-based neural vocoder with tensor decomposition》)，提高穩定性以獲得更好的品質(《Improving lpcnet-based text-to-speech with linear prediction-structured mixture density network》)。

基于 Flow 的語音編碼器

規範化 Flow (《Nice: Non-linear independent components estimation》，《Density estimation using real nvp》，《Variational inference with normalizing flows》，《Improved variational inference with inverse autoregressive flow》，《Glow: generative flow with invertible 1× 1 convolutions》)是一種生成模型。

它用一系列可逆映射來變換機率密度。

由于我們可以通過基于變量變化規則的可逆映射序列得到一個标準/歸一化的機率分布(如高斯)，這種基于流的生成模型稱為歸一化流。

在采樣期間，它通過這些變換的逆從一個标準機率分布生成資料。

神經 TTS 中使用的基于流的模型根據兩種不同的技術(《Normalizing flows for probabilistic modeling and inference》)可以分為兩類：1)自回歸變換(如平行 WaveNet 中的逆自回歸流)；2)二部變換(如 WaveGlow 中的 Glow )，如表 4 所示。

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

自回歸變換，如逆自回歸流( IAF )(《Improved variational inference with inverse autoregressive flow》)。

IAF 可以看作是自回歸流( AF )的雙重公式。AF訓練是并行的，采樣是順序的。相比之下， IAF 中的抽樣是并行的，而似然估計的推斷是序列的。

Parallel WaveNet 利用機率密度蒸餾将 IAF 的高效采樣與 AR 模組化的高效訓練結合起來。它使用一個自回歸的 WaveNet 作為教師網絡來指導學生網絡的訓練( Parallel WaveNet )來近似資料的可能性。

類似地， ClariNet 使用了 IAF 和教師蒸餾，并利用封閉式的 KL 散度來簡化和穩定蒸餾過程。雖然 Parallel Wavenet 和 ClariNet 可以并行生成語音，但它依賴于複雜的師生訓練，仍然需要大量的計算。

二部變換，例如 Glow 或 RealNVP 。

為了保證變換是可逆的，二部變換利用仿射耦合層，確定輸出可以從輸入計算，反之亦然。一些基于二部變換的聲碼器包括 WaveGlow 和 FloWaveNet ，它們實作了高語音品質和快速推理速度。

自回歸變換和二部變換都有各自的優缺點(《Waveflow: A compact flow-based model for raw audio》)：

1)自回歸變換通過模組化資料分布 x 和标準機率分布 z 之間的依賴關系，比二部變換更具表現力，但需要教師模型精餾，訓練時比較複雜。

2)兩部分變換具有更簡單的訓練管道，但通常需要更多的參數(例如，更深的層，更大的隐藏尺寸)來達到與自回歸模型相比較的能力。

為了結合自回歸和二部變換的優點， WavFlow 為音頻資料提供了基于似然的模型的統一視圖，以明确地交換模型容量的推理并行性。

這樣， WaveNet 和 WaveGlow 可以看作是 WaveFlow 的特例。

基于 GAN 的語音編碼器

生成對抗網絡( GANs )已廣泛應用于資料生成任務，如圖像生成、文本生成和音頻生成。

GAN 包括用于生成資料的生成器和用于判斷生成資料真實性的鑒别器。

許多聲碼器利用 GAN 來確定音頻生成品質，包括 WaveGAN (《Adversarial audio synthesis》)， GAN-TTS (《High fidelity speech synthesis with adversarial networks》)， MelGAN (《Melgan: Generative adversarial networks for conditional waveform synthesis》)， Parallel WaveGAN (《Parallel wavegan: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram》)， HiFi-GAN (《Hifi-gan: Generative adversarial networks for efficient and high fidelity speech synthesis》)，以及其他基于 GAN 的聲碼器 (《Probability density distillation with generative adversarial networks for high-quality parallel waveform generation》，《Quasiperiodic parallel wavegan vocoder: A non-autoregressive pitch-dependent dilated convolution model for parametric speech generation》，《Improved parallel wavegan vocoder with perceptually weighted spectrogram loss》，《Gan vocoder: Multi-resolution discriminator is all you need》，《Improve gan-based neural vocoder using pointwise relativistic leastsquare gan》，《Universal melgan: A robust neural vocoder for high-fidelity waveform generation in multiple domains》)。

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

我們總結了表 5 中每個聲碼器中使用的生成器、鑒别器和損耗的特征。

生成器

大多數基于神經網絡的聲碼器使用擴張性卷積來增加感受場來模拟波形序列的長依賴關系，并使用轉置卷積來對條件資訊(如語言特征或梅爾聲譜圖)進行采樣以比對波形序列的長度。

Yamamoto 等人(《Parallel wavegan: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram》)選擇對條件資訊進行一次上采樣，然後進行擴張卷積以保證模型容量。然而，這種上采樣過早地增加了序列長度，導緻較大的計算代價。

是以，一些聲碼器(《Melgan: Generative adversarial networks for conditional waveform synthesis》，《Hifi-gan: Generative adversarial networks for efficient and high fidelity speech synthesis》)選擇疊代上采樣條件資訊，進行擴大化卷積，避免了下層序列過長。具體來說， VocGAN (《Vocgan: A high- fidelity real-time vocoder with a hierarchically-nested adversarial network》)提出了一種多尺度發生器，可以從粗粒度到細粒度逐漸輸出不同尺度的波形序列。

HiFi-GAN 通過多接受場融合子產品并行處理不同長度的不同模式，并且還具有在合成效率和樣品品質之間權衡的靈活性。

鑒别器

關于鑒别器的研究集中在如何設計模型來捕獲波形特征，以便為發生器提供更好的引導信号。

我們對這些努力的回顧如下：

1) GAN-TTS 中提出的随機窗鑒權器，該鑒權器使用多個鑒權器，每個鑒權器都輸入不同的有條件資訊和無條件資訊的波形随機窗。随機視窗鑒别器有幾個優點，如以不同的互補方式評估音頻，與全音頻相比簡化真/假判斷，以及作為資料增強效應等。

2) MelGAN 提出的多尺度鑒别器，利用多個鑒别器來判斷不同尺度下的音頻(與原始音頻相比的降采樣比不同)。多尺度鑒别器的優點是每個尺度的鑒别器可以聚焦于不同頻率範圍内的特征。

3) HiFiGAN 中提出的多周期鑒别器，利用多個鑒别器，每個鑒别器接受具有周期的輸入音頻的等間隔采樣。具體來說，将長度為T的一維波形序列重塑為 2D 資料 [ p , T / p ] [p, T /p] [p,T/p] ，其中 p p p 為周期，并進行 2D 卷積處理。多周期鑒别器可以通過觀察輸入音頻在不同周期的不同部分來捕獲不同的隐式結構。

4) VocGAN 利用分級鑒别器對生成的波形進行從粗粒度到細粒度不同分辨率的判斷，指導生成器學習低頻和高頻聲波特征與波形之間的映射。

損失

除了正常的 GAN 損耗，如 WGAN-GP (《Improved training of wasserstein gans》)、鉸鍊損耗 GAN (《Geometric gan》)和 LS-GAN (《Least squares generative adversarial networks》)，其他特定損耗，如 STFT 損耗(《Fast spectrogram inversion using multi-head convolutional neural networks》，《Probability density distillation with generative adversarial networks for high-quality parallel waveform generation》)和特征比對損耗(《Autoencoding beyond pixels using a learned similarity metric》)也被利用。這些額外的損失可以提高對抗性訓練的穩定性和效率(《Parallel wavegan: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram》)，提高感覺音頻品質。 Gritsenko 等(《A spectral energy distance for parallel speech synthesis》)提出了帶有排斥項的廣義能量距離，以便更好地捕獲多模态波形分布。

基于 Diffusion 的語音編碼器

最近，有一些工作利用去噪擴散機率模型( DDPM 或 Diffusion )(《Denoising diffusion probabilistic models》)用于聲碼器，如 DiffWave (《Diffwave: A versatile diffusion model for audio synthesis》)、 WaveGrad (《Wavegrad: Estimating gradients for waveform generation》)和 PriorGrad (《Priorgrad: Improving conditional denoising diffusion models with data-driven adaptive prior》)。其基本思想是用擴散過程和反向過程來建立資料與潛伏分布的映射：在擴散過程中，波形資料樣本逐漸加入一些随機噪聲，最終變成高斯噪聲;在反向過程中，将随機高斯噪聲逐漸去噪為波形資料樣本。

基于擴散的聲碼器可以産生高品質的語音，但由于疊代過程較長，推理速度較慢。是以，許多關于擴散模型的研究(《Denoising diffusion implicit models》，《Learning to efficiently sample from diffusion probabilistic models》，《On fast sampling of diffusion probabilistic models》)正在研究如何在保持生成品質的同時減少推理時間。

其他聲碼器

一些工作利用基于神經的源濾波模型産生波形(《Neural source-filter-based waveform model for statistical parametric speech synthesis》，《Neural source-filter waveform models for statistical parametric speech synthesis》，《Neural harmonic-plus-noise waveform model with trainable maximum voice frequency for text-to-speech synthesis》)，目的是在保持可控語音生成的同時獲得高語音品質。 Govalkar 等人(《A comparison of recent neural vocoders for speech signal reconstruction》)對不同類型的聲碼器進行了全面的研究。 Hsu 等人(《Towards robust neural vocoding for speech generation: A survey》)通過綜合實驗對幾種常用的聲碼器進行評估，研究了聲碼器的魯棒性。

讨論

我們總結了聲碼器中使用的各種生成模型的特點，如表 6 所示：

1)在數學的簡單性方面，基于自回歸( AR )的模型比其他生成模型(如 VAE , Flow , Diffusion , GAN )更容易。

2)除 AR 外的所有生成模型都支援并行語音生成。

3)除 AR 模型外，所有生成模型都能在一定程度上支援潛在操作(部分基于 GAN 的聲碼器不以随機高斯噪聲作為模型輸入，是以不支援潛在操作)。

4)基于 GAN 的模型不能估計資料樣本的可能性，而其他模型則有這一優勢。

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

2.5 面向完全端到端 TTS

完全端到端 TTS 模型可以直接從字元或音素序列生成語音波形，具有以下優點：

1)它需要較少的人的标注和特征開發(例如，文本和語音之間的對齊資訊)

2)聯合優化和端到端優化可以避免級聯模型(如文本分析 + 聲學模型 + 聲碼器)中的誤差傳播;

3)降低教育訓練、開發和部署成本。

然而， TTS 模型的端到端的訓練面臨很大的挑戰，主要是由于文本和語音波形之間的模态不同，以及字元/音素序列與波形序列之間存在巨大的長度不比對。

例如，對于一個長度為 5 秒、約 20 個單詞的語音，音素序列的長度約為 100 ，而波形序列的長度為 80k (如果采樣率為 16kHz )。由于記憶的限制，很難将整個話語的波形點進行模型訓練。如果隻使用一個簡短的音頻剪輯進行端到端訓練，就很難捕獲上下文表示。

由于完全端到端訓練的困難，神經 TTS 的發展遵循着一個逐漸向全端到端模型發展的過程。圖 4 說明了這個從早期統計參數綜合開始的漸進過程。走向完整的端到端模型的過程通常包含這些更新：

1)簡化文本分析子產品和語言特征。在 SPSS 中，文本分析子產品包含了文本歸一化、短語/單詞/音節分詞、詞性标注、韻律預測、字-音轉換(包括多音消歧)等功能。在端到端模型中，隻保留文本規範化和字音素轉換，将字元轉換為音素，或者直接以字元作為輸入，删除整個文本分析子產品。

2)聲學特征簡化，将 SPSS 中複雜的聲學特征如 MGC 、 BAP 、 F0 簡化為梅爾譜圖。

3)單個端到端模型替代兩個或三個子產品。例如，聲學模型和聲碼器可以被單一的聲碼器模型(如 WaveNet )取代。

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

階段 0 。統計參數綜合使用了三個基本子產品，其中文本分析子產品将字元轉換為語言特征，聲學模型從語言特征生成聲學特征(其中通過聲碼分析獲得目标聲學特征)，然後聲碼器通過參數計算合成語音波形。

階段 1 。 Wang 等人(《First step towards end-to-end parametric tts synthesis: Generating spectral parameters with neural attention》)在統計參數綜合中探索将文本分析與聲學模型結合成端到端聲學模型，該模型直接從音素序列生成聲學特征，然後使用SPSS中的聲碼器生成波形。

階段 2 。 WaveNet 首次提出從語言特征直接生成語音波形，可以看作是聲模型和聲碼器的結合。這類模型仍然需要文本分析子產品來生成語言特征。

階段 3 。我們進一步提出了 Tacotron 來簡化語言和聲學特征，利用編碼器-注意-解碼器模型直接預測字元/音素的線性聲譜圖，并利用 Griffin-Lim 将線性聲譜圖轉換為波形。接下來的工作如 DeepVoice 3 、 Tacotron 2 、 TransformerTTS 和 FastSpeech 1/2 從字元/音素中預測出語音譜圖，并進一步使用神經聲碼器如 WaveNet、 WaveRNN 、 WaveGlow 和 Parallel WaveGAN 來生成波形。

階段 4 。一些完全端到端 TTS 模型被開發用于直接文本到波形合成，如表 7 所示。 Char2Wav 利用基于 RNN 的編碼器-注意-解碼器模型從字元中生成聲學特征，然後使用 SampleRNN 生成波形。将這兩個模型聯合用于直接語音合成。類似地， ClariNet 聯合調整了一個自回歸聲學模型和一個非自回歸聲碼器來産生直接波形。 FastSpeech 2 通過完全平行的結構直接從文本中生成語音，可以大大加快推理速度。為了降低文本-波形聯合訓練的難度，該方法利用一個輔助梅爾譜圖解碼器來幫助學習音素序列的上下文表示。一項名為 EATS 的并發工作也直接從字元/音素中生成波形，它利用了持續時間插值和軟動态時間包裝損耗來進行端到端對齊學習。 Wave-Tacotron 在 Tacotron 上建構了一個基于流的解碼器來直接生成波形，該解碼器在流部分使用并行波形生成，但在 Tacotron 部分仍然使用自回歸生成。

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

2.6 其他分類

除了從圖 3 所示的關鍵元件和資料流的角度來看的主要分類之外，我們還可以從幾個不同的分類中對 TTS 工作進行分類，如圖 5 所示：

1)自回歸或非自回歸。我們可以将這些工作分為自回歸和非自回歸生成模型。

2)生成模型。由于TTS是一個典型的序列生成任務，可以通過典型的生成模型進行模組化，我們可以按照生成模型的不同進行分類:正常序列生成模型、FLOW模型、GAN模型、VAE模型和Diffusion模型。

3)網絡結構。我們可以根據作品的網絡結構進行劃分，如CNN、RNN、self-attention、hybrid structures(其中包含不止一種結構，如CNN+RNN、CNN+self-attention)。

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

神經 TTS 模型的進化

為了更好地了解神經TTS的各種研究工作及其關系的發展，我們闡述了神經TTS模型的演變，如圖6所示。需要注意的是，我們是根據論文公開的時間(如放到arXiv上)來組織研究工作的，而不是之後正式發表。我們選擇早期，因為我們欣賞研究人員盡早公開他們的論文，以鼓勵知識共享。由于關于神經TTS的研究工作非常豐富，我們在圖6中隻選取了一些有代表性的工作，在表18中列出了更多的工作。

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

3 TTS 中的進階主題

3.1 背景與分類

在前一節中，我們已經從基本模型元件的角度介紹了神經TTS。在本節中，我們回顧了神經TTS中的一些進階主題，旨在推動前沿和覆寫更多實際産品的使用。具體而言，由于TTS是典型的序列到序列生成任務，自回歸生成速度較慢，如何加快自回歸生成或減小模型規模以實作快速語音合成是一個熱門的研究課題(第3.2節)。

一個好的語音合成系統應該生成自然和可了解的語音，而大量的語音合成研究工作旨在提高語音合成的可了解性和自然度。例如，在訓練TTS模型的資料不足的低資源場景中，合成語音可能具有低的可了解性和自然度。是以，很多工作的目标是在低資源設定下建立資料高效的TTS模型(第3.3節)。

由于TTS模型容易出現魯棒性問題，生成的語音通常存在跳詞和重複問題，影響語音的可了解性，是以很多工作都是為了提高語音合成的魯棒性(第3.4節)。

為了提高自然度，許多作品的目的是模拟、控制和轉移言語的風格/韻律，以産生表達性的言語(第3.5節)。

調整TTS模型以支援任何目标講話者的聲音對于廣泛使用TTS是非常有幫助的。是以，在有限的适配資料和參數下，以高品質的語音進行高效的語音适配對于實際應用至關重要(第3.6節)。

圖7顯示了這些進階主題的分類。

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

3.2 快速 TTS

文本語音合成系統通常部署在雲伺服器或嵌入式裝置中，對合成速度要求較高。然而，早期的神經TTS模型通常采用自回歸的mel譜圖和波形生成，這對于較長的語音序列來說是非常緩慢的(例如，如果跳數為10ms, 1秒的語音通常有500個mel譜圖，如果采樣率為24kHz，波形點為24k)。

為了解決這個問題，人們利用了不同的技術來加快TTS模型的推導：

（1）非自回歸生成，它并行生成熔點譜圖和波形;

（2）輕量化高效的模型結構;

（3）利用語音領域知識進行快速語音合成的技術。我們将如下介紹這些技術。

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

并行生成

表8總結了典型的模組化範式、相應的TTS模型以及訓練和推理的時間複雜度。可以看出，使用基于RNN的自回歸模型(《Tacotron: Towards end-to-end speech synthesis》，《Natural tts synthesis by conditioning wavenet on mel spectrogram predictions》，《Samplernn: An unconditional end-to-end neural audio generation model》，《Lpcnet: Improving neural speech synthesis through linear prediction》)的TTS模型在訓練和推理方面都比較慢，計算速度為O(N)，其中N為序列長度。

為了避免RNN結構導緻的慢訓練時間，DeepVoice 3和TransformerTTS利用了CNN或基于自我注意的結構，這種結構可以支援并行訓練，但仍然需要自回歸推理。為了加快推理速度，FastSpeech 1/2設計了一個前饋Transformer，利用自注意結構進行并行訓練和推理，其中計算減少到O(1)。

大多數基于GAN的mel譜圖和波形生成模型(《Melgan: Generative adversarial networks for conditional waveform synthesis》，《Hifi-gan: Generative adversarial networks for efficient and high fidelity speech synthesis》，《Fastspeech 2: Fast and high-quality end-to-end text to speech》，《End-to-end adversarial text-to-speech》)是非自回歸的，在訓練和推斷中都使用O(1)計算。Parallel WaveNet和ClariNet利用逆自回歸流，可以實作并行推理，但需要教師精餾進行并行訓練。

WaveGlow和FloWaveNet利用生成流進行并行訓練和推理。然而，他們通常需要堆疊多個流疊代T，以確定資料和之前分布之間映射的品質。與基于流的模型相似，基于擴散的模型(《Wavegrad: Estimating gradients for waveform generation》，《Diffwave: A versatile diffusion model for audio synthesis》，《Priorgrad: Improving conditional denoising diffusion models with data-driven adaptive prior》，《Diff-tts: A denoising diffusion model for text-to-speech》，《Fast and lightweight on-device tts with tacotron2 and lpcnet》)在正向和反向過程中也需要多個擴散步驟T，這增加了計算量。

輕量化模型

雖然非負自回歸可以充分利用推理加速的并行計算，模型參數的數量和計算總成本不降低，這使它慢當部署在行動電話或嵌入式裝置，因為這些裝置不夠強大的并行計算能力。

是以，即使使用自回歸生成，我們也需要設計計算成本更低的輕量級高效模型來提高推理速度。設計輕量化模型的一些廣泛使用的技術包括剪枝、量化、知識蒸餾(《Distilling the knowledge in a neural network》)和神經結構搜尋(《Lightspeech: Lightweight and fast text to speech with neural architecture search》，《Nas-bert: Taskagnostic and adaptive-size bert compression with neural architecture search》)等。

WaveRNN使用雙softmax、權值剪枝、子尺度預測等技術來加速推理。LightSpeech利用神經架構搜尋來尋找輕量級架構，進一步将FastSpeech 2的推理速度提高6.5倍，同時保持語音品質。SqueezeWave利用波形重塑來減少時間長度，并将一維卷積替換為深度可分離卷積來降低計算成本，同時實作類似的音頻品質。

Kanagawa和Ijima(《Lightweight lpcnet-based neural vocoder with tensor decomposition》)利用張量分解對LPCNet的模型參數進行壓縮。Hsu和Lee(《Wg-wavenet: Real-time high-fidelity speech synthesis without gpu》)提出了一個基于大量壓縮流的模型來減少計算資源，以及一個基于wavenet的後過濾器來保持音頻品質。DeviceTTS(《Devicetts: A small-footprint, fast, stable network for on-device text-to-speech》)利用DFSMN(《Deep-fsmn for large vocabulary continuous speech recognition》)和混合分辨率解碼器的模型結構在一個解碼步驟中預測多幀以加快推理。

LVCNet對不同的波形間隔采用位置變量卷積，其中卷積系數由mel譜圖預測。它加快了平行波根聲碼器的4倍沒有任何退化的音質。Wang等人(《Fcl-taco2: Towards fast, controllable and lightweight text-to-speech synthesis》)提出了一種半自回歸生成mel譜圖的模式，其中mel譜圖對單個音位以自回歸模式生成，對不同音位以非自回歸模式生成。

加速領域知識

可以利用來自語音的領域知識來加快推理，如線性預測(《Lpcnet: Improving neural speech synthesis through linear prediction》)、多波段模組化(《Durian: Duration informed attention network for speech synthesis》)、子尺度預測(《Efficient neural audio synthesis》)、多幀預測(《Fast, compact, and high quality lstm-rnn based statistical parametric speech synthesizers for mobile devices》)、流合成(《High quality streaming speech synthesis with low, sentence-length-independent latency》)等。LPCNet将數字信号處理與神經網絡相結合，利用線性預測系數計算下一個波形，利用輕量級模型預測殘內插補點，加快了自回歸波形生成的推理。

另一種用于加快聲碼器推理速度的技術是子帶模組化，它将波形劃分為多個子帶以實作快速推理。典型模型包括DurIAN、多波段MelGAN、子波段WaveNet和多波段LPCNet。集束LPCNet通過樣本集束和比特集束降低了LPCNet的計算複雜度，實作了2倍以上的加速。流TTS 一旦有輸入标記出現，就可以合成語音，而無需等待整個輸入句子，也可以加快推理速度。

FFTNet使用一個簡單的架構來模拟快速傅裡葉變換(FFT)，它可以實時生成音頻樣本。Okamoto等人(《Improving fftnet vocoder with noise shaping and subband approaches》)利用噪聲整形和子帶技術進一步增強了FFTNet，在保持小模型尺寸的同時提高了語音品質。

Popov等人(《Fast and lightweight on-device tts with tacotron2 and lpcnet》)提出幀分裂和交叉衰落并行合成波形的某些部分，然後将合成的波形連接配接在一起，以確定在低端裝置上快速合成。Kang等人(《Fast dctts: Efficient deep convolutional text-to-speech》)利用網絡縮減和保真度改善技術(如組高速公路激活)加速DCTTS(《Efficiently trainable textto-speech system based on deep convolutional networks with guided attention》)，該技術可以用單個CPU線程實時合成語音。

3.3 低資源 TTS

建構高品質的 TTS 系統通常需要大量高品質的成對文本和語音資料。然而，世界上有7000多種語言，而大多數語言都缺乏用于開發TTS系統的教育訓練資料。是以，流行的商業化語音服務隻能支援數十種語言。對低資源語言支援TTS不僅具有商業價值，而且有利于社會公益。

是以，很多研究工作都是在低資料資源場景下建構TTS系統。我們在表9中總結了一些用于低資源TTS的代表性技術，并将這些技術介紹如下。

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

自我指導訓練。雖然配對的文本和語音資料很難收集，但不配對的語音和文本資料(特别是文本資料)相對容易獲得。自我監督的預訓練方法可以用來提高語言了解或語音生成能力(《Semi-supervised training for improving data efficiency in end-to-end speech synthesis》，《Word embedding for recurrent neural network based tts synthesis》，《Joint training framework for text-to-speech and voice conversion using multi-source tacotron and wavenet》，《Towards transfer learning for end-to-end speech synthesis from deep pre-trained language models》)。例如，TTS中的文本編碼器可以通過預先訓練的BERT模型進行增強(《Png bert: Augmented bert on phonemes and graphemes for neural tts》)，TTS中的語音解碼器可以通過自回歸的mel譜圖預測進行預先訓練或與語音轉換任務聯合訓練。

此外，語音可以量化為離散的标記序列，類似于音素或字元序列(《Vqvae unsupervised unit discovery and multi-scale code2spec inverter for zerospeech challenge 2019》)。這樣，可以将量化的離散标記和語音視為僞配對資料，預先訓練一個TTS模型，然後對少數真正配對的文本和語音資料進行微調(《Towards unsupervised speech recognition and synthesis with quantized speech representation learning》，《Semi-supervised learning for multi-speaker text-to-speech synthesis using discrete speech representation》，《Unsupervised learning for sequence-to-sequence text-to-speech for low-resource languages》)。

跨語言轉移。盡管配對文本和語音資料在低資源語言中是稀缺的，但在豐富資源語言中卻是豐富的。由于人類語言擁有相似的發音器官、發音(《The evolutionary history of the human speech organs》)和語義結構(《Multilingual neural machine translation with language clustering》)，在豐富資源語言上預先訓練TTS模型可以幫助在低資源語言中實作文本和語音之間的映射(《End-to-end text-to-speech for low-resource languages by cross-lingual transfer learning》，《Lrspeech: Extremely low-resource speech synthesis and recognition》，《Hierarchical transfer learning for multilingual, multi-speaker, and style transfer dnn-based tts on low-resource languages》，《Efficient neural speech synthesis for lowresource languages through multilingual modeling》，《A dnn-based mandarin-tibetan cross-lingual speech synthesis》，《A study of multilingual neural machine translation》，《Deep learning for mandarintibetan cross-lingual speech synthesis》，《One model, many languages: Meta-learning for multilingual text-to-speech》，《Uwspeech: Speech to speech translation for unwritten languages》)。

通常，豐富語言和低資源語言之間有不同的音素集。是以，Chen等人(《End-to-end text-to-speech for low-resource languages by cross-lingual transfer learning》)提出将不同語言的音素集之間的嵌入映射，LRSpeech摒棄了預先訓練的音素嵌入，對低資源語言從頭開始進行音素嵌入。采用國際音标字母(IPA)或位元組表示來支援多種語言的任意文本。此外，在進行跨語言遷移時，也可以考慮語言相似性。

交叉說話人轉換。當某一個說話人的語音資料有限時，可以利用其他說話人的資料來提高該說話人的合成品質。這可以通過将其他發言者的聲音轉化為這個目标聲音通過轉換來增加訓練資料(《Low-resource expressive text-to-speech using data augmentation》)，或通過調整TTS模型訓練其他聲音這一目标聲音通過聲音的适應或克隆(《Sample efficient adaptive text-to-speech》，《Adaspeech: Adaptive text to speech for custom voice》)将在3.6節中介紹。

語音鍊/轉換。文本到語音(TTS)和自動語音識别(ASR)是兩個雙重任務(《Dual Learning》)，可以互相利用以改善彼此。語音鍊(《Listening while speaking: Speech chain by deep learning》，《Machine speech chain with one-shot speaker adaptation》)和反向轉換(《Almost unsupervised text to speech and automatic speech recognition》，《Lrspeech: Extremely low-resource speech synthesis and recognition》)等技術利用額外的未配對文本和語音資料來提高TTS和ASR的性能。

陌生資料集挖掘。在某些情況下，Web中可能存在一些低品質的成對文本和語音資料。Cooper (《Text-to-speech synthesis using found data for low-resource languages》)， Hu等人(《Neural text-to-speech adaptation from low quality public recordings》)提出挖掘這類資料并開發複雜的技術來訓練TTS模型。一些技術如語音增強(《Speech enhancement of noisy and reverberant speech for text-to-speech》)、去噪(《Denoispeech: Denoising text to speech with frame-level noise modeling》)和解糾纏(《Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis》，《Disentangling correlated speaker and noise for speech synthesis via data augmentation and adversarial factorization》)可以用來提高陌生挖掘的語音資料的品質。

3.4 魯棒 TTS

一個好的TTS系統應該是健壯的，即使遇到問題也能根據文本生成正确的語音。在神經TTS中，當從字元/音素序列生成mel譜圖序列時，聲學模型中經常出現如單詞跳過、重複和注意力崩潰等魯棒性問題。

從根本上說，這些健壯問題的原因有兩類：

1)學習字元/音素和mel聲譜之間的排列困難；

2)自回歸生成中産生的曝光偏差和誤差傳播問題。

聲碼器不會面臨嚴重的魯棒問題，因為聲學特征和波形已經明智地對齊(即，每一幀的聲學特征對應一定數量(跳數)的波形點)。是以，現有的魯棒TTS研究分别解決了上述兩個問題。

對于文字/音素與mel譜圖的對齊學習，作品可分為兩個方面：

1）增強注意機制的穩健性(《Tacotron: Towards end-to-end speech synthesis》，《Char2wav: End-to-end speech synthesis》，《Natural tts synthesis by conditioning wavenet on mel spectrogram predictions》，《Forward attention in sequence-tosequence acoustic modeling for speech synthesis》，《Efficiently trainable textto-speech system based on deep convolutional networks with guided attention》，《Robust sequence-to-sequence acoustic modeling with stepwise monotonic attention for neural tts》，《Multispeech: Multi-speaker text to speech with transformer》)；

2）移除注意，明确預測持續時間，以連接配接文本和語音之間的長度不比對(《Fastspeech: Fast, robust and controllable text to speech》，《Durian: Duration informed attention network for speech synthesis》，《End-to-end adversarial text-to-speech》，《Parallel tacotron 2: A non-autoregressive neural tts model with differentiable duration modeling》)。

對于自回歸生成中的曝光偏差和誤差傳播問題，工作還可以分為兩個方面：

1）改進自回歸生成以緩解暴露偏差和誤差傳播問題(《A new gan-based end-to-end tts training algorithm》，《A new end-to-end long-time speech synthesis system based on tacotron2》，《Teacher-student training for robust tacotron-based tts》，《Almost unsupervised text to speech and automatic speech recognition》)；

2）去除自回歸生成，而使用非自回歸生成(《Fastspeech: Fast, robust and controllable text to speech》，《Fastspeech 2: Fast and high-quality end-to-end text to speech》，《Non-autoregressive neural text-to-speech》，《End-to-end adversarial text-to-speech》)。

我們總結了這些類别中用于提高健壯性的一些流行技術，如表10所示。解決這兩個問題的工作可能有重疊之處，比如一些工作可能增強了AR或NAR生成的注意機制，同樣的，時間預測可以同時應用于AR和NAR生成。我們将在下文回顧這些類别。

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

3.4.1 增強注意力

在自回歸聲學模型中，大量的單詞跳過/重複和注意崩潰問題是由編碼器-解碼器注意中學習到的不正确的注意對齊引起的。為了緩解這一問題，我們考慮了文本(字元/音素)序列和mel譜圖序列之間的對齊的一些特性：

1) 局部性：一個字/音素标記可以對齊一個或多個連續的mel譜幀，而一個mel譜幀隻能對齊一個字/音素标記，這樣可以避免注意模糊和注意崩潰；

2)單調性：如果A字在B字後面，A字對應的mel譜圖也在B字對應的mel譜圖後面，這樣可以避免單詞重複；

3)完整性：每個字元/音素标記必須包含至少一個梅爾頻譜幀，避免跳過單詞。

根據是否滿足上述三個屬性，我們分析了增強注意力的技術(見表10)，并在表11中列出了它們。我們将在下文描述這些技術。

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

基于内容的關注。TTS采用的早期注意機制(例如Tacotron)是基于内容的(《Neural machine translation by jointly learning to align and translate》)，其中注意分布是由來自編碼器和解碼器的隐藏表征之間的比對程度決定的。基于内容的注意适用于神經機器翻譯等任務，其中源标記和目标标記之間的對齊純粹基于語義(内容)。

然而，對于自動語音識别(《Attention-based models for speech recognition》，《Listen, attend and spell: A neural network for large vocabulary conversational speech recognition》，《State-of-the-art speech recognition with sequence-to-sequence models》)和文本到語音合成(《Tacotron: Towards end-to-end speech synthesis》)等任務，文本和語音之間的對齊具有一些特定的屬性。例如，在TTS(《Robust sequence-to-sequence acoustic modeling with stepwise monotonic attention for neural tts》)中，注意對齊應該是局部的、單調的和完整的。是以，應該設計先進的注意機制來更好地利用這些特性。

基于位置的注意。考慮到文本和語音的對齊依賴于它們的位置，基于位置的注意力(《Generating sequences with recurrent neural networks》，《Location-relative attention mechanisms for robust long-form speech synthesis》)被提出利用位置資訊進行對齊。Char2Wav、VoiceLoop和MelNet等幾個TTS模型采用了基于位置的注意力。如表11所示，如果處理得當，基于位置的注意力可以保證單調性。

内容/位置混合的注意。為了結合基于内容的注意和基于位置的注意的優點，Chorowski等人(《Attention-based models for speech recognition》)、Shen等人(《Natural tts synthesis by conditioning wavenet on mel spectrogram predictions》)引入了位置敏感注意:在計算目前的注意對齊時，使用之前的注意對齊。這樣，由于單調對齊，注意力會更加穩定。

單調的注意。對于單調注意(《Online and linear-time attention by enforcing monotonic alignments》，《Monotonic chunkwise attention》，《Initial investigation of an encoder-decoder end-to-end tts framework using marginalization of monotonic hard latent alignments》，《Feathertts: Robust and efficient attention based neural tts》)，注意位置是單調增加的，這也利用了文本和語音之間的對齊是單調的先驗。這樣可以避免跳過和重複的問題。然而，在上述單調注意中不能保證完備性。是以，He等人(《Robust sequence-to-sequence acoustic modeling with stepwise monotonic attention for neural tts》)提出了逐級單調注意，在每個解碼步驟中，注意對齊位置最多向前移動一步，不允許跳過任何輸入單元。

視窗或非對角線罰款。由于注意對齊是單調的、對角線的，是以Chorowski等人(《Attention-based models for speech recognition》)、Tachibana等人(《Efficiently trainable textto-speech system based on deep convolutional networks with guided attention》)、Zhang等人(《Forward attention in sequence-tosequence acoustic modeling for speech synthesis》)、Ping等人(《* Deep voice 3: 2000-speaker neural text-to-speech*》)、Chen等人(《Multispeech: Multi-speaker text to speech with transformer》)提出将編碼結果的注意限制在視窗子集中。這樣，學習的靈活性和難度都降低了。Chen等利用懲罰損失進行非對角注意配置設定，通過建構頻帶掩模并鼓勵在對角頻帶内學習注意。

加強編碼器-解碼器連接配接。由于語音相鄰幀間的相關性更強，解碼器本身包含了足夠的資訊來預測下一幀，進而容易忽略編碼器的文本資訊。是以，一些研究提出了增強編碼器和解碼器之間的連接配接，進而提高注意對齊。Wang等人(《Tacotron: Towards end-to-end speech synthesis》)，Shen等人(《Natural tts synthesis by conditioning wavenet on mel spectrogram predictions》)使用多幀預測，在每個解碼器步生成多個不重疊的輸出幀。這樣，為了預測連續幀，解碼器被迫利用編碼器側的資訊，這可以提高對齊學習。

其他作品也使用在解碼器前的prenet中一個大的dropout，或者在prenet中一個小的隐藏大小作為瓶頸，這可以防止在預測目前幀時簡單地複制最後一幀。解碼器可以從編碼器側獲得更多的資訊，有利于對齊學習。Ping等人(《Deep voice 3: 2000-speaker neural text-to-speech》)，Chen等人提出增強源與目标序列之間位置資訊的連接配接，有利于注意對齊學習。Liu等人(《Maximizing mutual information for tacotron》)利用基于CTC(《Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks》)的ASR作為周期損失來鼓勵生成的mel譜圖包含文本資訊，這也可以增強編碼器-解碼器連接配接，進而更好地進行注意對齊。

位置的注意。一些非自回歸生成模型(《Non-autoregressive neural text-to-speech》，《Flowtts: A non-autoregressive network for text to speech based on flow》)利用位置資訊作為查詢來參加來自編碼器的鍵和值，這是另一種建立編碼器和解碼器之間的連接配接以進行并行生成的方法。

3.4.2 用持續時間預測取代注意力

改進語篇注意對齊可以在一定程度上緩解魯棒性問題，但不能完全避免魯棒性問題。是以，一些著作(《Fastspeech: Fast, robust and controllable text to speech》，《Durian: Duration informed attention network for speech synthesis》，《Glow-tts: A generative flow for text-to-speech via monotonic alignment search》，《End-to-end adversarial text-to-speech》)提出了完全去除編碼器-解碼器-注意，明确預測每個字元/音素的持續時間，并根據持續時間擴充文本隐藏序列，以比對梅爾譜圖序列的長度。

然後，模型可以以自回歸或非自回歸的方式生成mel譜圖序列。有趣的是，早期的SPSS使用持續時間進行對齊，然後序列到序列的模型去掉了持續時間，而使用注意，而後期的TTS模型丢棄了注意，再次使用持續時間，這是一種技術複興。

現有的神經TTS持續時間預測研究主要從兩個方面進行：1）使用外部對齊工具獲得持續時間标簽或聯合訓練獲得持續時間标簽；2）端到端優化持續時間預測，或者在訓練中使用ground-truth持續時間，在推理中使用predicted持續時間。我們根據表12中的兩個透視圖對工作進行了總結，并描述如下。

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

外部校準。利用外部對齊工具(《The aligner: Text-to-speech alignment using markov models》，《Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks》，《Montreal forced aligner: Trainable text-speech alignment using kaldi》，《Moboaligner: A neural alignment model for non-autoregressive tts with monotonic boundary search》)的作品根據對齊工具可以分為幾個類别：

1）編碼器-解碼器注意：FastSpeech從一個自回歸聲學模型的注意對齊中獲得持續時間标簽。SpeedySpeech遵循了FastSpeech的類似管道，從自回歸教師模型中提取時長，但用純CNN代替了整個網絡結構。

2) CTC對齊。Beliaev等人的(《Talknet: Fully-convolutional nonautoregressive speech synthesis model》)利用基于CTC的ASR模型提供音位和mel譜圖序列之間的對齊。

3) HMM對齊：FastSpeech 2利用基于HMM的蒙特利爾強制對齊(MFA)來擷取持續時間。其他作品如DurIAN ， RobuTrans ， Parallel Tacotron ， Non-Attentive Tacotron使用強制對齊或語音識别工具進行對齊。

内部校準。AlignTTS遵循FastSpeech的基本模型結構，但利用基于動态規劃的方法，使用多階段訓練學習文本和mel譜圖之間的對齊。JDI-T遵循FastSpeech從自回歸教師模型中提取時長，但聯合訓練自回歸和非自回歸模型，不需要兩階段訓練。Glow-TTS利用一種新的單調對齊搜尋來提取持續時間。EATS利用插值和軟動态時間扭曲(DTW)損失，以完全端到端方式優化持續時間預測。

非端到端優化。典型的持續時間預測方法通常使用外部/内部對齊工具獲得的持續時間進行訓練，并使用預測的持續時間進行推斷。預測的持續時間不是端到端的優化接收引導信号(梯度)從mel譜圖損失。

端到端優化。為了聯合優化持續時間以獲得更好的韻律效果，EATS利用一個内部子產品預測持續時間，并借助持續時間插值和軟DTW損失來端到端優化持續時間。Parallel Tacotron 2遵循了EATS的實踐，以確定可區分的持續時間預測。非專注的Tacotron提出了一種時長預測的半監督學習，在沒有時長标簽的情況下，預測的時長可以用于上采樣。

3.4.3 增強 AR 生成

自回歸序列生成通常存在暴露偏差和誤差傳播(《Scheduled sampling for sequence prediction with recurrent neural networks》，《Beyond error propagation in neural machine translation: Characteristics of language also matter》)。暴露偏差是指序列生成模型通常以之前的ground-truth值作為輸入(即teacher- forced)進行訓練，而在推理中以之前的預測值作為輸入進行序列自回歸生成。訓練和推理之間的不比對會導緻錯誤傳播推理，其中預測錯誤可以沿着生成的序列快速積累。

一些工作已經研究了不同的方法來緩解曝光偏差和誤差傳播問題。Guo等人(《A new gan-based end-to-end tts training algorithm》)杠杆教授強迫來緩解真實資料和預測資料的不同分布之間的不比對。劉等人(《Teacherstudent training for robust tacotron-based tts》)進行師生蒸餾來減少暴露的偏見問題，老師與teacher-forcing訓練模式，學生以先前預測的值作為輸入和優化來減少老師和學生之間的距離隐狀态模型。

由于錯誤傳播，生成的mel譜圖序列的右部分通常比左部分差，一些工作利用從左到右和從右到左的生成(《Efficient bidirectional neural machine translation》)來進行資料增強(《Almost unsupervised text to speech and automatic speech recognition》)和正則化(《Forward-backward decoding sequence for regularizing end-to-end tts》)。Vainer和Dušek(《* Speedyspeech: Efficient neural speech synthesis*》)通過向每個輸入譜圖像素添加一些随機高斯噪聲來模拟預測誤差，利用一些資料增強來緩解暴露偏差和誤差傳播問題，通過用随機幀替換若幹幀來降低輸入譜圖的品質，以鼓勵模型使用暫時更遠處的幀，等等。

3.4.4 用 NAR 代取代 AR 生成

雖然上述方法可以緩解AR産生中的曝光偏差和誤差傳播問題，但不能徹底解決問題。是以，一些作品直接采用非自回歸生成來避免這些問題。根據注意使用情況和持續時間預測情況可分為兩類。一些工作，如ParaNet和Flow-TTS使用位置注意(《Deep voice 3: 2000-speaker neural text-to-speech》)[262]在文本和語音對齊并行生成。剩下的工作如FastSpeech ， EATS使用持續時間預測來橋接文本和語音序列之間的長度不比對。

基于以上小節的介紹，我們根據對齊學習和AR/NAR生成，有了一個新的TTS類别，如表13所示：1）AR+Attention，如Tacotron ， DeepVoice 3 ， TransformerTTS；2） AR + Non-Attention(持續時間)，如DurIAN ， RobuTrans，和Non-Attention Tacotron；3）Non-AR+Attention，如ParaNet ， Flow-TTS， VARA-TTS；4） NOn-AR + Non-Attention，如FastSpeech 1/2 ， Glow-TTS，和EATS。

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

3.5 富有表現力的 TTS

從文本到語音的目标是合成可了解和自然的語音。合成聲音的自然程度在很大程度上取決于合成聲音的表現力，而表現力是由合成聲音的内容、音色、韻律、情感、風格等多種特征所決定的。表現性TTS的研究涉及内容、音色、韻律、風格、情感等的模組化、解纏、控制和傳遞。我們将在本小節中回顧這些主題。

表達性語音合成的關鍵是處理一對多映射問題，即同一文本在時長、音高、音量、說話人風格、情感等方面有多個語音變體對應。在沒有足夠的輸入資訊的情況下，在正則L1損失(《Speech probability distribution》，《Probabilistic modeling of speech in spectral domain using maximum likelihood estimation》)下模組化一對多映射會導緻過平滑的梅爾譜圖預測(《A speech parameter generation algorithm considering global variance for hmm-based speech synthesis》，《Postfilters to modify the modulation spectrum for statistical parametric speech synthesis》)。，而不是捕捉每一個語音表達的表現力，這将導緻低品質和表達性的語音。是以，将這些變異資訊作為輸入，并對這些變異資訊進行更好的模組化，對于緩解這一問題，提高合成語音的表達性具有重要意義。

此外，通過提供變異資訊作為輸入，我們可以對變異資訊進行分解、控制和傳輸：1）通過調整推理中的這些變異資訊(任何特定說話人的音色、風格、重音、語速等)，我們可以控制合成的語音；2）通過提供另一種風格對應的變體資訊，可以将語音轉換為該風格；3）為了實作細粒度的語音控制和傳遞，我們需要理清内容與韻律、音色與噪聲等不同的變異資訊。

在本小節的其餘部分中，我們首先對這些變異資訊進行綜合分析，然後介紹一些對這些變異資訊進行模組化、解糾纏、控制和傳遞的進階技術。

3.5.1 變異資訊的分類

我們首先将合成聲音所需的資訊分為四個方面：

（1）文本資訊，可以是字元，也可以是音素，代表合成語音的内容(即要說什麼)。一些研究通過增強的詞嵌入或文本預處理來改進文本的表示學習(《Towards transfer learning for end-to-end speech synthesis from deep pre-trained language models》，《Pre-trained text embeddings for enhanced text-to-speech synthesis》，《Improving prosody with linguistic and bert derived features in multi-speaker based mandarin chinese neural tts》，《Png bert: Augmented bert on phonemes and graphemes for neural tts》)，目的是提高合成語音的品質和表達能力。

（2）說話人或音色資訊，即代表說話人的特征(即說話人是誰)。一些多揚聲器TTS系統通過揚聲器查找表或揚聲器編碼器顯式地模組化揚聲器表示(《Deep voice 2: Multi-speaker neural text-to-speech》，《Deep voice 3: 2000-speaker neural text-to-speech》，《Transfer learning from speaker verification to multispeaker text-to-speech synthesis》，《Boffin tts: Few-shot speaker adaptation by bayesian optimization》，《Multispeech: Multi-speaker text to speech with transformer》)。

（3）韻律、風格或情感資訊，包括語音的語調、重音和節奏，代表了如何讀出文本(《Experimental and theoretical advances in prosody: A review》，《Intonational phonology》)。韻律/風格/情感是提高言語表達性的關鍵資訊，絕大多數表現性TTS研究的重點是提高言語的韻律/風格/情感(《Towards end-to-end prosody transfer for expressive speech synthesis with tacotron》，《Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis》，《Predicting expressive speaking style from text in end-to-end speech synthesis》，《Interactive text-to-speech via semi-supervised style transfer learning》，《Emotional speech synthesis with rich and granularized control》，《Generating diverse and natural text-to-speech samples using a quantized fine-grained vae and autoregressive prosody prior》)。

（4）錄音裝置或噪聲環境，是傳達語音的通道，與語音的内容/說話人/韻律無關，但會影響語音的品質。該領域的研究主要集中在純淨語音合成的解纏、控制和去噪等方面(《Disentangling correlated speaker and noise for speech synthesis via data augmentation and adversarial factorization》，《Adaspeech: Adaptive text to speech for custom voice》，《Denoispeech: Denoising text to speech with frame-level noise modeling》)。

3.5.2 模組化變異資訊

對于不同粒度下不同類型的變異資訊，有很多方法被提出，如表14所示。

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

資訊類型

我們可以根據被模組化的資訊類型對作品進行分類：1）顯性資訊，我們可以顯式地獲得這些變異資訊的标簽；2）隐性資訊，我們隻能隐式地獲得這些變異資訊。

對于顯式資訊，我們直接使用它們作為輸入，以增強模型的表現力合成。我們可以通過不同的方式擷取這些資訊：1）從标注資料中擷取語言、風格、說話人ID ；2）從語音中提取音高和能量資訊或從配對的文本和語音資料中提取持續時間。在早期的TTS系統中，可以根據标注模式對韻律資訊進行标注：ToBI ， AuToBI ， Tilt ， INTSINT ， SLAM。

在某些情況下，沒有可用的顯式标簽，或者顯式标簽通常需要大量人力，并且不能覆寫特定的或細粒度的變化資訊。是以，我們可以隐式地從資料中模組化變異資訊。典型的隐式模組化方法包括：

參考編碼器。skry - ryan等人(《Towards end-to-end prosody transfer for expressive speech synthesis with tacotron》)将韻律定義為在考慮了文本内容、說話人音色和通道效應以及不需要通過參考編碼器進行顯式注釋的模型韻律變化後仍存在的語音信号變化。具體來說，它從參考音頻中提取韻律嵌入，并将其作為解碼器的輸入。訓練時使用ground-truth參考音頻，推理時使用另一個參考音頻合成具有相似韻律的語音。

Wang等人(《Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis》)從參考音頻中提取一個嵌入，并将其作為查詢來參加(通過基于Q/K/V的注意(《Attention is all you need》))樣式标記庫，并将注意結果用作表達性語音合成TTS模型的韻律條件。樣式标記可以增加TTS模型學習不同類型樣式的能力和多樣性，并實作資料集中資料樣本之間的知識共享。風格标記庫中的每個标記可以學習不同的韻律表征，如不同的語速和情緒。在推理過程中，它可以使用參考音頻參加并提取韻律表示，類似于訓練，或者簡單地選擇一個或一些風格标記來合成語音。

變分自編碼器。Zhang等人(《Learning latent representations for style control and transfer in end-to-end speech synthesis》)利用高斯先驗作為正則化，利用VAE對潛在空間中的方差資訊進行模組化，這可以實作表達模組化，控制合成風格。一些研究(《Expressive speech synthesis via modeling expressions with variational autoencoder》，《* Disentangling correlated speaker and noise for speech synthesis via data augmentation

and adversarial factorization*》，《Using vaes and normalizing flows for one-shot text-to-speech synthesis of expressive speech》，《Parallel tacotron: Non-autoregressive and controllable tts》)也利用VAE架構更好地模組化表達合成的方差資訊。

進階生成模型。解決一對多映射問題和對抗過平滑預測的一種方法是使用進階生成模型隐式學習變化資訊，進而更好地模組化多模态分布。我們知道，不同的損失适用于不同的分布假設。

例如，L1适用于拉普拉斯分布，L2适用于高斯分布，高斯/拉普拉斯/Logistic混合分布适用于多模态分布，其他損耗如SSIM适用于高階統計，GAN基損耗可用于任何分布。是以，為了緩解過平滑問題，我們需要選擇能夠更好地模拟多模态分布的損失，如基于混合分布、SSIM、Flow、GAN或基于擴散的損失。

文本預訓練。通過使用預訓練的詞嵌入或模型參數，可以提供更好的文本表示。

資訊粒度

變體資訊可以以不同的粒度模組化。我們從粗粒度到細粒度對這些資訊進行描述：

1）語言級别和說話人級别，其中多語言和多說話人TTS系統使用語言ID或說話人ID來區分語言和說話人。

2）段落水準，其中TTS模型需要考慮長形式閱讀中話語/句子之間的關系。

3）話語層次，其中從參考語音中提取一個單獨的隐藏向量來代表該話語的木材/風格/韻律。

4）單詞/音節級，可以對話語級資訊無法覆寫的細粒度風格/韻律資訊進行模組化。

5）字元/音素層次，如音長、音高或韻律資訊。

6）幀級，最細粒度資訊。相關工作見表14。

此外，用覆寫不同粒度的層次結構對方差資訊進行模組化有助于表達合成。Suni等人(《Hierarchical representation and estimation of prosody using continuous wavelet transform》)論證了韻律的層次結構本質上存在于口語中。Kenter等人(《Chive: Varying prosody in speech synthesis with a linguistically driven dynamic hierarchical conditional variational network》)從架構和音素水準預測韻律特征到音節水準，并連接配接單詞和句子水準特征。Hono等人(《Hierarchical multi-grained generative model for expressive speech synthesis》)利用多粒度的VAE擷取不同時間分辨率的潛變量，并從粗級别(例如，從話語級到短語級，再到單詞級)抽取更細級别的潛變量。Sun等人(《Fullyhierarchical fine-grained prosody modeling for interpretable speech synthesis》)利用VAE對音位級和詞級的方差資訊模組化，并将它們組合在一起作為譯碼器的輸入。Chien和Lee對韻律預測進行了(《Hierarchical prosody modeling for non-autoregressive speech synthesis》)研究，提出了一個從詞到音位的層次結構來提高韻律預測。

3.5.3 解纏、控制和轉移

在本小節中，我們回顧了分離、控制和轉移變異資訊的技術，如表15所示。

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

解除對抗訓練

當多種風格或韻律資訊糾纏在一起時，為了更好地進行表達性語音合成和控制，需要在訓練中對它們進行解纏。Ma等人(《Neural tts stylization with adversarial and collaborative games》)通過對抗性和合作性遊戲增強了内容風格的解纏能力和可控性。Hsu等人(《Disentangling correlated speaker and noise for speech synthesis via data augmentation and adversarial factorization》)利用VAE架構進行對抗性訓練，從說話人資訊中分離噪聲。

Qian等人(《Unsupervised speech decomposition via triple information bottleneck》)提出使用三種瓶頸重構來分離語音流的節奏、音高、内容和音色。Zhang等人(《Denoispeech: Denoising text to speech with frame-level noise modeling》)提出通過幀級噪聲模組化和對抗性訓練從說話人中分離噪聲。

控制的周期一緻性/回報損失

當提供樣式标簽等變異資訊作為輸入時，TTS模型應該用相應的樣式合成語音。然而，如果不添加限制，TTS模型往往忽略方差資訊和不遵循風格的合成語音。為了增強輸入方差資訊的可控性，一些研究提出了使用周期一緻性或回報來鼓勵合成語音在輸入中包含方差資訊。Li等人(《Controllable emotion transfer for end-toend speech synthesis》)通過添加一個帶有回報循環的情感風格分類器來進行可控的情感遷移，該分類器鼓勵TTS模型合成帶有特定情感的語音。

． Whitehill等人(《Multi-reference neural tts stylization with adversarial cycle consistency》)使用風格分類器提供回報損失，以鼓勵合成給定的風格。同時，結合不同風格分類器之間的對抗性學習，保證了多重參考音頻中不同風格的儲存。Liu等人(《Improving unsupervised style transfer in end-to-end speech synthesis with end-to-end speech recognition》)利用ASR提供回報損失來訓練不比對的文本和語音，其目的是減少訓練和推理之間的不比對，因為随機選擇的音頻被用作推理的參考。其他作品(《Fitting new speakers based on a short untranscribed sample》，《Expressive tts training with frame and style reconstruction loss》，《From speaker verification to multispeaker speech synthesis, deep transfer with feedback constraint》，《Aishell-3: A multi-speaker mandarin tts corpus and the baselines》)利用回報損失來確定風格、說話人嵌入等方面的可控性。

半監督學習控制

一些用來控制演講的屬性包括音調、持續時間、能量、韻律、情緒、說話人、噪音等。如果每個屬性都有标簽，我們可以很容易地控制合成語音，使用标簽作為模型訓練的輸入，并使用相應的标簽在推理中控制合成語音。然而，當沒有可用的标簽/标簽時，或隻有一部分可用時，如何解纏和控制這些屬性是具有挑戰性的。當部分标簽可用時，Habib等人(《Semi-supervised generative modeling for controllable speech synthesis》)提出了半監督學習方法來學習VAE模型的潛變量，以控制情感或語率等屬性。當沒有可用的标簽時，Hsu等人(《Hierarchical generative modeling for controllable speech synthesis》)提出使用高斯混合VAE模型解糾纏不同的屬性，或使用梯度反轉或對抗訓練解糾纏說話人和噪聲，可以為有噪聲的說話人合成純淨語音。

變更轉讓方差資訊

我們可以通過改變變異資訊來轉換合成語音的風格。如果在已标注的标簽中提供變異資訊，我們就可以在訓練中使用該語音和相應的标簽，在推理中傳遞帶有不同标簽的語音風格(《Learning to speak fluently in a foreign language: Multilingual speech synthesis and cross-language voice cloning》，《One model, many languages: Meta-learning for multilingual text-to-speech》，《Controllable emotion transfer for end-toend speech synthesis》，《Multispeech: Multi-speaker text to speech with transformer》)。或者，如果沒有已标注的标簽作為變異資訊，我們可以在訓練過程中從言語中擷取變異資訊，無論是通過如上所述的顯式模組化還是隐式模組化:語音的音高、持續時間和能量可以通過參考編碼器(VAE)顯式提取，一些潛在表征可以通過參考編碼器(VAE)隐式提取。這樣，為了在推理中實作語體遷移，我們可以通過三種方式擷取變異資訊：1）從參考語音中提取；2）從文本預測；3）從潛空間取樣獲得。

3.6 自适應 TTS

自适應TTS是TTS的一個重要功能，它可以為任何使用者合成語音。學術界和業界有不同的術語，如語音适應(《Sample efficient adaptive text-to-speech》)、語音克隆(《Neural voice cloning with a few samples》)、自定義語音(《Adaspeech: Adaptive text to speech for custom voice》)等。自适應TTS一直是國内外研究的熱點。大量的統計參數語音合成研究了語音自适應(《Multi-speaker modeling and speaker adaptation for dnn-based tts synthesis》，《A study of speaker adaptation for dnn-based speech synthesis.》，《Speaker representations for speaker adaptation in multiple speakers blstm-rnn-based speech synthesis》，《Speaker adaptation in dnnbased speech synthesis using d-vectors》，《Linear networks based speaker adaptation for speech synthesis》)，最近的語音克隆挑戰也吸引了很多參與者(《The multi-speaker multi-style voice cloning challenge 2021》，《The as-nu system for the m2voc challenge》，《Cuhk-ee voice cloning system for icassp 2021 m2voc challenge》，《Investigating on incorporating pretrained and learnable speaker representations for multi-speaker multi-style text-to-speech》)。在自适應TTS場景中，源TTS模型(通常在多說話人語音資料集上訓練)通常對每個目智語音進行少量的自适應資料調整。

本文從兩個方面綜述了自适應語篇模型的研究進展：1）一般适應設定，其中包括改進源語篇模型在支援新說話人方面的泛化，以及對不同領域的适應；2）高效的适應設定，其中我們回顧了減少每個目标說話人的适應資料和适應參數的工作。我們總結了表16中兩種方向的工作，并将這些工作介紹如下：

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

3.6.1 一般适應

源模型泛化

這類工作的目的是提高源TTS模型的可生成性。在源模型訓練中，源文本沒有包含足夠的聲學資訊，如韻律、說話人音色、錄音環境等來生成目智語音。是以，TTS模型對訓練資料容易過拟合，對新說話人的适應泛化能力較差。Chen等人(《Adaspeech: Adaptive text to speech for custom voice》)提出聲學條件模組化，提供必要的聲學資訊作為模型輸入，學習文本-語音映射，更好地泛化，而不是記憶。提高源TTS模型可生成性的另一種方法是增加訓練資料的數量和多樣性。Cooper等人在訓練源TTS模型時，利用(《Can speaker augmentation improve multi-speaker end-to-end tts?》)的speaker augmented來增加說話人的數量，在适應中可以很好地推廣到未出現過的說話人。

跨域的适應

在自适應TTS中，一個重要的因素是适應語音與用于訓練源TTS模型的語音資料具有不同的聲學條件或風格。在這種情況下，需要考慮特殊的設計來提高源TTS模型的泛化程度，并支援目标說話人的風格。AdaSpeech設計了聲學條件模組化，以更好地模拟錄音裝置、環境噪聲、口音、揚聲器速率、揚聲器音色等聲學條件。這樣，該模型更傾向于泛化而不是記憶聲學條件，能夠很好地适應不同聲學條件下的語音資料。AdaSpeech 3通過設計特定的填充停頓适應、節奏适應和音質适應，将閱讀風格的TTS模型調整為自發風格。其他一些作品考慮了不同說話風格的改編，如Lombard或whisper。一些作品(《Learning to speak fluently in a foreign language: Multilingual speech synthesis and cross-language voice cloning》，《Cross-lingual, multi-speaker text-to-speech synthesis using neural speaker embedding》，《Cross-lingual multi-speaker text-to-speech synthesis for voice cloning without using parallel corpus for unseen speakers》，《Towards natural bilingual and code-switched speech synthesis based on mix of monolingual recordings and cross-lingual voice conversion》，《Speaker adaptation of a multilingual acoustic model for cross-language synthesis》，《Phonological features for 0-shot multilingual speech synthesis》，《Generating multilingual voices using speaker space translation based on bilingual speaker data》，《End-toend code-switching tts with cross-lingual language model》，《Using ipa-based tacotron for data efficient cross-lingual speaker adaptation and pronunciation enhancement》)提出跨語言轉換聲音，例如，在英語講話者沒有任何國語語音資料的情況下，使用英語講話者合成國語語音。

3.6.2 高效适應

大緻來說，适配資料越多，語音品質越好，但采集資料的成本也就越高。對于自适應參數，整個TTS模型(《Sample efficient adaptive text-to-speech》，《High quality, lightweight and adaptable tts using lpcnet》)，或部分模型(如解碼器)(《Boffin tts: Few-shot speaker adaptation by bayesian optimization》，《Adadurian: Few-shot adaptation for neural text-to-speech with durian》)，或僅揚聲器嵌入(《Neural voice cloning with a few samples》，《Sample efficient adaptive text-to-speech》，《Adaspeech: Adaptive text to speech for custom voice》)可以進行微調。類似地，對更多參數進行微調将獲得良好的語音品質，但會增加記憶體和部署成本。在實踐中，我們的目标是适應盡可能少的資料和參數，同時實作高适應的語音品質。

我們将這類工作分為以下幾個方面：1）少量資料适應；2）少量參數适應；3）非轉錄資料适應；4） zero-shot适應。我們将這些工作介紹如下：

少量資料适應。一些作品進行了開展few-shot适應，隻使用少數成對的文本和語音資料，從幾分鐘到幾秒不等。Chien等人探索了不同的說話人嵌入以适應少量鏡頭。Yue等人(《Exploring machine speech chain for domain adaptation and few-shot speaker adaptation》)利用語音鍊進行少鏡頭适應。Chen等人， Arık等人對不同适配量的語音品質進行了比較，發現資料量小(小于20句)時，随着适配量的增加，語音品質提高很快，而當适配量達到幾十句時，語音品質提高緩慢。

少量參數适應。為了支援許多使用者/客戶，适應參數需要足夠小，以滿足每個目标揚聲器，以減少記憶體使用，同時保持高品質的語音。例如，如果每個使用者/語音需要消耗100 MB的參數，那麼對于1 M個使用者來說，總記憶體存儲為100PB，這是一個巨大的記憶體成本。一些研究提出在保持适應品質的同時，盡量減少适應參數。

AdaSpeech 在上下文參數生成的基礎上提出了條件層歸一化，從說話人嵌入中生成層歸一化中的尺度和偏置參數，隻微調與條件層歸一化和說話人嵌入相關的參數即可獲得良好的自适應品質。Moss等人提出了一種微調方法，為不同的說話人選擇不同的模型超參數，實作了用少量語音樣本合成特定說話人語音的目的，其中超參數的選擇采用貝葉斯優化方法。

非轉錄資料适應。在許多情況下，隻有語音資料可以很容易地收集，例如在轉換或線上會議中，沒有相應的文本。AdaSpeech 2利用未轉錄的語音資料進行語音适應，通過語音重建和潛在對齊(《Nautilus: a versatile voice cloning system》)。Inoue等人(《Semi-supervised speaker adaptation for end-to-end speech synthesis with pretrained models》)使用ASR模型轉錄語音資料，并使用轉錄的成對資料進行語音适配。

Zero-shot适應。一些作品進行了Zero-shot自适應，利用揚聲器編碼器提取給定參考音頻的揚聲器嵌入。這種方案很有吸引力，因為不需要适應資料和參數。但是，當目标說話人與源說話人有很大差異時，其适應品質還不夠好。

4 資源

我們收集了TTS的一些資源，包括開源實作、TTS教程和要點、TTS挑戰和TTS語料庫，如表17所示。

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

5 未來方向

在本文中，我們對神經文本到語音進行了研究，主要關注：（1）神經文本到語音的基本模型，包括文本分析、聲學模型、聲碼器和全端到端模型；（2）快速語音分析、低資源語音分析、魯棒語音分析、表達型語音分析和自适應語音分析。作為一個快速總結，我們在表18中列出了代表性的TTS算法。由于頁面限制，我們隻回顧了TTS的核心算法；對于TTS相關的問題和應用，讀者可以參考其他論文，如語音轉換(《An overview of voice conversion and its challenges: From statistical modeling to deep learning》)，唱歌語音合成(《Xiaoicesing: A high-quality and integrated singing voice synthesis system》，《Singing voice synthesis based on generative adversarial networks》，《Hifisinger: Towards high-fidelity neural singing voice synthesis》

)，說話人臉合成(《What comprises a good talking-head video generation?: A survey and benchmark》)等。

根據神經TTS的最終目标，提出了今後神經TTS的研究方向，主要分為兩類。

高品質的語音合成

TTS最重要的目标是合成高品質的語音。語音品質是由影響語音感覺的許多方面決定的，包括可了解性、自然度、表現力、韻律、情感、風格、穩健性、可控性等。雖然神經方法顯著提高了合成語音的品質，但仍有很大的空間進行進一步的改進。

（1）強大的生成模型。TTS是一個生成任務，包括波形和/或聲學特征的生成，可以通過強大的生成模型更好地處理。雖然在聲學模型、聲碼器和完全端到端模型中已經采用了基于VAE、GAN、流或擴散的進階生成模型，但為了進一步提高合成語音的品質，更強大、更高效的生成模型的研究正處于起步階段。

（2）學習更好的特征。良好的文本和語音特征有利于神經TTS模型，提高合成語音的品質。一些對文本預處理的初步探索表明，更好的文本特征确實可以改善語音韻律。如何通過無監督/自我監督學習和預訓練學習文本/音素序列，特别是語音序列的強大表示，具有挑戰性，值得進一步探索。

（3）強大的語音合成。雖然目前的TTS模型消除了不正确的注意比對導緻的單詞跳過和重複問題，但在遇到訓練集未涵蓋的關鍵情況時，如較長的文本長度、不同的文本域等，仍然存在魯棒性問題。提高TTS模型在不同領域的通用性是實作魯棒綜合的關鍵。

（4）表達/控制/可轉換的語音合成。TTS模型的表達性、可控性和可移植性依賴于更好的變異資訊模組化。現有的方法利用參考編碼器或顯式韻律特征(例如，音高、持續時間、能量)來進行變化模組化，它在推理過程中具有良好的可控性和可移動性，但由于訓練中使用的ground-truth 參考語音或韻律特征在推理中往往無法使用，導緻訓練/推理不比對。進階的TTS模型隐式捕獲變化資訊，在合成語音中具有良好的表達性，但在控制和遷移方面表現不理想，因為從隐式空間采樣不能明确、準确地控制和遷移每一個韻律特征(如音高、風格)。如何設計更好的表達/可控/可轉移語音合成方法也是一個很有吸引力的問題。

（5）更像人類的語音合成。目前在TTS訓練中使用的語音錄音通常是正式的閱讀風格，沒有停頓、重複、變化的速度、不同的情緒和錯誤是允許的。然而，在日常交談中，人們很少像标準閱讀那樣說話。是以，更好地塑造随意、情感和自發的風格是提高合成語音的自然度的關鍵。

高效的語音合成

一旦我們能夠合成出高品質的語音，接下來最重要的任務就是高效合成，即如何降低語音合成的成本，包括收集和标記訓練資料、訓練和服務TTS模型等成本。

（1）高效的TTS資料。許多低資源語言缺乏訓練資料。如何利用無監督/半監督學習和跨語言遷移學習來幫助低資源語言是一個有趣的方向。例如，零語音挑戰是一個很好的倡議，它探索了隻從語音中學習，而不涉及任何文本或語言知識的技術。另外，在語音适配中，目标說話人的适配資料很少，這也是資料高效的TTS的另一個應用場景。

（2）高效的TTS參數。目前的神經TTS系統通常使用具有數千萬參數的大型神經網絡來合成高品質的語音，但由于其記憶體和功耗有限，阻礙了移動、物聯網和其他低端裝置的應用。設計具有更少記憶體占用、功耗和延遲的緊湊和輕量級模型對于這些應用場景至關重要。

（3）節能的TTS。教育訓練和服務一個高品質的TTS模式消耗了大量的能量，排放了大量的碳。提高能源效率，例如減少TTS訓練和推斷中的失敗，對于讓更多的人受益于先進的TTS技術，同時減少碳排放，保護我們的環境是非常重要的。

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

【論文學習】《A Survey on Neural Speech Synthesis》《A Survey on Neural Speech Synthesis》論文學習

《A Survey on Neural Speech Synthesis》論文學習

文章目錄

摘要

1 介紹

1.1 TTS 技術的曆史

1.2 調查的組成

2 TTS 中的關鍵元件

2.1 主要分類

2.2 文本分析

2.3 文本分析

2.3.1 SPSS 中的聲學模型

2.3.2 端到端 TTS 中的聲學模型

2.4 聲碼器

2.5 面向完全端到端 TTS

2.6 其他分類

3 TTS 中的進階主題

3.1 背景與分類

3.2 快速 TTS

3.3 低資源 TTS

3.4 魯棒 TTS

3.4.1 增強注意力

3.4.2 用持續時間預測取代注意力

3.4.3 增強 AR 生成

3.4.4 用 NAR 代取代 AR 生成

3.5 富有表現力的 TTS

3.5.1 變異資訊的分類

3.5.2 模組化變異資訊

3.5.3 解纏、控制和轉移

3.6 自适應 TTS

3.6.1 一般适應

3.6.2 高效适應

4 資源

5 未來方向

繼續閱讀