前言
语音合成技术是一种能够将文字转换为语音的技术,已经广泛应用于多个领域,例如:广播电视、网络视听等。
在传统的语音合成技术中,需要先录制一段人工语音,然后通过计算机算法将其转换为人工合成语音。
随着人工智能技术的发展,语音合成技术也得到了快速发展,其应用场景也越来越广泛。
本文主要介绍了语音合成技术的发展历程、研究现状以及国外人工智能语音合成技术的发展趋势。
同时,结合大陆人工智能和融媒体研究最新成果,对语音合成技术在广播电视和网络视听领域的应用进行了探讨,并对未来的发展进行了展望。
一、语音合成技术的发展历史
(一)国外发展史
国外语音合成技术的发展可以追溯到20世纪60年代初期,当时美国一些大学开始研究如何使用计算机来合成人工语音。
早期的语音合成技术主要基于规则和规则集,计算机根据预设的规则将文字转换为语音。这种方法需要大量的人工干预,而且合成语音的效果并不理想。
随着计算机处理速度和存储容量的不断提升,语音合成技术也得到了快速发展。
90年代提出了基于统计参数的语音合成方法,这种方法提出了语音合成十分重要的三个模块:语言模型、声学模型和声码器,如图1所示。
其中语言模型的任务是通过自然语言处理的技术将输入文本提取为语言特征,这些特征具有后端声学模型所需要的语言学信息。
声学模型负责将语言特征转化为声学特征,再由单独的声码器完成声学特征到原始语音波形的转换。
图1语音合成基本架构
随着AI深度学习技术的发展,语音合成技术有了飞跃性的突破,标志性的技术代表是2017年谷歌公司提出的Tacotron模型。
如图2所示,该模型是一个基于自注意力机制的端到端语音合成模型,输入端由文本构成,经过文本编码器生成具有鲁棒性的上下文文本向量,在解码器端使用基于注意力机制的自回归解码器,一次输出N帧的梅尔谱语音特征。
图2谷歌公司Tacotron框架
所谓的自回归解码指第一步输出的N帧在第二步会变成输入,以此往复最后生成完整的梅尔谱图。
梅尔谱图通过Tacotron最后的高速卷积模块生成线性谱图,线性谱图最后通过Griffin-Lim算法得到合成的语音波形。
随后,谷歌公司在2018年提出的Tacotron2代模型将一代算法的高速卷积模块用3层长短时记忆模块替代,并且将声码器部分从GriffinLim算法替换为深度学习的WaveNet算法,值得注意的是该模型的合成质量在主观评测上已经能够达到以假乱真的水平了。
Tacotron模型有着可以生成高质量语音合成的能力,然而由于其采用自回归式生成结构,训练速度和推理速度都不是很理想。
于是,2018年中国电子科技大学和微软亚洲研究院等机构提出的TransformerTTS运用自注意力机制Transformer替代了原先传统的基于内容的注意力机制完成了非自回归生成。
随后浙江大学和微软亚洲研究院于2019年、2020年分别提出的FastSpeech1和Fastspeech2架构成功了端到端的非自回归式生成,不仅提高了推断速度,而且其拥有着时长预测器、音高预测器和能量预测器可以完成对输出语音持续时间、音高、能量等的细粒度控制,同时改善Tacotron2会出现的丢词、重复词的错误。
VITS模型是2021年一种结合变分推理、标准化流和对抗训练的高表现力语音合成模型,目前各大自媒体平台上使用的语音合成器大多是由该模型组成。
VITS结构图如图3所示,和上述Tacotron和FastSpeech不同,传统模型在推断上会将文本也就是字符和音素映射语音特征比如梅尔谱,通常还需要声码器将梅尔谱图预测为语音波形。
而VITS是第一个真正实现了端到端的语音合成模型,它不需要额外的声码器重建波形,直接将字符或音素映射为波形。
这种合成方式通过隐变量而非之前模型的频谱串联语音合成的声码器和声学模型,提高了语音合成的多样性。
(二)大陆发展史
中国AI语音合成的发展历程可以追溯到上世纪90年代初期。当时,清华大学的自然语言处理实验室首先开始了语音合成的研究。
早期的语音合成系统主要基于模板匹配和串接技术,虽然效果有限,但已经能够实现基本的语音合成功能。
进入21世纪以后,随着深度学习技术的发展,语音合成技术得到了快速的发展。
2010年,科大讯飞成功研发出首个基于深度学习的语音合成系统——“讯飞语音合成技术”。该技术使用了深度神经网络模型,能够实现更加自然流畅的语音合成效果。
此后,科大讯飞在语音合成领域取得了重大突破,相继推出了“讯飞智能语音合成系统”和“讯飞混合语音合成系统”等多个系统。
图3VITS模型推断框架图
另外一家互联网巨头百度也在语音合成领域持续加强研发投入。2017年,百度发布了首个基于深度学习的语音合成系统DeepVoice。
该系统利用神经网络模型实现语音合成,具有较高的语音自然度和情感表达能力。2019年,百度进一步推出了“百度超级语音合成技术”,该技术能够生成极具个性化的语音,极大地提升了用户体验。
2020年,阿里巴巴自然语言处理实验室提出了“Meta-VoiceGAN”模型,该模型采用基于对抗生成网络(GAN)的方法,通过学习语音信号与语音特征之间的映射关系,实现了高保真度的语音合成效果。
2021年,京东AI实验室发布了“京东流式语音合成技术”,该技术采用了基于Transformer的神经网络模型,结合了预训练和微调等技术,能够实现更加自然流畅的语音合成效果,并具有较高的适应性和灵活性。
目前,大陆越来越多的科研单位大力投入到AI语音合成的技术开发当中,未来技术发展和应用空间极为广阔。
二、语音合成技术的应用
(一)广播电视领域的应用
广播电视领域是语音合成技术的一个重要应用领域。随着数字化技术的不断发展,广播电视行业已经越来越依赖自动化的生产流程和数字化技术的应用。
语音合成技术在广播电视领域的应用主要涉及新闻播报、节目配音、广告宣传等多个方面。
(二)新闻播报
新闻播报是广播电视领域最为基础和重要的内容之一。传统的新闻播报需要人工录制语音,时间紧迫,工作效率低下。
而且,由于主播的语音质量和人工录音的效果有很大的关系,因此传统的新闻播报在语音质量上存在一定的局限性。
而语音合成技术可以根据特定的文本,自动生成语音,从而减少了人力成本,提高了播报效率,同时也可以产生更加自然、逼真的语音效果。
(三)节目配音
节目配音是广播电视领域应用语音合成技术的重要方面。随着广播电视娱乐内容的日益丰富,配音也逐渐成为广播电视行业不可或缺的一部分。
传统的配音需要人工录制,而且要求配音员有一定的声音特质和表演技巧。
而语音合成技术可以通过调整音调、语速等特征,产生高质量的配音,甚至可以根据不同角色的特点来调整语音的音调、语速等特征,从而提高配音的效果。
因此,在配音方面,语音合成技术可以提高配音效率,降低制作成本,同时也可以产生更加自然、逼真的配音效果,从而更好地吸引观众的注意力。
(四)广告宣传
广告宣传是广播电视领域的一个重要应用场景。传统的广告制作需要花费大量的时间和人力成本来制作,而且还需要聘请专业配音员来录制广告音频。
而语音合成技术可以根据特定的文本,自动生成语音,从而大大缩短广告制作的时间,并且降低了制作成本。
因此,AI语音合成技术在广告制作方面的应用,可以提高制作效率和质量,从而更好地满足广告商的需求。
(五)视频配音
在网络视听领域,视频配音是一个非常重要的环节。传统的配音需要花费大量的人力和物力,并且可能会受到各种因素的干扰,如声音录制设备的质量、配音演员的口音等。
这些因素都可能导致配音质量的不稳定,从而影响到视频的观看体验。而语音合成技术可以帮助解决这些问题。通过语音合成技术,可以将文字信息转化为语音,从而实现自动化配音。
这不仅可以节约成本,提高效率,还可以产生更加自然、逼真的配音。在网络视频中,语音合成技术可以应用于各种类型的视频内容,如短视频、微电影、教育视频等。
通过语音合成技术,可以使得视频的语音更加自然,从而提高观众的观看体验。
(六)语音交互
语音交互是人机交互的一种形式,也是网络视听领域的重要应用之一。语音交互技术可以使得机器产生自然流畅的语音,从而提高用户的交互体验。
目前,语音交互技术已经被广泛应用于智能家居、智能客服、智能导航等领域。通过语音合成技术,机器可以产生更加人性化、自然的语音,从而提高用户与机器之间的交互效果。
在智能家居方面,语音合成技术可以使得机器更好地理解用户的指令,从而实现智能家居的自动化控制。
在智能客服方面,语音合成技术可以让用户更加方便地进行人机交互,从而提高用户的满意度。在智能导航方面,语音合成技术可以为用户提供更加便利的导航体验,同时也可以避免用户在行车过程中分散注意力。
三、语音合成技术的展望
(一)技术方面
未来语音合成技术的发展将主要依赖于深度学习和神经网络技术的不断发展。随着硬件设备的不断升级和算法的不断优化,语音合成技术的质量和自然度也将不断提高。
目前的语音合成技术已经可以实现逼真的语音合成,但还存在一些不足之处,比如语音的节奏感和韵律感等方面还不够自然。
未来的语音合成技术将会更加注重这些方面的改进,实现更加逼真的语音合成。未来的语音合成技术将更加注重个性化服务和体验。
随着人工智能技术的不断发展,未来的语音合成技术将能够根据用户的需求和喜好进行个性化的语音合成,可以根据小样本或零样本合成任意人的语音,提供更加贴近用户需求的语音合成服务。
未来的语音合成技术将更加注重实时语音合成。实时语音合成可以为用户提供更加自然、流畅的语音交互体验,为语音交互技术的发展提供更加广阔的应用空间。
(二)应用方面
随着5G和人工智能技术的发展,广播电视和网络视听领域将越来越注重用户的个性化需求和体验。
未来的语音合成技术将能够更好地提供个性化服务和体验,例如,根据用户的需求和兴趣进行个性化的语音合成,从而提高用户的满意度和忠诚度。
语音合成技术将有望支持更多的语言和方言,从而能够更好地满足不同国家和地区的用户需求,实现跨文化传播。此外,语音合成技术也将实现多语言之间的自动翻译和转换,为用户提供更便捷和多元化的服务。
未来的语音合成技术将能够更好地与其他融媒体技术结合,例如图像、视频、文字等,从而实现更加丰富和生动的媒体表达形式。例如,在电视新闻中,语音合成技术可以结合视频和文字,实现更加生动、直观的新闻播报。
未来的语音合成技术将与增强现实技术结合,实现更加智能、便捷的用户体验。例如,在旅游领域,用户可以通过智能眼镜或手机应用,听到语音合成的导游解说,从而更好地了解旅游景点的历史和文化。
总结
综上所述,AI语音合成技术在广播电视和网络视听领域的应用前景广阔。随着AI技术的不断发展,AI语音合成技术将成为广播电视和网络视听领域不可或缺的一部分。
未来的语音合成技术将更加注重语音质量和语音自然度,更加注重个性化服务和体验,更加注重多语言支持和跨文化传播,更加注重商业化和产业化。