构建企业级语音合成应用，英伟达有超便利工具匹配你的GPU

2022-01-06 14:59:13

让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音已成为未来最被看好的人机交互方式，语音比其他的交互方式有更多的优势。

目前，语音服务存在于各种场景中，包括实时会议记录、视频实时直播字幕、呼叫中心语音质检、实时会议记录等。想要实现不同的语音服务，这涉及到方方面面的技术，例如，在进行实时会议记录任务时，需要将会议中的音频实时转写为文字，辅助会议记录工作，同时适用于电视会议等远距离场景，这涉及到自动语音识别(ASR)技术。

除此以外，我们在日常生活中，也经常遇到需要将文本转化成语音的技术(TTS) ，该技术可以通过自然逼真的智能语音，让机器拥有「说话」的能力。

那么，有没有一种技术，可以同时完成自动语音识别、语音合成技术的任务？

今年，英伟达发布了 NVIDIA Riva，这是一种现成的语音服务，可以轻松部署在任何云或数据中心。NVIDIA Riva的设计旨在帮助用户轻松、快速地访问会话 AI 功能，实现开箱即用，通过一些简单的命令和 API 操作就可以快速构建高级别的语音识别服务。该服务可以处理数百至数千音频流作为输入，并以最小延迟返回文本；还能快速构建高级别的对话式 AI 服务。

NVIDIA Riva是一个使用了 GPU 加速，快速部署高性能会话式 AI 服务的 SDK，可用于快速开发语音 AI 的应用程序。Riva SDK 在 NVIDIA GPU 上运行，在高吞吐量水平下提供最快的推断响应。

目前，NVIDIA Riva整合了 ASR 和 TTS 等智能算法引擎，用户可以使用这些功能进行科学研究。

为了深入了解和快速上手 NVIDIA Riva 在构建语音方面的应用，英伟达联合机器之心推出「详解对话式AI应用服务框架NVIDIA Riva」三期线上分享，通过英伟达专家的理论解读和实战经验分享，向开发者展示如何使用 NVIDIA Riva 快速构建企业级 ASR 语音识别助手、快速构建企业级 TTS 语音合成助手、使用 Python 快速构建基于 NVIDIA Riva 的智能问答机器人。

2022年1月12日，系列分享第2期：

使用NVIDIA Riva快速构建企业级TTS语音合成助手

语音合成技术又称为文本转语音(TTS)技术，它可以将任何文字信息转换成标准流畅的语音且进行朗读，相当于给机器装了一张人工合成的「嘴巴」。它是声学、语言学、数字信号处理和计算机科学的一个交叉学科。

本次分享面向有会话式人工智能开发需求的开发者，讲主要介绍以下内容：

语音合成简介

NVIDIA Riva 介绍与特性

启动 NVIDIARiva 客户端快速实现文字转语音功能

使用 Python 快速搭建基于 Riva 的 TTS 语音合成服务应用

直播时间：北京时间1月12日19:30-21:00

直播间地址：

构建企业级语音合成应用，英伟达有超便利工具匹配你的GPU

继续阅读

卡内基梅隆大学研究人工智能更好为人类提供公平的方法

人工智能行业深度报告-“元年”之后-再看大模型应用商业化进展

人工智能迭代一切，文科生将是“最后幸存者”

一件纯花钱的事连干6年，阿里还乐此不疲，背后野心藏不住了！就在6月13号，2024阿里数学竞赛决赛名单新鲜出炉，共有全球

2024:美国财富500强最多的州今年进入财富500强榜单的公司总部分布在37个州的226个城市，从俄亥俄州的小城镇到洛

欢迎！德国科学院院士Gerhard P. Fettweis加入亚太人工智能学会

AI 数据建模：人工智能如何重塑人类进步的未来（3/5）

大模型应用之路：从提示词到通用人工智能（AGI）

什么是人工智能，它与人工智能有何不同，它们的用途是什么？

北约未来二十年：人工智能技术的战略演进与前瞻

顶尖龙头+算力+人工智能+存储+机器人+半导体+短剧+预制菜

AIGC如何帮助数字内容的生产者降本增效在数字时代，内容生产者的效率和成本控制至关重要。AIGC（人工智能生成内容）技术

AI 数据建模：人工智能如何重塑人类进步的未来（4/5）

人工智能概念股，今年以来涨跌幅排名：

拙文《与何祚庥院士讨论大型粒子对撞机问题》发表之后，何祚庥院士随即给我留言进一步强调“@刘长玉。最为关键的问题，是不是"

探索文字魅力：从初识到共鸣，人工智能助手的心路历程