科大讯飞获国际车载多通道语音识别挑战赛双冠军

近日，国际声学、语音和信号处理会议ICASSP 2024（International Conference on Acoustics, Speech, and Signal Processing）的旗舰赛事——国际车载多通道语音识别挑战赛（In-Car Multi-Channel Automatic Speech Recognition Challenge，ICMC-ASR）落下帷幕。在赛事设置的ASR(Automatic Speech Recognition)和ASDR(Automatic Speech Diarization and Recognition)两个赛道上，科大讯飞与中国科学技术大学语音及语言信息处理国家工程研究中心（USTC-NERCSLIP）联合团队取得全部第一的好成绩

国际车载多通道语音识别挑战赛由希尔贝壳、理想汽车、西工大音频语音与语言处理研究组、新加坡南洋理工大学、天津大学、WeNet开源社区、微软、中国信通院等共同发起，吸引多家企业和机构参与角逐。

贴近真实复杂车载场景

双赛道语音识别颇具挑战性

汽车驾驶舱是语音识别最常见的应用场景之一。与家庭、开会等场景的多人交谈语音识别不同，车载的语音识别面临更多挑战：

驾驶舱内复杂的声学环境。封闭和非常规的空间里有特殊的房间脉冲响应，导致了特殊的混响条件；

舱内舱外存在风声、引擎声、轮胎声、背景音乐、说话干扰者等多种不同的噪声；

不同的驾驶情况也会影响语音识别系统的表现，例如停车、高速、低速驾车，白天和夜晚驾驶等。

此外，缺乏大规模的公共真实车内数据也是该领域发展的主要障碍之一。

此次国际车载多通道语音识别挑战赛构建起了1000+小时车内真实录制的多通道、多说话人普通话语音数据，来源于车内不同座位的说话人，车内分布式麦克风与参与者头戴麦克风分别收集了远场和近场数据。

赛事官方给出的远场麦克风分布图例

在此基础上，赛事设置了两个赛道ASR和ASDR，赛道任务也与真实车载场景中的语音识别需求息息相关：

ASR：驾驶舱说话人角色分离的信息是人工标注的，参赛者可以直接使用，在人工分离边界的基础上直接进行语音识别；

ASDR：需要首先完成远场数据下的驾驶舱说话人角色分离任务，即从连续的多人说话语音中切分出不同说话人片段并判断出每个片段属于哪个说话人，然后再进行语音识别。

最终，科大讯飞联合团队分别以13.16%和21.48%的语音识别错误率拿下两个赛道的第一名；与赛事官方提供的基线系统相比，联合团队错误率分别取得49.84%和70.52%的相对下降。

ASR赛道成绩排名

ASDR赛道成绩排名

ASR赛道核心考察指标为CER(Character Error Rate)，即综合考察最小插入、删除和替换字符数；

ASDR赛道核心考察指标为cpCER(concatenated minimum permutation CER)，即综合考察系统对多个说话人的角色分离效果以及语音识别效果。

面对挑战，我们有哪些技术创新？

在车内车外的多种噪声影响下，汽车智能语音系统怎样才能“排除万难”、精准识别主要说话人的语音？

科大讯飞一直深耕复杂场景的语音识别，继CHiME四连冠后，再次参加车载ICMC-ASR比赛，主要针对多通道车内场景下的固定说话人位置和带口音的语音识别进行攻克，并创新性地提出多种技术方法。在这些技术方案中，主要从前后端两个角度进行解决：

在前端算法中，由于车内目标/非目标说话人之间的距离较近，通过最大信噪比准则会导致目标说话人对应的通道选择错误。因此，将声源定位融入到通道挑选中，以提高对目标说话人的分离效果：

多音区声源定位的通道挑选算法（Channel Selection Based on Multi-Source Sound Localization ）

该算法将参考通道的选择准则由最大信噪比准则替换为说话人位置准则，即通过基于能量差和相位差的多音区声源定位获得的说话人位置信息，挑选出距离说话人最近的通道，从而避免了错误地选择距离干扰源最近的通道。同时，引入迭代平均算法来获取信号源功率谱密度更加准确的估计，使得波束形成取得更好的效果。该算法在不引入语音失真情况下，提高消除干扰源和噪声的能力，给下游语音识别任务提供了信噪比和可懂度均较高的单通道音频。

在后端算法中，由于说话人存在严重的口音问题，这导致了分离和识别效果不佳。因此，将口音信息分别融入到说话人日志和语音识别中，以提高对口音的区分能力：

基于自监督学习表示声纹提取的多说话人特征说话人角色分离算法 (Multi-Speaker Diarization Using Self-Supervised Learning Representation Speaker Embedding)

该方法旨在解决高噪声、高混响、高说话人重叠段场景的说话人角色分离问题。通过引入口音自适应的自监督预训练模型提取声纹信息，将这些不同的声纹信息融合使说话人日志模型学习到更丰富精确的口音普通话说话人特征。该模型充分挖掘音频信号中的说话人信息，有效提升了说话人角色分离性能，为后续的分离和识别模块奠定了坚实的基础。

基于多粒度单元增强的口音语音识别算法(Accent ASR based on Multi-grained Unit Enhancement)

为解决口音问题，该方案引入拼音序列的多任务学习，并将对齐的拼音序列和编码器声学特征进行孪生交叉注意力(Twin Cross-Attention)融合和对比学习(Contrastive Learning)，从而保证细粒度单元能够更好学习发音信息。同时，在编码器主干网络的融合阶段，还引入帧-段级别的说话人信息使得不同口音说话人产生的粗粒度单元更易区分，实现了语音识别在复杂场景的效果提升。

从实用到好用、易用

车载语音识别交互的未来可期

从2003年开始，科大讯飞已在汽车智能化领域深耕21年，在国内车载语音市场的覆盖率多年稳居榜首*，多样化产品合作覆盖90%以上的中国主流自主品牌和合资品牌车厂。截至2023年底，科大讯飞的汽车智能化产品和技术已累计实现5349万的前装搭载，年度在线交互次数突破百亿，平均每月活跃用户超2500万。

从“达到实用”到“好用易用”，从“被动执行机器”到“拟人化贴心助理”，从“车内交互”到“跨场景交互”，从“主副驾交互”到“多乘客交互”，科大讯飞智能语音技术为车载智慧座舱持续赋能：

面对车内复杂的背景声音，通过声源定位系统、最高搭载六麦克风阵列降噪解决方案与多年积累的语音识别库，讯飞有效提升了语音识别的准确率。

将多路识别技术落地应用，改变了此前主驾驶人先唤醒助手后，其他乘客就无法和语音助手进行交互的情况，实现了目前车上多个位置乘客与语音助手可进行交互、互不干扰。

此次获ICMC-ASR双赛道第一，无疑是对科大讯飞联合团队在车载多通道语音识别技术上的高度肯定。同时，认知大模型的快速发展，也为汽车智能化带来新的发展机遇和体验升级。

基于讯飞星火认知大模型，车机交互从单纯的控制指令扩展到多元化智能交互，可以支持闲聊、知识问答、休闲娱乐和旅程规划等应用场景，车载语音不再是单纯的工具，而是贴心的私人助理，有效地解决人车交互痛点，为用户带来更有趣、更多元、更自然的立体交互体验，引导人车交互向类人化交互体验进化。语音交互和智能汽车的深度融合，也将会带来更加安全、更加舒适、更加贴心的驾驶体验。

若将目光再放长远，多通道语音识别技术在车载之外还将在智能家居、智慧办公等领域发光发热。在家庭中，智能家居的多通道语音识别技术可识别多个成员的不同指令，区分闲聊和动作指令；在办公场景中，多通道语音识别技术能实现说话人自动分离和识别，按角色给出识别结果并生成会议纪要。秉持初心，科大讯飞将在智能语音技术领域持续深耕，将关于未来的畅想逐渐变成走入日常的现实。

*文中数据来源于科大讯飞智能汽车数据平台，市占率来自第三方调研报告

科大讯飞获国际车载多通道语音识别挑战赛双冠军

继续阅读

2024年中国车载电池充电机行业研究报告

中国车载叉车秤行业研究报告

中国车载MEMS麦克风模组行业研究报告

中国车载电动油泵市场现状研究分析与发展前景预测报告

科大讯飞原轮值总裁拟定增入主中创环保

强制安装车载收音机，中美这是要干嘛？

入主壳股中创环保，科大讯飞联合创始人胡郁欲开AI“新局”？

中创环保拟定增5亿控制权将变更科大讯飞联合创始人胡郁成实控人

科大讯飞助阵联合国教科文组织特别演出——《我的梦》沟通无障碍

以为是智商税，实际却“很好用”的5个车载功能，你体验过几个？

科大讯飞前轮值总裁将入主中创环保股民期待新篇章

3款高端车载支架电商详情设计合集

科大讯飞创始人入主中创环保，醉翁之意不在酒？

沌（dùn）阳大道、少（shǎo）林寺？车载导航播报让人懵了

迈为股份Micro LED巨量转移装备交付显示头部企业，助推其消费电子、车载显示等智能制造

科大讯飞股东户数增加2.15%，户均持股27.01万元