天天看點

科大訊飛獲國際車載多通道語音識别挑戰賽雙冠軍

作者:科大訊飛

近日,國際聲學、語音和信号處理會議ICASSP 2024(International Conference on Acoustics, Speech, and Signal Processing)的旗艦賽事——國際車載多通道語音識别挑戰賽(In-Car Multi-Channel Automatic Speech Recognition Challenge,ICMC-ASR)落下帷幕。在賽事設定的ASR(Automatic Speech Recognition)和ASDR(Automatic Speech Diarization and Recognition)兩個賽道上,科大訊飛與中國科學技術大學語音及語言資訊處理國家工程研究中心(USTC-NERCSLIP)聯合團隊取得全部第一的好成績

科大訊飛獲國際車載多通道語音識别挑戰賽雙冠軍

國際車載多通道語音識别挑戰賽由希爾貝殼、理想汽車、西工大音頻語音與語言處理研究組、新加坡南洋理工大學、天津大學、WeNet開源社群、微軟、中國信通院等共同發起,吸引多家企業和機構參與角逐。

貼近真實複雜車載場景

雙賽道語音識别頗具挑戰性

汽車駕駛艙是語音識别最常見的應用場景之一。與家庭、開會等場景的多人交談語音識别不同,車載的語音識别面臨更多挑戰:

駕駛艙内複雜的聲學環境。封閉和非正常的空間裡有特殊的房間脈沖響應,導緻了特殊的混響條件;

艙内艙外存在風聲、引擎聲、輪胎聲、背景音樂、說話幹擾者等多種不同的噪聲;

不同的駕駛情況也會影響語音識别系統的表現,例如停車、高速、低速駕車,白天和夜晚駕駛等。

此外,缺乏大規模的公共真實車内資料也是該領域發展的主要障礙之一。

此次國際車載多通道語音識别挑戰賽建構起了1000+小時車内真實錄制的多通道、多說話人國語語音資料,來源于車内不同座位的說話人,車内分布式麥克風與參與者頭戴麥克風分别收集了遠場和近場資料。

科大訊飛獲國際車載多通道語音識别挑戰賽雙冠軍

賽事官方給出的遠場麥克風分布圖例

在此基礎上,賽事設定了兩個賽道ASR和ASDR,賽道任務也與真實車載場景中的語音識别需求息息相關:

ASR:駕駛艙說話人角色分離的資訊是人工标注的,參賽者可以直接使用,在人工分離邊界的基礎上直接進行語音識别;

ASDR:需要首先完成遠場資料下的駕駛艙說話人角色分離任務,即從連續的多人說話語音中切分出不同說話人片段并判斷出每個片段屬于哪個說話人,然後再進行語音識别。

最終,科大訊飛聯合團隊分别以13.16%和21.48%的語音識别錯誤率拿下兩個賽道的第一名;與賽事官方提供的基線系統相比,聯合團隊錯誤率分别取得49.84%和70.52%的相對下降。

科大訊飛獲國際車載多通道語音識别挑戰賽雙冠軍

ASR賽道成績排名

科大訊飛獲國際車載多通道語音識别挑戰賽雙冠軍

ASDR賽道成績排名

ASR賽道核心考察名額為CER(Character Error Rate),即綜合考察最小插入、删除和替換字元數;

ASDR賽道核心考察名額為cpCER(concatenated minimum permutation CER),即綜合考察系統對多個說話人的角色分離效果以及語音識别效果。

面對挑戰,我們有哪些技術創新?

在車内車外的多種噪聲影響下,汽車智能語音系統怎樣才能“排除萬難”、精準識别主要說話人的語音?

科大訊飛一直深耕複雜場景的語音識别,繼CHiME四連冠後,再次參加車載ICMC-ASR比賽,主要針對多通道車内場景下的固定說話人位置和帶口音的語音識别進行攻克,并創新性地提出多種技術方法。在這些技術方案中,主要從前後端兩個角度進行解決:

在前端算法中,由于車内目标/非目标說話人之間的距離較近,通過最大信噪比準則會導緻目标說話人對應的通道選擇錯誤。是以,将聲源定位融入到通道挑選中,以提高對目标說話人的分離效果:

多音區聲源定位的通道挑選算法(Channel Selection Based on Multi-Source Sound Localization )

該算法将參考通道的選擇準則由最大信噪比準則替換為說話人位置準則,即通過基于能量差和相位差的多音區聲源定位獲得的說話人位置資訊,挑選出距離說話人最近的通道,進而避免了錯誤地選擇距離幹擾源最近的通道。同時,引入疊代平均算法來擷取信号源功率譜密度更加準确的估計,使得波束形成取得更好的效果。該算法在不引入語音失真情況下,提高消除幹擾源和噪聲的能力,給下遊語音識别任務提供了信噪比和可懂度均較高的單通道音頻。

在後端算法中,由于說話人存在嚴重的口音問題,這導緻了分離和識别效果不佳。是以,将口音資訊分别融入到說話人日志和語音識别中,以提高對口音的區分能力:

基于自監督學習表示聲紋提取的多說話人特征說話人角色分離算法 (Multi-Speaker Diarization Using Self-Supervised Learning Representation Speaker Embedding)

該方法旨在解決高噪聲、高混響、高說話人重疊段場景的說話人角色分離問題。通過引入口音自适應的自監督預訓練模型提取聲紋資訊,将這些不同的聲紋資訊融合使說話人日志模型學習到更豐富精确的口音國語說話人特征。該模型充分挖掘音頻信号中的說話人資訊,有效提升了說話人角色分離性能,為後續的分離和識别子產品奠定了堅實的基礎。

基于多粒度單元增強的口音語音識别算法(Accent ASR based on Multi-grained Unit Enhancement)

為解決口音問題,該方案引入拼音序列的多任務學習,并将對齊的拼音序列和編碼器聲學特征進行孿生交叉注意力(Twin Cross-Attention)融合和對比學習(Contrastive Learning),進而保證細粒度單元能夠更好學習發音資訊。同時,在編碼器主幹網絡的融合階段,還引入幀-段級别的說話人資訊使得不同口音說話人産生的粗粒度單元更易區分,實作了語音識别在複雜場景的效果提升。

從實用到好用、易用

車載語音識别互動的未來可期

從2003年開始,科大訊飛已在汽車智能化領域深耕21年,在國内車載語音市場的覆寫率多年穩居榜首*,多樣化産品合作覆寫90%以上的中國主流自主品牌和合資品牌車廠。截至2023年底,科大訊飛的汽車智能化産品和技術已累計實作5349萬的前裝搭載,年度線上互動次數突破百億,平均每月活躍使用者超2500萬。

從“達到實用”到“好用易用”,從“被動執行機器”到“拟人化貼心助理”,從“車内互動”到“跨場景互動”,從“主副駕互動”到“多乘客互動”,科大訊飛智能語音技術為車載智慧座艙持續賦能:

面對車内複雜的背景聲音,通過聲源定位系統、最高搭載六麥克風陣列降噪解決方案與多年積累的語音識别庫,訊飛有效提升了語音識别的準确率。

将多路識别技術落地應用,改變了此前主駕駛人先喚醒助手後,其他乘客就無法和語音助手進行互動的情況,實作了目前車上多個位置乘客與語音助手可進行互動、互不幹擾。

此次獲ICMC-ASR雙賽道第一,無疑是對科大訊飛聯合團隊在車載多通道語音識别技術上的高度肯定。同時,認知大模型的快速發展,也為汽車智能化帶來新的發展機遇和體驗更新。

基于訊飛星火認知大模型,車機互動從單純的控制指令擴充到多元化智能互動,可以支援閑聊、知識問答、休閑娛樂和旅程規劃等應用場景,車載語音不再是單純的工具,而是貼心的私人助理,有效地解決人車互動痛點,為使用者帶來更有趣、更多元、更自然的立體互動體驗,引導人車互動向類人化互動體驗進化。語音互動和智能汽車的深度融合,也将會帶來更加安全、更加舒适、更加貼心的駕駛體驗。

若将目光再放長遠,多通道語音識别技術在車載之外還将在智能家居、智慧辦公等領域發光發熱。在家庭中,智能家居的多通道語音識别技術可識别多個成員的不同指令,區分閑聊和動作指令;在辦公場景中,多通道語音識别技術能實作說話人自動分離和識别,按角色給出識别結果并生成會議紀要。秉持初心,科大訊飛将在智能語音技術領域持續深耕,将關于未來的暢想逐漸變成走入日常的現實。

*文中資料來源于科大訊飛智能汽車資料平台,市占率來自第三方調研報告

繼續閱讀