語音互動是未來主要的車内互動方式。時下語音助手幾乎開始向标配化的趨勢發展。有資料顯示:截止2021年,中國乘用車智能語音互動功能的搭載率已經高達86%。
然而車主們對待這個功能的使用率卻呈現兩極分化,要麼極低,要麼非常高。因為不好用的語音功能除了耗費更高的時間成本外,還有可能讓你越用越生氣,甚至大呼“人工智障”。
(插入圖檔1)
在小鵬汽車的上一代語音産品中,可見即可說的全場景語音能力和極低的誤識别率,讓語音成為鵬友連接配接座艙主要的互動方式,使用者使用率34個月高達99%。而随着全場景語音2.0的推出,更強大的功能體驗有望繼續重新整理這一數字。
到底什麼樣的語音助手才能讓鵬友用起來更爽?今天我們單獨聊一聊速度對于互動體驗的影響,挖一挖大家都愛用的車載語音助手小P的背後,工程師為你呈現的便捷和周到。
(插入圖檔2)
1.為何互動速度快會讓人感到舒适?
根據統計,一般來說,人與人之間的對話的間隔時間平均是在200ms,這也基本等同于大腦的回報速度。也就是說,當兩個人之間對話的時候,維持在這個速度左右會比較舒服,太慢會讓人着急,太快也會讓人有壓迫感。
在搭載全場景語音2.0的小鵬G9車載互動系統中,工程師在設計互動速度的時候充分考慮到了使用者的舒适區間:從喚醒小P到界面回報僅需245ms,而小P給出語音回報的時間則小于700ms,是目前快的語音助手。
2.怎麼樣才能更快?
雖然小P語音助手的互動回報速度正在逐漸接近人人互動,但智能語音互動系統畢竟不同于真正會思考的人類大腦,讓我們一起來看看它是通過哪些技術優化探索來實作這一效果的:
- 響應速度更快
在智能座艙領域,每一個功能的開發都是經過場景化的思考來決定的。而這一次,工程師們将使用者所有常用場景所包括的語音控制車輛、控制應用,都下放到了車端直接實作,這就大大提升了響應速度。
目前,全場景語音2.0可以做到,從使用者發出指令到執行動作用時在1秒以内。這也是行業快的極速響應。
- 像同聲傳譯員一樣,邊聽邊想邊做邊答
我們剛剛講到,從使用者發出指令到執行動作用時在1秒以内,這已經是行業領先的速度。但當使用者指令語義模糊時,目前仍然需要更強大的伺服器線上處理,聯網則需要更多時間,這樣的情況下,如何做到更快?
為了達到更快的目标,工程師們模拟了類似“同聲傳譯”的工作方法:使用者還沒說完就開始行動。
同聲傳譯員需要在工作中聽得準,且不斷根據新收到的資訊用快的速度調整輸出語言。語音助手則需要有強大的思考能力應對不斷增加的新資訊帶來的語義變化,同時維持準确的了解力,每一個字都可能引起巨量的伺服器通路請求。
擁有了流式了解能力的小P,可以邊聽邊想邊做邊答,像同聲傳譯員一樣,讓需求在語音指令結束的一瞬間完成全部了解。
流式了解能力應用在車載語音助手領域是非常罕見的,不過,有了它,使用者的線上請求的滿足效率可大幅提速200ms以上。
- 一次多說幾個指令,一起執行
一般來說,我們在與人交流時,如果需要對方提供多個幫助,可能會盡量一次性告訴對方,不然對方可能會說:你能不能一次性說完?
在與智能座艙的互動中,也會遇到這個場景,小P雖然不會不耐煩,但逐個釋出指令到響應後再發出,多個來回大大降低執行效率,讓對話過程變得很機械化,影響使用者的體驗。
面對2-4個同時發出的并行指令,其實也可以讓小P同時做到。
比如:當你在雨中駕車,突然雨勢變大,視線也因車窗起霧開始看不清時,一句“幫我打開遠光燈和霧燈打開前除霧并把雨刷速度設為高”,一句話坐享其成,安全又從容。
3.快還不夠,還要準确
97%的準确率“卡拉OK廳般喧嚣也能聽清你的指令”
如果僅僅是響應速度夠快,但不夠準确,也是沒有意義的。
為了讓語音功能好用,使用者能夠常用,并且始終不斷疊代更高的能力,小鵬的語音工程師團隊在看不見的地方不斷嘗試着突破新的挑戰,比如G9的杜比全景聲的效果對于使用者而言是震撼的聲學效果,但對于語音控制來說,高回聲的座艙空間意味着極度惡劣的聲學條件,類似在卡拉OK廳裡聽清正常講話,對于一台機器,其處理難度可想而知。
在高噪聲、高混響、低信噪比環境下,通過語音基礎能力的自研方案,小鵬解決了低信噪比下的回聲消除難題,達到對播放中的杜比全景聲音樂“充耳不聞”,并進一步,将其它噪聲源發出的噪聲也限制在不影響語音信号收聽的程度,喚醒率和語音識别準确率都達到了97%,真正準确且極速的語音控制效果。
小鵬全場景語音2.0所帶來的極速體驗以及背後所展現的能力就先講這麼多,其實,語音工程師在看不見的地方的努力還有很多,未來也會慢慢跟大家交流。
與智能座艙的互動伴随着使用者幾乎所有用車時間,是以語音互動的體驗也貫穿使用者的每一次出行駕乘體驗。這也是小鵬為什麼堅持在語音能力的研發上大力投入的原因:我們希望鵬友選擇小鵬後,能夠在日常用車中通過語音充分調動智能座艙的服務能力,享受科技帶來的快樂和簡單。