天天看點

多模人車互動,智能汽車的AI感覺進化

 2019-10-28 14:32:49

作為物聯網的重要組成部分,車聯網已經成為是科技、網際網路巨頭們争相進入的新領域。

2014年,蘋果推出了基于iPhone的智能車載系統CarPlay;Google也在同年釋出了對标産品Android Auto。智能手機系統的兩強格局,再一次被平移到智能車載系統市場。

在底層系統之上,手機時代的應用開發者們,也開始思考駕駛場景中App的互動邏輯。今年8月,騰訊釋出了車載微信産品。車載微信僅保留了微信最核心的幾項功能:消息檢視、發送與語音通話。為了駕駛員的安全,車載微信的互動方式,僅支援語音與方向盤按鍵。

在車聯網時代,汽車不斷智能化,而人車之間的互動也将更加多樣、頻繁。如今,智能汽車的作業系統與上層應用正在蓬勃發展,但在軟體層之下,人車之間究竟該如何實作高效、安全、易用的人機互動,仍然是值得所有從業者思考的一大難題。

從傳統的機械按鍵到現代化的觸控屏、語音操控、手勢操控,人車互動的途徑越來越多。而未來,智能汽車的主動感覺功能,也許将成為人車互動的終極追求。

多模互動時代來臨

從1885年的奔馳一号到如今的純電動車,汽車的技術架構與産品形态,都經曆了翻天覆地的變化。但對于汽車廠商而言,為汽車添加盡可能多的功能,可能是唯一不變的追求。

如果一名19世紀的汽車駕駛員穿越到當下,很可能對現代汽車上無數的按鍵、旋鈕與觸控屏感到茫然。座椅調節、空調、電台、音樂播放,現代汽車內建了越來越多的功能子產品,這些子產品在豐富汽車駕駛體驗的同時,也給駕駛員帶來了更多的操控負擔。

在汽車智能化的背景下,駕駛員的“認知過載”已不可避免。如何改善人車互動體驗,讓駕駛員專注于駕駛本身,從座椅調節、路線導航、聽歌點歌等各種瑣事中解放出來,進而提升人車互動體驗和駕駛安全,将會成為下一代人車互動産品的首要目标。

以“觸摸+語音”為核心的傳統人車互動模式亟待新的變化

如今,以“觸摸+語音”為核心的傳統人車互動模式,幾乎已經達到了車内使用者的互動體驗天花闆。若想在保證駕駛安全的前提下實作更複雜的人車互動,“多模互動”勢在必行。

何為多模互動?

這是一種融合了視覺、語音等多感官的AI互動方式。駕駛員、乘客可以通過語音、手勢等多種方式為車輛下指令,而車輛也具備智慧感覺功能,可以更準确地判斷使用者意圖。以音樂播放為例,傳統的車載音樂播放模式,是駕駛員通過按鍵、旋鈕、觸屏等媒體,選擇、控制音樂播放。在單模态下,使用者可以使用語音操控音樂播放,而多模态加入後,車輛可以通過人臉、聲紋識别的方式,識别發出指令的使用者,并根據使用者的個人喜好及環境場景提供定制化的歌單。此外,多模互動在很多實際應用場景都将對互動體驗産生質的提升,如基于唇語和語音調節不同車窗,基于情緒識别進行智能主動抓拍,基于注意力檢測提供語音提醒服務等等。

事實上,多模互動的意義遠不止解放車内使用者互動操作。通過感覺、推薦、互動等環節,多模互動将賦予汽車生命和智慧,讓汽車實作主動式的思考,持續優化車内服務和場景疊代。

多模人車互動,智能汽車的AI感覺進化

多模語音互動将實作讓車主動服務人的轉變

多模互動将使裝置能夠結合使用者行為習慣進而更精準的判斷使用者意圖,實作 AI 時代的立體智能推薦多模互動。這一切,已經不再停留在産品設想層面,一些國内技術提供商已經開始将多模态人機互動産品落地化。

技術落地的前景與挑戰

但多模互動人車互動的技術實作,并非易事。

36氪就多模互動趨勢與地平線進行了對話,在地平線的多模态人車智能互動解決方案中,攝像頭、麥克風陣列、晶片平台與CAN總線構成了最核心的硬體元件。其中,攝像頭實作了人臉與手勢的識别,麥克風用于擷取語音資訊,晶片與CAN則負責通信,并将指令下放到輸出層。這其中,不僅涉及到不同形态的技術,不同來源的資料融合。

多模人車互動,智能汽車的AI感覺進化

地平線希望通過多模互動融合視覺和語音,進而實作 “1+1>2”效果

傳統的單模互動方式,如語音互動往往會有很大局限性。相較于家居場景中的智能音箱,車内場景噪音大、人員密集,語音識别難度會更大。汽車該如何感覺駕駛員與多位乘客提出的不同語音指令,将指令精準定位到人,一直是一個難題。中國新造車品牌理想旗下首款産品——理想ONE,通過搭載的地平線多音區識别方案,采用了聲源定位、盲源分離和降噪算法,實作了車載環境下的多音區互動。

但在地平線看來,這遠遠不夠。

在最近與某主機廠的合作中,地平線提供了多模指令詞方案。該方案采用了視覺識别與語音識别技術,通過對唇語和語音的融合分析,從底層邏輯上降低了誤喚醒率與不發聲情況下的誤識率。地平線多模産品負責人表示,“多模指令詞是業内首創的将唇語特征和語音特征融合進行語音識别算法,聯合學習兩種模态的資料可以有效提高高噪聲環境下的指令詞識别率,及降低不發聲情況下的誤識率。”

多模人車互動,智能汽車的AI感覺進化

理想ONE車内的四麥克風布置

在視覺互動方面,以座椅調節為例,在汽車發展史上,座椅調節功能從無到有,從機械到電動,從手動調節到智能記憶,一直處于不斷的演進之中。而基于人臉識别的座椅記憶功能,則可以徹底解放使用者雙手,汽車監測到使用者上車後,便可以根據使用者的設定,自動調節好座椅位置,無需使用者進行任何操作。

此外,如上文所言,在多模互動時代,智能汽車的核心體驗也不止于個性化。主動化,是多模互動的另一個關鍵詞。比如當汽車傳感器監測到車内使用者開心時可以主動抓拍,當檢測到駕駛員出現閉眼、打哈欠、玩手機等危險駕駛迹象時,車輛也可以發出提醒,甚至對疲勞進行分級并提供不同的疲勞降解甚至警報服務。

無人駕駛普及之前,汽車對駕駛員危險駕駛行為的幹預行為,将會大大降低事故發生率。

晶片算力和算法的疊代演進是關鍵驅動力

毫無疑問,汽車行業正經曆着深刻且快速的變革。汽車不再僅僅是一個交通工具,更是一種生活方式,同時也是一種時尚的潮流,這裡面有無限服務的創新的可能。讓出行更安全美好的不僅僅是自動駕駛和輔助駕駛,在商業模式創新方面,有分時租賃和共享出行;在前端的高科技技術內建方面,有車聯網和 5G 加持的高速互聯,有車路協同帶動的基礎設施進步;在車内人機互動方面,更智能更先進的互動技術也在不斷落地應用,這種變化就如同當年PC時代與移動時代之交蘋果帶來觸屏互動。

不久的未來,我們需要在底層的算力支撐上去建構一個豐富的人工智能軟體架構,其中有環境感覺,它可以借助多種傳感器對周圍環境實作三維動态全景的感覺模組化,并根據周邊的所有目标特别是動态目标的行為預測去做決策規劃布置;同時這個軟體架構下,智能座艙技術如多模人機互動将會得到更為有豐富的體驗,比如更清晰的顯示屏,更自然的語音、視覺互動,但無論車外環境感覺還是車内智能座艙,都同樣對晶片算力和算法提出了不斷遞增的要求标準。

如地平線這樣的人工智能企業在汽車産業鍊中扮演的角色就是以邊緣AI晶片為合作夥伴提供底層算力,支撐起上層應用軟體。

汽車産業的迅猛發展,帶動的是整個資訊産業的發展,這其中就包括傳感器、AI 晶片,以及最先進的人工智能軟體系統。

目前,業界普遍認為,在自動駕駛時代到來前,ADAS(輔助駕駛)、DMS(駕駛行為監測)、多模互動等智能駕駛功能,将成為自動駕駛過渡階段的智能汽車标配子產品。未來,汽車的AI感覺能力仍将會不斷演化,而如何借助人工智能讓汽車更智能、讓人機互動更自然,則将是車廠和相關技術企業在當下的重要目标。

繼續閱讀