多模互動如何提升智能座艙駕駛體驗，是值得我們長期探索的一個課題。這篇文章裡，作者就分享了多模互動在智能座艙中的價值所在，以及設計多模互動體驗的幾個要點，一起來看一下。

在HMI設計中，視覺、聽覺、觸覺和嗅覺都能發揮不同的作用。人類通過視覺接收的資訊占所有感官通道接收的資訊83%，在座艙中駕駛員的眼睛會分别從儀表盤、中控、後視鏡、HUD、氛圍燈以及車外環境擷取相關資訊。

在智能座艙中，除了基于觸覺感覺的觸控屏、實體按鍵等互動方式，隔空手勢、人臉識别、姿态識别、眼動追蹤、心電監測、呼吸監測等互動和識别手段都在逐漸往座艙落地，這讓多模互動的形式和内容更加豐富多樣。

通過多模互動實作安全、高效和舒适的車内互動體驗正是多模互動在智能座艙中的價值所在，那麼怎麼來了解安全、高效和舒适呢？

一、多模互動的應用價值

在【智能座艙設計的人機工程學和人機互動理論】文中提到了态勢感覺、SRK模型、多重資源理論及耶德定律，這四個模型互相結合可以解釋為什麼智能座艙體驗設計需要考慮多模互動。以SRK模型和耶德定律結合為例，為什麼新手司機需要非常專注地看着前方開車，因為他們的駕駛操作仍處于知識層面，這時新手司機認知負荷處于較高水準，當有其他事項影響到新手司機導緻認知資源過載時，容易發生危險。

但對于駕駛熟練的司機來說，駕駛操作已經成為技能，他們無須将大部分的認知資源放在路面上，許多簡單的任務可以同時進行。盡管經驗豐富的司機可以同時處理多項任務，但是遇到不熟悉及惡劣環境時仍是需要非常專注地開車，因為這時他對環境的了解處于知識層面。

以态勢感覺和耶德定律結合為例，在手動駕駛狀态下，駕駛員的開車過程就是對周圍環境進行資料采集（感覺），然後加工處理（預測和決策）并采取行動操作車輛。當汽車處于智能駕駛狀态時，由于駕駛員很可能沒有把注意力放在駕駛任務上，一旦出現問題需要駕駛員接管，此時駕駛員需要在極短時間對環境進行感覺、預測和決策并做出行動，認知負荷很可能從較低瞬間提升到較高甚至過高水準，進而導緻分心或者焦慮。

從多重資源理論的角度來看，好的駕駛體驗應該是将需要駕駛員關注的資訊通過不同通道去呈現,進而降低駕駛員的認知負荷除了認知負荷，前面提及的人臉識别、姿态識别、心電監測、呼吸監測等互動和識别手段都是為了保障駕駛員處于一個良好的駕駛狀态，進而保障乘客和車輛安全。

方向盤按鍵、語音互動、隔空手勢和眼動追蹤等互動方式都能有效提高駕駛員的操作效率，并且讓駕駛員可以在背部不離開座椅的前提下操控整輛汽車有效提升操作時的舒适度，而這些目的的背後依然是讓駕駛員更安全地操控車輛。

二、設計多模互動體驗的4個要點

如何通過多屏互動、語音互動、氛圍燈互動、觸覺互動等互動方式實時讓使用者清晰地知道目前發生了什麼？這一直是目前學術界和工業界都在探讨的前沿課題。下面是行業内總結的在設計多模互動時需要關注的四個要點。

1、資訊可以通過多通道備援的方式呈現，尤其是高優先級甚至緊急的資訊

通過研究證明，“視覺+聽覺”或者“視覺+振動觸覺”警告已證明比單模态警告的響應時間快，這跟多模互動的備援增益可加快資訊的處理時間有關。

聽覺或振動觸覺信号是短暫的，是以資訊可能會被遺漏或遺忘，這在關鍵資訊的情況下尤其重要。而當駕駛員因自身原因或者環境原因導緻視覺或者聽覺接收資訊存在障礙，例如黑暗環境或者吵鬧環境，多通道傳遞資訊能盡可能避免駕駛員無法接收資訊的問題

2、重要資訊應該在感覺上最顯著，尤其是警告資訊應引導使用者朝向危險源

由于駕駛過程中有大量的資訊發生在不同方位上，當即将有緊急事件發生時，應當讓駕駛員在适當的時候看向即将發生危險的方向，例如車輛的前/側/後方位此時基于視覺的氛圍燈和基于聽覺的警示音都能有效引導使用者朝向危險源。

3、每個模态傳達的資訊是可了解的，尤其是模态關聯時

座艙HMI中很多資訊都會通過GUI界面的文字和符号表示，但這些資訊被轉化成語音甚至對話時是否容易被了解是個問題，尤其是符号為非标準符号或者具有二義性。是以在設計GUI資訊時應當考慮等效的語音資訊是什麼。另外，不同優先級的資訊應當可以互相區分，尤其是觸覺資訊，因為大部分實作觸覺回報的器件分辨率較低，使用者很難區分相近的振動回報差異點在哪。

4、資訊的輸入和輸出是合理的，避免引起人的不适

在黑暗環境下突然出現一道高亮的光線容易引起人的眼部不适，同理聽覺、觸覺和嗅覺的輸出也要考慮避免引起人的不适。過高響度的聽覺信号讓人難以受甚至緻聾；過高強度的觸覺信号會讓人感受到疼痛；過高濃度的嗅覺信号容易引起刺鼻甚至嗅覺失靈。

在資訊輸入方面，輸入效率過低和文化差異也會引起人的不适。例如語音互動過程中使用者發出的指令拗口或者朗讀時長需要數秒會引起使用者的不滿；同一個手勢在不同文化習俗中可能有着不一樣的解讀。以“OK”手勢為例，在美國、英國、中國的文化中該手勢意為“沒問題”，但是在土耳其、希臘、巴西和德國的部分地區，“OK”手勢是一種極具侮辱的冒犯性手勢，該問題在涉及國際化設計時尤其突出。

三、多模互動的未來發展趨勢與突破點

目前不同車企已經有較多的多模态技術投入到智能座艙中，例如語音互動、手勢識别、人臉識别、姿态追蹤等，但如眼動追蹤、心率識别等技術因為精度不夠暫未使用到智能座艙上。當缺乏了眼動追蹤技術，AR-HUD的内容與路面資訊貼合會存在較大問題，進而使駕駛員在做決策時發生誤判。盡管以上多模态技術已經投入使用，但精度會随着環境和不同駕駛員之間的個體差異發生改變，例如2022年一位小鵬汽車車主在使用NGP輔助駕駛功能時，因自己眼睛小，被系統判定為“開車睡覺”，智駕分是以被扣掉了4分。

要大幅度實作技術精度的提升并不是一件容易的事情。以語音識别準确率為例，在2015年，中文語音識别準确率在實驗室環境下已經達到97%，但後續幾年内并沒有看到這一數字有明顯的變化。

當單個模态因精度問題導緻結果不準确時，模态與模态之間融合則存在更大問題，尤其部分模态涉及環境和人為因素時。例如一位駕駛員正在“聚精會神”看着前方道路，而且方向盤旋轉角度、道路偏移等參數都沒有異常，那麼我們可以判定這位駕駛員正在認真開車嗎？

答案是否定的，因為這位駕駛員可能正在發呆，此時已經處于分神狀态。為什麼出現這種情況?因為人在發呆時，他的眨眼、頭動等動作并不會表現出分神和疲勞現象，系統無法感覺到這名駕駛員是否在正常開車。是以通過模态融合實作的各種“黑科技”背後很有可能存在較多不确定性者在解決類似問題時一定要關注方案的客觀性和準确性。

除了多模互動仍有大量技術問題需要攻克，在落地過程中還有一個最大的阻力，就是算力不足。盡管車企将更多的攝像頭和傳感器接入到座艙中，但是算法是否足夠成為問題。在智能座艙中，除了多個螢幕、界面和動效渲染、以及各種常見應用占用算力，多模态使用到的技術，例如語音互動的聲源定位、喚詞識别、聲音降噪、ASR（語音識别）離線指令識别、人臉識别、手勢識别、DMS（駕駛員監測系統）、AR-HUD 導航地圖導航等，同時運作在一顆車載晶片上并保證使用者體驗流暢是不容易的。

目前車載晶片要比目前手機晶片晚2~3代，盡管在未來算力帶來的瓶頸問題将逐漸減少，但不可否認的是未來定會有更多新問題出現，例如輔助駕駛和自動駕駛更加成熟，AR-HUD、影音、遊戲娛樂會對算力有更多的要求，此時預留給多模互動技術的算力剩下多少也是一個問題。

總的來說，多模互動的難點不僅在于各種計算機技術的研究，還有對人類行為特别是人機工程學的研究，更重要的是将這些行為及背後的意圖正确地識别出來，是以多模互動是一項涉及心理學、人機工程、計算機等多個學科的系統工程。在各個技術尚未成熟前，多模互動如何提升智能座艙駕駛體驗将是一個長期值得探索的課題。

本文由 @ALICS 原創釋出于人人都是産品經理。未經許可，禁止轉載

題圖來自Unsplash，基于CC0協定

該文觀點僅代表作者本人，人人都是産品經理平台僅提供資訊存儲空間服務。

智能座艙中多模互動的價值和體驗要點

一、多模互動的應用價值

二、設計多模互動體驗的4個要點

三、多模互動的未來發展趨勢與突破點