多模交互如何提升智能座舱驾驶体验，是值得我们长期探索的一个课题。这篇文章里，作者就分享了多模交互在智能座舱中的价值所在，以及设计多模交互体验的几个要点，一起来看一下。

在HMI设计中，视觉、听觉、触觉和嗅觉都能发挥不同的作用。人类通过视觉接收的信息占所有感官通道接收的信息83%，在座舱中驾驶员的眼睛会分别从仪表盘、中控、后视镜、HUD、氛围灯以及车外环境获取相关信息。

在智能座舱中，除了基于触觉感知的触控屏、实体按键等交互方式，隔空手势、人脸识别、姿态识别、眼动追踪、心电监测、呼吸监测等交互和识别手段都在逐渐往座舱落地，这让多模交互的形式和内容更加丰富多样。

通过多模交互实现安全、高效和舒适的车内交互体验正是多模交互在智能座舱中的价值所在，那么怎么来理解安全、高效和舒适呢？

一、多模交互的应用价值

在【智能座舱设计的人机工程学和人机交互理论】文中提到了态势感知、SRK模型、多重资源理论及耶德定律，这四个模型相互结合可以解释为什么智能座舱体验设计需要考虑多模交互。以SRK模型和耶德定律结合为例，为什么新手司机需要非常专注地看着前方开车，因为他们的驾驶操作仍处于知识层面，这时新手司机认知负荷处于较高水平，当有其他事项影响到新手司机导致认知资源过载时，容易发生危险。

但对于驾驶熟练的司机来说，驾驶操作已经成为技能，他们无须将大部分的认知资源放在路面上，许多简单的任务可以同时进行。尽管经验丰富的司机可以同时处理多项任务，但是遇到不熟悉及恶劣环境时仍是需要非常专注地开车，因为这时他对环境的理解处于知识层面。

以态势感知和耶德定律结合为例，在手动驾驶状态下，驾驶员的开车过程就是对周围环境进行数据采集（感知），然后加工处理（预测和决策）并采取行动操作车辆。当汽车处于智能驾驶状态时，由于驾驶员很可能没有把注意力放在驾驶任务上，一旦出现问题需要驾驶员接管，此时驾驶员需要在极短时间对环境进行感知、预测和决策并做出行动，认知负荷很可能从较低瞬间提升到较高甚至过高水平，从而导致分心或者焦虑。

从多重资源理论的角度来看，好的驾驶体验应该是将需要驾驶员关注的信息通过不同通道去呈现,从而降低驾驶员的认知负荷除了认知负荷，前面提及的人脸识别、姿态识别、心电监测、呼吸监测等交互和识别手段都是为了保障驾驶员处于一个良好的驾驶状态，从而保障乘客和车辆安全。

方向盘按键、语音交互、隔空手势和眼动追踪等交互方式都能有效提高驾驶员的操作效率，并且让驾驶员可以在背部不离开座椅的前提下操控整辆汽车有效提升操作时的舒适度，而这些目的的背后依然是让驾驶员更安全地操控车辆。

二、设计多模交互体验的4个要点

如何通过多屏交互、语音交互、氛围灯交互、触觉交互等交互方式实时让用户清晰地知道当前发生了什么？这一直是目前学术界和工业界都在探讨的前沿课题。下面是行业内总结的在设计多模交互时需要关注的四个要点。

1、信息可以通过多通道冗余的方式呈现，尤其是高优先级甚至紧急的信息

通过研究证明，“视觉+听觉”或者“视觉+振动触觉”警告已证明比单模态警告的响应时间快，这跟多模交互的冗余增益可加快信息的处理时间有关。

听觉或振动触觉信号是短暂的，因此信息可能会被遗漏或遗忘，这在关键信息的情况下尤其重要。而当驾驶员因自身原因或者环境原因导致视觉或者听觉接收信息存在障碍，例如黑暗环境或者吵闹环境，多通道传递信息能尽可能避免驾驶员无法接收信息的问题

2、重要信息应该在感知上最显著，尤其是警告信息应引导用户朝向危险源

由于驾驶过程中有大量的信息发生在不同方位上，当即将有紧急事件发生时，应当让驾驶员在适当的时候看向即将发生危险的方向，例如车辆的前/侧/后方位此时基于视觉的氛围灯和基于听觉的警示音都能有效引导用户朝向危险源。

3、每个模态传达的信息是可理解的，尤其是模态联动时

座舱HMI中很多信息都会通过GUI界面的文字和符号表示，但这些信息被转化成语音甚至对话时是否容易被理解是个问题，尤其是符号为非标准符号或者具有二义性。因此在设计GUI信息时应当考虑等效的语音信息是什么。另外，不同优先级的信息应当可以相互区分，尤其是触觉信息，因为大部分实现触觉反馈的器件分辨率较低，用户很难区分相近的振动反馈差异点在哪。

4、信息的输入和输出是合理的，避免引起人的不适

在黑暗环境下突然出现一道高亮的光线容易引起人的眼部不适，同理听觉、触觉和嗅觉的输出也要考虑避免引起人的不适。过高响度的听觉信号让人难以受甚至致聋；过高强度的触觉信号会让人感受到疼痛；过高浓度的嗅觉信号容易引起刺鼻甚至嗅觉失灵。

在信息输入方面，输入效率过低和文化差异也会引起人的不适。例如语音交互过程中用户发出的指令拗口或者朗读时长需要数秒会引起用户的不满；同一个手势在不同文化习俗中可能有着不一样的解读。以“OK”手势为例，在美国、英国、中国的文化中该手势意为“没问题”，但是在土耳其、希腊、巴西和德国的部分地区，“OK”手势是一种极具侮辱的冒犯性手势，该问题在涉及国际化设计时尤其突出。

三、多模交互的未来发展趋势与突破点

目前不同车企已经有较多的多模态技术投入到智能座舱中，例如语音交互、手势识别、人脸识别、姿态追踪等，但如眼动追踪、心率识别等技术因为精度不够暂未使用到智能座舱上。当缺乏了眼动追踪技术，AR-HUD的内容与路面信息贴合会存在较大问题，从而使驾驶员在做决策时发生误判。尽管以上多模态技术已经投入使用，但精度会随着环境和不同驾驶员之间的个体差异发生改变，例如2022年一位小鹏汽车车主在使用NGP辅助驾驶功能时，因自己眼睛小，被系统判定为“开车睡觉”，智驾分因此被扣掉了4分。

要大幅度实现技术精度的提升并不是一件容易的事情。以语音识别准确率为例，在2015年，中文语音识别准确率在实验室环境下已经达到97%，但后续几年内并没有看到这一数字有明显的变化。

当单个模态因精度问题导致结果不准确时，模态与模态之间融合则存在更大问题，尤其部分模态涉及环境和人为因素时。例如一位驾驶员正在“聚精会神”看着前方道路，而且方向盘旋转角度、道路偏移等参数都没有异常，那么我们可以判定这位驾驶员正在认真开车吗？

答案是否定的，因为这位驾驶员可能正在发呆，此时已经处于分神状态。为什么出现这种情况?因为人在发呆时，他的眨眼、头动等动作并不会表现出分神和疲劳现象，系统无法感知到这名驾驶员是否在正常开车。因此通过模态融合实现的各种“黑科技”背后很有可能存在较多不确定性者在解决类似问题时一定要关注方案的客观性和准确性。

除了多模交互仍有大量技术问题需要攻克，在落地过程中还有一个最大的阻力，就是算力不足。尽管车企将更多的摄像头和传感器接入到座舱中，但是算法是否足够成为问题。在智能座舱中，除了多个屏幕、界面和动效渲染、以及各种常见应用占用算力，多模态使用到的技术，例如语音交互的声源定位、唤词识别、声音降噪、ASR（语音识别）离线指令识别、人脸识别、手势识别、DMS（驾驶员监测系统）、AR-HUD 导航地图导航等，同时运行在一颗车载芯片上并保证用户体验流畅是不容易的。

目前车载芯片要比当前手机芯片晚2~3代，尽管在未来算力带来的瓶颈问题将逐渐减少，但不可否认的是未来定会有更多新问题出现，例如辅助驾驶和自动驾驶更加成熟，AR-HUD、影音、游戏娱乐会对算力有更多的要求，此时预留给多模交互技术的算力剩下多少也是一个问题。

总的来说，多模交互的难点不仅在于各种计算机技术的研究，还有对人类行为特别是人机工程学的研究，更重要的是将这些行为及背后的意图正确地识别出来，因此多模交互是一项涉及心理学、人机工程、计算机等多个学科的系统工程。在各个技术尚未成熟前，多模交互如何提升智能座舱驾驶体验将是一个长期值得探索的课题。

本文由 @ALICS 原创发布于人人都是产品经理。未经许可，禁止转载

题图来自Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

智能座舱中多模交互的价值和体验要点

一、多模交互的应用价值

二、设计多模交互体验的4个要点

三、多模交互的未来发展趋势与突破点