在过去的二十多年里，自动驾驶技术取得了显著的进展，一些高度自动化的车辆已经问世。前不久，我们曾分享过一项涉及理解复杂指令的机器人实验。如果基于大型语言模型（LLM）能实现理解和执行自动驾驶汽车的口头指令，将不再局限于简单的“你好XX，打开天窗、关闭空调”之类的指令，而是涉及到真正操纵汽车在道路上行驶的复杂指令，那将是一种何等神奇的体验。

本文作者介绍了自动驾驶框架 Talk2Drive ，该框架利用 LLM 来解释和回复人类的各种指令，尤其是那些抽象或具有情感色彩的指令，同时利用历史互动数据来实现个性化的驾驶体验。与传统系统需要精确输入的情况不同，Talk2Drive 框架允许与车辆进行更自然和直观的交流。

本文将深入探讨LLM在自动驾驶决策中的作用，并讨论车辆配置、感知系统和通信设备等技术，以及这些技术如何共同助力车辆在真实道路上实现自主导航。

论文题目:

Large Language Models for Autonomous Driving: Real-World Experiments

论文链接:

https://arxiv.org/abs/2312.09397

LLM 结合自动驾驶的优势

与传统系统相比，LLM 在自动驾驶方面具有以下优势：

对抽象表达的理解：传统系统在理解人类的抽象指令方面存在困难，而 LLM 能够理解和适应各种人类情绪和上下文线索。
个性化驾驶体验：LLM 能够根据人类的历史偏好和命令提供个性化的驾驶模式，从而提高驾驶体验。
实时性和安全性：LLM 在处理复杂人类指令时有较低的延迟，这对于实时应用和安全关键场景至关重要。

Talk2Drive 框架

Talk2Drive 框架是一个创新的自动驾驶规划和控制任务方法，将基于云的大型语言模型（LLMs）与实际车辆动力学相结合，以个性化的方式响应人类输入，如图 1 所示。

▲图1. Talk2Drive 框架结构

指令翻译和上下文数据集成

这是框架中的第一步，确保了用户口头指令的准确翻译，并通过整合实时环境数据，使得系统能够更全面、智能地理解和处理这些指令。

Talk2Drive 框架首先通过先进的语音识别技术识别人类的口头命令。口头命令经过翻译，被转换成文本指令，这一步骤的关键在于确保口语的内容和细节能够准确地被转换为文本格式。同时，LLM 访问基于云的实时环境数据（其中包括天气更新、交通状况以及本地交通规则信息等），这些集成的上下文数据以文本格式呈现，并在决策过程中发挥着关键作用，确保系统的回复能够充分考虑到环境的背景信息。

基于 LLM 处理和推理

在这部分中使用 LLM 处理和推理文本命令，这是框架中的关键步骤，使系统能够理解复杂的、上下文丰富的指令。LLM 在推理过程中解释这些文本命令。这一步骤的目标是让 LLM 理解用户的指令，并做出相应的决策。此外，LLM 还可以结合上一步提供的上下文数据。

生成可执行代码

LLM 推理过程的输出是可执行代码，该代码用于规划和控制车辆行为。该步骤受到“代码即策略”概念的启发，生成的代码不仅仅是一系列简单的指令，它们涉及到需要在车辆底层控制器中进行的复杂驾驶行为和参数微调。这包括控制参数的微调（如前瞻距离和前瞻比率），此外，代码还会根据驾驶员的口头指令修改车辆的目标速度。

自动驾驶车辆中的代码执行和反馈

这一过程实现了从语言模型生成的代码到实际驾驶行为的转换，并通过安全检查保障了整个过程的可靠性和安全性。

LLM 生成的代码通过云端发送回车辆的电控单元（ECU），并在 ECU 中执行。Talk2Drive 框架为生成的代码设置了两种安全检查：

首先检查生成代码的格式是否有效，如果代码不符合有效格式，框架将不提供与生成代码相关的反馈或行动，这确保了生成的代码在结构上是正确的，以避免可能的错误。
另一个安全检查涉及参数验证，评估给定参数在当前情况下是否合适和安全。这一步骤有助于防止执行可能带有危险的代码，保证生成的代码对车辆是合适和安全的。

代码的执行涉及调整车辆规划和控制系统中的基本驾驶行为和各种参数。执行器通过 CAN 总线和电控驱动系统控制油门、刹车、挡位选择和转向，如图 2 所示。这确保了由 LLM 生成的代码能够准确指导车辆执行相应的驾驶行为。

▲图2 自动驾驶功能模块和消息流

存储器模块和个性化

这一模块为 Talk2Drive 框架引入了个性化的驾驶体验，通过记录、分析和利用历史互动数据，使系统更智能地适应用户的驾驶偏好。这种新型存储器模块，其目的是存储人与车辆之间的历史互动，重点在于提升个性化驾驶体验。

每次人与车辆之间的互动都会被记录并保存到 ECU 内的文本格式的存储器模块中。记录包括人类的口头命令、LLMs生成的代码以及人类的反馈。存储器模块中的历史数据在每次行程后都会被更新，每次与车辆的互动都被实时记录，以反映用户与车辆的最新状态和偏好。

如果用户对相似的命令有不同的反应，LLM 将以最近的反馈作为其当前决策过程的参考点，这能够满足用户可能会变化的偏好。当用户发出命令时，LLM 会访问存储器模块，并将存储的信息作为决策过程输入提示的一部分。

轨迹跟踪

车辆的驾驶轨迹是通过记录一系列路径点生成的，这些路径点表示车辆在局部坐标系中的位置信息，构成了车辆的预定行进路线。轨迹跟踪模块的主要功能是使车辆能够按照指定的路径点序列导航。它通过加载所选轨迹启动整个过程。

系统会不断检查车辆的当前状态与当前目标路径，计算它们之间的距离，被称为前瞻距离。这个前瞻距离用于判断车辆是否足够接近当前路径点。

如果车辆离当前路径足够近，则当前目标路径将更新为下一个路径点。
如果车辆与当前目标路径点的距离未达到设定的最小距离，系统将通过纯追踪算法继续导航到原始的当前目标路径点。

将上述过程重复直到车辆到达最终路径，此时算法结束。

▲图3 轨迹跟踪流程图

作者在自动驾驶系统中采用了纯追踪算法作为路径跟踪方法。它的输入包括目标路径点、前瞻距离和期望速度，生成用于车辆控制的轮转角和当前加速度。纯追踪算法的核心思想是利用前瞻距离、转弯半径和前瞻点的方向角来计算前轮转角，然后使用计算得出的前轮转角和期望车速来实现对目标路径点的跟踪，如图 4 所示。

▲图4 纯追踪路径跟踪算法的示意图

实验

▲图5 实验中真实自动驾驶车辆的设置

自动驾驶车辆平台的传感器套件和连接设置如图 5 所示。实验测试赛道如图 6 所示，测试的指定轨迹形成了一个矩形环，包括一个长直道，可以进行持续速度和控制评估，以及每个拐角处的弯道。

▲图6 实验场地的地图

在实验中将受试者划分为三个组，这些组内的成员在驾驶行为上有相似的趋势。接着，受试者被要求按照三个级别制定命令（直接策略、习惯性间接策略和非习惯间接策略）。通过 Talk2Drive 框架进行处理，框架初始化轨迹跟踪模块。每个命令使用四种不同的语言模型进行处理，收集速度和反应延迟等数据点，然后计算评估指标。为了建立速度差异和速度方差的比较基准，还要求不同组的人类驾驶员在相同的轨迹上驾驶，并将其数据的平均值作为 baseline 值，表 1 展示了这些评估指标的具体数值。

▲表1 Talk2Drive 在不同 LLM 模型和命令类别下的结果

理解能力：使用速度差异来评估 LLM 模型理解间接命令的能力。在框架中测试的所有 LLM 都能够理解不同速度意图类别的速度命令，并将其准确转换为执行代码，成功率达到 100%。
舒适性：为了评估舒适性水平，测量了速度方差和加速度。结果显示，速度差异和平均加速度未显著超过 baseline，而平均加速度降低不超过“优秀”驾驶体验的建议阈值。这表明通过 Talk2Drive 进行的速度调整对驾驶舒适性没有显著影响。
延迟：考虑了从初始化 LLM API 调用到成功接收命令文本的持续时间。结果显示，GPT-3 具有最短的延迟，可能是由于其较小的模型大小。GPT-4 和 PaLM 2 稍慢，其中 GPT-4 具有更稳定的延迟，这也可能和用户数有关。

验中对集成Talk2Drive前后的接管率进行了评估，通过模拟不同驾驶风格的人类驾驶员，模拟了各种驾驶场景。当驾驶员认为轨迹跟踪模块的默认速度设置过快或过慢时，他们会接管车辆。如表 2 所示，Talk2Drive 的集成使驾驶员能够以更直观、更个性化的方式与系统进行交互，通过口头指令传达他们对速度的偏好。这种能力的提升在实际驾驶场景中体现为明显减少的接管率，表明系统更好地适应了驾驶员的偏好，提高了整体的用户体验。

▲表2 接管率的比较分析

同时，还显示了引入记忆模块显著降低了接管率，这说明了历史记录模块在实现更个性化的驾驶体验方面的好处。

总结

本文展示了 LLM 在 Talk2Drive 框架中的创新应用。实验结果表明，Talk2Drive 框架使自动驾驶汽车能够高效理解和执行复杂、上下文丰富的人类命令，为驾驶体验提供更高水平的个性化服务。这也标志着 Talk2Drive 成为首个在真实自动驾驶车辆上成功部署 LLM 的框架，并以 100% 代码执行成功率为自动驾驶技术树立了新的里程碑。

然而，实现在真实场景中通过 LLM 操控汽车进行复杂行驶仍然具有挑战性，涉及反应速度和指令解读的能力，同时需要确保数据的安全性。我们期望在未来的研究中，能够深入探索与其他智能交通系统和物联网设备的紧密集成，旨在创建一个更智能的城市移动网络，以共同创造一个更智能、更高效的城市移动网络。期待自动驾驶技术的进一步发展，为未来的出行带来更便捷、安全、个性化的全新体验~

大模型已经杀入自动驾驶了！

LLM 结合自动驾驶的优势

Talk2Drive 框架

指令翻译和上下文数据集成

基于 LLM 处理和推理

生成可执行代码

自动驾驶车辆中的代码执行和反馈

存储器模块和个性化

轨迹跟踪

总结

继续阅读

周日静学（152）：期刊论文基于Stackelberg博弈的公平关切模型

斯坦福团队被曝抄袭清华系大模型后删库，被抄袭公司CEO：也算国际认可

小米Su7屁股被怼了超车遇到自动刹车跟车不要死跟电车一旦自动驾驶/刹车后车根本来不及反应急急忙忙刹车加打方向擦着一侧硬怼

Mistral 的首个“开放”编程模型

斯坦福AI团队抄袭国产大模型？连识别“清华简”都抄了！清华系团队回应

LLM 快速发展时代下图基础模型初探

Chaos Cosmos新增了 650 多种高质量 3D 模型和材质

看来AI是未来手机发展的趋势无疑了，近日有爆料称将用AI彻底改造Siri，让其控制所有功能，该功能允许用户通过语音控制单

斯坦福AI团队被质疑抄袭国产大模型

兰德：确保AI模型权重

斯坦福AI团队承认抄袭清华模型，公开道歉并撤下争议项目

今日法律问答·著作权：斯坦福AI团队抄袭面壁开源模型是否侵权

清华与面壁联合开发模型被套壳，两位斯坦福学生作者道歉删除引用

斯坦福团队抄袭清华系大模型实锤，作者深夜道歉，中国大模型已经无法被忽视

微软潘海峰华盛顿大学王晟团队发布首个全切片数字病理学模型

阿里云首个联合DNA、RNA、蛋白质的生物大模型，涵盖16.9W物种