Command Palette
Search for a command to run...
NVIDIA

摘要
通过模仿学习训练的端到端架构在扩大模型规模和数据量方面推动了自动驾驶技术的发展,但在安全关键的长尾场景中,其性能仍显脆弱,原因在于监督信号稀疏且因果理解能力有限。为解决这一问题,我们提出 Alpamayo-R1(AR1),一种融合因果推理与轨迹规划的视觉-语言-动作模型(VLA),以提升复杂驾驶场景下的决策能力。本方法包含三项关键创新:(1)构建了链式因果推理(Chain of Causation, CoC)数据集,采用混合自动标注与人工介入的流水线生成以决策为基础、具有因果关联的推理轨迹,与实际驾驶行为高度对齐;(2)设计了一种模块化VLA架构,结合专为物理人工智能(Physical AI)任务预训练的视觉-语言模型 Cosmos-Reason,以及基于扩散模型的轨迹解码器,实现实时动态可行的路径规划;(3)采用多阶段训练策略,首先通过监督微调激发模型推理能力,再利用强化学习(RL)结合大规模推理模型的反馈来优化推理质量,并强制保证推理与动作的一致性。评估结果表明,相较于仅依赖轨迹的基线模型,AR1在复杂场景下的规划准确率最高提升12%;在闭环仿真中,车辆偏离道路率降低35%,近距离遭遇率下降25%。强化学习后处理使推理质量提升45%(由大规模推理模型评判),推理与动作一致性提升37%。模型参数从0.5B扩展至7B的过程中,性能持续提升。车载道路测试验证了其实时性表现(平均延迟99毫秒)及在城市环境中的成功部署能力。通过将可解释的推理与精确的控制相融合,AR1为实现L4级自动驾驶提供了一条切实可行的技术路径。我们计划在未来更新中发布AR1模型及CoC数据集的子集。