Command Palette

Search for a command to run...

5 个月前

自动驾驶中视觉-语言-行为模型的综述

Sicong Jiang Zilin Huang Kangan Qian Ziang Luo Tianze Zhu Yang Zhong Yihong Tang Menglin Kong

自动驾驶中视觉-语言-行为模型的综述

摘要

多模态大语言模型(MLLM)的迅速发展为视觉-语言-行动(VLA)范式铺平了道路,该范式在一个统一的策略中集成了视觉感知、自然语言理解和控制功能。自动驾驶领域的研究人员正在积极将这些方法应用于车辆领域。这类模型有望使自动驾驶汽车能够解释高层次指令,对复杂的交通场景进行推理,并自主做出决策。然而,相关文献仍然分散且迅速扩展。本综述首次全面概述了用于自动驾驶的视觉-语言-行动模型(VLA4AD)。我们(i)形式化了近期工作中共享的架构构建模块,(ii)追溯了从早期解释器到以推理为中心的VLA模型的发展历程,(iii)根据VLA在自动驾驶领域的进展比较了20多个代表性模型。此外,我们还整合了现有的数据集和基准测试,强调了同时评估驾驶安全、准确性和解释质量的协议。最后,我们详细讨论了开放性挑战——鲁棒性、实时效率和形式验证——并勾勒出VLA4AD未来的研究方向。本综述为推进可解释的社会对齐自动驾驶汽车提供了一个简洁而完整的参考。GitHub仓库地址为 SicongJiang/Awesome-VLA4AD。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供