Command Palette
Search for a command to run...
Rong Li Yuhao Dong Tianshuai Hu Ao Liang Youquan Liu Dongyue Lu Liang Pan Lingdong Kong Junwei Liang Ziwei Liu

摘要
三维视觉定位是具身智能体在开放世界环境中定位语言所指物体的关键技术。然而,现有基准数据集普遍局限于室内场景、单一平台设置以及小规模数据,难以满足实际应用需求。为此,我们提出3EED——一个跨平台、多模态的三维视觉定位基准,涵盖来自汽车、无人机和四足机器人平台的RGB与LiDAR数据。该数据集包含超过12.8万个物体和2.2万个经人工验证的语言指代表达,覆盖多样化的室外场景,数据规模是现有数据集的10倍。我们设计了一套可扩展的标注流程,结合视觉-语言模型提示与人工校验,确保空间定位的高质量。为支持跨平台学习,我们提出了平台感知归一化与跨模态对齐技术,并建立了面向域内与跨平台评估的基准评测协议。实验结果揭示了显著的性能差距,凸显了通用三维视觉定位所面临的挑战与机遇。3EED数据集及配套基准工具包已开源,旨在推动语言驱动的三维具身感知领域的未来发展。