Command Palette

Search for a command to run...

4 天前

3EED:在三维空间中处处实现万物具身化

Rong Li Yuhao Dong Tianshuai Hu Ao Liang Youquan Liu Dongyue Lu Liang Pan Lingdong Kong Junwei Liang Ziwei Liu

3EED:在三维空间中处处实现万物具身化

摘要

三维视觉定位是具身智能体在开放世界环境中定位语言所指物体的关键技术。然而,现有基准数据集普遍局限于室内场景、单一平台设置以及小规模数据,难以满足实际应用需求。为此,我们提出3EED——一个跨平台、多模态的三维视觉定位基准,涵盖来自汽车、无人机和四足机器人平台的RGB与LiDAR数据。该数据集包含超过12.8万个物体和2.2万个经人工验证的语言指代表达,覆盖多样化的室外场景,数据规模是现有数据集的10倍。我们设计了一套可扩展的标注流程,结合视觉-语言模型提示与人工校验,确保空间定位的高质量。为支持跨平台学习,我们提出了平台感知归一化与跨模态对齐技术,并建立了面向域内与跨平台评估的基准评测协议。实验结果揭示了显著的性能差距,凸显了通用三维视觉定位所面临的挑战与机遇。3EED数据集及配套基准工具包已开源,旨在推动语言驱动的三维具身感知领域的未来发展。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供