Command Palette

Search for a command to run...

3 天前

MG-Nav:通过稀疏空间记忆实现的双尺度视觉导航

Bo Wang Jiehong Lin Chenzhi Liu Xinting Hu Yifei Yu Tianjia Liu Zhongrui Wang Xiaojuan Qi

MG-Nav:通过稀疏空间记忆实现的双尺度视觉导航

摘要

我们提出MG-Nav(Memory-Guided Navigation),一种用于零样本视觉导航的双尺度框架,该框架将全局记忆引导的规划与局部几何增强的控制相统一。其核心是稀疏空间记忆图(Sparse Spatial Memory Graph, SMG),一种紧凑且以区域为中心的记忆结构,其中每个节点聚合了多视角关键帧信息与物体语义,既捕捉了场景的外观特征,又保留了空间结构信息,同时维持了视点多样性。在全局层面,智能体在SMG上进行定位,并通过图像到实例的混合检索机制,生成以目标条件驱动的节点路径,从而获得一系列可到达的航点,实现长时程的导航引导。在局部层面,导航基础策略以点目标模式执行这些航点,采用障碍物感知的控制方式;当从最后一个节点向视觉目标进行导航时,系统自动切换至图像目标模式。为进一步提升观测与目标之间的视点对齐能力及目标识别性能,我们引入VGGT-Adapter,一个基于预训练VGGT模型构建的轻量级几何模块,该模块在共享的3D感知空间中对齐观测特征与目标特征。MG-Nav以不同频率分别执行全局规划与局部控制,并通过周期性重定位机制有效校正累积误差。在HM3D Instance-Image-Goal与MP3D Image-Goal基准测试上的实验结果表明,MG-Nav在零样本视觉导航任务中达到当前最优性能,并在动态重排及未见场景条件下仍保持高度鲁棒性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供