Command Palette

Search for a command to run...

5 个月前

StreamVLN:通过SlowFast上下文建模实现流式视觉-语言导航

StreamVLN:通过SlowFast上下文建模实现流式视觉-语言导航

摘要

在现实世界中,视觉-语言导航(VLN)要求代理能够处理连续的视觉流,并根据语言指令以低延迟生成动作。尽管基于视频的大型语言模型(Video-LLMs)推动了近期的进步,但当前基于 Video-LLM 的 VLN 方法通常在细粒度视觉理解、长期上下文建模和计算效率之间存在权衡。我们提出了一种名为 StreamVLN 的流式 VLN 框架,该框架采用混合慢快上下文建模策略,支持对交错的视觉、语言和动作输入进行多模态推理。快速流式对话上下文通过活动对话的滑动窗口促进响应式动作生成,而缓慢更新的记忆上下文则利用一种三维感知的令牌剪枝策略压缩历史视觉状态。通过这种慢快设计,StreamVLN 通过高效的键值缓存重用实现了连贯的多轮对话,支持具有有限上下文大小和推理成本的长视频流。在 VLN-CE 基准测试中的实验表明,StreamVLN 在保持低延迟的同时达到了最先进的性能,确保了其在现实世界部署中的鲁棒性和效率。项目页面为:https://streamvln.github.io/。注:文中“3D-aware token pruning”翻译为“三维感知的令牌剪枝”,以保持专业性和准确性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
StreamVLN:通过SlowFast上下文建模实现流式视觉-语言导航 | 论文 | HyperAI超神经