Command Palette

Search for a command to run...

4 个月前

WebWatcher:开拓视觉-语言深度研究Agent的新疆界

WebWatcher:开拓视觉-语言深度研究Agent的新疆界

摘要

诸如 Deep Research 的网络代理已展现出超越人类的认知能力,能够解决极具挑战性的信息检索任务。然而,当前大多数研究仍以文本为中心,忽视了现实世界中的视觉信息,这使得多模态 Deep Research 面临巨大挑战——此类代理不仅需要更强的感知、逻辑、知识推理能力,还需使用更复杂的工具,远超纯文本代理的能力要求。为克服这一局限,我们提出 WebWatcher,一种具备增强型视觉-语言推理能力的多模态 Deep Research 代理。该代理通过高质量的合成多模态轨迹实现高效的冷启动训练,结合多种工具进行深度推理,并借助强化学习进一步提升泛化能力。为更全面评估多模态代理的性能,我们提出了 BrowseComp-VL 基准,其设计灵感源自 BrowseComp,要求在信息检索任务中同时处理视觉与文本信息,具备高度复杂性。实验结果表明,WebWatcher 在四项具有挑战性的视觉问答(VQA)基准测试中,显著优于现有商业基线模型、RAG 工作流以及开源代理,为解决复杂的多模态信息检索任务开辟了新路径。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供