Command Palette

Search for a command to run...

4 个月前

RAVine:现实对齐的代理搜索评估

Yilong Xu Xiang Long Zhi Zheng Jinhua Gao

RAVine:现实对齐的代理搜索评估

摘要

代理搜索(Agentic Search)作为一种更加自主和适应性的检索增强范式,正在推动智能搜索系统的演进。然而,现有的评估框架与代理搜索的目标并不完全契合。首先,当前基准中常用的复杂查询往往偏离真实的用户搜索场景。其次,以往的方法在提取端到端评估的“真实答案”时容易引入噪声,从而导致在细粒度层面的评估结果失真。第三,大多数现有框架仅关注最终答案的质量,而忽视了对代理搜索固有迭代过程的评估。为解决这些局限性,我们提出了 RAVine —— 一个与现实对齐的评估框架,用于代理大语言模型(agentic LLMs)的搜索任务。RAVine 针对多点查询(multi-point queries)和长文本回答(long-form answers),这些更能够反映用户的实际意图,并引入了一种可归因的真实答案构建策略,以提升细粒度评估的准确性。此外,RAVine 还评估模型在整个迭代过程中与搜索工具的交互情况,并考虑了效率因素。我们使用 RAVine 对一系列模型进行了基准测试,并得出了一些有价值的见解,希望这些见解能有助于推动代理搜索系统的进一步发展。代码和数据集可在 https://github.com/SwordFaith/RAVine 获取。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供