HyperAI超神经

摘要

代理搜索（Agentic Search）作为一种更加自主和适应性的检索增强范式，正在推动智能搜索系统的演进。然而，现有的评估框架与代理搜索的目标并不完全契合。首先，当前基准中常用的复杂查询往往偏离真实的用户搜索场景。其次，以往的方法在提取端到端评估的“真实答案”时容易引入噪声，从而导致在细粒度层面的评估结果失真。第三，大多数现有框架仅关注最终答案的质量，而忽视了对代理搜索固有迭代过程的评估。为解决这些局限性，我们提出了 RAVine —— 一个与现实对齐的评估框架，用于代理大语言模型（agentic LLMs）的搜索任务。RAVine 针对多点查询（multi-point queries）和长文本回答（long-form answers），这些更能够反映用户的实际意图，并引入了一种可归因的真实答案构建策略，以提升细粒度评估的准确性。此外，RAVine 还评估模型在整个迭代过程中与搜索工具的交互情况，并考虑了效率因素。我们使用 RAVine 对一系列模型进行了基准测试，并得出了一些有价值的见解，希望这些见解能有助于推动代理搜索系统的进一步发展。代码和数据集可在 https://github.com/SwordFaith/RAVine 获取。

摘要

RAVine：现实对齐的代理搜索评估

Yilong Xu Xiang Long Zhi Zheng Jinhua Gao

摘要

用 AI 构建 AI

Hyper Newsletters

RAVine：现实对齐的代理搜索评估

Yilong Xu Xiang Long Zhi Zheng Jinhua Gao

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

RAVine：现实对齐的代理搜索评估

Yilong Xu Xiang Long Zhi Zheng Jinhua Gao

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

RAVine：现实对齐的代理搜索评估

Yilong Xu Xiang Long Zhi Zheng Jinhua Gao

摘要

用 AI 构建 AI

Hyper Newsletters