Command Palette

Search for a command to run...

3 个月前

FinSearchComp:迈向现实的、专家级别的金融搜索与推理评估

FinSearchComp:迈向现实的、专家级别的金融搜索与推理评估

摘要

搜索已逐渐成为基于大语言模型(LLM)智能体的核心基础设施,被广泛认为是迈向更高层次通用智能的关键路径。金融领域尤其是一个极具挑战性的检验场景:金融分析师通常需要在时效性强、领域专精的数据上开展复杂且多步骤的搜索任务,因此非常适合用于评估智能体的搜索能力与基于知识的推理能力。然而,目前尚无公开的金融数据集能够有效评估端到端智能体的数据搜索能力,主要原因在于构建真实、复杂的任务需要深厚的金融专业知识,而时效性数据的评估也极具挑战。为此,我们提出了 FinSearchComp——首个完全开源的、面向真实场景的开放域金融搜索与推理基准测试。FinSearchComp 包含三项任务:时效性数据获取、简单历史查询与复杂历史调查,高度还原了真实金融分析师的工作流程。为确保任务难度与评估可靠性,我们邀请了70位专业金融专家参与标注,并建立了一套严格的多阶段质量保障流程。该基准涵盖635个问题,覆盖全球及大中华区市场,我们在此对21个模型(产品)进行了评估。结果显示,Grok 4(网页版)在全局子集上表现最佳,接近专家水平的准确率;DouBao(网页版)则在大中华区子集上领先。实验分析表明,为智能体配备网页搜索功能与金融专用插件,可显著提升其在 FinSearchComp 上的表现,且模型与工具的来源国家对其性能有显著影响。通过与真实分析师任务对齐,并提供端到端的评估机制,FinSearchComp 为复杂金融搜索与推理提供了一个专业、高难度的测试平台。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
FinSearchComp:迈向现实的、专家级别的金融搜索与推理评估 | 论文 | HyperAI超神经