Command Palette

Search for a command to run...

4 个月前

从分数到能力:一种用于评估金融领域大语言模型的认知诊断框架

从分数到能力:一种用于评估金融领域大语言模型的认知诊断框架

摘要

大型语言模型(LLMs)在金融领域展现出巨大潜力,但由于现有评估基准的不足,其在这一高风险领域中的适用性仍缺乏充分验证。现有的评估基准仅依赖于得分层面的评价,通过单一分数来概括模型性能,从而掩盖了模型真实掌握的知识及其具体局限性的细致理解。此外,这些基准所使用的数据集仅涵盖金融概念的狭窄子集,忽视了实际应用中至关重要的其他要素。为弥补这些缺陷,我们提出了FinCDM——首个专为金融领域大语言模型设计的认知诊断评估框架,能够从知识-技能维度对模型进行评估,通过分析模型在带有技能标签任务中的回答模式,识别其具备或缺失的金融知识与能力,而非依赖单一汇总数值。我们构建了CPA-QKA,这是首个基于注册会计师(CPA)考试、具有认知启发性的金融评估数据集,全面覆盖现实世界中的会计与金融技能。该数据集由领域专家严格标注,涵盖问题的编写、验证与细粒度知识标签的标注,具有高一致性与精细度。我们在30个专有、开源及领域特定的LLM上开展的大量实验表明,FinCDM能够揭示隐藏的知识盲区,识别出传统基准常忽略的、如税务与监管推理等未充分测试的领域,并发现模型间的潜在行为聚类。FinCDM通过实现可解释、技能感知的诊断评估,为金融领域大语言模型的评价引入了新范式,有助于推动更可信、更精准的模型开发。所有数据集与评估脚本将公开发布,以支持后续研究。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
从分数到能力:一种用于评估金融领域大语言模型的认知诊断框架 | 论文 | HyperAI超神经