HyperAI

摘要

大型语言模型（LLMs）在金融领域展现出巨大潜力，但由于现有评估基准的不足，其在这一高风险领域中的适用性仍缺乏充分验证。现有的评估基准仅依赖于得分层面的评价，通过单一分数来概括模型性能，从而掩盖了模型真实掌握的知识及其具体局限性的细致理解。此外，这些基准所使用的数据集仅涵盖金融概念的狭窄子集，忽视了实际应用中至关重要的其他要素。为弥补这些缺陷，我们提出了FinCDM——首个专为金融领域大语言模型设计的认知诊断评估框架，能够从知识-技能维度对模型进行评估，通过分析模型在带有技能标签任务中的回答模式，识别其具备或缺失的金融知识与能力，而非依赖单一汇总数值。我们构建了CPA-QKA，这是首个基于注册会计师（CPA）考试、具有认知启发性的金融评估数据集，全面覆盖现实世界中的会计与金融技能。该数据集由领域专家严格标注，涵盖问题的编写、验证与细粒度知识标签的标注，具有高一致性与精细度。我们在30个专有、开源及领域特定的LLM上开展的大量实验表明，FinCDM能够揭示隐藏的知识盲区，识别出传统基准常忽略的、如税务与监管推理等未充分测试的领域，并发现模型间的潜在行为聚类。FinCDM通过实现可解释、技能感知的诊断评估，为金融领域大语言模型的评价引入了新范式，有助于推动更可信、更精准的模型开发。所有数据集与评估脚本将公开发布，以支持后续研究。

摘要

从分数到能力：一种用于评估金融领域大语言模型的认知诊断框架

Ziyan Kuang Feiyu Zhu Maowei Jiang Yanzhao Lai Zelin Wang Zhitong Wang Meikang Qiu Jiajia Huang Min Peng Qianqian Xie

摘要

用 AI 构建 AI

Hyper Newsletters

从分数到能力：一种用于评估金融领域大语言模型的认知诊断框架

Ziyan Kuang Feiyu Zhu Maowei Jiang Yanzhao Lai Zelin Wang Zhitong Wang Meikang Qiu Jiajia Huang Min Peng Qianqian Xie

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

从分数到能力：一种用于评估金融领域大语言模型的认知诊断框架

Ziyan Kuang Feiyu Zhu Maowei Jiang Yanzhao Lai Zelin Wang Zhitong Wang Meikang Qiu Jiajia Huang Min Peng Qianqian Xie1 more

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

从分数到能力：一种用于评估金融领域大语言模型的认知诊断框架

Ziyan Kuang Feiyu Zhu Maowei Jiang Yanzhao Lai Zelin Wang Zhitong Wang Meikang Qiu Jiajia Huang Min Peng Qianqian Xie1 more

摘要

用 AI 构建 AI

Hyper Newsletters

Ziyan Kuang Feiyu Zhu Maowei Jiang Yanzhao Lai Zelin Wang Zhitong Wang Meikang Qiu Jiajia Huang Min Peng Qianqian Xie

Ziyan Kuang Feiyu Zhu Maowei Jiang Yanzhao Lai Zelin Wang Zhitong Wang Meikang Qiu Jiajia Huang Min Peng Qianqian Xie