HyperAIHyperAI

Command Palette

Search for a command to run...

CL-bench 上下文学习评估基准

在 Discord 上讨论

日期

3 小时前

数据集组织

复旦大学

论文 URL

2602.03587

许可证

Other

CL-bench 是由腾讯混元团队联合复旦大学于 2026 年发布的一个大语言模型上下文学习(Context Learning)能力评估基准数据集,相关论文成果为 CL-bench: A Benchmark for Context Learning,旨在测试模型是否能够在不依赖预训练知识的情况下,仅通过给定上下文学习新的规则、概念或领域知识,并将其应用于后续任务。

该数据集包含 500 个复杂上下文场景,覆盖 1,899 个具体任务,并配套提供 31,607 条细粒度评估准则(rubrics)。每个任务以多轮对话形式组织,涵盖规则推理、领域知识学习、复杂指令理解等多种上下文学习场景,评估模型对上下文中新信息的理解、归纳与迁移能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供