HyperAI

在 Discord 上讨论

日期

3 小时前

数据集组织

论文 URL

2602.03587

许可证

Other

标签

LLM

基准

文本生成

CL-bench 是由腾讯混元团队联合复旦大学于 2026 年发布的一个大语言模型上下文学习（Context Learning）能力评估基准数据集，相关论文成果为 CL-bench: A Benchmark for Context Learning，旨在测试模型是否能够在不依赖预训练知识的情况下，仅通过给定上下文学习新的规则、概念或领域知识，并将其应用于后续任务。

该数据集包含 500 个复杂上下文场景，覆盖 1,899 个具体任务，并配套提供 31,607 条细粒度评估准则（rubrics）。每个任务以多轮对话形式组织，涵盖规则推理、领域知识学习、复杂指令理解等多种上下文学习场景，评估模型对上下文中新信息的理解、归纳与迁移能力。

该数据集由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。