Command Palette
Search for a command to run...
CL-bench:上下文学习基准
CL-bench:上下文学习基准
摘要
当前的语言模型(LMs)在利用预训练知识对提示词进行推理方面表现出色。然而,现实世界中的任务远为复杂且高度依赖上下文:模型必须从特定任务的上下文中学习,并运用预训练阶段未涵盖的新知识,才能进行推理并完成任务。我们称这种能力为“上下文学习”(context learning),这是人类与生俱来的重要能力,却长期被忽视。为此,我们提出了CL-bench,这是一个真实世界基准测试集,包含500个复杂上下文、1,899个任务以及31,607条验证标准,所有内容均由经验丰富的领域专家精心设计。每个任务均被设计为:解决该任务所需的新信息均包含在对应的上下文中。在CL-bench上完成任务,要求模型能够从上下文中学习,涵盖新领域的专业知识、规则体系、复杂流程,乃至基于实证数据推导出的法律或规律,而这些内容在预训练阶段均未出现。这一要求远超传统的长上下文任务(主要测试信息检索或阅读理解能力),也不同于仅通过指令和示例学习简单任务模式的“上下文学习”任务。我们对十种前沿语言模型的评估显示,模型平均仅能解决17.2%的任务。即便是表现最佳的模型GPT-5.1,也仅能解决23.7%的任务,这表明当前语言模型尚未具备有效的上下文学习能力,而这正是应对现实世界中复杂、依赖上下文任务的关键瓶颈。CL-bench的提出,标志着迈向构建具备这一基础能力的语言模型的重要一步,有助于提升模型的智能水平,并推动其在真实场景中的广泛应用。