Command Palette
Search for a command to run...

摘要
近年来,随着大语言模型能力在深度与广度上的快速发展,各类相应的评估基准不断涌现。作为衡量模型性能的量化工具,评估基准不仅是衡量模型能力的核心手段,更是引导模型发展方向、推动技术革新的关键要素。本文首次系统性地回顾了大语言模型评估基准的现状与发展,将283个具有代表性的基准划分为三类:通用能力类、领域特定类与目标特定类。通用能力类基准涵盖核心语言学、知识理解与推理能力等方面;领域特定类基准聚焦于自然科学、人文与社会科学、工程技术等专业领域;目标特定类基准则关注风险评估、可靠性、智能体(agents)等特定目标。本文指出,当前基准仍存在数据污染导致评分虚高、文化与语言偏见引发评估不公平,以及对过程可信度与动态环境适应性评估缺失等问题,并为未来基准设计的创新提供了可参考的范式。