HyperAIHyperAI

Command Palette

Search for a command to run...

衡量大语言模型中短文本的真实性

Jason Wei Nguyen Karina Hyung Won Chung Yunxin Joy Jiao Spencer Papay Amelia Glaese John Schulman William Fedus

摘要

我们提出 SimpleQA,这是一个用于评估语言模型回答简短、事实性问题能力的基准测试。在设计该评估时,我们优先考虑了两个特性:首先,SimpleQA 具有挑战性,其数据是针对 GPT-4 的回答进行对抗性收集的;其次,答案易于评判,因为问题的构造确保了仅存在一个明确且无可争议的正确答案。SimpleQA 中的每个答案均被标记为正确、错误或未作答。理想情况下,模型应尽可能多地答对问题,同时对那些不确定正确答案的问题不进行尝试。SimpleQA 是一种简洁而有针对性的评估方法,用于检验模型是否“知道自己知道什么”。我们希望这一基准测试在未来几代前沿模型中仍能保持其相关性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
衡量大语言模型中短文本的真实性 | 论文 | HyperAI超神经