HyperAI

摘要

我们提出 SimpleQA，这是一个用于评估语言模型回答简短、事实性问题能力的基准测试。在设计该评估时，我们优先考虑了两个特性：首先，SimpleQA 具有挑战性，其数据是针对 GPT-4 的回答进行对抗性收集的；其次，答案易于评判，因为问题的构造确保了仅存在一个明确且无可争议的正确答案。SimpleQA 中的每个答案均被标记为正确、错误或未作答。理想情况下，模型应尽可能多地答对问题，同时对那些不确定正确答案的问题不进行尝试。SimpleQA 是一种简洁而有针对性的评估方法，用于检验模型是否“知道自己知道什么”。我们希望这一基准测试在未来几代前沿模型中仍能保持其相关性。

摘要

Jason Wei Nguyen Karina Hyung Won Chung Yunxin Joy Jiao Spencer Papay Amelia Glaese John Schulman William Fedus

摘要

用 AI 构建 AI

HyperAI Newsletters

Jason Wei Nguyen Karina Hyung Won Chung Yunxin Joy Jiao Spencer Papay Amelia Glaese John Schulman William Fedus

摘要

用 AI 构建 AI

HyperAI Newsletters

Jason Wei Nguyen Karina Hyung Won Chung Yunxin Joy Jiao Spencer Papay Amelia Glaese John Schulman William Fedus

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

衡量大语言模型中短文本的真实性

Jason Wei Nguyen Karina Hyung Won Chung Yunxin Joy Jiao Spencer Papay Amelia Glaese John Schulman William Fedus

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

衡量大语言模型中短文本的真实性

Jason Wei Nguyen Karina Hyung Won Chung Yunxin Joy Jiao Spencer Papay Amelia Glaese John Schulman William Fedus

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

衡量大语言模型中短文本的真实性

Jason Wei Nguyen Karina Hyung Won Chung Yunxin Joy Jiao Spencer Papay Amelia Glaese John Schulman William Fedus

摘要

用 AI 构建 AI

HyperAI Newsletters