HyperAI

使用此数据集在 Discord 上讨论

日期

3 个月前

数据集组织

发布 URL

论文 URL

标签

APEX 是由 Mercor 研究团队联合哈佛大学法学院、斯克里普斯研究所于 2025 年首次发布的一个用于评估前沿人工智能模型在高经济价值知识工作中表现的综合性基准测试数据集，相关论文成果为「The AI Productivity Index (APEX)」，旨在衡量前沿人工智能模型在真实经济任务中的执行能力，而非仅停留于抽象推理层面。

该数据集当前版本为 APEX-v1.0，共包含 200 个具有高经济价值的专业知识任务案例，覆盖投资银行、管理咨询、法律和基础医疗四个典型知识密集型领域。每个任务均对应现实工作中需要专业人员耗时 1–8 小时才能完成的分析、判断与文档撰写工作，并附带可引用的证据材料与可解释、细粒度的评分标准，用于客观衡量模型输出质量。

该数据集由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集在 Discord 上讨论

日期

3 个月前

数据集组织

发布 URL

论文 URL

标签

该数据集由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

Amber_Benchmark 分子动力学性能评测数据集

3 个月前

SimpleQA 简明事实性问答评测数据集

1 个月前

Human Face Emotions 人脸情绪数据集

19 天前

Care-PD 帕金森三维步态评估数据集

2 个月前

VOccl3D 三维人体遮挡视频数据集

2 个月前

UNO-Bench 全模态评测基准数据集

2 个月前

9.71 GB69

OpenGU 图遗忘综合评测数据集

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

用 AI 构建 AI

HyperAI Newsletters

相关数据集

Amber_Benchmark 分子动力学性能评测数据集

SimpleQA 简明事实性问答评测数据集

Human Face Emotions 人脸情绪数据集

Care-PD 帕金森三维步态评估数据集

VOccl3D 三维人体遮挡视频数据集

UNO-Bench 全模态评测基准数据集

OpenGU 图遗忘综合评测数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

Amber_Benchmark 分子动力学性能评测数据集

SimpleQA 简明事实性问答评测数据集

Human Face Emotions 人脸情绪数据集

Care-PD 帕金森三维步态评估数据集

VOccl3D 三维人体遮挡视频数据集

UNO-Bench 全模态评测基准数据集

OpenGU 图遗忘综合评测数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

Amber_Benchmark 分子动力学性能评测数据集

SimpleQA 简明事实性问答评测数据集

Human Face Emotions 人脸情绪数据集

Care-PD 帕金森三维步态评估数据集

VOccl3D 三维人体遮挡视频数据集

UNO-Bench 全模态评测基准数据集

OpenGU 图遗忘综合评测数据集

相关数据集

Amber_Benchmark 分子动力学性能评测数据集

SimpleQA 简明事实性问答评测数据集

Human Face Emotions 人脸情绪数据集

Care-PD 帕金森三维步态评估数据集

VOccl3D 三维人体遮挡视频数据集

UNO-Bench 全模态评测基准数据集

OpenGU 图遗忘综合评测数据集

Command Palette

APEX 人工智能生产力评测基准数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

APEX 人工智能生产力评测基准数据集

相关数据集

Amber_Benchmark 分子动力学性能评测数据集

SimpleQA 简明事实性问答评测数据集

Human Face Emotions 人脸情绪数据集

Care-PD 帕金森三维步态评估数据集

VOccl3D 三维人体遮挡视频数据集

UNO-Bench 全模态评测基准数据集

OpenGU 图遗忘综合评测数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

APEX 人工智能生产力评测基准数据集

相关数据集

Amber_Benchmark 分子动力学性能评测数据集

SimpleQA 简明事实性问答评测数据集

Human Face Emotions 人脸情绪数据集

Care-PD 帕金森三维步态评估数据集

VOccl3D 三维人体遮挡视频数据集

UNO-Bench 全模态评测基准数据集

OpenGU 图遗忘综合评测数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

Amber_Benchmark 分子动力学性能评测数据集

SimpleQA 简明事实性问答评测数据集

Human Face Emotions 人脸情绪数据集

Care-PD 帕金森三维步态评估数据集

VOccl3D 三维人体遮挡视频数据集

UNO-Bench 全模态评测基准数据集

OpenGU 图遗忘综合评测数据集

相关数据集

Amber_Benchmark 分子动力学性能评测数据集

SimpleQA 简明事实性问答评测数据集

Human Face Emotions 人脸情绪数据集

Care-PD 帕金森三维步态评估数据集

VOccl3D 三维人体遮挡视频数据集

UNO-Bench 全模态评测基准数据集

OpenGU 图遗忘综合评测数据集