日期

1 年前

Michelangelo 是由 DeepMind 的研究人员于 2024 年提出的一个用于评估大型语言模型在长文本上下文推理能力的方法。它通过一个名为 Latent Structure Queries (LSQ) 的框架来创建合成的长文本评估任务，这些任务可以任意扩展上下文长度，并且可以设置不同的复杂性级别，同时避免从先前评估中泄露上下文。相关论文成果为「Michelangelo: Long Context Evaluations Beyond Haystacks via Latent Structure Queries」。

Michelangelo 包含 3 个简单的任务：Latent List 、 Multi-Round Coreference Resolution (MRCR) 和 IDK 。这些任务旨在测试模型在长文本上下文中的合成和推理能力，这些能力超出了简单的信息检索任务。例如，Latent List 任务要求模型跟踪一系列代码指令中的潜在数据结构的属性；MRCR 任务则要求模型理解自然文本中的顺序，区分相似的文本草稿，并在复杂的查询中重现指定的上下文片段；IDK 任务则测试模型是否能够理解在给定上下文中它不知道的信息。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

日期

1 年前

智能体上下文工程 Agentic Context Engineering

ACE 通过动态优化输入上下文使智能体能够自我改进。

3 个月前

潜在扩散模型 SVG

SVG 实现了更快的扩散训练、高效的少步采样以及生成质量的提升。

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

米开朗基罗基准 Michelangelo | Wiki | HyperAI超神经

用 AI 构建 AI

HyperAI Newsletters

相关百科

智能体上下文工程 Agentic Context Engineering

潜在扩散模型 SVG

用 AI 构建 AI

HyperAI Newsletters

相关百科

智能体上下文工程 Agentic Context Engineering

潜在扩散模型 SVG

用 AI 构建 AI

HyperAI Newsletters

相关百科

智能体上下文工程 Agentic Context Engineering

潜在扩散模型 SVG

相关百科

智能体上下文工程 Agentic Context Engineering

潜在扩散模型 SVG

Command Palette

米开朗基罗基准 Michelangelo

用 AI 构建 AI

HyperAI Newsletters

Command Palette

米开朗基罗基准 Michelangelo

相关百科

智能体上下文工程 Agentic Context Engineering

潜在扩散模型 SVG

用 AI 构建 AI

HyperAI Newsletters

Command Palette

米开朗基罗基准 Michelangelo

相关百科

智能体上下文工程 Agentic Context Engineering

潜在扩散模型 SVG

用 AI 构建 AI

HyperAI Newsletters

相关百科

智能体上下文工程 Agentic Context Engineering

潜在扩散模型 SVG

相关百科

智能体上下文工程 Agentic Context Engineering

潜在扩散模型 SVG