日期

2 个月前

组织

论文 URL

标签

Agentic Entropy-Balanced Policy Optimization（AEPO）是由中国人民大学联合快手研究团队于 2025 年 10 月提出的，相关研究成果发表于论文「Agentic Entropy-Balanced Policy Optimization」。

AEPO 是一种旨在在策略展开和策略更新阶段平衡熵的代理强化学习（RL）算法，由两个核心组件构成：（1）一种动态熵平衡的扩展机制，通过熵预监控自适应分配全局和分支采样预算，同时对连续的高熵工具调用步骤施加分支惩罚以防止过度分支问题；（2）熵平衡策略优化，将停止梯度操作插入到高熵裁剪项中，以保留并适当重缩放高熵标记上的梯度，同时结合熵感知优势估计以优先学习高不确定性标记。在 14 个具有挑战性的数据集上的结果表明，AEPO 始终优于 7 种主流 RL 算法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

日期

2 个月前

组织

论文 URL

2510.14545

标签

机器学习

组方差策略优化 GVPO

基于 GRPO 等微调技术现有局限性，GVPO 作为一种可靠、多功能的后训练范式应运而生。

3 个月前

HiPO 混合策略优化框架

HiPO 用于自适应 LLM 推理，主要包括混合数据构建和混合强化学习。

2 个月前

智能体上下文工程 Agentic Context Engineering

ACE 通过动态优化输入上下文使智能体能够自我改进。

3 个月前

判别式约束优化框架 DisCO

一种新的基于原则的判别约束优化框架，避免了难度偏差和训练不稳定性。

2 个月前

多智能体工作流程 CudaForge

CudaForge 是一个简单有效且低成本的用于 CUDA 内核生成和优化的多智能体工作流程。

2 个月前

DiDi-Instruct 后训练方法

首个成功将分布匹配蒸馏应用于基于 MDM 的文本生成，并在少步语言序列生成方面创下纪录的框架。

2 个月前

协同扩散-自回归范式 SDAR

SDAR 确立了一种新的实用语言建模范式，统一了自回归和扩散的互补优势。

2 个月前

搜索自博弈 Search Self-play

SSP 展现了自博弈作为可扩展且数据高效的智能体 LLM 训练范式的潜力。

2 个月前

布局控制框架 InstanceAssemble

InstanceAssemble 在多模态条件下推动了高质量且可控的图像生成。

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

代理熵平衡策略优化 AEPO | Wiki | HyperAI超神经

Command Palette

代理熵平衡策略优化 AEPO

用 AI 构建 AI

HyperAI Newsletters

Command Palette

代理熵平衡策略优化 AEPO

相关百科

组方差策略优化 GVPO

HiPO 混合策略优化框架

智能体上下文工程 Agentic Context Engineering

判别式约束优化框架 DisCO

多智能体工作流程 CudaForge

DiDi-Instruct 后训练方法

协同扩散-自回归范式 SDAR

搜索自博弈 Search Self-play

布局控制框架 InstanceAssemble

用 AI 构建 AI

HyperAI Newsletters

Command Palette

代理熵平衡策略优化 AEPO

相关百科

组方差策略优化 GVPO

HiPO 混合策略优化框架

智能体上下文工程 Agentic Context Engineering

判别式约束优化框架 DisCO

多智能体工作流程 CudaForge

DiDi-Instruct 后训练方法

协同扩散-自回归范式 SDAR

搜索自博弈 Search Self-play

布局控制框架 InstanceAssemble

用 AI 构建 AI

HyperAI Newsletters

相关百科

组方差策略优化 GVPO

HiPO 混合策略优化框架

智能体上下文工程 Agentic Context Engineering

判别式约束优化框架 DisCO

多智能体工作流程 CudaForge

DiDi-Instruct 后训练方法

协同扩散-自回归范式 SDAR

搜索自博弈 Search Self-play

布局控制框架 InstanceAssemble

相关百科

组方差策略优化 GVPO

HiPO 混合策略优化框架

智能体上下文工程 Agentic Context Engineering

判别式约束优化框架 DisCO

多智能体工作流程 CudaForge

DiDi-Instruct 后训练方法

协同扩散-自回归范式 SDAR

搜索自博弈 Search Self-play

布局控制框架 InstanceAssemble