HyperAI超神经

文档
资讯
论文
教程
数据集
百科
SOTA
LLM 模型天梯
GPU 天梯
顶会

关于服务条款隐私政策
中文

HyperAI超神经

Command Palette

Search for a command to run...

首页
论文

论文

每日更新的前沿 AI 研究论文，助您把握人工智能最新动向

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集帮助

产品

资讯教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI超神经

津ICP备17010941号-1

京公网安备11010502038810号

Discord X (formerly Twitter)Bilibili

HyperAI超神经

文档
资讯
论文
教程
数据集
百科
SOTA
LLM 模型天梯
GPU 天梯
顶会

关于服务条款隐私政策
中文

HyperAI超神经

Command Palette

Search for a command to run...

首页
论文

论文

每日更新的前沿 AI 研究论文，助您把握人工智能最新动向

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集帮助

产品

资讯教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI超神经

津ICP备17010941号-1

京公网安备11010502038810号

Discord X (formerly Twitter)Bilibili

论文 | HyperAI超神经

通过测试时分布级组合改进基于扩散或基于流的机器人策略

通过测试时分布级组合改进基于扩散或基于流的机器人策略

Jiahang Cao, Yize Huang, Hanzhong Guo, et al.

大型推理模型从有缺陷的思维中学习到更好的对齐

大型推理模型从有缺陷的思维中学习到更好的对齐

ShengYun Peng, Eric Smith, Ivan Evtimov, et al.

通过渐进一致性蒸馏实现高效的多模态大型语言模型

通过渐进一致性蒸馏实现高效的多模态大型语言模型

Zichen Wen, Shaobo Wang, Yufa Zhou, et al.

Apriel-1.5-15b-Thinker

Apriel-1.5-15b-Thinker

Shruthan Radhakrishna, Aman Tiwari, Aanjaneya Shukla, et al.

StockBench：LLM Agent 能否在现实市场中盈利地交易股票？

StockBench：LLM Agent 能否在现实市场中盈利地交易股票？

Yanxu Chen, Zijun Yao, Yantao Liu, et al.

交互式训练：反馈驱动的神经网络优化

交互式训练：反馈驱动的神经网络优化

Wentao Zhang, Yang Young Lu, Yuntian Deng

StealthAttack：通过密度引导的幻觉实现鲁棒的3D Gaussian Splatting投毒

StealthAttack：通过密度引导的幻觉实现鲁棒的3D Gaussian Splatting投毒

Bo-Hsu Ke, You-Zhe Xie, Yu-Lun Liu, et al.

ExGRPO：从经验中学习推理

ExGRPO：从经验中学习推理

Runzhe Zhan, Yafu Li, Zhi Wang, et al.

Self-Forcing++：迈向分钟级高质量视频生成

Self-Forcing++：迈向分钟级高质量视频生成

Justin Cui, Jie Wu, Ming Li, et al.

LongCodeZip：为Code LLM压缩长上下文

LongCodeZip：为Code LLM压缩长上下文

Yuling Shi, Yichun Qian, Hongyu Zhang, et al.

PIPer：通过在线强化学习实现设备端环境配置

PIPer：通过在线强化学习实现设备端环境配置

Alexander Kovrigin, Aleksandra Eliseeva, Konstantin Grotov, et al.

多领域测试时扩展的奖励模型再思考

多领域测试时扩展的奖励模型再思考

Dong Bok Lee, Seanie Lee, Sangwoo Park, et al.

背包强化学习：通过优化预算分配解锁LLM的探索能力

背包强化学习：通过优化预算分配解锁LLM的探索能力

Ziniu Li, Congliang Chen, Tianyun Yang, et al.

GEM：面向智能体LLM的健身房

GEM：面向智能体LLM的健身房

Zichen Liu, Anya Sims, Keyu Duan, et al.

VLA-RFT：基于世界模拟器中验证奖励的视觉-语言-动作强化微调

VLA-RFT：基于世界模拟器中验证奖励的视觉-语言-动作强化微调

Hengtao Li, Pengxiang Ding, Runze Suo, et al.

DeepSearch：通过蒙特卡洛树搜索克服强化学习中可验证奖励的瓶颈

DeepSearch：通过蒙特卡洛树搜索克服强化学习中可验证奖励的瓶颈

Fang Wu, Weihao Xuan, Heli Qi, et al.

OceanGym：水下具身Agent的基准环境

OceanGym：水下具身Agent的基准环境

Yida Xue, Mingjun Mao, Xiangyuan Ru, et al.

TruthRL：通过强化学习激励LLM说真话

TruthRL：通过强化学习激励LLM说真话

Zhepei Wei, Xiao Yang, Kai Sun, et al.

赢得剪枝赌局：一种面向高效监督微调的联合样本与token剪枝统一方法

赢得剪枝赌局：一种面向高效监督微调的联合样本与token剪枝统一方法

Shaobo Wang, Jiaming Wang, Jiajun Zhang, et al.

龙之幼崽：Transformer与大脑模型之间的缺失环节

龙之幼崽：Transformer与大脑模型之间的缺失环节

Adrian Kosowski, Przemysław Uznański, Jan Chorowski, et al.

Vision-Zero：通过策略性游戏化自对弈实现可扩展的VLM自我提升

Vision-Zero：通过策略性游戏化自对弈实现可扩展的VLM自我提升

Qinsi Wang, Bo Liu, Tianyi Zhou, et al.

MCPMark：用于压力测试现实且全面的MCP使用的基准

MCPMark：用于压力测试现实且全面的MCP使用的基准

Zijian Wu, Xiangyan Liu, Xinyuan Zhang, et al.

可验证奖励下的LLM推理仅需随机策略评估

可验证奖励下的LLM推理仅需随机策略评估

Haoran He, Yuxiao Ye, Qingpeng Cai, et al.

使用ToolUniverse实现AI科学家的民主化

使用ToolUniverse实现AI科学家的民主化

Shanghua Gao, Richard Zhu, Pengwei Sui, et al.

推理何时才重要？一项关于推理对模型性能贡献的受控研究

推理何时才重要？一项关于推理对模型性能贡献的受控研究

Nicolas Boizard, Hippolyte Gisserot-Boukhlef, Kevin El-Haddad, et al.

多人博弈纳什偏好优化

多人博弈纳什偏好优化

Fang Wu, Xu Huang, Weihao Xuan, et al.

StableToken：一种抗噪声的语义语音Tokenize，用于增强语音LLM的鲁棒性

StableToken：一种抗噪声的语义语音Tokenize，用于增强语音LLM的鲁棒性

Yuhan Song, Linhao Zhang, Chuhan Wu, et al.

SLA：通过可微调稀疏线性注意力实现扩散Transformer中的稀疏性突破

SLA：通过可微调稀疏线性注意力实现扩散Transformer中的稀疏性突破

Jintao Zhang, Haoxu Wang, Kai Jiang, et al.

SimpleFold：蛋白质折叠比你想象的更简单

SimpleFold：蛋白质折叠比你想象的更简单

Yuyang Wang, Jiarui Lu, Navdeep Jaitly, et al.

POINTS-Reader：面向文档转换的视觉-语言模型蒸馏-free适配

POINTS-Reader：面向文档转换的视觉-语言模型蒸馏-free适配

Yuan Liu, Zhongyin Zhao, Le Tian, et al.

可泛化的几何图像描述生成

可泛化的几何图像描述生成

Yue Xin, Wenyuan Wang, Rui Pan, et al.

基于强化学习的语言模型规划：理论视角下的优势与陷阱

基于强化学习的语言模型规划：理论视角下的优势与陷阱

Siwei Wang, Yifei Shen, Haoran Sun, et al.

通过测试时分布级组合改进基于扩散或基于流的机器人策略

通过测试时分布级组合改进基于扩散或基于流的机器人策略

Jiahang Cao, Yize Huang, Hanzhong Guo, et al.

大型推理模型从有缺陷的思维中学习到更好的对齐

大型推理模型从有缺陷的思维中学习到更好的对齐

ShengYun Peng, Eric Smith, Ivan Evtimov, et al.

通过渐进一致性蒸馏实现高效的多模态大型语言模型

通过渐进一致性蒸馏实现高效的多模态大型语言模型

Zichen Wen, Shaobo Wang, Yufa Zhou, et al.

Apriel-1.5-15b-Thinker

Apriel-1.5-15b-Thinker

Shruthan Radhakrishna, Aman Tiwari, Aanjaneya Shukla, et al.

StockBench：LLM Agent 能否在现实市场中盈利地交易股票？

StockBench：LLM Agent 能否在现实市场中盈利地交易股票？

Yanxu Chen, Zijun Yao, Yantao Liu, et al.

交互式训练：反馈驱动的神经网络优化

交互式训练：反馈驱动的神经网络优化

Wentao Zhang, Yang Young Lu, Yuntian Deng

StealthAttack：通过密度引导的幻觉实现鲁棒的3D Gaussian Splatting投毒

StealthAttack：通过密度引导的幻觉实现鲁棒的3D Gaussian Splatting投毒

Bo-Hsu Ke, You-Zhe Xie, Yu-Lun Liu, et al.

ExGRPO：从经验中学习推理

ExGRPO：从经验中学习推理

Runzhe Zhan, Yafu Li, Zhi Wang, et al.

Self-Forcing++：迈向分钟级高质量视频生成

Self-Forcing++：迈向分钟级高质量视频生成

Justin Cui, Jie Wu, Ming Li, et al.

LongCodeZip：为Code LLM压缩长上下文

LongCodeZip：为Code LLM压缩长上下文

Yuling Shi, Yichun Qian, Hongyu Zhang, et al.

PIPer：通过在线强化学习实现设备端环境配置

PIPer：通过在线强化学习实现设备端环境配置

Alexander Kovrigin, Aleksandra Eliseeva, Konstantin Grotov, et al.

多领域测试时扩展的奖励模型再思考

多领域测试时扩展的奖励模型再思考

Dong Bok Lee, Seanie Lee, Sangwoo Park, et al.

背包强化学习：通过优化预算分配解锁LLM的探索能力

背包强化学习：通过优化预算分配解锁LLM的探索能力

Ziniu Li, Congliang Chen, Tianyun Yang, et al.

GEM：面向智能体LLM的健身房

GEM：面向智能体LLM的健身房

Zichen Liu, Anya Sims, Keyu Duan, et al.

VLA-RFT：基于世界模拟器中验证奖励的视觉-语言-动作强化微调

VLA-RFT：基于世界模拟器中验证奖励的视觉-语言-动作强化微调

Hengtao Li, Pengxiang Ding, Runze Suo, et al.

DeepSearch：通过蒙特卡洛树搜索克服强化学习中可验证奖励的瓶颈

DeepSearch：通过蒙特卡洛树搜索克服强化学习中可验证奖励的瓶颈

Fang Wu, Weihao Xuan, Heli Qi, et al.

OceanGym：水下具身Agent的基准环境

OceanGym：水下具身Agent的基准环境

Yida Xue, Mingjun Mao, Xiangyuan Ru, et al.

TruthRL：通过强化学习激励LLM说真话

TruthRL：通过强化学习激励LLM说真话

Zhepei Wei, Xiao Yang, Kai Sun, et al.

赢得剪枝赌局：一种面向高效监督微调的联合样本与token剪枝统一方法

赢得剪枝赌局：一种面向高效监督微调的联合样本与token剪枝统一方法

Shaobo Wang, Jiaming Wang, Jiajun Zhang, et al.

龙之幼崽：Transformer与大脑模型之间的缺失环节

龙之幼崽：Transformer与大脑模型之间的缺失环节

Adrian Kosowski, Przemysław Uznański, Jan Chorowski, et al.

Vision-Zero：通过策略性游戏化自对弈实现可扩展的VLM自我提升

Vision-Zero：通过策略性游戏化自对弈实现可扩展的VLM自我提升

Qinsi Wang, Bo Liu, Tianyi Zhou, et al.

MCPMark：用于压力测试现实且全面的MCP使用的基准

MCPMark：用于压力测试现实且全面的MCP使用的基准

Zijian Wu, Xiangyan Liu, Xinyuan Zhang, et al.

可验证奖励下的LLM推理仅需随机策略评估

可验证奖励下的LLM推理仅需随机策略评估

Haoran He, Yuxiao Ye, Qingpeng Cai, et al.

使用ToolUniverse实现AI科学家的民主化

使用ToolUniverse实现AI科学家的民主化

Shanghua Gao, Richard Zhu, Pengwei Sui, et al.

推理何时才重要？一项关于推理对模型性能贡献的受控研究

推理何时才重要？一项关于推理对模型性能贡献的受控研究

Nicolas Boizard, Hippolyte Gisserot-Boukhlef, Kevin El-Haddad, et al.

多人博弈纳什偏好优化

多人博弈纳什偏好优化

Fang Wu, Xu Huang, Weihao Xuan, et al.

StableToken：一种抗噪声的语义语音Tokenize，用于增强语音LLM的鲁棒性

StableToken：一种抗噪声的语义语音Tokenize，用于增强语音LLM的鲁棒性

Yuhan Song, Linhao Zhang, Chuhan Wu, et al.

SLA：通过可微调稀疏线性注意力实现扩散Transformer中的稀疏性突破

SLA：通过可微调稀疏线性注意力实现扩散Transformer中的稀疏性突破

Jintao Zhang, Haoxu Wang, Kai Jiang, et al.

SimpleFold：蛋白质折叠比你想象的更简单

SimpleFold：蛋白质折叠比你想象的更简单

Yuyang Wang, Jiarui Lu, Navdeep Jaitly, et al.

POINTS-Reader：面向文档转换的视觉-语言模型蒸馏-free适配

POINTS-Reader：面向文档转换的视觉-语言模型蒸馏-free适配

Yuan Liu, Zhongyin Zhao, Le Tian, et al.

可泛化的几何图像描述生成

可泛化的几何图像描述生成

Yue Xin, Wenyuan Wang, Rui Pan, et al.

基于强化学习的语言模型规划：理论视角下的优势与陷阱

基于强化学习的语言模型规划：理论视角下的优势与陷阱

Siwei Wang, Yifei Shen, Haoran Sun, et al.