HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

GEM：面向智能体LLM的健身房

GEM：面向智能体LLM的健身房

Zichen Liu, Anya Sims, Keyu Duan, et al.

VLA-RFT：基于世界模拟器中验证奖励的视觉-语言-动作强化微调

VLA-RFT：基于世界模拟器中验证奖励的视觉-语言-动作强化微调

Hengtao Li, Pengxiang Ding, Runze Suo, et al.

DeepSearch：通过蒙特卡洛树搜索克服强化学习中可验证奖励的瓶颈

DeepSearch：通过蒙特卡洛树搜索克服强化学习中可验证奖励的瓶颈

Fang Wu, Weihao Xuan, Heli Qi, et al.

OceanGym：水下具身Agent的基准环境

OceanGym：水下具身Agent的基准环境

Yida Xue, Mingjun Mao, Xiangyuan Ru, et al.

TruthRL：通过强化学习激励LLM说真话

TruthRL：通过强化学习激励LLM说真话

监督式微调

Zhepei Wei, Xiao Yang, Kai Sun, et al.

赢得剪枝赌局：一种面向高效监督微调的联合样本与token剪枝统一方法

赢得剪枝赌局：一种面向高效监督微调的联合样本与token剪枝统一方法

监督式微调

Shaobo Wang, Jiaming Wang, Jiajun Zhang, et al.

龙之幼崽：Transformer与大脑模型之间的缺失环节

龙之幼崽：Transformer与大脑模型之间的缺失环节

自然语言处理

Adrian Kosowski, Przemysław Uznański, Jan Chorowski, et al.

Vision-Zero：通过策略性游戏化自对弈实现可扩展的VLM自我提升

Vision-Zero：通过策略性游戏化自对弈实现可扩展的VLM自我提升

Qinsi Wang, Bo Liu, Tianyi Zhou, et al.

MCPMark：用于压力测试现实且全面的MCP使用的基准

MCPMark：用于压力测试现实且全面的MCP使用的基准

Zijian Wu, Xiangyan Liu, Xinyuan Zhang, et al.

可验证奖励下的LLM推理仅需随机策略评估

可验证奖励下的LLM推理仅需随机策略评估

Haoran He, Yuxiao Ye, Qingpeng Cai, et al.

使用ToolUniverse实现AI科学家的民主化

使用ToolUniverse实现AI科学家的民主化

Shanghua Gao, Richard Zhu, Pengwei Sui, et al.

推理何时才重要？一项关于推理对模型性能贡献的受控研究

推理何时才重要？一项关于推理对模型性能贡献的受控研究

监督式微调

Nicolas Boizard, Hippolyte Gisserot-Boukhlef, Kevin El-Haddad, et al.

多人博弈纳什偏好优化

多人博弈纳什偏好优化

Fang Wu, Xu Huang, Weihao Xuan, et al.

StableToken：一种抗噪声的语义语音Tokenize，用于增强语音LLM的鲁棒性

StableToken：一种抗噪声的语义语音Tokenize，用于增强语音LLM的鲁棒性

音频和语音处理

Yuhan Song, Linhao Zhang, Chuhan Wu, et al.

SLA：通过可微调稀疏线性注意力实现扩散Transformer中的稀疏性突破

SLA：通过可微调稀疏线性注意力实现扩散Transformer中的稀疏性突破

Jintao Zhang, Haoxu Wang, Kai Jiang, et al.

SimpleFold：蛋白质折叠比你想象的更简单

SimpleFold：蛋白质折叠比你想象的更简单

Yuyang Wang, Jiarui Lu, Navdeep Jaitly, et al.

POINTS-Reader：面向文档转换的视觉-语言模型蒸馏-free适配

POINTS-Reader：面向文档转换的视觉-语言模型蒸馏-free适配

Yuan Liu, Zhongyin Zhao, Le Tian, et al.

可泛化的几何图像描述生成

可泛化的几何图像描述生成

Yue Xin, Wenyuan Wang, Rui Pan, et al.

基于强化学习的语言模型规划：理论视角下的优势与陷阱

基于强化学习的语言模型规划：理论视角下的优势与陷阱

监督式微调

Siwei Wang, Yifei Shen, Haoran Sun, et al.

语言模型Agent的赋能估计

语言模型Agent的赋能估计

Jinyeop Song, Jeff Gore, Max Kleiman-Weiner

语言模型可以在没有标量奖励的情况下从口头反馈中学习

语言模型可以在没有标量奖励的情况下从口头反馈中学习

Renjie Luo, Zichen Liu, Xiangyan Liu, et al.

语言模型的变分推理

语言模型的变分推理

Xiangxin Zhou, Zichen Liu, Haonan Wang, et al.

EPO：面向LLM Agent的熵正则化策略优化
强化学习

EPO：面向LLM Agent的熵正则化策略优化强化学习

Xu Wujiang, Wentian Zhao, Zhenting Wang, et al.

MinerU2.5：一种用于高效高分辨率文档解析的解耦视觉-语言模型

MinerU2.5：一种用于高效高分辨率文档解析的解耦视觉-语言模型

Junbo Niu, Zheng Liu, Zhuangcheng Gu, et al.

分位数优势估计用于熵安全推理

分位数优势估计用于熵安全推理

Junkang Wu, Kexin Huang, Jiancan Wu, et al.

LongLive：实时交互式长视频生成

LongLive：实时交互式长视频生成

Shuai Yang, Wei Huang, Ruihang Chu, et al.

组合式创造力：泛化能力的新前沿

组合式创造力：泛化能力的新前沿

Samuel Schapiro, Sumuk Shashidhar, Alexi Gladstone, et al.

因果时空预测：一种高效且有效的多模态方法

因果时空预测：一种高效且有效的多模态方法

统一多模态

Yuting Huang, Ziquan Fang, Zhihao Zeng, et al.

Hunyuan3D-Omni：一种用于可控生成3D资产的统一框架

Hunyuan3D-Omni：一种用于可控生成3D资产的统一框架

Team Hunyuan3D, Bowen Zhang, Chunchao Guo, et al.

Seedream 4.0：迈向下一代多模态图像生成

Seedream 4.0：迈向下一代多模态图像生成

Team Seedream, Yunpeng Chen, Yu Gao, et al.

LLM Agent强化学习中的树搜索

LLM Agent强化学习中的树搜索

Yuxiang Ji, Ziyu Ma, Yong Wang, et al.

SciReasoner：跨学科奠定科学推理基础

SciReasoner：跨学科奠定科学推理基础

Yizhou Wang, Chen Tang, Han Deng, et al.

GEM：面向智能体LLM的健身房

GEM：面向智能体LLM的健身房

Zichen Liu, Anya Sims, Keyu Duan, et al.

VLA-RFT：基于世界模拟器中验证奖励的视觉-语言-动作强化微调

VLA-RFT：基于世界模拟器中验证奖励的视觉-语言-动作强化微调

Hengtao Li, Pengxiang Ding, Runze Suo, et al.

DeepSearch：通过蒙特卡洛树搜索克服强化学习中可验证奖励的瓶颈

DeepSearch：通过蒙特卡洛树搜索克服强化学习中可验证奖励的瓶颈

Fang Wu, Weihao Xuan, Heli Qi, et al.

OceanGym：水下具身Agent的基准环境

OceanGym：水下具身Agent的基准环境

Yida Xue, Mingjun Mao, Xiangyuan Ru, et al.

TruthRL：通过强化学习激励LLM说真话

TruthRL：通过强化学习激励LLM说真话

监督式微调

Zhepei Wei, Xiao Yang, Kai Sun, et al.

赢得剪枝赌局：一种面向高效监督微调的联合样本与token剪枝统一方法

赢得剪枝赌局：一种面向高效监督微调的联合样本与token剪枝统一方法

监督式微调

Shaobo Wang, Jiaming Wang, Jiajun Zhang, et al.

龙之幼崽：Transformer与大脑模型之间的缺失环节

龙之幼崽：Transformer与大脑模型之间的缺失环节

自然语言处理

Adrian Kosowski, Przemysław Uznański, Jan Chorowski, et al.

Vision-Zero：通过策略性游戏化自对弈实现可扩展的VLM自我提升

Vision-Zero：通过策略性游戏化自对弈实现可扩展的VLM自我提升

Qinsi Wang, Bo Liu, Tianyi Zhou, et al.

MCPMark：用于压力测试现实且全面的MCP使用的基准

MCPMark：用于压力测试现实且全面的MCP使用的基准

Zijian Wu, Xiangyan Liu, Xinyuan Zhang, et al.

可验证奖励下的LLM推理仅需随机策略评估

可验证奖励下的LLM推理仅需随机策略评估

Haoran He, Yuxiao Ye, Qingpeng Cai, et al.

使用ToolUniverse实现AI科学家的民主化

使用ToolUniverse实现AI科学家的民主化

Shanghua Gao, Richard Zhu, Pengwei Sui, et al.

推理何时才重要？一项关于推理对模型性能贡献的受控研究

推理何时才重要？一项关于推理对模型性能贡献的受控研究

监督式微调

Nicolas Boizard, Hippolyte Gisserot-Boukhlef, Kevin El-Haddad, et al.

多人博弈纳什偏好优化

多人博弈纳什偏好优化

Fang Wu, Xu Huang, Weihao Xuan, et al.

StableToken：一种抗噪声的语义语音Tokenize，用于增强语音LLM的鲁棒性

StableToken：一种抗噪声的语义语音Tokenize，用于增强语音LLM的鲁棒性

音频和语音处理

Yuhan Song, Linhao Zhang, Chuhan Wu, et al.

SLA：通过可微调稀疏线性注意力实现扩散Transformer中的稀疏性突破

SLA：通过可微调稀疏线性注意力实现扩散Transformer中的稀疏性突破

Jintao Zhang, Haoxu Wang, Kai Jiang, et al.

SimpleFold：蛋白质折叠比你想象的更简单

SimpleFold：蛋白质折叠比你想象的更简单

Yuyang Wang, Jiarui Lu, Navdeep Jaitly, et al.

POINTS-Reader：面向文档转换的视觉-语言模型蒸馏-free适配

POINTS-Reader：面向文档转换的视觉-语言模型蒸馏-free适配

Yuan Liu, Zhongyin Zhao, Le Tian, et al.

可泛化的几何图像描述生成

可泛化的几何图像描述生成

Yue Xin, Wenyuan Wang, Rui Pan, et al.

基于强化学习的语言模型规划：理论视角下的优势与陷阱

基于强化学习的语言模型规划：理论视角下的优势与陷阱

监督式微调

Siwei Wang, Yifei Shen, Haoran Sun, et al.

语言模型Agent的赋能估计

语言模型Agent的赋能估计

Jinyeop Song, Jeff Gore, Max Kleiman-Weiner

语言模型可以在没有标量奖励的情况下从口头反馈中学习

语言模型可以在没有标量奖励的情况下从口头反馈中学习

Renjie Luo, Zichen Liu, Xiangyan Liu, et al.

语言模型的变分推理

语言模型的变分推理

Xiangxin Zhou, Zichen Liu, Haonan Wang, et al.

EPO：面向LLM Agent的熵正则化策略优化
强化学习

EPO：面向LLM Agent的熵正则化策略优化强化学习

Xu Wujiang, Wentian Zhao, Zhenting Wang, et al.

MinerU2.5：一种用于高效高分辨率文档解析的解耦视觉-语言模型

MinerU2.5：一种用于高效高分辨率文档解析的解耦视觉-语言模型

Junbo Niu, Zheng Liu, Zhuangcheng Gu, et al.

分位数优势估计用于熵安全推理

分位数优势估计用于熵安全推理

Junkang Wu, Kexin Huang, Jiancan Wu, et al.

LongLive：实时交互式长视频生成

LongLive：实时交互式长视频生成

Shuai Yang, Wei Huang, Ruihang Chu, et al.

组合式创造力：泛化能力的新前沿

组合式创造力：泛化能力的新前沿

Samuel Schapiro, Sumuk Shashidhar, Alexi Gladstone, et al.

因果时空预测：一种高效且有效的多模态方法

因果时空预测：一种高效且有效的多模态方法

统一多模态

Yuting Huang, Ziquan Fang, Zhihao Zeng, et al.

Hunyuan3D-Omni：一种用于可控生成3D资产的统一框架

Hunyuan3D-Omni：一种用于可控生成3D资产的统一框架

Team Hunyuan3D, Bowen Zhang, Chunchao Guo, et al.

Seedream 4.0：迈向下一代多模态图像生成

Seedream 4.0：迈向下一代多模态图像生成

Team Seedream, Yunpeng Chen, Yu Gao, et al.

LLM Agent强化学习中的树搜索

LLM Agent强化学习中的树搜索

Yuxiang Ji, Ziyu Ma, Yong Wang, et al.

SciReasoner：跨学科奠定科学推理基础

SciReasoner：跨学科奠定科学推理基础

Yizhou Wang, Chen Tang, Han Deng, et al.