HyperAI超神经

文档
资讯
论文
教程
数据集
百科
SOTA
LLM 模型天梯
GPU 天梯
顶会

关于服务条款隐私政策
中文

HyperAI超神经

Command Palette

Search for a command to run...

首页
论文

论文

每日更新的前沿 AI 研究论文，助您把握人工智能最新动向

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集帮助

产品

资讯教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI超神经

津ICP备17010941号-1

京公网安备11010502038810号

Discord X (formerly Twitter)Bilibili

HyperAI超神经

文档
资讯
论文
教程
数据集
百科
SOTA
LLM 模型天梯
GPU 天梯
顶会

关于服务条款隐私政策
中文

HyperAI超神经

Command Palette

Search for a command to run...

首页
论文

论文

每日更新的前沿 AI 研究论文，助您把握人工智能最新动向

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集帮助

产品

资讯教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI超神经

津ICP备17010941号-1

京公网安备11010502038810号

Discord X (formerly Twitter)Bilibili

论文 | HyperAI超神经

Emu3.5：原生多模态模型是世界学习者

Emu3.5：原生多模态模型是世界学习者

Yufeng Cui, Honghao Chen, Haoge Deng, et al.

手动解码的终结：迈向真正端到端的语言模型

手动解码的终结：迈向真正端到端的语言模型

Zhichao Wang, Dongyang Ma, Xinting Huang, et al.

人类与AI的互补性：增强监督的目标

人类与AI的互补性：增强监督的目标

Rishub Jain, Sophie Bridgers, Lili Janzer, et al.

GPTOpt：面向高效基于LLM的黑箱优化

GPTOpt：面向高效基于LLM的黑箱优化

Jamison Meindl, Yunsheng Tian, Tony Cui, et al.

VFXMaster：通过上下文学习解锁动态视觉效果生成

VFXMaster：通过上下文学习解锁动态视觉效果生成

Baolu Li, Yiming Zhang, Qinghe Wang, et al.

基于流程挖掘的推理感知GRPO

基于流程挖掘的推理感知GRPO

Taekhyun Park, Yongjae Lee, Hyerim Bae

通过循环语言模型实现潜在推理的扩展

通过循环语言模型实现潜在推理的扩展

Rui-Jie Zhu, Zixuan Wang, Kai Hua, et al.

ReForm：基于前瞻性有限序列优化的反思式自动形式化

ReForm：基于前瞻性有限序列优化的反思式自动形式化

Guoxin Chen, Jing Wu, Xinjie Chen, et al.

Video-Thinker：通过强化学习激发“用视频进行思考”

Video-Thinker：通过强化学习激发“用视频进行思考”

Shijian Wang, Jiarui Jin, Xingjian Wang, et al.

JanusCoder：迈向代码智能的基础性视觉-程序化接口

JanusCoder：迈向代码智能的基础性视觉-程序化接口

Qiushi Sun, Jingyang Gong, Yang Liu, et al.

MCP-Flow：助力LLM Agent掌握现实世界中多样化且可扩展的MCP工具

MCP-Flow：助力LLM Agent掌握现实世界中多样化且可扩展的MCP工具

Wenhao Wang, Peizhi Niu, Zhao Xu, et al.

OmniCast：一种用于跨时间尺度天气预报的掩码潜在扩散模型

OmniCast：一种用于跨时间尺度天气预报的掩码潜在扩散模型

Tung Nguyen, Tuan Pham, Troy Arcomano, et al.

用于视频生成的带有度量路径的均匀离散扩散

用于视频生成的带有度量路径的均匀离散扩散

Haoge Deng, Ting Pan, Fan Zhang, et al.

Game-TARS：用于可扩展通用多模态Game Agent的预训练基础模型

Game-TARS：用于可扩展通用多模态Game Agent的预训练基础模型

Zihao Wang, Xujing Li, Yining Ye, et al.

RoboOmni：全景模态上下文中的主动式机器人操作

RoboOmni：全景模态上下文中的主动式机器人操作

Siyin Wang, Jinlan Fu, Feihong Liu, et al.

AgentFold：具有主动上下文管理的长时序Web Agent

AgentFold：具有主动上下文管理的长时序Web Agent

Rui Ye, Zhongwang Zhang, Kuan Li, et al.

通义DeepResearch技术报告

通义DeepResearch技术报告

Tongyi DeepResearch Team, Baixuan Li, Bo Zhang, et al.

InteractComp：使用模糊查询评估Search Agent

InteractComp：使用模糊查询评估Search Agent

Mingyi Deng, Lijun Huang, Yani Fan, et al.

VLM-SlideEval：在PPT中评估VLMs的结构化理解与扰动敏感性

VLM-SlideEval：在PPT中评估VLMs的结构化理解与扰动敏感性

Hyeonsu Kang, Emily Bao, Anjan Goswami

TeraSim-World：面向端到端自动驾驶的全球安全关键数据合成

TeraSim-World：面向端到端自动驾驶的全球安全关键数据合成

Jiawei Wang, Haowei Sun, Xintao Yan, et al.

前瞻锚定：在基于音频的人体动画中保持角色身份

前瞻锚定：在基于音频的人体动画中保持角色身份

Junyoung Seo, Rodrigo Mira, Alexandros Haliassos, et al.

VITA-E：自然具身交互中的并发视觉、听觉、语言生成与行动

VITA-E：自然具身交互中的并发视觉、听觉、语言生成与行动

Xiaoyu Liu, Chaoyou Fu, Chi Yan, et al.

FARMER：基于像素的流式自回归Transformer

FARMER：基于像素的流式自回归Transformer

Guangting Zheng, Qinyu Zhao, Tao Yang, et al.

数据Agent综述：新兴范式还是被夸大的炒作？

数据Agent综述：新兴范式还是被夸大的炒作？

Yizhang Zhu, Liangwei Wang, Chenyu Yang, et al.

ReCode：统一规划与执行以实现通用粒度控制

ReCode：统一规划与执行以实现通用粒度控制

Zhaoyang Yu, Jiayi Zhang, Huixue Su, et al.

Concerto：联合2D-3D自监督学习涌现空间表征

Concerto：联合2D-3D自监督学习涌现空间表征

Yujia Zhang, Xiaoyang Wu, Yixing Lao, et al.

Magellan：用于潜在空间探索与新颖性生成的引导式MCTS

Magellan：用于潜在空间探索与新颖性生成的引导式MCTS

DEEDEE：快速且可扩展的分布外动态检测

DEEDEE：快速且可扩展的分布外动态检测

Tala Aljaafari, Varun Kanade, Philip Torr, et al.

通过Token重排实现更稀疏的块稀疏注意力

通过Token重排实现更稀疏的块稀疏注意力

Xinghao Wang, Pengyu Wang, Dong Zhang, et al.

AGI的定义

Dan Hendrycks, Dawn Song, Christian Szegedy, et al.

从去噪到精炼：一种面向视觉-语言扩散模型的校正框架

从去噪到精炼：一种面向视觉-语言扩散模型的校正框架

Yatai Ji, Teng Wang, Yuying Ge, et al.

逐步采样，分块优化：面向文本到图像生成的分块级GRPO

逐步采样，分块优化：面向文本到图像生成的分块级GRPO

Yifu Luo, Penghui Du, Bo Li, et al.

Emu3.5：原生多模态模型是世界学习者

Emu3.5：原生多模态模型是世界学习者

Yufeng Cui, Honghao Chen, Haoge Deng, et al.

手动解码的终结：迈向真正端到端的语言模型

手动解码的终结：迈向真正端到端的语言模型

Zhichao Wang, Dongyang Ma, Xinting Huang, et al.

人类与AI的互补性：增强监督的目标

人类与AI的互补性：增强监督的目标

Rishub Jain, Sophie Bridgers, Lili Janzer, et al.

GPTOpt：面向高效基于LLM的黑箱优化

GPTOpt：面向高效基于LLM的黑箱优化

Jamison Meindl, Yunsheng Tian, Tony Cui, et al.

VFXMaster：通过上下文学习解锁动态视觉效果生成

VFXMaster：通过上下文学习解锁动态视觉效果生成

Baolu Li, Yiming Zhang, Qinghe Wang, et al.

基于流程挖掘的推理感知GRPO

基于流程挖掘的推理感知GRPO

Taekhyun Park, Yongjae Lee, Hyerim Bae

通过循环语言模型实现潜在推理的扩展

通过循环语言模型实现潜在推理的扩展

Rui-Jie Zhu, Zixuan Wang, Kai Hua, et al.

ReForm：基于前瞻性有限序列优化的反思式自动形式化

ReForm：基于前瞻性有限序列优化的反思式自动形式化

Guoxin Chen, Jing Wu, Xinjie Chen, et al.

Video-Thinker：通过强化学习激发“用视频进行思考”

Video-Thinker：通过强化学习激发“用视频进行思考”

Shijian Wang, Jiarui Jin, Xingjian Wang, et al.

JanusCoder：迈向代码智能的基础性视觉-程序化接口

JanusCoder：迈向代码智能的基础性视觉-程序化接口

Qiushi Sun, Jingyang Gong, Yang Liu, et al.

MCP-Flow：助力LLM Agent掌握现实世界中多样化且可扩展的MCP工具

MCP-Flow：助力LLM Agent掌握现实世界中多样化且可扩展的MCP工具

Wenhao Wang, Peizhi Niu, Zhao Xu, et al.

OmniCast：一种用于跨时间尺度天气预报的掩码潜在扩散模型

OmniCast：一种用于跨时间尺度天气预报的掩码潜在扩散模型

Tung Nguyen, Tuan Pham, Troy Arcomano, et al.

用于视频生成的带有度量路径的均匀离散扩散

用于视频生成的带有度量路径的均匀离散扩散

Haoge Deng, Ting Pan, Fan Zhang, et al.

Game-TARS：用于可扩展通用多模态Game Agent的预训练基础模型

Game-TARS：用于可扩展通用多模态Game Agent的预训练基础模型

Zihao Wang, Xujing Li, Yining Ye, et al.

RoboOmni：全景模态上下文中的主动式机器人操作

RoboOmni：全景模态上下文中的主动式机器人操作

Siyin Wang, Jinlan Fu, Feihong Liu, et al.

AgentFold：具有主动上下文管理的长时序Web Agent

AgentFold：具有主动上下文管理的长时序Web Agent

Rui Ye, Zhongwang Zhang, Kuan Li, et al.

通义DeepResearch技术报告

通义DeepResearch技术报告

Tongyi DeepResearch Team, Baixuan Li, Bo Zhang, et al.

InteractComp：使用模糊查询评估Search Agent

InteractComp：使用模糊查询评估Search Agent

Mingyi Deng, Lijun Huang, Yani Fan, et al.

VLM-SlideEval：在PPT中评估VLMs的结构化理解与扰动敏感性

VLM-SlideEval：在PPT中评估VLMs的结构化理解与扰动敏感性

Hyeonsu Kang, Emily Bao, Anjan Goswami

TeraSim-World：面向端到端自动驾驶的全球安全关键数据合成

TeraSim-World：面向端到端自动驾驶的全球安全关键数据合成

Jiawei Wang, Haowei Sun, Xintao Yan, et al.

前瞻锚定：在基于音频的人体动画中保持角色身份

前瞻锚定：在基于音频的人体动画中保持角色身份

Junyoung Seo, Rodrigo Mira, Alexandros Haliassos, et al.

VITA-E：自然具身交互中的并发视觉、听觉、语言生成与行动

VITA-E：自然具身交互中的并发视觉、听觉、语言生成与行动

Xiaoyu Liu, Chaoyou Fu, Chi Yan, et al.

FARMER：基于像素的流式自回归Transformer

FARMER：基于像素的流式自回归Transformer

Guangting Zheng, Qinyu Zhao, Tao Yang, et al.

数据Agent综述：新兴范式还是被夸大的炒作？

数据Agent综述：新兴范式还是被夸大的炒作？

Yizhang Zhu, Liangwei Wang, Chenyu Yang, et al.

ReCode：统一规划与执行以实现通用粒度控制

ReCode：统一规划与执行以实现通用粒度控制

Zhaoyang Yu, Jiayi Zhang, Huixue Su, et al.

Concerto：联合2D-3D自监督学习涌现空间表征

Concerto：联合2D-3D自监督学习涌现空间表征

Yujia Zhang, Xiaoyang Wu, Yixing Lao, et al.

Magellan：用于潜在空间探索与新颖性生成的引导式MCTS

Magellan：用于潜在空间探索与新颖性生成的引导式MCTS

DEEDEE：快速且可扩展的分布外动态检测

DEEDEE：快速且可扩展的分布外动态检测

Tala Aljaafari, Varun Kanade, Philip Torr, et al.

通过Token重排实现更稀疏的块稀疏注意力

通过Token重排实现更稀疏的块稀疏注意力

Xinghao Wang, Pengyu Wang, Dong Zhang, et al.

AGI的定义

Dan Hendrycks, Dawn Song, Christian Szegedy, et al.

从去噪到精炼：一种面向视觉-语言扩散模型的校正框架

从去噪到精炼：一种面向视觉-语言扩散模型的校正框架

Yatai Ji, Teng Wang, Yuying Ge, et al.

逐步采样，分块优化：面向文本到图像生成的分块级GRPO

逐步采样，分块优化：面向文本到图像生成的分块级GRPO

Yifu Luo, Penghui Du, Bo Li, et al.