HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

VLM-SlideEval：在PPT中评估VLMs的结构化理解与扰动敏感性

VLM-SlideEval：在PPT中评估VLMs的结构化理解与扰动敏感性

Hyeonsu Kang, Emily Bao, Anjan Goswami

TeraSim-World：面向端到端自动驾驶的全球安全关键数据合成

TeraSim-World：面向端到端自动驾驶的全球安全关键数据合成

Jiawei Wang, Haowei Sun, Xintao Yan, et al.

前瞻锚定：在基于音频的人体动画中保持角色身份

前瞻锚定：在基于音频的人体动画中保持角色身份

Junyoung Seo, Rodrigo Mira, Alexandros Haliassos, et al.

VITA-E：自然具身交互中的并发视觉、听觉、语言生成与行动

VITA-E：自然具身交互中的并发视觉、听觉、语言生成与行动

Xiaoyu Liu, Chaoyou Fu, Chi Yan, et al.

FARMER：基于像素的流式自回归Transformer

FARMER：基于像素的流式自回归Transformer

Guangting Zheng, Qinyu Zhao, Tao Yang, et al.

数据Agent综述：新兴范式还是被夸大的炒作？

数据Agent综述：新兴范式还是被夸大的炒作？

Yizhang Zhu, Liangwei Wang, Chenyu Yang, et al.

ReCode：统一规划与执行以实现通用粒度控制

ReCode：统一规划与执行以实现通用粒度控制

Zhaoyang Yu, Jiayi Zhang, Huixue Su, et al.

Concerto：联合2D-3D自监督学习涌现空间表征

Concerto：联合2D-3D自监督学习涌现空间表征

多模态表征

计算机视觉

Yujia Zhang, Xiaoyang Wu, Yixing Lao, et al.

Magellan：用于潜在空间探索与新颖性生成的引导式MCTS

Magellan：用于潜在空间探索与新颖性生成的引导式MCTS

DEEDEE：快速且可扩展的分布外动态检测

DEEDEE：快速且可扩展的分布外动态检测

Tala Aljaafari, Varun Kanade, Philip Torr, et al.

通过Token重排实现更稀疏的块稀疏注意力

通过Token重排实现更稀疏的块稀疏注意力

Xinghao Wang, Pengyu Wang, Dong Zhang, et al.

AGI的定义

Dan Hendrycks, Dawn Song, Christian Szegedy, et al.

从去噪到精炼：一种面向视觉-语言扩散模型的校正框架

从去噪到精炼：一种面向视觉-语言扩散模型的校正框架

Yatai Ji, Teng Wang, Yuying Ge, et al.

逐步采样，分块优化：面向文本到图像生成的分块级GRPO

逐步采样，分块优化：面向文本到图像生成的分块级GRPO

Yifu Luo, Penghui Du, Bo Li, et al.

视频作为提示：视频生成的统一语义控制

视频作为提示：视频生成的统一语义控制

Yuxuan Bian, Xin Chen, Zenan Li, et al.

DeepAgent：具备可扩展工具集的通用推理Agent

DeepAgent：具备可扩展工具集的通用推理Agent

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, et al.

不确定性感知的多目标强化学习引导的扩散模型用于三维从头分子设计

不确定性感知的多目标强化学习引导的扩散模型用于三维从头分子设计

Lianghong Chen, Dongkyu Eugene Kim, Mike Domaratzki, et al.

Reac-Discovery：一种由人工智能驱动的连续流催化反应器发现与优化平台

Reac-Discovery：一种由人工智能驱动的连续流催化反应器发现与优化平台

Cristopher Tinajero, Marcileia Zanatta, Julián E. Sánchez-Velandia, et al.

BoltzGen：迈向通用结合剂设计

BoltzGen：迈向通用结合剂设计

Hannes Stark, Felix Faltings, MinGyu Choi, et al.

HSCodeComp：面向层级规则应用中深度搜索Agent的现实且专家级基准

HSCodeComp：面向层级规则应用中深度搜索Agent的现实且专家级基准

Yiqian Yang, Tian Lan, Qianghuai Jia, et al.

DyPE：用于超高分辨率扩散的动态位置外推

DyPE：用于超高分辨率扩散的动态位置外推

Noam Issachar, Guy Yariv, Sagie Benaim, et al.

HoloCine：电影级多镜头长视频叙事的全局生成

HoloCine：电影级多镜头长视频叙事的全局生成

Yihao Meng, Hao Ouyang, Yue Yu, et al.

Open-o3 Video：基于显式时空证据的视频推理

Open-o3 Video：基于显式时空证据的视频推理

Jiahao Meng, Xiangtai Li, Haochen Wang, et al.

AdaSPEC：用于高效推测解码器的可选知识蒸馏

AdaSPEC：用于高效推测解码器的可选知识蒸馏

Yuezhou Hu, Jiaxin Guo, Xinyu Feng, et al.

人类-Agent协同的论文到页面制作成本低于0.1美元

人类-Agent协同的论文到页面制作成本低于0.1美元

统一多模态

Qianli Ma, Siyu Wang, Yilin Chen, et al.

从Token化到视觉阅读

Ling Xing, Alex Jinpeng Wang, Rui Yan, et al.

用于微调MLLMs的定向推理注入

统一多模态

Chao Huang, Zeliang Zhang, Jiang Liu, et al.

语言模型是单射的，因此可逆

语言模型是单射的，因此可逆

自然语言处理

Giorgos Nikolaou, Tommaso Mencattini, Donato Crisostomi, et al.

自由Transformer

自由Transformer

统一多模态

François Fleuret

基于机器学习的量子处理单元（QPU）处理时间预测

基于机器学习的量子处理单元（QPU）处理时间预测

Lucy Xing, Sanjay Vishwakarma, David Kremer, et al.

量子遍历性边缘的建设性干涉观测

量子遍历性边缘的建设性干涉观测

Google Quantum AI and Collaborators

VideoAgentTrek：从无标签视频中进行计算机使用预训练

VideoAgentTrek：从无标签视频中进行计算机使用预训练

Dunjie Lu, Yiheng Xu, Junli Wang, et al.

VLM-SlideEval：在PPT中评估VLMs的结构化理解与扰动敏感性

VLM-SlideEval：在PPT中评估VLMs的结构化理解与扰动敏感性

Hyeonsu Kang, Emily Bao, Anjan Goswami

TeraSim-World：面向端到端自动驾驶的全球安全关键数据合成

TeraSim-World：面向端到端自动驾驶的全球安全关键数据合成

Jiawei Wang, Haowei Sun, Xintao Yan, et al.

前瞻锚定：在基于音频的人体动画中保持角色身份

前瞻锚定：在基于音频的人体动画中保持角色身份

Junyoung Seo, Rodrigo Mira, Alexandros Haliassos, et al.

VITA-E：自然具身交互中的并发视觉、听觉、语言生成与行动

VITA-E：自然具身交互中的并发视觉、听觉、语言生成与行动

Xiaoyu Liu, Chaoyou Fu, Chi Yan, et al.

FARMER：基于像素的流式自回归Transformer

FARMER：基于像素的流式自回归Transformer

Guangting Zheng, Qinyu Zhao, Tao Yang, et al.

数据Agent综述：新兴范式还是被夸大的炒作？

数据Agent综述：新兴范式还是被夸大的炒作？

Yizhang Zhu, Liangwei Wang, Chenyu Yang, et al.

ReCode：统一规划与执行以实现通用粒度控制

ReCode：统一规划与执行以实现通用粒度控制

Zhaoyang Yu, Jiayi Zhang, Huixue Su, et al.

Concerto：联合2D-3D自监督学习涌现空间表征

Concerto：联合2D-3D自监督学习涌现空间表征

多模态表征

计算机视觉

Yujia Zhang, Xiaoyang Wu, Yixing Lao, et al.

Magellan：用于潜在空间探索与新颖性生成的引导式MCTS

Magellan：用于潜在空间探索与新颖性生成的引导式MCTS

DEEDEE：快速且可扩展的分布外动态检测

DEEDEE：快速且可扩展的分布外动态检测

Tala Aljaafari, Varun Kanade, Philip Torr, et al.

通过Token重排实现更稀疏的块稀疏注意力

通过Token重排实现更稀疏的块稀疏注意力

Xinghao Wang, Pengyu Wang, Dong Zhang, et al.

AGI的定义

Dan Hendrycks, Dawn Song, Christian Szegedy, et al.

从去噪到精炼：一种面向视觉-语言扩散模型的校正框架

从去噪到精炼：一种面向视觉-语言扩散模型的校正框架

Yatai Ji, Teng Wang, Yuying Ge, et al.

逐步采样，分块优化：面向文本到图像生成的分块级GRPO

逐步采样，分块优化：面向文本到图像生成的分块级GRPO

Yifu Luo, Penghui Du, Bo Li, et al.

视频作为提示：视频生成的统一语义控制

视频作为提示：视频生成的统一语义控制

Yuxuan Bian, Xin Chen, Zenan Li, et al.

DeepAgent：具备可扩展工具集的通用推理Agent

DeepAgent：具备可扩展工具集的通用推理Agent

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, et al.

不确定性感知的多目标强化学习引导的扩散模型用于三维从头分子设计

不确定性感知的多目标强化学习引导的扩散模型用于三维从头分子设计

Lianghong Chen, Dongkyu Eugene Kim, Mike Domaratzki, et al.

Reac-Discovery：一种由人工智能驱动的连续流催化反应器发现与优化平台

Reac-Discovery：一种由人工智能驱动的连续流催化反应器发现与优化平台

Cristopher Tinajero, Marcileia Zanatta, Julián E. Sánchez-Velandia, et al.

BoltzGen：迈向通用结合剂设计

BoltzGen：迈向通用结合剂设计

Hannes Stark, Felix Faltings, MinGyu Choi, et al.

HSCodeComp：面向层级规则应用中深度搜索Agent的现实且专家级基准

HSCodeComp：面向层级规则应用中深度搜索Agent的现实且专家级基准

Yiqian Yang, Tian Lan, Qianghuai Jia, et al.

DyPE：用于超高分辨率扩散的动态位置外推

DyPE：用于超高分辨率扩散的动态位置外推

Noam Issachar, Guy Yariv, Sagie Benaim, et al.

HoloCine：电影级多镜头长视频叙事的全局生成

HoloCine：电影级多镜头长视频叙事的全局生成

Yihao Meng, Hao Ouyang, Yue Yu, et al.

Open-o3 Video：基于显式时空证据的视频推理

Open-o3 Video：基于显式时空证据的视频推理

Jiahao Meng, Xiangtai Li, Haochen Wang, et al.

AdaSPEC：用于高效推测解码器的可选知识蒸馏

AdaSPEC：用于高效推测解码器的可选知识蒸馏

Yuezhou Hu, Jiaxin Guo, Xinyu Feng, et al.

人类-Agent协同的论文到页面制作成本低于0.1美元

人类-Agent协同的论文到页面制作成本低于0.1美元

统一多模态

Qianli Ma, Siyu Wang, Yilin Chen, et al.

从Token化到视觉阅读

Ling Xing, Alex Jinpeng Wang, Rui Yan, et al.

用于微调MLLMs的定向推理注入

统一多模态

Chao Huang, Zeliang Zhang, Jiang Liu, et al.

语言模型是单射的，因此可逆

语言模型是单射的，因此可逆

自然语言处理

Giorgos Nikolaou, Tommaso Mencattini, Donato Crisostomi, et al.

自由Transformer

自由Transformer

统一多模态

François Fleuret

基于机器学习的量子处理单元（QPU）处理时间预测

基于机器学习的量子处理单元（QPU）处理时间预测

Lucy Xing, Sanjay Vishwakarma, David Kremer, et al.

量子遍历性边缘的建设性干涉观测

量子遍历性边缘的建设性干涉观测

Google Quantum AI and Collaborators

VideoAgentTrek：从无标签视频中进行计算机使用预训练

VideoAgentTrek：从无标签视频中进行计算机使用预训练

Dunjie Lu, Yiheng Xu, Junli Wang, et al.