HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

DTS：通过解码树草图增强大型推理模型

DTS：通过解码树草图增强大型推理模型

Zicheng Xu, Guanchu Wang, Yu-Neng Chuang, et al.

基于LLMs的贝叶斯优化自适应核设计宛如轻而易举之事

基于LLMs的贝叶斯优化自适应核设计宛如轻而易举之事

Richard Cornelius Suwandi, Feng Yin, Juntao Wang, et al.

DePass：通过简单分解前向传播实现统一特征归因

DePass：通过简单分解前向传播实现统一特征归因

自然语言处理

Xiangyu Hong, Che Jiang, Kai Tian, et al.

COOPER：面向空间智能的协同感知与推理统一模型

COOPER：面向空间智能的协同感知与推理统一模型

多任务学习

Zefeng Zhang, Xiangzhao Hao, Hengzhu Tang, et al.

从模仿到判别：迈向一种增强跨领域推理任务的通用课程优势机制

从模仿到判别：迈向一种增强跨领域推理任务的通用课程优势机制

Changpeng Yang, Jinyang Wu, Yuchen Liu, et al.

PaCo-RL：基于成对奖励建模的强化学习在一致图像生成中的应用进展

PaCo-RL：基于成对奖励建模的强化学习在一致图像生成中的应用进展

Bowen Ping, Chengyou Jia, Minnan Luo, et al.

EMMA：基于统一架构的高效多模态理解、生成与编辑

EMMA：基于统一架构的高效多模态理解、生成与编辑

统一多模态

多任务学习

Xin He, Longhui Wei, Jianbo Ouyang, et al.

EditThinker：解锁任意图像编辑器的迭代推理能力

EditThinker：解锁任意图像编辑器的迭代推理能力

Hongyu Li, Manyuan Zhang, Dian Zheng, et al.

TwinFlow：基于自对抗流实现大模型的一步生成

TwinFlow：基于自对抗流实现大模型的一步生成

Zhenglin Cheng, Peng Sun, Jianguo Li, et al.

CARE-PD：用于帕金森病步态评估的多中心匿名临床数据集

CARE-PD：用于帕金森病步态评估的多中心匿名临床数据集

Vida Adeli, Ivan Klabucar, Javad Rajabi, et al.

WenetSpeech-Chuan：一个用于方言语音处理的大规模四川话语料库，具有丰富的标注信息

WenetSpeech-Chuan：一个用于方言语音处理的大规模四川话语料库，具有丰富的标注信息

音频和语音处理

Yuhang Dai, Ziyu Zhang, Shuai Wang, et al.

PolypSense3D：用于内窥镜深度感知息肉尺寸测量的多源基准数据集

PolypSense3D：用于内窥镜深度感知息肉尺寸测量的多源基准数据集

Ruyu Liu, Lin Wang, Zhou Mingming, et al.

PhysDrive：面向车载驾驶员监控的多模态远程生理测量数据集

PhysDrive：面向车载驾驶员监控的多模态远程生理测量数据集

计算机视觉

Jiyao Wang, Xiao Yang, Qingyong Hu, et al.

人工蜂群智能：语言模型（及更广泛领域）的开放性同质性

人工蜂群智能：语言模型（及更广泛领域）的开放性同质性

Liwei Jiang, Yuanjun Chai, Margaret Li, et al.

OmniSVG：一种统一的可扩展矢量图形生成模型

OmniSVG：一种统一的可扩展矢量图形生成模型

Yiying Yang, Wei Cheng, Sijin Chen, et al.

算法思维理论

算法思维理论

MohammadHossein Bateni, Vincent Cohen-Addad, Yuzhou Gu, et al.

机器人世界模型：用于机器人鲁棒策略优化的神经网络模拟器

机器人世界模型：用于机器人鲁棒策略优化的神经网络模拟器

机器人技术

Chenhao Li, Andreas Krause, Marco Hutter

奖励强制：基于奖励分布匹配蒸馏的高效流式视频生成

奖励强制：基于奖励分布匹配蒸馏的高效流式视频生成

Yunhong Lu, Yanhong Zeng, Haobo Li, et al.

语义引领方向：通过异步潜在扩散实现语义与纹理建模的协同

语义引领方向：通过异步潜在扩散实现语义与纹理建模的协同

Yueming Pan, Ruoyu Feng, Qi Dai, et al.

ARM-Thinker：通过智能体工具使用与视觉推理强化多模态生成式奖励模型

ARM-Thinker：通过智能体工具使用与视觉推理强化多模态生成式奖励模型

Shengyuan Ding, Xinyu Fang, Ziyu Liu, et al.

Nex-N1：通过统一生态系统训练的智能体模型，用于大规模环境构建

Nex-N1：通过统一生态系统训练的智能体模型，用于大规模环境构建

Nex-AGI Team, Yuxuan Cai, Lu Chen, et al.

DAComp：面向数据智能全生命周期的数据Agent基准测试

DAComp：面向数据智能全生命周期的数据Agent基准测试

Fangyu Lei, Jinxiang Meng, Yiming Huang, et al.

实时虚拟形象：基于实时音频驱动的无限长度虚拟形象生成

实时虚拟形象：基于实时音频驱动的无限长度虚拟形象生成

Yubo Huang, Hailong Guo, Fangtai Wu, et al.

F5-TTS：一种通过流匹配实现流畅且忠实语音伪造的童话讲述者

F5-TTS：一种通过流匹配实现流畅且忠实语音伪造的童话讲述者

Yushen Chen, Zhikang Niu, Ziyang Ma, et al.

VOccl3D：一种用于真实遮挡下3D人体姿态与形状估计的视频基准数据集

VOccl3D：一种用于真实遮挡下3D人体姿态与形状估计的视频基准数据集

Yash Garg, Saketh Bachu, Arindam Dutta, et al.

Alpamayo-R1：面向长尾场景下可泛化的自动驾驶，连接推理与行为预测

Alpamayo-R1：面向长尾场景下可泛化的自动驾驶，连接推理与行为预测

NVIDIA, Yulong Cao, Tong Che, et al.

环环相扣：一场关于测试时记忆、注意力偏差、保留与在线优化的探索之旅

环环相扣：一场关于测试时记忆、注意力偏差、保留与在线优化的探索之旅

Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, et al.

重新思考文本到视觉生成中推理时扩展的提示设计

重新思考文本到视觉生成中推理时扩展的提示设计

Subin Kim, Sangwoo Mo, Mamshad Nayeem Rizve, et al.

作为反探索的视觉-语言-动作模型引导：一种测试时扩展方法

作为反探索的视觉-语言-动作模型引导：一种测试时扩展方法

统一多模态

监督式微调

Siyuan Yang, Yang Zhang, Haoran He, et al.

OneThinker：面向图像与视频的全功能推理模型

OneThinker：面向图像与视频的全功能推理模型

多任务学习

Kaituo Feng, Manyuan Zhang, Hongyu Li, et al.

ViDiC：视频差异描述

ViDiC：视频差异描述

Jiangtao Wu, Shihao Li, Zhaozhou Bian, et al.

PretrainZero：强化主动预训练

PretrainZero：强化主动预训练

Xingrun Xing, Zhiyuan Fan, Jie Lou, et al.

DTS：通过解码树草图增强大型推理模型

DTS：通过解码树草图增强大型推理模型

Zicheng Xu, Guanchu Wang, Yu-Neng Chuang, et al.

基于LLMs的贝叶斯优化自适应核设计宛如轻而易举之事

基于LLMs的贝叶斯优化自适应核设计宛如轻而易举之事

Richard Cornelius Suwandi, Feng Yin, Juntao Wang, et al.

DePass：通过简单分解前向传播实现统一特征归因

DePass：通过简单分解前向传播实现统一特征归因

自然语言处理

Xiangyu Hong, Che Jiang, Kai Tian, et al.

COOPER：面向空间智能的协同感知与推理统一模型

COOPER：面向空间智能的协同感知与推理统一模型

多任务学习

Zefeng Zhang, Xiangzhao Hao, Hengzhu Tang, et al.

从模仿到判别：迈向一种增强跨领域推理任务的通用课程优势机制

从模仿到判别：迈向一种增强跨领域推理任务的通用课程优势机制

Changpeng Yang, Jinyang Wu, Yuchen Liu, et al.

PaCo-RL：基于成对奖励建模的强化学习在一致图像生成中的应用进展

PaCo-RL：基于成对奖励建模的强化学习在一致图像生成中的应用进展

Bowen Ping, Chengyou Jia, Minnan Luo, et al.

EMMA：基于统一架构的高效多模态理解、生成与编辑

EMMA：基于统一架构的高效多模态理解、生成与编辑

统一多模态

多任务学习

Xin He, Longhui Wei, Jianbo Ouyang, et al.

EditThinker：解锁任意图像编辑器的迭代推理能力

EditThinker：解锁任意图像编辑器的迭代推理能力

Hongyu Li, Manyuan Zhang, Dian Zheng, et al.

TwinFlow：基于自对抗流实现大模型的一步生成

TwinFlow：基于自对抗流实现大模型的一步生成

Zhenglin Cheng, Peng Sun, Jianguo Li, et al.

CARE-PD：用于帕金森病步态评估的多中心匿名临床数据集

CARE-PD：用于帕金森病步态评估的多中心匿名临床数据集

Vida Adeli, Ivan Klabucar, Javad Rajabi, et al.

WenetSpeech-Chuan：一个用于方言语音处理的大规模四川话语料库，具有丰富的标注信息

WenetSpeech-Chuan：一个用于方言语音处理的大规模四川话语料库，具有丰富的标注信息

音频和语音处理

Yuhang Dai, Ziyu Zhang, Shuai Wang, et al.

PolypSense3D：用于内窥镜深度感知息肉尺寸测量的多源基准数据集

PolypSense3D：用于内窥镜深度感知息肉尺寸测量的多源基准数据集

Ruyu Liu, Lin Wang, Zhou Mingming, et al.

PhysDrive：面向车载驾驶员监控的多模态远程生理测量数据集

PhysDrive：面向车载驾驶员监控的多模态远程生理测量数据集

计算机视觉

Jiyao Wang, Xiao Yang, Qingyong Hu, et al.

人工蜂群智能：语言模型（及更广泛领域）的开放性同质性

人工蜂群智能：语言模型（及更广泛领域）的开放性同质性

Liwei Jiang, Yuanjun Chai, Margaret Li, et al.

OmniSVG：一种统一的可扩展矢量图形生成模型

OmniSVG：一种统一的可扩展矢量图形生成模型

Yiying Yang, Wei Cheng, Sijin Chen, et al.

算法思维理论

算法思维理论

MohammadHossein Bateni, Vincent Cohen-Addad, Yuzhou Gu, et al.

机器人世界模型：用于机器人鲁棒策略优化的神经网络模拟器

机器人世界模型：用于机器人鲁棒策略优化的神经网络模拟器

机器人技术

Chenhao Li, Andreas Krause, Marco Hutter

奖励强制：基于奖励分布匹配蒸馏的高效流式视频生成

奖励强制：基于奖励分布匹配蒸馏的高效流式视频生成

Yunhong Lu, Yanhong Zeng, Haobo Li, et al.

语义引领方向：通过异步潜在扩散实现语义与纹理建模的协同

语义引领方向：通过异步潜在扩散实现语义与纹理建模的协同

Yueming Pan, Ruoyu Feng, Qi Dai, et al.

ARM-Thinker：通过智能体工具使用与视觉推理强化多模态生成式奖励模型

ARM-Thinker：通过智能体工具使用与视觉推理强化多模态生成式奖励模型

Shengyuan Ding, Xinyu Fang, Ziyu Liu, et al.

Nex-N1：通过统一生态系统训练的智能体模型，用于大规模环境构建

Nex-N1：通过统一生态系统训练的智能体模型，用于大规模环境构建

Nex-AGI Team, Yuxuan Cai, Lu Chen, et al.

DAComp：面向数据智能全生命周期的数据Agent基准测试

DAComp：面向数据智能全生命周期的数据Agent基准测试

Fangyu Lei, Jinxiang Meng, Yiming Huang, et al.

实时虚拟形象：基于实时音频驱动的无限长度虚拟形象生成

实时虚拟形象：基于实时音频驱动的无限长度虚拟形象生成

Yubo Huang, Hailong Guo, Fangtai Wu, et al.

F5-TTS：一种通过流匹配实现流畅且忠实语音伪造的童话讲述者

F5-TTS：一种通过流匹配实现流畅且忠实语音伪造的童话讲述者

Yushen Chen, Zhikang Niu, Ziyang Ma, et al.

VOccl3D：一种用于真实遮挡下3D人体姿态与形状估计的视频基准数据集

VOccl3D：一种用于真实遮挡下3D人体姿态与形状估计的视频基准数据集

Yash Garg, Saketh Bachu, Arindam Dutta, et al.

Alpamayo-R1：面向长尾场景下可泛化的自动驾驶，连接推理与行为预测

Alpamayo-R1：面向长尾场景下可泛化的自动驾驶，连接推理与行为预测

NVIDIA, Yulong Cao, Tong Che, et al.

环环相扣：一场关于测试时记忆、注意力偏差、保留与在线优化的探索之旅

环环相扣：一场关于测试时记忆、注意力偏差、保留与在线优化的探索之旅

Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, et al.

重新思考文本到视觉生成中推理时扩展的提示设计

重新思考文本到视觉生成中推理时扩展的提示设计

Subin Kim, Sangwoo Mo, Mamshad Nayeem Rizve, et al.

作为反探索的视觉-语言-动作模型引导：一种测试时扩展方法

作为反探索的视觉-语言-动作模型引导：一种测试时扩展方法

统一多模态

监督式微调

Siyuan Yang, Yang Zhang, Haoran He, et al.

OneThinker：面向图像与视频的全功能推理模型

OneThinker：面向图像与视频的全功能推理模型

多任务学习

Kaituo Feng, Manyuan Zhang, Hongyu Li, et al.

ViDiC：视频差异描述

ViDiC：视频差异描述

Jiangtao Wu, Shihao Li, Zhaozhou Bian, et al.

PretrainZero：强化主动预训练

PretrainZero：强化主动预训练

Xingrun Xing, Zhiyuan Fan, Jie Lou, et al.