HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

R-4B：通过双模式退火与强化学习激励多模态大模型的通用自动思考能力

R-4B：通过双模式退火与强化学习激励多模态大模型的通用自动思考能力

Jie Jiang, Qi Yang, Bolin Ni, et al.

激发小规模语言模型的创意写作：基于LLM的评判与多智能体精炼奖励

激发小规模语言模型的创意写作：基于LLM的评判与多智能体精炼奖励

监督式微调

Xiaolong Wei, Bo Lu, Xingyu Zhang, et al.

TMUAD：通过文本记忆库增强统一异常检测模型的逻辑能力

TMUAD：通过文本记忆库增强统一异常检测模型的逻辑能力

计算机视觉

Jiawei Liu, Jiahe Hou, Wei Wang, et al.

思维链动态分析：主动引导还是不忠实的事后合理化？

思维链动态分析：主动引导还是不忠实的事后合理化？

监督式微调

Samuel Lewis-Lim, Xingwei Tan, Zhixue Zhao, et al.

AWorld：面向智能体AI训练配方的编排

AWorld：面向智能体AI训练配方的编排

Chengyue Yu, Siyuan Lu, Chenyi Zhuang, et al.

MCP-Bench：通过MCP服务器对复杂现实世界任务中使用工具的LLM Agent进行基准测试

MCP-Bench：通过MCP服务器对复杂现实世界任务中使用工具的LLM Agent进行基准测试

Zhenting Wang, Qi Chang, Hemani Patel, et al.

rStar2-Agent：代理式推理技术报告

rStar2-Agent：代理式推理技术报告

Ning Shang, Yifei Liu, Yi Zhu, et al.

Pref-GRPO：基于成对偏好奖励的GRPO用于稳定文本到图像强化学习

Pref-GRPO：基于成对偏好奖励的GRPO用于稳定文本到图像强化学习

Yibin Wang, Zhimin Li, Yuhang Zang, et al.

MobileCLIP2：提升多模态强化训练

MobileCLIP2：提升多模态强化训练

Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, et al.

AI-AI 审美协作：显式符号学意识与涌现语法发展

AI-AI 审美协作：显式符号学意识与涌现语法发展

自然语言处理

Nicanor I. Moldovan

凝视心灵：用于rPPG与健康生物标志物估计的多视角视频数据集

凝视心灵：用于rPPG与健康生物标志物估计的多视角视频数据集

计算机视觉

Konstantin Egorov, Stepan Botman, Pavel Blinov, et al.

预测下一个标记的顺序可提升语言建模性能

预测下一个标记的顺序可提升语言建模性能

Zayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji

MIDAS：通过实时自回归视频生成实现的多模态交互式数字人合成

MIDAS：通过实时自回归视频生成实现的多模态交互式数字人合成

统一多模态

Ming Chen, Liyuan Cui, Wenyuan Zhang, et al.

离散扩散VLA：将离散扩散引入视觉-语言-动作策略中的动作解码

离散扩散VLA：将离散扩散引入视觉-语言-动作策略中的动作解码

Zhixuan Liang, Yizhuo Li, Tianshuo Yang, et al.

通过推理分解的自奖励视觉-语言模型

通过推理分解的自奖励视觉-语言模型

Zongxia Li, Wenhao Yu, Chengsong Huang, et al.

超越转录：自动语音识别中的机制可解释性

超越转录：自动语音识别中的机制可解释性

Neta Glazer, Yael Segal-Feldman, Hilit Segev, et al.

CODA：面向解耦强化学习的双脑计算机使用Agent中大脑与小脑的协同机制

CODA：面向解耦强化学习的双脑计算机使用Agent中大脑与小脑的协同机制

Zeyi Sun, Yuhang Cao, Jianze Liang, et al.

WebSight：一种面向视觉的鲁棒网络智能体架构

WebSight：一种面向视觉的鲁棒网络智能体架构

统一多模态

Tanvir Bhathal, Asanshay Gupta

UltraMemV2：面向120B参数的内存网络，具备卓越的长上下文学习能力

UltraMemV2：面向120B参数的内存网络，具备卓越的长上下文学习能力

Zihao Huang, Yu Bao, Qiyang Min, et al.

赫尔墨斯4 技术报告

赫尔墨斯4 技术报告

Ryan Teknium, Roger Jin, Jai Suphavadeeprasit, et al.

OmniHuman-1.5：通过认知模拟为虚拟化身注入主动思维

OmniHuman-1.5：通过认知模拟为虚拟化身注入主动思维

多模态表征

Jianwen Jiang, Weihong Zeng, Zerong Zheng, et al.

VoxHammer：无需训练的原生3D空间中精确且连贯的3D编辑

VoxHammer：无需训练的原生3D空间中精确且连贯的3D编辑

Lin Li, Zehuan Huang, Haoran Feng, et al.

CMPhysBench：用于评估大语言模型在凝聚态物理领域性能的基准测试

CMPhysBench：用于评估大语言模型在凝聚态物理领域性能的基准测试

Weida Wang, Dongchen Huang, Jiatong Li, et al.

TreePO：基于启发式树建模弥合策略优化与有效性及推理效率之间的差距

TreePO：基于启发式树建模弥合策略优化与有效性及推理效率之间的差距

Yizhi Li, Qingshui Gu, Zhoufutu Wen, et al.

Nemotron-CC-Math：一个1330亿token规模的高质量数学预训练数据集

Nemotron-CC-Math：一个1330亿token规模的高质量数学预训练数据集

Rabeeh Karimi Mahabadi, Sanjeev Satheesh, Shrimai Prabhumoye, et al.

理解工具集成推理

理解工具集成推理

Heng Lin, Zhongwen Xu

Spacer：面向工程化科学灵感

Spacer：面向工程化科学灵感

Minhyeong Lee, Suyoung Hwang, Seunghyun Moon, et al.

超越记忆：通过循环、记忆与测试时计算扩展实现推理深度延伸

超越记忆：通过循环、记忆与测试时计算扩展实现推理深度延伸

Ivan Rodkin, Daniil Orel, Konstantin Smirnov, et al.

VibeVoice 技术报告

VibeVoice 技术报告

Zhiliang Peng, Jianwei Yu, Wenhui Wang, et al.

MMTok：面向视觉语言模型高效推理的多模态覆盖最大化

MMTok：面向视觉语言模型高效推理的多模态覆盖最大化

多模态表征

Sixun Dong, Juhua Hu, Mian Zhang, et al.

MV-RAG：检索增强的多视角扩散模型

MV-RAG：检索增强的多视角扩散模型

Yosef Dayani, Omer Benishu, Sagie Benaim

利用多模态机器学习将金属有机框架合成与应用相连接

利用多模态机器学习将金属有机框架合成与应用相连接

Sartaaj Takrim Khan, Seyed Mohamad Moosavi

R-4B：通过双模式退火与强化学习激励多模态大模型的通用自动思考能力

R-4B：通过双模式退火与强化学习激励多模态大模型的通用自动思考能力

Jie Jiang, Qi Yang, Bolin Ni, et al.

激发小规模语言模型的创意写作：基于LLM的评判与多智能体精炼奖励

激发小规模语言模型的创意写作：基于LLM的评判与多智能体精炼奖励

监督式微调

Xiaolong Wei, Bo Lu, Xingyu Zhang, et al.

TMUAD：通过文本记忆库增强统一异常检测模型的逻辑能力

TMUAD：通过文本记忆库增强统一异常检测模型的逻辑能力

计算机视觉

Jiawei Liu, Jiahe Hou, Wei Wang, et al.

思维链动态分析：主动引导还是不忠实的事后合理化？

思维链动态分析：主动引导还是不忠实的事后合理化？

监督式微调

Samuel Lewis-Lim, Xingwei Tan, Zhixue Zhao, et al.

AWorld：面向智能体AI训练配方的编排

AWorld：面向智能体AI训练配方的编排

Chengyue Yu, Siyuan Lu, Chenyi Zhuang, et al.

MCP-Bench：通过MCP服务器对复杂现实世界任务中使用工具的LLM Agent进行基准测试

MCP-Bench：通过MCP服务器对复杂现实世界任务中使用工具的LLM Agent进行基准测试

Zhenting Wang, Qi Chang, Hemani Patel, et al.

rStar2-Agent：代理式推理技术报告

rStar2-Agent：代理式推理技术报告

Ning Shang, Yifei Liu, Yi Zhu, et al.

Pref-GRPO：基于成对偏好奖励的GRPO用于稳定文本到图像强化学习

Pref-GRPO：基于成对偏好奖励的GRPO用于稳定文本到图像强化学习

Yibin Wang, Zhimin Li, Yuhang Zang, et al.

MobileCLIP2：提升多模态强化训练

MobileCLIP2：提升多模态强化训练

Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, et al.

AI-AI 审美协作：显式符号学意识与涌现语法发展

AI-AI 审美协作：显式符号学意识与涌现语法发展

自然语言处理

Nicanor I. Moldovan

凝视心灵：用于rPPG与健康生物标志物估计的多视角视频数据集

凝视心灵：用于rPPG与健康生物标志物估计的多视角视频数据集

计算机视觉

Konstantin Egorov, Stepan Botman, Pavel Blinov, et al.

预测下一个标记的顺序可提升语言建模性能

预测下一个标记的顺序可提升语言建模性能

Zayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji

MIDAS：通过实时自回归视频生成实现的多模态交互式数字人合成

MIDAS：通过实时自回归视频生成实现的多模态交互式数字人合成

统一多模态

Ming Chen, Liyuan Cui, Wenyuan Zhang, et al.

离散扩散VLA：将离散扩散引入视觉-语言-动作策略中的动作解码

离散扩散VLA：将离散扩散引入视觉-语言-动作策略中的动作解码

Zhixuan Liang, Yizhuo Li, Tianshuo Yang, et al.

通过推理分解的自奖励视觉-语言模型

通过推理分解的自奖励视觉-语言模型

Zongxia Li, Wenhao Yu, Chengsong Huang, et al.

超越转录：自动语音识别中的机制可解释性

超越转录：自动语音识别中的机制可解释性

Neta Glazer, Yael Segal-Feldman, Hilit Segev, et al.

CODA：面向解耦强化学习的双脑计算机使用Agent中大脑与小脑的协同机制

CODA：面向解耦强化学习的双脑计算机使用Agent中大脑与小脑的协同机制

Zeyi Sun, Yuhang Cao, Jianze Liang, et al.

WebSight：一种面向视觉的鲁棒网络智能体架构

WebSight：一种面向视觉的鲁棒网络智能体架构

统一多模态

Tanvir Bhathal, Asanshay Gupta

UltraMemV2：面向120B参数的内存网络，具备卓越的长上下文学习能力

UltraMemV2：面向120B参数的内存网络，具备卓越的长上下文学习能力

Zihao Huang, Yu Bao, Qiyang Min, et al.

赫尔墨斯4 技术报告

赫尔墨斯4 技术报告

Ryan Teknium, Roger Jin, Jai Suphavadeeprasit, et al.

OmniHuman-1.5：通过认知模拟为虚拟化身注入主动思维

OmniHuman-1.5：通过认知模拟为虚拟化身注入主动思维

多模态表征

Jianwen Jiang, Weihong Zeng, Zerong Zheng, et al.

VoxHammer：无需训练的原生3D空间中精确且连贯的3D编辑

VoxHammer：无需训练的原生3D空间中精确且连贯的3D编辑

Lin Li, Zehuan Huang, Haoran Feng, et al.

CMPhysBench：用于评估大语言模型在凝聚态物理领域性能的基准测试

CMPhysBench：用于评估大语言模型在凝聚态物理领域性能的基准测试

Weida Wang, Dongchen Huang, Jiatong Li, et al.

TreePO：基于启发式树建模弥合策略优化与有效性及推理效率之间的差距

TreePO：基于启发式树建模弥合策略优化与有效性及推理效率之间的差距

Yizhi Li, Qingshui Gu, Zhoufutu Wen, et al.

Nemotron-CC-Math：一个1330亿token规模的高质量数学预训练数据集

Nemotron-CC-Math：一个1330亿token规模的高质量数学预训练数据集

Rabeeh Karimi Mahabadi, Sanjeev Satheesh, Shrimai Prabhumoye, et al.

理解工具集成推理

理解工具集成推理

Heng Lin, Zhongwen Xu

Spacer：面向工程化科学灵感

Spacer：面向工程化科学灵感

Minhyeong Lee, Suyoung Hwang, Seunghyun Moon, et al.

超越记忆：通过循环、记忆与测试时计算扩展实现推理深度延伸

超越记忆：通过循环、记忆与测试时计算扩展实现推理深度延伸

Ivan Rodkin, Daniil Orel, Konstantin Smirnov, et al.

VibeVoice 技术报告

VibeVoice 技术报告

Zhiliang Peng, Jianwei Yu, Wenhui Wang, et al.

MMTok：面向视觉语言模型高效推理的多模态覆盖最大化

MMTok：面向视觉语言模型高效推理的多模态覆盖最大化

多模态表征

Sixun Dong, Juhua Hu, Mian Zhang, et al.

MV-RAG：检索增强的多视角扩散模型

MV-RAG：检索增强的多视角扩散模型

Yosef Dayani, Omer Benishu, Sagie Benaim

利用多模态机器学习将金属有机框架合成与应用相连接

利用多模态机器学习将金属有机框架合成与应用相连接

Sartaaj Takrim Khan, Seyed Mohamad Moosavi