HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

Seed-Prover 1.5：通过经验学习掌握本科水平定理证明

Seed-Prover 1.5：通过经验学习掌握本科水平定理证明

Jiangjie Chen, Wenxiang Chen, Jiacheng Du, et al.

当推理遇见其法则

当推理遇见其法则

Junyu Zhang, Yifan Sun, Tianang Leng, et al.

基于科学家对齐工作流的LLM科学通用智能探究

基于科学家对齐工作流的LLM科学通用智能探究

Wanghan Xu, Yuhao Zhou, Yifan Zhou, et al.

K2-V2：一个360-开放、推理增强的LLM

K2-V2：一个360-开放、推理增强的LLM

监督式微调

Zhengzhong Liu, Liping Tang, Linghao Jin, et al.

VenusBench-GD：面向多样化定位任务的综合性多平台GUI基准

VenusBench-GD：面向多样化定位任务的综合性多平台GUI基准

Beitong Zhou, Zhexiao Huang, Yuan Guo, et al.

MCIF：来自科学演讲的多模态跨语言指令遵循基准

MCIF：来自科学演讲的多模态跨语言指令遵循基准

统一多模态

Sara Papi, Maike Züfle, Marco Gaido, et al.

NitroGen：面向通用游戏Agent的开源基础模型

NitroGen：面向通用游戏Agent的开源基础模型

计算机视觉

Loic Magne, Anas Awadalla, Guanzhi Wang, et al.

H-神经元：关于LLM中与幻觉相关的神经元的存在性、影响及其起源

H-神经元：关于LLM中与幻觉相关的神经元的存在性、影响及其起源

自然语言处理

Cheng Gao, Huimin Chen, Chaojun Xiao, et al.

世界即你的画布：通过参考图像、轨迹与文本绘制可提示事件

世界即你的画布：通过参考图像、轨迹与文本绘制可提示事件

Hanlin Wang, Hao Ouyang, Qiuyu Wang, et al.

炼金术师：通过元梯度数据选择解锁文本到图像模型训练的效率

炼金术师：通过元梯度数据选择解锁文本到图像模型训练的效率

Kaixin Ding, Yang Zhou, Xi Chen, et al.

深度任意全景图：一种全景深度估计的基础模型

深度任意全景图：一种全景深度估计的基础模型

机器视觉 3D

Xin Lin, Meixi Song, Dizhe Zhang, et al.

生成式重聚焦：从单张图像实现灵活的失焦控制

生成式重聚焦：从单张图像实现灵活的失焦控制

Chun-Wei Tuan Mu, Jia-Bin Huang, Yu-Lun Liu

StereoPilot：通过生成先验学习统一且高效的立体转换

StereoPilot：通过生成先验学习统一且高效的立体转换

Guibao Shen, Yihua Du, Wenhang Ge, et al.

下一代嵌入预测助力强大视觉学习器的构建

下一代嵌入预测助力强大视觉学习器的构建

计算机视觉

Sihan Xu, Ziqiao Ma, Wenhao Chai, et al.

Agent AI：探索多模态交互的前沿

Agent AI：探索多模态交互的前沿

Zane Durante, Qiuyuan Huang, Naoki Wake, et al.

人工智能数学家作为推动数学发现的合作伙伴——均质化理论中的案例研究

人工智能数学家作为推动数学发现的合作伙伴——均质化理论中的案例研究

Yuanhang Liu, Beichen Wang, Peng Li, et al.

GenEval 2：应对文本到图像评估中的基准漂移问题

GenEval 2：应对文本到图像评估中的基准漂移问题

Amita Kamath, Kai-Wei Chang, Ranjay Krishna, et al.

PrivateXR：通过可解释AI引导的差分隐私防御扩展现实中的隐私攻击

PrivateXR：通过可解释AI引导的差分隐私防御扩展现实中的隐私攻击

Ripan Kumar Kundu, Istiak Ahmed, Khaza Anuarul Hoque

时间摩擦与司法结果：基于2020—2024年库克县刑事判决中时间延迟影响的分析

时间摩擦与司法结果：基于2020—2024年库克县刑事判决中时间延迟影响的分析

元强化学习在语言智能体中激发探索行为

元强化学习在语言智能体中激发探索行为

Yulun Jiang, Liangze Jiang, Damien Teney, et al.

LLMCache：面向Transformer推理中加速复用的分层缓存策略

LLMCache：面向Transformer推理中加速复用的分层缓存策略

Harsh Vardhan Bansal

OPENTOUCH：将全手触觉带入现实世界交互

OPENTOUCH：将全手触觉带入现实世界交互

Yuxin Ray Song, Jinzhou Li, Rao Fu, et al.

VideoRewardBench：面向视频理解的多模态Reward模型综合评估

VideoRewardBench：面向视频理解的多模态Reward模型综合评估

Zhihong Zhang, Xiaojian Huang, Jin Xu, et al.

Soul：为数字人注入生命力以实现高保真长期多模态动画

Soul：为数字人注入生命力以实现高保真长期多模态动画

统一多模态

Jiangning Zhang, Junwei Zhu, Zhenye Gan, et al.

IF-Bench：基于生成视觉的红外图像MLLMs基准测试与增强

IF-Bench：基于生成视觉的红外图像MLLMs基准测试与增强

Tao Zhang, Yuyang Hong, Yang Xia, et al.

RecGPT-V2 技术报告

RecGPT-V2 技术报告

Chao Yi, Dian Chen, Gaoyang Guo, et al.

向量棱镜：通过分层语义结构实现向量图形的动画化

向量棱镜：通过分层语义结构实现向量图形的动画化

Jooyeol Yun, Jaegul Choo

OpenDataArena：用于评估后训练数据集价值的公平开放平台

OpenDataArena：用于评估后训练数据集价值的公平开放平台

Mengzhang Cai, Xin Gao, Yu Li, et al.

视频现实性测试：AI生成的ASMR视频能否欺骗视觉语言模型（VLMs）与人类？

视频现实性测试：AI生成的ASMR视频能否欺骗视觉语言模型（VLMs）与人类？

Jiaqi Wang, Weijia Wu, Yi Zhan, et al.

WorldPlay：迈向实时交互式世界建模的长期几何一致性

WorldPlay：迈向实时交互式世界建模的长期几何一致性

Wenqiang Sun, Haiyu Zhang, Haoyuan Wang, et al.

MMGR：多模态生成推理

MMGR：多模态生成推理

Zefan Cai, Haoyi Qiu, Tianyi Ma, et al.

前沿科学：评估AI执行专家级科学任务的能力

前沿科学：评估AI执行专家级科学任务的能力

Miles Wang, Joy Jiao, Neil Chowdhury, et al.

Seed-Prover 1.5：通过经验学习掌握本科水平定理证明

Seed-Prover 1.5：通过经验学习掌握本科水平定理证明

Jiangjie Chen, Wenxiang Chen, Jiacheng Du, et al.

当推理遇见其法则

当推理遇见其法则

Junyu Zhang, Yifan Sun, Tianang Leng, et al.

基于科学家对齐工作流的LLM科学通用智能探究

基于科学家对齐工作流的LLM科学通用智能探究

Wanghan Xu, Yuhao Zhou, Yifan Zhou, et al.

K2-V2：一个360-开放、推理增强的LLM

K2-V2：一个360-开放、推理增强的LLM

监督式微调

Zhengzhong Liu, Liping Tang, Linghao Jin, et al.

VenusBench-GD：面向多样化定位任务的综合性多平台GUI基准

VenusBench-GD：面向多样化定位任务的综合性多平台GUI基准

Beitong Zhou, Zhexiao Huang, Yuan Guo, et al.

MCIF：来自科学演讲的多模态跨语言指令遵循基准

MCIF：来自科学演讲的多模态跨语言指令遵循基准

统一多模态

Sara Papi, Maike Züfle, Marco Gaido, et al.

NitroGen：面向通用游戏Agent的开源基础模型

NitroGen：面向通用游戏Agent的开源基础模型

计算机视觉

Loic Magne, Anas Awadalla, Guanzhi Wang, et al.

H-神经元：关于LLM中与幻觉相关的神经元的存在性、影响及其起源

H-神经元：关于LLM中与幻觉相关的神经元的存在性、影响及其起源

自然语言处理

Cheng Gao, Huimin Chen, Chaojun Xiao, et al.

世界即你的画布：通过参考图像、轨迹与文本绘制可提示事件

世界即你的画布：通过参考图像、轨迹与文本绘制可提示事件

Hanlin Wang, Hao Ouyang, Qiuyu Wang, et al.

炼金术师：通过元梯度数据选择解锁文本到图像模型训练的效率

炼金术师：通过元梯度数据选择解锁文本到图像模型训练的效率

Kaixin Ding, Yang Zhou, Xi Chen, et al.

深度任意全景图：一种全景深度估计的基础模型

深度任意全景图：一种全景深度估计的基础模型

机器视觉 3D

Xin Lin, Meixi Song, Dizhe Zhang, et al.

生成式重聚焦：从单张图像实现灵活的失焦控制

生成式重聚焦：从单张图像实现灵活的失焦控制

Chun-Wei Tuan Mu, Jia-Bin Huang, Yu-Lun Liu

StereoPilot：通过生成先验学习统一且高效的立体转换

StereoPilot：通过生成先验学习统一且高效的立体转换

Guibao Shen, Yihua Du, Wenhang Ge, et al.

下一代嵌入预测助力强大视觉学习器的构建

下一代嵌入预测助力强大视觉学习器的构建

计算机视觉

Sihan Xu, Ziqiao Ma, Wenhao Chai, et al.

Agent AI：探索多模态交互的前沿

Agent AI：探索多模态交互的前沿

Zane Durante, Qiuyuan Huang, Naoki Wake, et al.

人工智能数学家作为推动数学发现的合作伙伴——均质化理论中的案例研究

人工智能数学家作为推动数学发现的合作伙伴——均质化理论中的案例研究

Yuanhang Liu, Beichen Wang, Peng Li, et al.

GenEval 2：应对文本到图像评估中的基准漂移问题

GenEval 2：应对文本到图像评估中的基准漂移问题

Amita Kamath, Kai-Wei Chang, Ranjay Krishna, et al.

PrivateXR：通过可解释AI引导的差分隐私防御扩展现实中的隐私攻击

PrivateXR：通过可解释AI引导的差分隐私防御扩展现实中的隐私攻击

Ripan Kumar Kundu, Istiak Ahmed, Khaza Anuarul Hoque

时间摩擦与司法结果：基于2020—2024年库克县刑事判决中时间延迟影响的分析

时间摩擦与司法结果：基于2020—2024年库克县刑事判决中时间延迟影响的分析

元强化学习在语言智能体中激发探索行为

元强化学习在语言智能体中激发探索行为

Yulun Jiang, Liangze Jiang, Damien Teney, et al.

LLMCache：面向Transformer推理中加速复用的分层缓存策略

LLMCache：面向Transformer推理中加速复用的分层缓存策略

Harsh Vardhan Bansal

OPENTOUCH：将全手触觉带入现实世界交互

OPENTOUCH：将全手触觉带入现实世界交互

Yuxin Ray Song, Jinzhou Li, Rao Fu, et al.

VideoRewardBench：面向视频理解的多模态Reward模型综合评估

VideoRewardBench：面向视频理解的多模态Reward模型综合评估

Zhihong Zhang, Xiaojian Huang, Jin Xu, et al.

Soul：为数字人注入生命力以实现高保真长期多模态动画

Soul：为数字人注入生命力以实现高保真长期多模态动画

统一多模态

Jiangning Zhang, Junwei Zhu, Zhenye Gan, et al.

IF-Bench：基于生成视觉的红外图像MLLMs基准测试与增强

IF-Bench：基于生成视觉的红外图像MLLMs基准测试与增强

Tao Zhang, Yuyang Hong, Yang Xia, et al.

RecGPT-V2 技术报告

RecGPT-V2 技术报告

Chao Yi, Dian Chen, Gaoyang Guo, et al.

向量棱镜：通过分层语义结构实现向量图形的动画化

向量棱镜：通过分层语义结构实现向量图形的动画化

Jooyeol Yun, Jaegul Choo

OpenDataArena：用于评估后训练数据集价值的公平开放平台

OpenDataArena：用于评估后训练数据集价值的公平开放平台

Mengzhang Cai, Xin Gao, Yu Li, et al.

视频现实性测试：AI生成的ASMR视频能否欺骗视觉语言模型（VLMs）与人类？

视频现实性测试：AI生成的ASMR视频能否欺骗视觉语言模型（VLMs）与人类？

Jiaqi Wang, Weijia Wu, Yi Zhan, et al.

WorldPlay：迈向实时交互式世界建模的长期几何一致性

WorldPlay：迈向实时交互式世界建模的长期几何一致性

Wenqiang Sun, Haiyu Zhang, Haoyuan Wang, et al.

MMGR：多模态生成推理

MMGR：多模态生成推理

Zefan Cai, Haoyi Qiu, Tianyi Ma, et al.

前沿科学：评估AI执行专家级科学任务的能力

前沿科学：评估AI执行专家级科学任务的能力

Miles Wang, Joy Jiao, Neil Chowdhury, et al.