HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

基于用户画像感知的LLM-as-a-Judge的播客推荐评估

基于用户画像感知的LLM-as-a-Judge的播客推荐评估

Francesco Fabbri, Gustavo Penha, Edoardo D&#39, et al.

MultiRef：基于多个视觉参考的可控图像生成

MultiRef：基于多个视觉参考的可控图像生成

Ruoxi Chen, Dongping Chen, Siyuan Wu, et al.

提示编排标记语言

提示编排标记语言

Yuge Zhang, Nan Chen, Jiahang Xu, et al.

LongSplat：适用于随意长视频的鲁棒非对齐3D高斯点阵

LongSplat：适用于随意长视频的鲁棒非对齐3D高斯点阵

计算机视觉

机器视觉 3D

Chin-Yang Lin, Cheng Sun, Fu-En Yang, et al.

多智能体链：通过多智能体蒸馏与智能体强化学习构建端到端智能体基础模型

多智能体链：通过多智能体蒸馏与智能体强化学习构建端到端智能体基础模型

Weizhen Li, Jianbo Lin, Zhuosong Jiang, et al.

HPSv3：面向全谱人类偏好评分

HPSv3：面向全谱人类偏好评分

Yuhang Ma, Xiaoshi Wu, Keqiang Sun, et al.

ComputerRL：面向计算机使用Agent的端到端在线强化学习扩展

ComputerRL：面向计算机使用Agent的端到端在线强化学习扩展

Hanyu Lai, Xiao Liu, Yanxiao Zhao, et al.

说话人去标识系统中的身份泄露评估

说话人去标识系统中的身份泄露评估

音频和语音处理

Seungmin Seo, Oleg Aulov, Afzal Godil, et al.

下一视觉粒度生成

下一视觉粒度生成

Yikai Wang, Zhouxia Wang, Zhonghua Wu, et al.

4DNeX：轻松实现前馈式4D生成建模

4DNeX：轻松实现前馈式4D生成建模

Zhaoxi Chen, Tianqi Liu, Long Zhuo, et al.

ComoRAG：一种面向有状态长篇叙述推理的认知启发式记忆组织RAG

ComoRAG：一种面向有状态长篇叙述推理的认知启发式记忆组织RAG

检索增强生成

Juyuan Wang, Rongchen Zhao, Wei Wei, et al.

用于宽带计算与通信的集成微波神经网络

用于宽带计算与通信的集成微波神经网络

高性能计算

Bala Govind, Maxwell G. Anderson, Fan O. Wu, et al.

GTool：基于大语言模型的图增强工具规划

GTool：基于大语言模型的图增强工具规划

Wenjie Chen, Wenbin Li, Di Yao, et al.

基于机器学习增强的恒电位框架对锂金属-电解质界面枝晶形成的观测

基于机器学习增强的恒电位框架对锂金属-电解质界面枝晶形成的观测

Taiping Hu, Haichao Huang, Guobing Zhou, et al.

XQuant：通过KV缓存重计算突破LLM推理的内存墙

XQuant：通过KV缓存重计算突破LLM推理的内存墙

Aditya Tomar, Coleman Hooper, Minjae Lee, et al.

BeyondWeb：在万亿规模预训练中规模化合成数据的启示

BeyondWeb：在万亿规模预训练中规模化合成数据的启示

Pratyush Maini, Vineeth Dorna, Parth Doshi, et al.

PaperRegister：通过分层注册索引提升细粒度论文检索

PaperRegister：通过分层注册索引提升细粒度论文检索

自然语言处理

Zhuoqun Li, Xuanang Chen, Hongyu Lin, et al.

DINOv3

多任务学习

Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, et al.

SSRL：自搜索强化学习

SSRL：自搜索强化学习

Yuchen Fan, Kaiyan Zhang, Heng Zhou, et al.

Thyme：超越图像的思考

Thyme：超越图像的思考

Yi-Fan Zhang, Xingyu Lu, Shukang Yin, et al.

用文化知识对多语言多模态LLM进行接地

用文化知识对多语言多模态LLM进行接地

Jean de Dieu Nyandwi, Yueqi Song, Simran Khanuja, et al.

HiFiTTS-2：一个大规模高带宽语音数据集

HiFiTTS-2：一个大规模高带宽语音数据集

Ryan Langman, Xuesong Yang, Paarth Neekhara, et al.

CryptoScope：利用大语言模型实现密码逻辑漏洞的自动化检测

CryptoScope：利用大语言模型实现密码逻辑漏洞的自动化检测

检索增强生成

Zhihao Li, Zimo Ji, Tao Zheng, et al.

医学图谱RAG：通过图谱检索增强生成实现安全的医学大语言模型

医学图谱RAG：通过图谱检索增强生成实现安全的医学大语言模型

检索增强生成

Junde Wu, Jiayuan Zhu, Yunli Qi, et al.

Puppeteer：为你的3D模型绑定并动画化

Puppeteer：为你的3D模型绑定并动画化

Chaoyue Song, Xiu Li, Fan Yang, et al.

STream3R：基于因果Transformer的可扩展序列3D重建

STream3R：基于因果Transformer的可扩展序列3D重建

机器视觉 3D

Yushi Lan, Yihang Luo, Fangzhou Hong, et al.

PRELUDE：一个旨在要求对长上下文进行全局理解与推理的基准

PRELUDE：一个旨在要求对长上下文进行全局理解与推理的基准

检索增强生成

Mo Yu, Tsz Ting Chung, Chulun Zhou, et al.

ToonComposer：通过生成式后关键帧技术简化动画制作

ToonComposer：通过生成式后关键帧技术简化动画制作

Lingen Li, Guangzhi Wang, Zhaoyang Zhang, et al.

NextStep-1：面向大规模连续Token的自回归图像生成

NextStep-1：面向大规模连续Token的自回归图像生成

NextStep Team, Chunrui Han, Guopeng Li, et al.

We-Math 2.0：一种用于激励视觉数学推理的多功能MathBook系统

We-Math 2.0：一种用于激励视觉数学推理的多功能MathBook系统

Runqi Qiao, Qiuna Tan, Peiqing Yang, et al.

COREVQA：一种众包观察与推理蕴含的视觉问答基准

COREVQA：一种众包观察与推理蕴含的视觉问答基准

Ishant Chintapatla, Kazuma Choji, Naaisha Agarwal, et al.

RelayFormer：一种用于可扩展图像与视频操纵定位的统一局部-全局注意力框架

RelayFormer：一种用于可扩展图像与视频操纵定位的统一局部-全局注意力框架

统一多模态

Wen Huang, Jiarui Yang, Tao Dai, et al.

基于用户画像感知的LLM-as-a-Judge的播客推荐评估

基于用户画像感知的LLM-as-a-Judge的播客推荐评估

Francesco Fabbri, Gustavo Penha, Edoardo D&#39, et al.

MultiRef：基于多个视觉参考的可控图像生成

MultiRef：基于多个视觉参考的可控图像生成

Ruoxi Chen, Dongping Chen, Siyuan Wu, et al.

提示编排标记语言

提示编排标记语言

Yuge Zhang, Nan Chen, Jiahang Xu, et al.

LongSplat：适用于随意长视频的鲁棒非对齐3D高斯点阵

LongSplat：适用于随意长视频的鲁棒非对齐3D高斯点阵

计算机视觉

机器视觉 3D

Chin-Yang Lin, Cheng Sun, Fu-En Yang, et al.

多智能体链：通过多智能体蒸馏与智能体强化学习构建端到端智能体基础模型

多智能体链：通过多智能体蒸馏与智能体强化学习构建端到端智能体基础模型

Weizhen Li, Jianbo Lin, Zhuosong Jiang, et al.

HPSv3：面向全谱人类偏好评分

HPSv3：面向全谱人类偏好评分

Yuhang Ma, Xiaoshi Wu, Keqiang Sun, et al.

ComputerRL：面向计算机使用Agent的端到端在线强化学习扩展

ComputerRL：面向计算机使用Agent的端到端在线强化学习扩展

Hanyu Lai, Xiao Liu, Yanxiao Zhao, et al.

说话人去标识系统中的身份泄露评估

说话人去标识系统中的身份泄露评估

音频和语音处理

Seungmin Seo, Oleg Aulov, Afzal Godil, et al.

下一视觉粒度生成

下一视觉粒度生成

Yikai Wang, Zhouxia Wang, Zhonghua Wu, et al.

4DNeX：轻松实现前馈式4D生成建模

4DNeX：轻松实现前馈式4D生成建模

Zhaoxi Chen, Tianqi Liu, Long Zhuo, et al.

ComoRAG：一种面向有状态长篇叙述推理的认知启发式记忆组织RAG

ComoRAG：一种面向有状态长篇叙述推理的认知启发式记忆组织RAG

检索增强生成

Juyuan Wang, Rongchen Zhao, Wei Wei, et al.

用于宽带计算与通信的集成微波神经网络

用于宽带计算与通信的集成微波神经网络

高性能计算

Bala Govind, Maxwell G. Anderson, Fan O. Wu, et al.

GTool：基于大语言模型的图增强工具规划

GTool：基于大语言模型的图增强工具规划

Wenjie Chen, Wenbin Li, Di Yao, et al.

基于机器学习增强的恒电位框架对锂金属-电解质界面枝晶形成的观测

基于机器学习增强的恒电位框架对锂金属-电解质界面枝晶形成的观测

Taiping Hu, Haichao Huang, Guobing Zhou, et al.

XQuant：通过KV缓存重计算突破LLM推理的内存墙

XQuant：通过KV缓存重计算突破LLM推理的内存墙

Aditya Tomar, Coleman Hooper, Minjae Lee, et al.

BeyondWeb：在万亿规模预训练中规模化合成数据的启示

BeyondWeb：在万亿规模预训练中规模化合成数据的启示

Pratyush Maini, Vineeth Dorna, Parth Doshi, et al.

PaperRegister：通过分层注册索引提升细粒度论文检索

PaperRegister：通过分层注册索引提升细粒度论文检索

自然语言处理

Zhuoqun Li, Xuanang Chen, Hongyu Lin, et al.

DINOv3

多任务学习

Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, et al.

SSRL：自搜索强化学习

SSRL：自搜索强化学习

Yuchen Fan, Kaiyan Zhang, Heng Zhou, et al.

Thyme：超越图像的思考

Thyme：超越图像的思考

Yi-Fan Zhang, Xingyu Lu, Shukang Yin, et al.

用文化知识对多语言多模态LLM进行接地

用文化知识对多语言多模态LLM进行接地

Jean de Dieu Nyandwi, Yueqi Song, Simran Khanuja, et al.

HiFiTTS-2：一个大规模高带宽语音数据集

HiFiTTS-2：一个大规模高带宽语音数据集

Ryan Langman, Xuesong Yang, Paarth Neekhara, et al.

CryptoScope：利用大语言模型实现密码逻辑漏洞的自动化检测

CryptoScope：利用大语言模型实现密码逻辑漏洞的自动化检测

检索增强生成

Zhihao Li, Zimo Ji, Tao Zheng, et al.

医学图谱RAG：通过图谱检索增强生成实现安全的医学大语言模型

医学图谱RAG：通过图谱检索增强生成实现安全的医学大语言模型

检索增强生成

Junde Wu, Jiayuan Zhu, Yunli Qi, et al.

Puppeteer：为你的3D模型绑定并动画化

Puppeteer：为你的3D模型绑定并动画化

Chaoyue Song, Xiu Li, Fan Yang, et al.

STream3R：基于因果Transformer的可扩展序列3D重建

STream3R：基于因果Transformer的可扩展序列3D重建

机器视觉 3D

Yushi Lan, Yihang Luo, Fangzhou Hong, et al.

PRELUDE：一个旨在要求对长上下文进行全局理解与推理的基准

PRELUDE：一个旨在要求对长上下文进行全局理解与推理的基准

检索增强生成

Mo Yu, Tsz Ting Chung, Chulun Zhou, et al.

ToonComposer：通过生成式后关键帧技术简化动画制作

ToonComposer：通过生成式后关键帧技术简化动画制作

Lingen Li, Guangzhi Wang, Zhaoyang Zhang, et al.

NextStep-1：面向大规模连续Token的自回归图像生成

NextStep-1：面向大规模连续Token的自回归图像生成

NextStep Team, Chunrui Han, Guopeng Li, et al.

We-Math 2.0：一种用于激励视觉数学推理的多功能MathBook系统

We-Math 2.0：一种用于激励视觉数学推理的多功能MathBook系统

Runqi Qiao, Qiuna Tan, Peiqing Yang, et al.

COREVQA：一种众包观察与推理蕴含的视觉问答基准

COREVQA：一种众包观察与推理蕴含的视觉问答基准

Ishant Chintapatla, Kazuma Choji, Naaisha Agarwal, et al.

RelayFormer：一种用于可扩展图像与视频操纵定位的统一局部-全局注意力框架

RelayFormer：一种用于可扩展图像与视频操纵定位的统一局部-全局注意力框架

统一多模态

Wen Huang, Jiarui Yang, Tao Dai, et al.