HyperAI超神经

文档
资讯
论文
教程
数据集
百科
SOTA
LLM 模型天梯
GPU 天梯
顶会

关于服务条款隐私政策
中文

HyperAI超神经

Command Palette

Search for a command to run...

首页
论文

论文

每日更新的前沿 AI 研究论文，助您把握人工智能最新动向

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集帮助

产品

资讯教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI超神经

津ICP备17010941号-1

京公网安备11010502038810号

Discord X (formerly Twitter)Bilibili

HyperAI超神经

文档
资讯
论文
教程
数据集
百科
SOTA
LLM 模型天梯
GPU 天梯
顶会

关于服务条款隐私政策
中文

HyperAI超神经

Command Palette

Search for a command to run...

首页
论文

论文

每日更新的前沿 AI 研究论文，助您把握人工智能最新动向

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集帮助

产品

资讯教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI超神经

津ICP备17010941号-1

京公网安备11010502038810号

Discord X (formerly Twitter)Bilibili

论文 | HyperAI超神经

XQuant：通过KV缓存重计算突破LLM推理的内存墙

XQuant：通过KV缓存重计算突破LLM推理的内存墙

Aditya Tomar, Coleman Hooper, Minjae Lee, et al.

BeyondWeb：在万亿规模预训练中规模化合成数据的启示

BeyondWeb：在万亿规模预训练中规模化合成数据的启示

Pratyush Maini, Vineeth Dorna, Parth Doshi, et al.

PaperRegister：通过分层注册索引提升细粒度论文检索

PaperRegister：通过分层注册索引提升细粒度论文检索

Zhuoqun Li, Xuanang Chen, Hongyu Lin, et al.

DINOv3

Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, et al.

SSRL：自搜索强化学习

SSRL：自搜索强化学习

Yuchen Fan, Kaiyan Zhang, Heng Zhou, et al.

Thyme：超越图像的思考

Thyme：超越图像的思考

Yi-Fan Zhang, Xingyu Lu, Shukang Yin, et al.

用文化知识对多语言多模态LLM进行接地

用文化知识对多语言多模态LLM进行接地

Jean de Dieu Nyandwi, Yueqi Song, Simran Khanuja, et al.

HiFiTTS-2：一个大规模高带宽语音数据集

HiFiTTS-2：一个大规模高带宽语音数据集

Ryan Langman, Xuesong Yang, Paarth Neekhara, et al.

CryptoScope：利用大语言模型实现密码逻辑漏洞的自动化检测

CryptoScope：利用大语言模型实现密码逻辑漏洞的自动化检测

Zhihao Li, Zimo Ji, Tao Zheng, et al.

医学图谱RAG：通过图谱检索增强生成实现安全的医学大语言模型

医学图谱RAG：通过图谱检索增强生成实现安全的医学大语言模型

Junde Wu, Jiayuan Zhu, Yunli Qi, et al.

Puppeteer：为你的3D模型绑定并动画化

Puppeteer：为你的3D模型绑定并动画化

Chaoyue Song, Xiu Li, Fan Yang, et al.

STream3R：基于因果Transformer的可扩展序列3D重建

STream3R：基于因果Transformer的可扩展序列3D重建

Yushi Lan, Yihang Luo, Fangzhou Hong, et al.

PRELUDE：一个旨在要求对长上下文进行全局理解与推理的基准

PRELUDE：一个旨在要求对长上下文进行全局理解与推理的基准

Mo Yu, Tsz Ting Chung, Chulun Zhou, et al.

ToonComposer：通过生成式后关键帧技术简化动画制作

ToonComposer：通过生成式后关键帧技术简化动画制作

Lingen Li, Guangzhi Wang, Zhaoyang Zhang, et al.

NextStep-1：面向大规模连续Token的自回归图像生成

NextStep-1：面向大规模连续Token的自回归图像生成

NextStep Team, Chunrui Han, Guopeng Li, et al.

We-Math 2.0：一种用于激励视觉数学推理的多功能MathBook系统

We-Math 2.0：一种用于激励视觉数学推理的多功能MathBook系统

Runqi Qiao, Qiuna Tan, Peiqing Yang, et al.

COREVQA：一种众包观察与推理蕴含的视觉问答基准

COREVQA：一种众包观察与推理蕴含的视觉问答基准

Ishant Chintapatla, Kazuma Choji, Naaisha Agarwal, et al.

RelayFormer：一种用于可扩展图像与视频操纵定位的统一局部-全局注意力框架

RelayFormer：一种用于可扩展图像与视频操纵定位的统一局部-全局注意力框架

Wen Huang, Jiarui Yang, Tao Dai, et al.

GMF-Drive：具有空间感知BEV表示的门控Mamba融合用于端到端自动驾驶

GMF-Drive：具有空间感知BEV表示的门控Mamba融合用于端到端自动驾驶

Jian Wang, Chaokang Jiang, Haitao Xu

看、听、记、思：具备长期记忆的多模态Agent

看、听、记、思：具备长期记忆的多模态Agent

Lin Long, Yichen He, Wentao Ye, et al.

扩散型LLM可通过离散扩散强制实现快于自回归的推理

扩散型LLM可通过离散扩散强制实现快于自回归的推理

Xu Wang, Chenkai Xu, Yijie Jin, et al.

AWorld：具有稳定机动性的动态多Agent系统，用于鲁棒的GAIA问题求解

AWorld：具有稳定机动性的动态多Agent系统，用于鲁棒的GAIA问题求解

Zhitian Xie, Qintong Wu, Chengyue Yu, et al.

Story2Board：一种无需训练的富有表现力的分镜生成方法

Story2Board：一种无需训练的富有表现力的分镜生成方法

David Dinkevich, Matan Levy, Omri Avrahami, et al.

替身：一种轻量级且即插即用的视频生成身份控制方法

替身：一种轻量级且即插即用的视频生成身份控制方法

Bowen Xue, Qixin Yan, Wenjing Wang, et al.

Mol-R1：面向分子发现中显式长链思维推理

Mol-R1：面向分子发现中显式长链思维推理

Jiatong Li, Weida Wang, Qinggang Zhang, et al.

Llama-Nemotron：高效推理模型

Llama-Nemotron：高效推理模型

Akhiad Bercovich, Itay Levy, Izik Golan, et al.

Document Haystack：一个长上下文多模态图像/文档理解视觉LLM基准

Document Haystack：一个长上下文多模态图像/文档理解视觉LLM基准

Goeric Huybrechts, Srikanth Ronanki, Sai Muralidhar Jayanthi, et al.

Echo-4o：利用GPT-4o合成图像提升图像生成性能

Echo-4o：利用GPT-4o合成图像提升图像生成性能

Junyan Ye, Dongzhi Jiang, Zihao Wang, et al.

无标记组织在成像质谱中的虚拟染色

无标记组织在成像质谱中的虚拟染色

Yijie Zhang, Luzhe Huang, Nir Pillar, et al.

VisCodex：通过融合视觉与编码模型实现统一的多模态代码生成

VisCodex：通过融合视觉与编码模型实现统一的多模态代码生成

Lingjie Jiang, Shaohan Huang, Xun Wu, et al.

HierSearch：一种集成本地搜索与网络搜索的分层企业深度搜索框架

HierSearch：一种集成本地搜索与网络搜索的分层企业深度搜索框架

Jiejun Tan, Zhicheng Dou, Yan Yu, et al.

时间是一种特征：在扩散语言模型中利用时间动态特性

时间是一种特征：在扩散语言模型中利用时间动态特性

Wen Wang, Bozhen Fang, Chenchen Jing, et al.

XQuant：通过KV缓存重计算突破LLM推理的内存墙

XQuant：通过KV缓存重计算突破LLM推理的内存墙

Aditya Tomar, Coleman Hooper, Minjae Lee, et al.

BeyondWeb：在万亿规模预训练中规模化合成数据的启示

BeyondWeb：在万亿规模预训练中规模化合成数据的启示

Pratyush Maini, Vineeth Dorna, Parth Doshi, et al.

PaperRegister：通过分层注册索引提升细粒度论文检索

PaperRegister：通过分层注册索引提升细粒度论文检索

Zhuoqun Li, Xuanang Chen, Hongyu Lin, et al.

DINOv3

Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, et al.

SSRL：自搜索强化学习

SSRL：自搜索强化学习

Yuchen Fan, Kaiyan Zhang, Heng Zhou, et al.

Thyme：超越图像的思考

Thyme：超越图像的思考

Yi-Fan Zhang, Xingyu Lu, Shukang Yin, et al.

用文化知识对多语言多模态LLM进行接地

用文化知识对多语言多模态LLM进行接地

Jean de Dieu Nyandwi, Yueqi Song, Simran Khanuja, et al.

HiFiTTS-2：一个大规模高带宽语音数据集

HiFiTTS-2：一个大规模高带宽语音数据集

Ryan Langman, Xuesong Yang, Paarth Neekhara, et al.

CryptoScope：利用大语言模型实现密码逻辑漏洞的自动化检测

CryptoScope：利用大语言模型实现密码逻辑漏洞的自动化检测

Zhihao Li, Zimo Ji, Tao Zheng, et al.

医学图谱RAG：通过图谱检索增强生成实现安全的医学大语言模型

医学图谱RAG：通过图谱检索增强生成实现安全的医学大语言模型

Junde Wu, Jiayuan Zhu, Yunli Qi, et al.

Puppeteer：为你的3D模型绑定并动画化

Puppeteer：为你的3D模型绑定并动画化

Chaoyue Song, Xiu Li, Fan Yang, et al.

STream3R：基于因果Transformer的可扩展序列3D重建

STream3R：基于因果Transformer的可扩展序列3D重建

Yushi Lan, Yihang Luo, Fangzhou Hong, et al.

PRELUDE：一个旨在要求对长上下文进行全局理解与推理的基准

PRELUDE：一个旨在要求对长上下文进行全局理解与推理的基准

Mo Yu, Tsz Ting Chung, Chulun Zhou, et al.

ToonComposer：通过生成式后关键帧技术简化动画制作

ToonComposer：通过生成式后关键帧技术简化动画制作

Lingen Li, Guangzhi Wang, Zhaoyang Zhang, et al.

NextStep-1：面向大规模连续Token的自回归图像生成

NextStep-1：面向大规模连续Token的自回归图像生成

NextStep Team, Chunrui Han, Guopeng Li, et al.

We-Math 2.0：一种用于激励视觉数学推理的多功能MathBook系统

We-Math 2.0：一种用于激励视觉数学推理的多功能MathBook系统

Runqi Qiao, Qiuna Tan, Peiqing Yang, et al.

COREVQA：一种众包观察与推理蕴含的视觉问答基准

COREVQA：一种众包观察与推理蕴含的视觉问答基准

Ishant Chintapatla, Kazuma Choji, Naaisha Agarwal, et al.

RelayFormer：一种用于可扩展图像与视频操纵定位的统一局部-全局注意力框架

RelayFormer：一种用于可扩展图像与视频操纵定位的统一局部-全局注意力框架

Wen Huang, Jiarui Yang, Tao Dai, et al.

GMF-Drive：具有空间感知BEV表示的门控Mamba融合用于端到端自动驾驶

GMF-Drive：具有空间感知BEV表示的门控Mamba融合用于端到端自动驾驶

Jian Wang, Chaokang Jiang, Haitao Xu

看、听、记、思：具备长期记忆的多模态Agent

看、听、记、思：具备长期记忆的多模态Agent

Lin Long, Yichen He, Wentao Ye, et al.

扩散型LLM可通过离散扩散强制实现快于自回归的推理

扩散型LLM可通过离散扩散强制实现快于自回归的推理

Xu Wang, Chenkai Xu, Yijie Jin, et al.

AWorld：具有稳定机动性的动态多Agent系统，用于鲁棒的GAIA问题求解

AWorld：具有稳定机动性的动态多Agent系统，用于鲁棒的GAIA问题求解

Zhitian Xie, Qintong Wu, Chengyue Yu, et al.

Story2Board：一种无需训练的富有表现力的分镜生成方法

Story2Board：一种无需训练的富有表现力的分镜生成方法

David Dinkevich, Matan Levy, Omri Avrahami, et al.

替身：一种轻量级且即插即用的视频生成身份控制方法

替身：一种轻量级且即插即用的视频生成身份控制方法

Bowen Xue, Qixin Yan, Wenjing Wang, et al.

Mol-R1：面向分子发现中显式长链思维推理

Mol-R1：面向分子发现中显式长链思维推理

Jiatong Li, Weida Wang, Qinggang Zhang, et al.

Llama-Nemotron：高效推理模型

Llama-Nemotron：高效推理模型

Akhiad Bercovich, Itay Levy, Izik Golan, et al.

Document Haystack：一个长上下文多模态图像/文档理解视觉LLM基准

Document Haystack：一个长上下文多模态图像/文档理解视觉LLM基准

Goeric Huybrechts, Srikanth Ronanki, Sai Muralidhar Jayanthi, et al.

Echo-4o：利用GPT-4o合成图像提升图像生成性能

Echo-4o：利用GPT-4o合成图像提升图像生成性能

Junyan Ye, Dongzhi Jiang, Zihao Wang, et al.

无标记组织在成像质谱中的虚拟染色

无标记组织在成像质谱中的虚拟染色

Yijie Zhang, Luzhe Huang, Nir Pillar, et al.

VisCodex：通过融合视觉与编码模型实现统一的多模态代码生成

VisCodex：通过融合视觉与编码模型实现统一的多模态代码生成

Lingjie Jiang, Shaohan Huang, Xun Wu, et al.

HierSearch：一种集成本地搜索与网络搜索的分层企业深度搜索框架

HierSearch：一种集成本地搜索与网络搜索的分层企业深度搜索框架

Jiejun Tan, Zhicheng Dou, Yan Yu, et al.

时间是一种特征：在扩散语言模型中利用时间动态特性

时间是一种特征：在扩散语言模型中利用时间动态特性

Wen Wang, Bozhen Fang, Chenchen Jing, et al.