HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

DataFlow：一种面向以数据为中心的人工智能时代的统一数据准备与工作流自动化框架

DataFlow：一种面向以数据为中心的人工智能时代的统一数据准备与工作流自动化框架

检索增强生成

Hao Liang, Xiaochen Ma, Zhou Liu, et al.

HiStream：通过冗余消除流式传输实现高效高分辨率视频生成

HiStream：通过冗余消除流式传输实现高效高分辨率视频生成

Haonan Qiu, Shikun Liu, Zijian Zhou, et al.

TokSuite：衡量分词器选择对语言模型行为的影响

TokSuite：衡量分词器选择对语言模型行为的影响

Gül Sena Altıntaş, Malikeh Ehghaghi, Brian Lester, et al.

Nemotron 3 Nano：面向智能体推理的开源、高效混合专家Mamba-Transformer模型

Nemotron 3 Nano：面向智能体推理的开源、高效混合专家Mamba-Transformer模型

监督式微调

NVIDIA, Aaron Blakeman, Aaron Grattafiori, et al.

超越记忆：一种多模态序数回归基准以揭示视觉-语言模型中的流行度偏差

超越记忆：一种多模态序数回归基准以揭示视觉-语言模型中的流行度偏差

Li-Zhong Szu-Tu, Ting-Lin Wu, Chia-Jui Chang, et al.

DreaMontage：任意帧引导的单次视频生成

DreaMontage：任意帧引导的单次视频生成

Jiawei Liu, Junqiao Li, Jiangfan Deng, et al.

T2AV-Compass：面向文本到音频视频生成的统一评估

T2AV-Compass：面向文本到音频视频生成的统一评估

统一多模态

Zhe Cao, Tao Wang, Jiaming Wang, et al.

TongSIM：一种用于模拟智能机器的通用平台

TongSIM：一种用于模拟智能机器的通用平台

Zhe Sun, Kunlun Wu, Chuanjian Fu, et al.

Qwen-Image-Layered：通过层分解实现固有可编辑性

Qwen-Image-Layered：通过层分解实现固有可编辑性

Shengming Yin, Zekai Zhang, Zecheng Tang, et al.

RoboSafe：通过可执行安全逻辑保障具身Agent的安全

RoboSafe：通过可执行安全逻辑保障具身Agent的安全

机器人技术

Le Wang, Zonghao Ying, Xiao Yang, et al.

NHS基层医疗中LLM药物安全审查的现实世界评估

NHS基层医疗中LLM药物安全审查的现实世界评估

自然语言处理

Oliver Normand, Esther Borsi, Mitch Fruin, et al.

多LLM主题分析结合双重可靠性度量：基于Cohen's Kappa与语义相似性的定性研究验证

多LLM主题分析结合双重可靠性度量：基于Cohen's Kappa与语义相似性的定性研究验证

自然语言处理

Nilesh Jain, Seyi Adeyinka, Leor Roseman, et al.

通过闭环世界建模实现视频虚拟人中的主动智能

通过闭环世界建模实现视频虚拟人中的主动智能

Xuanhua He, Tianyu Yang, Ke Cao, et al.

FaithLens：检测与解释忠实性幻觉

FaithLens：检测与解释忠实性幻觉

检索增强生成

监督式微调

Shuzheng Si, Qingyi Wang, Haozhe Zhao, et al.

SAM Audio：音频中的任意分割

SAM Audio：音频中的任意分割

统一多模态

Bowen Shi, Andros Tjandra, John Hoffman, et al.

Step-DeepResearch 技术报告

Step-DeepResearch 技术报告

监督式微调

Chen Hu, Haikuo Du, Heng Wang, et al.

SpatialTree：空间能力在MLLMs中的分支发展

SpatialTree：空间能力在MLLMs中的分支发展

Yuxi Xiao, Longfei Li, Shen Yan, et al.

SemanticGen：语义空间中的视频生成

SemanticGen：语义空间中的视频生成

Jianhong Bai, Xiaoshi Wu, Xintao Wang, et al.

基于人机协同推理大型语言模型Agent的自动化立体定向放射外科计划

基于人机协同推理大型语言模型Agent的自动化立体定向放射外科计划

Humza Nusrat, Luke Francisco, Bing Luo, et al.

LongVideoAgent：基于长视频的多Agent推理

LongVideoAgent：基于长视频的多Agent推理

Runtao Liu, Ziyi Liu, Jiaqi Tang, et al.

GenEnv：LLM Agent 与环境模拟器之间的难度对齐协同进化

GenEnv：LLM Agent 与环境模拟器之间的难度对齐协同进化

Jiacheng Guo, Ling Yang, Peter Chen, et al.

WorldWarp：基于异步视频扩散的3D几何传播

WorldWarp：基于异步视频扩散的3D几何传播

Hanyang Kong, Xingyi Yang, Xiaoxu Zheng, et al.

LoGoPlanner：基于定位的度量感知视觉几何导航策略

LoGoPlanner：基于定位的度量感知视觉几何导航策略

Jiaqi Peng, Wenzhe Cai, Yuqiang Yang, et al.

LLM能否评估学生困难？基于能力模拟的师生AI难度对齐在题目难度预测中的应用

LLM能否评估学生困难？基于能力模拟的师生AI难度对齐在题目难度预测中的应用

Ming Li, Han Chen, Yunze Xiao, et al.

QuCo-RAG：基于预训练语料库量化不确定性以实现动态检索增强生成

QuCo-RAG：基于预训练语料库量化不确定性以实现动态检索增强生成

检索增强生成

Dehai Min, Kailin Zhang, Tongtong Wu, et al.

棱镜假说：通过统一自编码实现语义与像素表征的融合

棱镜假说：通过统一自编码实现语义与像素表征的融合

多模态表征

统一多模态

Weichen Fan, Haiwen Diao, Quan Wang, et al.

Med-Banana-50K：用于文本引导的医学图像编辑的跨模态大规模数据集

Med-Banana-50K：用于文本引导的医学图像编辑的跨模态大规模数据集

Zhihui Chen, Mengling Feng

Kascade：一种面向长上下文LLM推理的实用稀疏注意力方法

Kascade：一种面向长上下文LLM推理的实用稀疏注意力方法

Dhruv Deshmukh, Saurabh Goyal, Nipun Kwatra, et al.

GLM-4.5：智能体、推理与编程（ARC）基础模型

GLM-4.5：智能体、推理与编程（ARC）基础模型

GroundingME：通过多维评估揭示MLLMs中的视觉定位鸿沟

GroundingME：通过多维评估揭示MLLMs中的视觉定位鸿沟

Rang Li, Lei Li, Shuhuai Ren, et al.

语义与重构同样重要：使表示编码器适用于文本到图像生成与编辑

语义与重构同样重要：使表示编码器适用于文本到图像生成与编辑

Shilong Zhang, He Zhang, Zhifei Zhang, et al.

4D-RGPT：通过感知蒸馏实现区域级4D理解

4D-RGPT：通过感知蒸馏实现区域级4D理解

多模态表征

Chiao-An Yang, Ryo Hachiuma, Sifei Liu, et al.

DataFlow：一种面向以数据为中心的人工智能时代的统一数据准备与工作流自动化框架

DataFlow：一种面向以数据为中心的人工智能时代的统一数据准备与工作流自动化框架

检索增强生成

Hao Liang, Xiaochen Ma, Zhou Liu, et al.

HiStream：通过冗余消除流式传输实现高效高分辨率视频生成

HiStream：通过冗余消除流式传输实现高效高分辨率视频生成

Haonan Qiu, Shikun Liu, Zijian Zhou, et al.

TokSuite：衡量分词器选择对语言模型行为的影响

TokSuite：衡量分词器选择对语言模型行为的影响

Gül Sena Altıntaş, Malikeh Ehghaghi, Brian Lester, et al.

Nemotron 3 Nano：面向智能体推理的开源、高效混合专家Mamba-Transformer模型

Nemotron 3 Nano：面向智能体推理的开源、高效混合专家Mamba-Transformer模型

监督式微调

NVIDIA, Aaron Blakeman, Aaron Grattafiori, et al.

超越记忆：一种多模态序数回归基准以揭示视觉-语言模型中的流行度偏差

超越记忆：一种多模态序数回归基准以揭示视觉-语言模型中的流行度偏差

Li-Zhong Szu-Tu, Ting-Lin Wu, Chia-Jui Chang, et al.

DreaMontage：任意帧引导的单次视频生成

DreaMontage：任意帧引导的单次视频生成

Jiawei Liu, Junqiao Li, Jiangfan Deng, et al.

T2AV-Compass：面向文本到音频视频生成的统一评估

T2AV-Compass：面向文本到音频视频生成的统一评估

统一多模态

Zhe Cao, Tao Wang, Jiaming Wang, et al.

TongSIM：一种用于模拟智能机器的通用平台

TongSIM：一种用于模拟智能机器的通用平台

Zhe Sun, Kunlun Wu, Chuanjian Fu, et al.

Qwen-Image-Layered：通过层分解实现固有可编辑性

Qwen-Image-Layered：通过层分解实现固有可编辑性

Shengming Yin, Zekai Zhang, Zecheng Tang, et al.

RoboSafe：通过可执行安全逻辑保障具身Agent的安全

RoboSafe：通过可执行安全逻辑保障具身Agent的安全

机器人技术

Le Wang, Zonghao Ying, Xiao Yang, et al.

NHS基层医疗中LLM药物安全审查的现实世界评估

NHS基层医疗中LLM药物安全审查的现实世界评估

自然语言处理

Oliver Normand, Esther Borsi, Mitch Fruin, et al.

多LLM主题分析结合双重可靠性度量：基于Cohen's Kappa与语义相似性的定性研究验证

多LLM主题分析结合双重可靠性度量：基于Cohen's Kappa与语义相似性的定性研究验证

自然语言处理

Nilesh Jain, Seyi Adeyinka, Leor Roseman, et al.

通过闭环世界建模实现视频虚拟人中的主动智能

通过闭环世界建模实现视频虚拟人中的主动智能

Xuanhua He, Tianyu Yang, Ke Cao, et al.

FaithLens：检测与解释忠实性幻觉

FaithLens：检测与解释忠实性幻觉

检索增强生成

监督式微调

Shuzheng Si, Qingyi Wang, Haozhe Zhao, et al.

SAM Audio：音频中的任意分割

SAM Audio：音频中的任意分割

统一多模态

Bowen Shi, Andros Tjandra, John Hoffman, et al.

Step-DeepResearch 技术报告

Step-DeepResearch 技术报告

监督式微调

Chen Hu, Haikuo Du, Heng Wang, et al.

SpatialTree：空间能力在MLLMs中的分支发展

SpatialTree：空间能力在MLLMs中的分支发展

Yuxi Xiao, Longfei Li, Shen Yan, et al.

SemanticGen：语义空间中的视频生成

SemanticGen：语义空间中的视频生成

Jianhong Bai, Xiaoshi Wu, Xintao Wang, et al.

基于人机协同推理大型语言模型Agent的自动化立体定向放射外科计划

基于人机协同推理大型语言模型Agent的自动化立体定向放射外科计划

Humza Nusrat, Luke Francisco, Bing Luo, et al.

LongVideoAgent：基于长视频的多Agent推理

LongVideoAgent：基于长视频的多Agent推理

Runtao Liu, Ziyi Liu, Jiaqi Tang, et al.

GenEnv：LLM Agent 与环境模拟器之间的难度对齐协同进化

GenEnv：LLM Agent 与环境模拟器之间的难度对齐协同进化

Jiacheng Guo, Ling Yang, Peter Chen, et al.

WorldWarp：基于异步视频扩散的3D几何传播

WorldWarp：基于异步视频扩散的3D几何传播

Hanyang Kong, Xingyi Yang, Xiaoxu Zheng, et al.

LoGoPlanner：基于定位的度量感知视觉几何导航策略

LoGoPlanner：基于定位的度量感知视觉几何导航策略

Jiaqi Peng, Wenzhe Cai, Yuqiang Yang, et al.

LLM能否评估学生困难？基于能力模拟的师生AI难度对齐在题目难度预测中的应用

LLM能否评估学生困难？基于能力模拟的师生AI难度对齐在题目难度预测中的应用

Ming Li, Han Chen, Yunze Xiao, et al.

QuCo-RAG：基于预训练语料库量化不确定性以实现动态检索增强生成

QuCo-RAG：基于预训练语料库量化不确定性以实现动态检索增强生成

检索增强生成

Dehai Min, Kailin Zhang, Tongtong Wu, et al.

棱镜假说：通过统一自编码实现语义与像素表征的融合

棱镜假说：通过统一自编码实现语义与像素表征的融合

多模态表征

统一多模态

Weichen Fan, Haiwen Diao, Quan Wang, et al.

Med-Banana-50K：用于文本引导的医学图像编辑的跨模态大规模数据集

Med-Banana-50K：用于文本引导的医学图像编辑的跨模态大规模数据集

Zhihui Chen, Mengling Feng

Kascade：一种面向长上下文LLM推理的实用稀疏注意力方法

Kascade：一种面向长上下文LLM推理的实用稀疏注意力方法

Dhruv Deshmukh, Saurabh Goyal, Nipun Kwatra, et al.

GLM-4.5：智能体、推理与编程（ARC）基础模型

GLM-4.5：智能体、推理与编程（ARC）基础模型

GroundingME：通过多维评估揭示MLLMs中的视觉定位鸿沟

GroundingME：通过多维评估揭示MLLMs中的视觉定位鸿沟

Rang Li, Lei Li, Shuhuai Ren, et al.

语义与重构同样重要：使表示编码器适用于文本到图像生成与编辑

语义与重构同样重要：使表示编码器适用于文本到图像生成与编辑

Shilong Zhang, He Zhang, Zhifei Zhang, et al.

4D-RGPT：通过感知蒸馏实现区域级4D理解

4D-RGPT：通过感知蒸馏实现区域级4D理解

多模态表征

Chiao-An Yang, Ryo Hachiuma, Sifei Liu, et al.