HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

GMF-Drive：具有空间感知BEV表示的门控Mamba融合用于端到端自动驾驶

GMF-Drive：具有空间感知BEV表示的门控Mamba融合用于端到端自动驾驶

Jian Wang, Chaokang Jiang, Haitao Xu

看、听、记、思：具备长期记忆的多模态Agent

看、听、记、思：具备长期记忆的多模态Agent

Lin Long, Yichen He, Wentao Ye, et al.

扩散型LLM可通过离散扩散强制实现快于自回归的推理

扩散型LLM可通过离散扩散强制实现快于自回归的推理

Xu Wang, Chenkai Xu, Yijie Jin, et al.

AWorld：具有稳定机动性的动态多Agent系统，用于鲁棒的GAIA问题求解

AWorld：具有稳定机动性的动态多Agent系统，用于鲁棒的GAIA问题求解

Zhitian Xie, Qintong Wu, Chengyue Yu, et al.

Story2Board：一种无需训练的富有表现力的分镜生成方法

Story2Board：一种无需训练的富有表现力的分镜生成方法

David Dinkevich, Matan Levy, Omri Avrahami, et al.

替身：一种轻量级且即插即用的视频生成身份控制方法

替身：一种轻量级且即插即用的视频生成身份控制方法

Bowen Xue, Qixin Yan, Wenjing Wang, et al.

Mol-R1：面向分子发现中显式长链思维推理

Mol-R1：面向分子发现中显式长链思维推理

监督式微调

Jiatong Li, Weida Wang, Qinggang Zhang, et al.

Llama-Nemotron：高效推理模型

Llama-Nemotron：高效推理模型

Akhiad Bercovich, Itay Levy, Izik Golan, et al.

Document Haystack：一个长上下文多模态图像/文档理解视觉LLM基准

Document Haystack：一个长上下文多模态图像/文档理解视觉LLM基准

视觉文档检索

Goeric Huybrechts, Srikanth Ronanki, Sai Muralidhar Jayanthi, et al.

Echo-4o：利用GPT-4o合成图像提升图像生成性能

Echo-4o：利用GPT-4o合成图像提升图像生成性能

Junyan Ye, Dongzhi Jiang, Zihao Wang, et al.

无标记组织在成像质谱中的虚拟染色

无标记组织在成像质谱中的虚拟染色

计算机视觉

Yijie Zhang, Luzhe Huang, Nir Pillar, et al.

VisCodex：通过融合视觉与编码模型实现统一的多模态代码生成

VisCodex：通过融合视觉与编码模型实现统一的多模态代码生成

多模态表征

Lingjie Jiang, Shaohan Huang, Xun Wu, et al.

HierSearch：一种集成本地搜索与网络搜索的分层企业深度搜索框架

HierSearch：一种集成本地搜索与网络搜索的分层企业深度搜索框架

检索增强生成

Jiejun Tan, Zhicheng Dou, Yan Yu, et al.

时间是一种特征：在扩散语言模型中利用时间动态特性

时间是一种特征：在扩散语言模型中利用时间动态特性

Wen Wang, Bozhen Fang, Chenchen Jing, et al.

CharacterShot：可控且一致的4D角色动画

CharacterShot：可控且一致的4D角色动画

Junyao Gao, Jiaxing Li, Wenran Liu, et al.

超越十轮：基于大规模异步强化学习的长周期智能体搜索

超越十轮：基于大规模异步强化学习的长周期智能体搜索

Jiaxuan Gao, Wei Fu, Minyang Xie, et al.

Matrix-3D：全向可探索的3D世界生成

Matrix-3D：全向可探索的3D世界生成

Zhongqi Yang, Wenhang Ge, Yuqi Li, et al.

WebWatcher：开拓视觉-语言深度研究Agent的新疆界

WebWatcher：开拓视觉-语言深度研究Agent的新疆界

Xinyu Geng, Peng Xia, Zhen Zhang, et al.

Marco-Voice 技术报告

Marco-Voice 技术报告

统一多模态

Fengping Tian, Chenyang Lyu, Xuanfan Ni, et al.

Kimina-Prover 预览：基于强化学习的大型形式化推理模型探索

Kimina-Prover 预览：基于强化学习的大型形式化推理模型探索

Haiming Wang, Mert Unsal, Xiaohan Lin, et al.

PyVeritas：基于LLM的转译与C语言的有界模型检测的Python验证

PyVeritas：基于LLM的转译与C语言的有界模型检测的Python验证

Pedro Orvalho, Marta Kwiatkowska

内在记忆智能体：通过结构化上下文记忆实现的异构多智能体LLM系统

内在记忆智能体：通过结构化上下文记忆实现的异构多智能体LLM系统

Sizhe Yuen, Francisco Gomez Medina, Ting Su, et al.

通过建模CRISPR–Cas序列设计高功能基因组编辑器

通过建模CRISPR–Cas序列设计高功能基因组编辑器

自然语言处理

Jeffrey A. Ruffolo, Stephen Nayfach, Joseph Gallagher, et al.

UserBench：面向以用户为中心的Agent的交互式Gym环境

UserBench：面向以用户为中心的Agent的交互式Gym环境

Cheng Qian, Zuxin Liu, Akshara Prabhakar, et al.

SONAR-LLM：一种在句子嵌入中思考并在token中表达的自回归Transformer

SONAR-LLM：一种在句子嵌入中思考并在token中表达的自回归Transformer

Nikita Dragunov, Temurbek Rahmatullaev, Elizaveta Goncharova, et al.

Klear-Reasoner：通过梯度保真裁剪策略优化提升推理能力

Klear-Reasoner：通过梯度保真裁剪策略优化提升推理能力

监督式微调

Zhenpeng Su, Leiyu Pan, Xue Bai, et al.

全效应：统一且空间可控制的视觉效果生成

全效应：统一且空间可控制的视觉效果生成

Fangyuan Mao, Aiming Hao, Jintao Chen, et al.

WideSearch：面向智能体的广域信息搜索基准测试

WideSearch：面向智能体的广域信息搜索基准测试

Ryan Wong, Jiawei Wang, Junjie Zhao, et al.

ReasonRank：通过强大的推理能力赋能段落排序

ReasonRank：通过强大的推理能力赋能段落排序

Wenhan Liu, Xinyu Ma, Weiwei Sun, et al.

AdaptFlow：基于元学习的自适应工作流优化

AdaptFlow：基于元学习的自适应工作流优化

Runchuan Zhu, Bowen Jiang, Lingrui Mei, et al.

中介引导的开源模型间多智能体协作用于医疗决策

中介引导的开源模型间多智能体协作用于医疗决策

Kaitao Chen, Mianxin Liu, Daoming Zong, et al.

无标签视觉-语言模型适应：一项全面综述

无标签视觉-语言模型适应：一项全面综述

多模态表征

统一多模态

Hao Dong, Lijun Sheng, Jian Liang, et al.

GMF-Drive：具有空间感知BEV表示的门控Mamba融合用于端到端自动驾驶

GMF-Drive：具有空间感知BEV表示的门控Mamba融合用于端到端自动驾驶

Jian Wang, Chaokang Jiang, Haitao Xu

看、听、记、思：具备长期记忆的多模态Agent

看、听、记、思：具备长期记忆的多模态Agent

Lin Long, Yichen He, Wentao Ye, et al.

扩散型LLM可通过离散扩散强制实现快于自回归的推理

扩散型LLM可通过离散扩散强制实现快于自回归的推理

Xu Wang, Chenkai Xu, Yijie Jin, et al.

AWorld：具有稳定机动性的动态多Agent系统，用于鲁棒的GAIA问题求解

AWorld：具有稳定机动性的动态多Agent系统，用于鲁棒的GAIA问题求解

Zhitian Xie, Qintong Wu, Chengyue Yu, et al.

Story2Board：一种无需训练的富有表现力的分镜生成方法

Story2Board：一种无需训练的富有表现力的分镜生成方法

David Dinkevich, Matan Levy, Omri Avrahami, et al.

替身：一种轻量级且即插即用的视频生成身份控制方法

替身：一种轻量级且即插即用的视频生成身份控制方法

Bowen Xue, Qixin Yan, Wenjing Wang, et al.

Mol-R1：面向分子发现中显式长链思维推理

Mol-R1：面向分子发现中显式长链思维推理

监督式微调

Jiatong Li, Weida Wang, Qinggang Zhang, et al.

Llama-Nemotron：高效推理模型

Llama-Nemotron：高效推理模型

Akhiad Bercovich, Itay Levy, Izik Golan, et al.

Document Haystack：一个长上下文多模态图像/文档理解视觉LLM基准

Document Haystack：一个长上下文多模态图像/文档理解视觉LLM基准

视觉文档检索

Goeric Huybrechts, Srikanth Ronanki, Sai Muralidhar Jayanthi, et al.

Echo-4o：利用GPT-4o合成图像提升图像生成性能

Echo-4o：利用GPT-4o合成图像提升图像生成性能

Junyan Ye, Dongzhi Jiang, Zihao Wang, et al.

无标记组织在成像质谱中的虚拟染色

无标记组织在成像质谱中的虚拟染色

计算机视觉

Yijie Zhang, Luzhe Huang, Nir Pillar, et al.

VisCodex：通过融合视觉与编码模型实现统一的多模态代码生成

VisCodex：通过融合视觉与编码模型实现统一的多模态代码生成

多模态表征

Lingjie Jiang, Shaohan Huang, Xun Wu, et al.

HierSearch：一种集成本地搜索与网络搜索的分层企业深度搜索框架

HierSearch：一种集成本地搜索与网络搜索的分层企业深度搜索框架

检索增强生成

Jiejun Tan, Zhicheng Dou, Yan Yu, et al.

时间是一种特征：在扩散语言模型中利用时间动态特性

时间是一种特征：在扩散语言模型中利用时间动态特性

Wen Wang, Bozhen Fang, Chenchen Jing, et al.

CharacterShot：可控且一致的4D角色动画

CharacterShot：可控且一致的4D角色动画

Junyao Gao, Jiaxing Li, Wenran Liu, et al.

超越十轮：基于大规模异步强化学习的长周期智能体搜索

超越十轮：基于大规模异步强化学习的长周期智能体搜索

Jiaxuan Gao, Wei Fu, Minyang Xie, et al.

Matrix-3D：全向可探索的3D世界生成

Matrix-3D：全向可探索的3D世界生成

Zhongqi Yang, Wenhang Ge, Yuqi Li, et al.

WebWatcher：开拓视觉-语言深度研究Agent的新疆界

WebWatcher：开拓视觉-语言深度研究Agent的新疆界

Xinyu Geng, Peng Xia, Zhen Zhang, et al.

Marco-Voice 技术报告

Marco-Voice 技术报告

统一多模态

Fengping Tian, Chenyang Lyu, Xuanfan Ni, et al.

Kimina-Prover 预览：基于强化学习的大型形式化推理模型探索

Kimina-Prover 预览：基于强化学习的大型形式化推理模型探索

Haiming Wang, Mert Unsal, Xiaohan Lin, et al.

PyVeritas：基于LLM的转译与C语言的有界模型检测的Python验证

PyVeritas：基于LLM的转译与C语言的有界模型检测的Python验证

Pedro Orvalho, Marta Kwiatkowska

内在记忆智能体：通过结构化上下文记忆实现的异构多智能体LLM系统

内在记忆智能体：通过结构化上下文记忆实现的异构多智能体LLM系统

Sizhe Yuen, Francisco Gomez Medina, Ting Su, et al.

通过建模CRISPR–Cas序列设计高功能基因组编辑器

通过建模CRISPR–Cas序列设计高功能基因组编辑器

自然语言处理

Jeffrey A. Ruffolo, Stephen Nayfach, Joseph Gallagher, et al.

UserBench：面向以用户为中心的Agent的交互式Gym环境

UserBench：面向以用户为中心的Agent的交互式Gym环境

Cheng Qian, Zuxin Liu, Akshara Prabhakar, et al.

SONAR-LLM：一种在句子嵌入中思考并在token中表达的自回归Transformer

SONAR-LLM：一种在句子嵌入中思考并在token中表达的自回归Transformer

Nikita Dragunov, Temurbek Rahmatullaev, Elizaveta Goncharova, et al.

Klear-Reasoner：通过梯度保真裁剪策略优化提升推理能力

Klear-Reasoner：通过梯度保真裁剪策略优化提升推理能力

监督式微调

Zhenpeng Su, Leiyu Pan, Xue Bai, et al.

全效应：统一且空间可控制的视觉效果生成

全效应：统一且空间可控制的视觉效果生成

Fangyuan Mao, Aiming Hao, Jintao Chen, et al.

WideSearch：面向智能体的广域信息搜索基准测试

WideSearch：面向智能体的广域信息搜索基准测试

Ryan Wong, Jiawei Wang, Junjie Zhao, et al.

ReasonRank：通过强大的推理能力赋能段落排序

ReasonRank：通过强大的推理能力赋能段落排序

Wenhan Liu, Xinyu Ma, Weiwei Sun, et al.

AdaptFlow：基于元学习的自适应工作流优化

AdaptFlow：基于元学习的自适应工作流优化

Runchuan Zhu, Bowen Jiang, Lingrui Mei, et al.

中介引导的开源模型间多智能体协作用于医疗决策

中介引导的开源模型间多智能体协作用于医疗决策

Kaitao Chen, Mianxin Liu, Daoming Zong, et al.

无标签视觉-语言模型适应：一项全面综述

无标签视觉-语言模型适应：一项全面综述

多模态表征

统一多模态

Hao Dong, Lijun Sheng, Jian Liang, et al.