HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

开放性推理的扩展以预测未来

开放性推理的扩展以预测未来

检索增强生成

Nikhil Chandak, Shashwat Goel, Ameya Prabhu, et al.

GaMO：面向稀疏视图三维重建的几何感知多视角扩散外推

GaMO：面向稀疏视图三维重建的几何感知多视角扩散外推

机器视觉 3D

Yi-Chuan Huang, Hao-Jen Chien, Chin-Yang Lin, et al.

mHC：流形约束超连接

mHC：流形约束超连接

Zhenda Xie, Yixuan Wei, Huanqi Cao, et al.

让思维流动：在摇滚乐中构建智能体，于开放智能体学习生态中打造ROME模型

让思维流动：在摇滚乐中构建智能体，于开放智能体学习生态中打造ROME模型

Weixun Wang, XiaoXiao Xu, Wanhe An, et al.

Youtu-LLM：释放轻量级大语言模型的原生智能体潜力

Youtu-LLM：释放轻量级大语言模型的原生智能体潜力

Junru Lu, Jiarui Qin, Lingfeng Qiao, et al.

GateBreaker：基于门控机制的专家混合型LLM攻击方法

GateBreaker：基于门控机制的专家混合型LLM攻击方法

Lichao Wu, Sasha Behrouzi, Mohamadreza Rostami, et al.

GraphLocator：基于图引导的因果推理用于问题定位

GraphLocator：基于图引导的因果推理用于问题定位

Wei Liu, Chao Peng, Pengfei Gao, et al.

评估参数高效方法在RLVR中的应用

评估参数高效方法在RLVR中的应用

监督式微调

Qingyu Yin, Yulun Wu, Zhennan Shen, et al.

端到端的测试时训练用于长上下文

端到端的测试时训练用于长上下文

自然语言处理

Arnuv Tandon, Karan Dalal, Xinhao Li, et al.

DreamOmni3：基于涂鸦的编辑与生成

DreamOmni3：基于涂鸦的编辑与生成

Bin Xia, Bohao Peng, Jiyang Liu, et al.

UltraShape 1.0：通过可扩展几何精炼实现高保真3D形状生成

UltraShape 1.0：通过可扩展几何精炼实现高保真3D形状生成

Tanghui Jia, Dongyu Yan, Dehao Hao, et al.

Mimic-Video：面向可泛化机器人控制的视频-动作模型，超越VLAs

Mimic-Video：面向可泛化机器人控制的视频-动作模型，超越VLAs

机器人技术

Jonas Pai, Liam Achenbach, Victoriano Montesinos, et al.

HY-Motion 1.0：面向文本到动作生成的流匹配模型扩展

HY-Motion 1.0：面向文本到动作生成的流匹配模型扩展

Yuxin Wen, Qing Shuai, Di Kang, et al.

SurgWorld：通过世界建模从视频中学习外科机器人策略

SurgWorld：通过世界建模从视频中学习外科机器人策略

机器人技术

Yufan He, Pengfei Guo, Mengya Xu, et al.

SpotEdit：扩散Transformer中的选择性区域编辑

SpotEdit：扩散Transformer中的选择性区域编辑

Zhibin Qin, Zhenxiong Tan, Zeqing Wang, et al.

扩散模型洞悉透明性：将视频扩散模型重用于透明物体的深度与法向估计

扩散模型洞悉透明性：将视频扩散模型重用于透明物体的深度与法向估计

Shaocong Xu, Songlin Wei, Qizhe Wei, et al.

SmartSnap：面向自验证Agent的主动证据获取

SmartSnap：面向自验证Agent的主动证据获取

Shaofei Cai, Yulei Qin, Haojia Lin, et al.

Yume-1.5：一种文本控制的交互式世界生成模型

Yume-1.5：一种文本控制的交互式世界生成模型

Xiaofeng Mao, Zhen Li, Chuanhao Li, et al.

LiveTalk：通过改进的自洽蒸馏实现实时多模态交互式视频扩散

LiveTalk：通过改进的自洽蒸馏实现实时多模态交互式视频扩散

Ethan Chern, Zhulin Hu, Bohao Tang, et al.

通过辅助损失实现专家与路由器在专家混合模型中的耦合

通过辅助损失实现专家与路由器在专家混合模型中的耦合

Ang Lv, Jin Ma, Yiyuan Ma, et al.

LongFly：基于时空上下文融合的长时程无人机视觉-语言导航

LongFly：基于时空上下文融合的长时程无人机视觉-语言导航

机器人技术

Wen Jiang, Li Wang, Kangyao Huang, et al.

注意力并非你所需要的

注意力并非你所需要的

SlideTailor：面向科学论文的个性化演示文稿生成

SlideTailor：面向科学论文的个性化演示文稿生成

Wenzheng Zeng, Mingyu Ouyang, Langyuan Cui, et al.

InSight-o3：通过泛化视觉搜索赋能多模态基础模型

InSight-o3：通过泛化视觉搜索赋能多模态基础模型

多模态表征

Kaican Li, Lewei Yao, Jiannan Wu, et al.

InsertAnywhere：连接4D场景几何与扩散模型以实现逼真的视频物体插入

InsertAnywhere：连接4D场景几何与扩散模型以实现逼真的视频物体插入

Hoiyeong Jin, Hyojin Jang, Jeongho Kim, et al.

面向心智地图感知的检索增强生成以提升长上下文理解

面向心智地图感知的检索增强生成以提升长上下文理解

检索增强生成

Yuqing Li, Jiangnan Li, Zheng Lin, et al.

衡量大语言模型中短文本的真实性

衡量大语言模型中短文本的真实性

Jason Wei, Nguyen Karina, Hyung Won Chung, et al.

DeepSearchQA：弥合深度研究Agent的全面性差距

DeepSearchQA：弥合深度研究Agent的全面性差距

Nikita Gupta, Riju Chatterjee, Lukas Haas, et al.

MEM1：学习协同记忆与推理以实现高效长时程Agent

MEM1：学习协同记忆与推理以实现高效长时程Agent

Zijian Zhou, Ao Qu, Zhaoxuan Wu, et al.

AI-Trader：在实时金融市场的自主Agent基准测试

AI-Trader：在实时金融市场的自主Agent基准测试

Tianyu Fan, Yuhao Yang, Yangqin Jiang, et al.

潜在隐式视觉推理

潜在隐式视觉推理

多模态表征

Kelvin Li, Chuyi Shang, Leonid Karlinsky, et al.

LLM人格作为方法基准测试中实地实验的替代方案

LLM人格作为方法基准测试中实地实验的替代方案

Enoch Hyunwook Kang

开放性推理的扩展以预测未来

开放性推理的扩展以预测未来

检索增强生成

Nikhil Chandak, Shashwat Goel, Ameya Prabhu, et al.

GaMO：面向稀疏视图三维重建的几何感知多视角扩散外推

GaMO：面向稀疏视图三维重建的几何感知多视角扩散外推

机器视觉 3D

Yi-Chuan Huang, Hao-Jen Chien, Chin-Yang Lin, et al.

mHC：流形约束超连接

mHC：流形约束超连接

Zhenda Xie, Yixuan Wei, Huanqi Cao, et al.

让思维流动：在摇滚乐中构建智能体，于开放智能体学习生态中打造ROME模型

让思维流动：在摇滚乐中构建智能体，于开放智能体学习生态中打造ROME模型

Weixun Wang, XiaoXiao Xu, Wanhe An, et al.

Youtu-LLM：释放轻量级大语言模型的原生智能体潜力

Youtu-LLM：释放轻量级大语言模型的原生智能体潜力

Junru Lu, Jiarui Qin, Lingfeng Qiao, et al.

GateBreaker：基于门控机制的专家混合型LLM攻击方法

GateBreaker：基于门控机制的专家混合型LLM攻击方法

Lichao Wu, Sasha Behrouzi, Mohamadreza Rostami, et al.

GraphLocator：基于图引导的因果推理用于问题定位

GraphLocator：基于图引导的因果推理用于问题定位

Wei Liu, Chao Peng, Pengfei Gao, et al.

评估参数高效方法在RLVR中的应用

评估参数高效方法在RLVR中的应用

监督式微调

Qingyu Yin, Yulun Wu, Zhennan Shen, et al.

端到端的测试时训练用于长上下文

端到端的测试时训练用于长上下文

自然语言处理

Arnuv Tandon, Karan Dalal, Xinhao Li, et al.

DreamOmni3：基于涂鸦的编辑与生成

DreamOmni3：基于涂鸦的编辑与生成

Bin Xia, Bohao Peng, Jiyang Liu, et al.

UltraShape 1.0：通过可扩展几何精炼实现高保真3D形状生成

UltraShape 1.0：通过可扩展几何精炼实现高保真3D形状生成

Tanghui Jia, Dongyu Yan, Dehao Hao, et al.

Mimic-Video：面向可泛化机器人控制的视频-动作模型，超越VLAs

Mimic-Video：面向可泛化机器人控制的视频-动作模型，超越VLAs

机器人技术

Jonas Pai, Liam Achenbach, Victoriano Montesinos, et al.

HY-Motion 1.0：面向文本到动作生成的流匹配模型扩展

HY-Motion 1.0：面向文本到动作生成的流匹配模型扩展

Yuxin Wen, Qing Shuai, Di Kang, et al.

SurgWorld：通过世界建模从视频中学习外科机器人策略

SurgWorld：通过世界建模从视频中学习外科机器人策略

机器人技术

Yufan He, Pengfei Guo, Mengya Xu, et al.

SpotEdit：扩散Transformer中的选择性区域编辑

SpotEdit：扩散Transformer中的选择性区域编辑

Zhibin Qin, Zhenxiong Tan, Zeqing Wang, et al.

扩散模型洞悉透明性：将视频扩散模型重用于透明物体的深度与法向估计

扩散模型洞悉透明性：将视频扩散模型重用于透明物体的深度与法向估计

Shaocong Xu, Songlin Wei, Qizhe Wei, et al.

SmartSnap：面向自验证Agent的主动证据获取

SmartSnap：面向自验证Agent的主动证据获取

Shaofei Cai, Yulei Qin, Haojia Lin, et al.

Yume-1.5：一种文本控制的交互式世界生成模型

Yume-1.5：一种文本控制的交互式世界生成模型

Xiaofeng Mao, Zhen Li, Chuanhao Li, et al.

LiveTalk：通过改进的自洽蒸馏实现实时多模态交互式视频扩散

LiveTalk：通过改进的自洽蒸馏实现实时多模态交互式视频扩散

Ethan Chern, Zhulin Hu, Bohao Tang, et al.

通过辅助损失实现专家与路由器在专家混合模型中的耦合

通过辅助损失实现专家与路由器在专家混合模型中的耦合

Ang Lv, Jin Ma, Yiyuan Ma, et al.

LongFly：基于时空上下文融合的长时程无人机视觉-语言导航

LongFly：基于时空上下文融合的长时程无人机视觉-语言导航

机器人技术

Wen Jiang, Li Wang, Kangyao Huang, et al.

注意力并非你所需要的

注意力并非你所需要的

SlideTailor：面向科学论文的个性化演示文稿生成

SlideTailor：面向科学论文的个性化演示文稿生成

Wenzheng Zeng, Mingyu Ouyang, Langyuan Cui, et al.

InSight-o3：通过泛化视觉搜索赋能多模态基础模型

InSight-o3：通过泛化视觉搜索赋能多模态基础模型

多模态表征

Kaican Li, Lewei Yao, Jiannan Wu, et al.

InsertAnywhere：连接4D场景几何与扩散模型以实现逼真的视频物体插入

InsertAnywhere：连接4D场景几何与扩散模型以实现逼真的视频物体插入

Hoiyeong Jin, Hyojin Jang, Jeongho Kim, et al.

面向心智地图感知的检索增强生成以提升长上下文理解

面向心智地图感知的检索增强生成以提升长上下文理解

检索增强生成

Yuqing Li, Jiangnan Li, Zheng Lin, et al.

衡量大语言模型中短文本的真实性

衡量大语言模型中短文本的真实性

Jason Wei, Nguyen Karina, Hyung Won Chung, et al.

DeepSearchQA：弥合深度研究Agent的全面性差距

DeepSearchQA：弥合深度研究Agent的全面性差距

Nikita Gupta, Riju Chatterjee, Lukas Haas, et al.

MEM1：学习协同记忆与推理以实现高效长时程Agent

MEM1：学习协同记忆与推理以实现高效长时程Agent

Zijian Zhou, Ao Qu, Zhaoxuan Wu, et al.

AI-Trader：在实时金融市场的自主Agent基准测试

AI-Trader：在实时金融市场的自主Agent基准测试

Tianyu Fan, Yuhao Yang, Yangqin Jiang, et al.

潜在隐式视觉推理

潜在隐式视觉推理

多模态表征

Kelvin Li, Chuyi Shang, Leonid Karlinsky, et al.

LLM人格作为方法基准测试中实地实验的替代方案

LLM人格作为方法基准测试中实地实验的替代方案

Enoch Hyunwook Kang