HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

GENIE：用于神经辐射场交互编辑的高斯编码

GENIE：用于神经辐射场交互编辑的高斯编码

机器视觉 3D

Mikołaj Zieliński, Krzysztof Byrski, Tomasz Szczepanik, et al.

剪枝无惊喜：通过首令牌意外性实现高效的代码推理

剪枝无惊喜：通过首令牌意外性实现高效的代码推理

Wenhao Zeng, Yaoning Wang, Chao Hu, et al.

Voost：一种用于双向虚拟试穿与试脱的统一且可扩展的扩散Transformer

Voost：一种用于双向虚拟试穿与试脱的统一且可扩展的扩散Transformer

Seungyong Lee, Jeong-gi Kwak

InfiGUI-G1：通过自适应探索策略优化推进GUI定位

InfiGUI-G1：通过自适应探索策略优化推进GUI定位

Yuhang Liu, Zeyu Liu, Shuanghe Zhu, et al.

Memp：探索Agent程序记忆

Memp：探索Agent程序记忆

Runnan Fang, Yuan Liang, Xiaobin Wang, et al.

Perch 2.0：对生物声学的鹬鸟启示

Perch 2.0：对生物声学的鹬鸟启示

多任务学习

Bart van Merriënboer, Vincent Dumoulin, Jenny Hamer, et al.

我们在评估文档检索增强生成的正确道路上吗？

我们在评估文档检索增强生成的正确道路上吗？

检索增强生成

Wenxuan Shen, Mingjia Wang, Yaochen Wang, et al.

Hi3DEval：基于分层有效性的三维生成评估

Hi3DEval：基于分层有效性的三维生成评估

Yuhan Zhang, Long Zhuo, Ziyang Chu, et al.

DeepPHY：面向物理推理的智能体视觉语言模型基准测试

DeepPHY：面向物理推理的智能体视觉语言模型基准测试

Xinrun Xu, Pi Bu, Ye Wang, et al.

Genie Envisioner：面向机器人操作的统一世界基础平台

Genie Envisioner：面向机器人操作的统一世界基础平台

统一多模态

Yue Liao, Pengfei Zhou, Siyuan Huang, et al.

R-Zero：从零数据自演化推理的LLM

R-Zero：从零数据自演化推理的LLM

Chengsong Huang, Wenhao Yu, Xiaoyang Wang, et al.

监督微调的泛化：基于奖励修正的强化学习视角

监督微调的泛化：基于奖励修正的强化学习视角

监督式微调

Yongliang Wu, Yizhou Zhou, Zhou Ziheng, et al.

利用LLM赋能的智能体模拟类人学习动态

利用LLM赋能的智能体模拟类人学习动态

Yu Yuan, Lili Zhao, Wei Chen, et al.

GRAIL：用于检索增强推理的大型知识图谱交互学习

GRAIL：用于检索增强推理的大型知识图谱交互学习

检索增强生成

Ge Chang, Jinbo Su, Jiacheng Liu, et al.

CoTox：基于思维链的分子毒性推理与预测

CoTox：基于思维链的分子毒性推理与预测

Jueon Park, Yein Park, Minju Song, et al.

高效代理：在降低成本的同时构建有效代理

高效代理：在降低成本的同时构建有效代理

Ningning Wang, Xavier Hu, Pai Liu, et al.

LLM 的思维链推理是一场幻觉吗？基于数据分布的视角

LLM 的思维链推理是一场幻觉吗？基于数据分布的视角

Chengshuai Zhao, Zhen Tan, Pingchuan Ma, et al.

VeriGUI：可验证的长链GUI数据集

VeriGUI：可验证的长链GUI数据集

Shunyu Liu, Minghao Liu, Huichi Zhou, et al.

Qwen2.5-VL 技术报告

Qwen2.5-VL 技术报告

Shuai Bai, Keqin Chen, Xuejing Liu, et al.

生成对抗网络已死；万岁，生成对抗网络！一种现代的生成对抗网络基线

生成对抗网络已死；万岁，生成对抗网络！一种现代的生成对抗网络基线

计算机视觉

Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, et al.

MegaPairs：面向通用多模态检索的大规模数据合成

MegaPairs：面向通用多模态检索的大规模数据合成

Junjie Zhou, Zheng Liu, Ze Liu, et al.

Lyra：一种高效且以语音为中心的全认知框架

Lyra：一种高效且以语音为中心的全认知框架

统一多模态

Zhisheng Zhong, Chengyao Wang, Yuqi Liu, et al.

通过模型、数据和测试时扩展，拓展开源多模态模型的性能边界

通过模型、数据和测试时扩展，拓展开源多模态模型的性能边界

Zhe Chen, Weiyun Wang, Yue Cao, et al.

NVILA：高效前沿视觉语言模型

NVILA：高效前沿视觉语言模型

Zhijian Liu, Ligeng Zhu, Baifeng Shi, et al.

VisionZip：在视觉语言模型中，更长并不一定更好

VisionZip：在视觉语言模型中，更长并不一定更好

多模态表征

Senqiao Yang, Yukang Chen, Zhuotao Tian, et al.

百川Omni技术报告

百川Omni技术报告

统一多模态

Yadong Li, Haoze Sun, Mingan Lin, et al.

MM1.5：多模态LLM微调的方法、分析与洞见

MM1.5：多模态LLM微调的方法、分析与洞见

Haotian Zhang, Mingfei Gao, Zhe Gan, et al.

Emu3：下一token预测就是你所需的一切

Emu3：下一token预测就是你所需的一切

统一多模态

Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, et al.

CogVLM2：用于图像与视频理解的视觉语言模型

CogVLM2：用于图像与视频理解的视觉语言模型

Wenyi Hong, Weihan Wang, Ming Ding, et al.

Qwen2 技术报告

Qwen2 技术报告

An Yang, Baosong Yang, Binyuan Hui, et al.

一张图像对于重建和生成而言价值32个token

一张图像对于重建和生成而言价值32个token

Qihang Yu, Mark Weber, Xueqing Deng, et al.

自回归模型胜过扩散模型：Llama 实现可扩展的图像生成

自回归模型胜过扩散模型：Llama 实现可扩展的图像生成

Peize Sun, Yi Jiang, Shoufa Chen, et al.

GENIE：用于神经辐射场交互编辑的高斯编码

GENIE：用于神经辐射场交互编辑的高斯编码

机器视觉 3D

Mikołaj Zieliński, Krzysztof Byrski, Tomasz Szczepanik, et al.

剪枝无惊喜：通过首令牌意外性实现高效的代码推理

剪枝无惊喜：通过首令牌意外性实现高效的代码推理

Wenhao Zeng, Yaoning Wang, Chao Hu, et al.

Voost：一种用于双向虚拟试穿与试脱的统一且可扩展的扩散Transformer

Voost：一种用于双向虚拟试穿与试脱的统一且可扩展的扩散Transformer

Seungyong Lee, Jeong-gi Kwak

InfiGUI-G1：通过自适应探索策略优化推进GUI定位

InfiGUI-G1：通过自适应探索策略优化推进GUI定位

Yuhang Liu, Zeyu Liu, Shuanghe Zhu, et al.

Memp：探索Agent程序记忆

Memp：探索Agent程序记忆

Runnan Fang, Yuan Liang, Xiaobin Wang, et al.

Perch 2.0：对生物声学的鹬鸟启示

Perch 2.0：对生物声学的鹬鸟启示

多任务学习

Bart van Merriënboer, Vincent Dumoulin, Jenny Hamer, et al.

我们在评估文档检索增强生成的正确道路上吗？

我们在评估文档检索增强生成的正确道路上吗？

检索增强生成

Wenxuan Shen, Mingjia Wang, Yaochen Wang, et al.

Hi3DEval：基于分层有效性的三维生成评估

Hi3DEval：基于分层有效性的三维生成评估

Yuhan Zhang, Long Zhuo, Ziyang Chu, et al.

DeepPHY：面向物理推理的智能体视觉语言模型基准测试

DeepPHY：面向物理推理的智能体视觉语言模型基准测试

Xinrun Xu, Pi Bu, Ye Wang, et al.

Genie Envisioner：面向机器人操作的统一世界基础平台

Genie Envisioner：面向机器人操作的统一世界基础平台

统一多模态

Yue Liao, Pengfei Zhou, Siyuan Huang, et al.

R-Zero：从零数据自演化推理的LLM

R-Zero：从零数据自演化推理的LLM

Chengsong Huang, Wenhao Yu, Xiaoyang Wang, et al.

监督微调的泛化：基于奖励修正的强化学习视角

监督微调的泛化：基于奖励修正的强化学习视角

监督式微调

Yongliang Wu, Yizhou Zhou, Zhou Ziheng, et al.

利用LLM赋能的智能体模拟类人学习动态

利用LLM赋能的智能体模拟类人学习动态

Yu Yuan, Lili Zhao, Wei Chen, et al.

GRAIL：用于检索增强推理的大型知识图谱交互学习

GRAIL：用于检索增强推理的大型知识图谱交互学习

检索增强生成

Ge Chang, Jinbo Su, Jiacheng Liu, et al.

CoTox：基于思维链的分子毒性推理与预测

CoTox：基于思维链的分子毒性推理与预测

Jueon Park, Yein Park, Minju Song, et al.

高效代理：在降低成本的同时构建有效代理

高效代理：在降低成本的同时构建有效代理

Ningning Wang, Xavier Hu, Pai Liu, et al.

LLM 的思维链推理是一场幻觉吗？基于数据分布的视角

LLM 的思维链推理是一场幻觉吗？基于数据分布的视角

Chengshuai Zhao, Zhen Tan, Pingchuan Ma, et al.

VeriGUI：可验证的长链GUI数据集

VeriGUI：可验证的长链GUI数据集

Shunyu Liu, Minghao Liu, Huichi Zhou, et al.

Qwen2.5-VL 技术报告

Qwen2.5-VL 技术报告

Shuai Bai, Keqin Chen, Xuejing Liu, et al.

生成对抗网络已死；万岁，生成对抗网络！一种现代的生成对抗网络基线

生成对抗网络已死；万岁，生成对抗网络！一种现代的生成对抗网络基线

计算机视觉

Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, et al.

MegaPairs：面向通用多模态检索的大规模数据合成

MegaPairs：面向通用多模态检索的大规模数据合成

Junjie Zhou, Zheng Liu, Ze Liu, et al.

Lyra：一种高效且以语音为中心的全认知框架

Lyra：一种高效且以语音为中心的全认知框架

统一多模态

Zhisheng Zhong, Chengyao Wang, Yuqi Liu, et al.

通过模型、数据和测试时扩展，拓展开源多模态模型的性能边界

通过模型、数据和测试时扩展，拓展开源多模态模型的性能边界

Zhe Chen, Weiyun Wang, Yue Cao, et al.

NVILA：高效前沿视觉语言模型

NVILA：高效前沿视觉语言模型

Zhijian Liu, Ligeng Zhu, Baifeng Shi, et al.

VisionZip：在视觉语言模型中，更长并不一定更好

VisionZip：在视觉语言模型中，更长并不一定更好

多模态表征

Senqiao Yang, Yukang Chen, Zhuotao Tian, et al.

百川Omni技术报告

百川Omni技术报告

统一多模态

Yadong Li, Haoze Sun, Mingan Lin, et al.

MM1.5：多模态LLM微调的方法、分析与洞见

MM1.5：多模态LLM微调的方法、分析与洞见

Haotian Zhang, Mingfei Gao, Zhe Gan, et al.

Emu3：下一token预测就是你所需的一切

Emu3：下一token预测就是你所需的一切

统一多模态

Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, et al.

CogVLM2：用于图像与视频理解的视觉语言模型

CogVLM2：用于图像与视频理解的视觉语言模型

Wenyi Hong, Weihan Wang, Ming Ding, et al.

Qwen2 技术报告

Qwen2 技术报告

An Yang, Baosong Yang, Binyuan Hui, et al.

一张图像对于重建和生成而言价值32个token

一张图像对于重建和生成而言价值32个token

Qihang Yu, Mark Weber, Xueqing Deng, et al.

自回归模型胜过扩散模型：Llama 实现可扩展的图像生成

自回归模型胜过扩散模型：Llama 实现可扩展的图像生成

Peize Sun, Yi Jiang, Shoufa Chen, et al.