HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务条款
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务条款
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
GENIE:用于神经辐射场交互编辑的高斯编码
3D 模型
机器视觉 3D
Mikołaj Zieliński, Krzysztof Byrski, Tomasz Szczepanik, et al.
剪枝无惊喜:通过首令牌意外性实现高效的代码推理
代码生成
推理
Wenhao Zeng, Yaoning Wang, Chao Hu, et al.
Voost:一种用于双向虚拟试穿与试脱的统一且可扩展的扩散Transformer
扩散模型
图像修复
Seungyong Lee, Jeong-gi Kwak
InfiGUI-G1:通过自适应探索策略优化推进GUI定位
Agent
视觉问答
Yuhang Liu, Zeyu Liu, Shuanghe Zhu, et al.
Memp:探索Agent程序记忆
Agent
LLM
Runnan Fang, Yuan Liang, Xiaobin Wang, et al.
Perch 2.0:对生物声学的鹬鸟启示
音频分类
多任务学习
Bart van Merriënboer, Vincent Dumoulin, Jenny Hamer, et al.
我们在评估文档检索增强生成的正确道路上吗?
检索增强生成
基准
Wenxuan Shen, Mingjia Wang, Yaochen Wang, et al.
Hi3DEval:基于分层有效性的三维生成评估
3D 生成
基准
Yuhan Zhang, Long Zhuo, Ziyang Chu, et al.
DeepPHY:面向物理推理的智能体视觉语言模型基准测试
Agent
基准
Xinrun Xu, Pi Bu, Ye Wang, et al.
Genie Envisioner:面向机器人操作的统一世界基础平台
统一多模态
视频生成
Yue Liao, Pengfei Zhou, Siyuan Huang, et al.
R-Zero:从零数据自演化推理的LLM
LLM
推理
Chengsong Huang, Wenhao Yu, Xiaoyang Wang, et al.
监督微调的泛化:基于奖励修正的强化学习视角
监督式微调
强化学习
Yongliang Wu, Yizhou Zhou, Zhou Ziheng, et al.
利用LLM赋能的智能体模拟类人学习动态
Agent
建模
Yu Yuan, Lili Zhao, Wei Chen, et al.
GRAIL:用于检索增强推理的大型知识图谱交互学习
检索增强生成
推理
Ge Chang, Jinbo Su, Jiacheng Liu, et al.
CoTox:基于思维链的分子毒性推理与预测
LLM
推理
Jueon Park, Yein Park, Minju Song, et al.
高效代理:在降低成本的同时构建有效代理
Agent
LLM
Ningning Wang, Xavier Hu, Pai Liu, et al.
LLM 的思维链推理是一场幻觉吗?基于数据分布的视角
LLM
推理
Chengshuai Zhao, Zhen Tan, Pingchuan Ma, et al.
VeriGUI:可验证的长链GUI数据集
Agent
基准
Shunyu Liu, Minghao Liu, Huichi Zhou, et al.
Qwen2.5-VL 技术报告
文档理解
视频理解
Shuai Bai, Keqin Chen, Xuejing Liu, et al.
生成对抗网络已死;万岁,生成对抗网络!一种现代的生成对抗网络基线
深度学习
计算机视觉
Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, et al.
MegaPairs:面向通用多模态检索的大规模数据合成
多模态
数据集
Junjie Zhou, Zheng Liu, Ze Liu, et al.
Lyra:一种高效且以语音为中心的全认知框架
统一多模态
LLM
Zhisheng Zhong, Chengyao Wang, Yuqi Liu, et al.
通过模型、数据和测试时扩展,拓展开源多模态模型的性能边界
多模态
LLM
Zhe Chen, Weiyun Wang, Yue Cao, et al.
NVILA:高效前沿视觉语言模型
多模态
视频理解
Zhijian Liu, Ligeng Zhu, Baifeng Shi, et al.
VisionZip:在视觉语言模型中,更长并不一定更好
多模态
多模态表征
Senqiao Yang, Yukang Chen, Zhuotao Tian, et al.
百川Omni技术报告
多模态
统一多模态
Yadong Li, Haoze Sun, Mingan Lin, et al.
MM1.5:多模态LLM微调的方法、分析与洞见
多模态
LLM
Haotian Zhang, Mingfei Gao, Zhe Gan, et al.
Emu3:下一token预测就是你所需的一切
Transformer
统一多模态
Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, et al.
CogVLM2:用于图像与视频理解的视觉语言模型
图像理解
视频理解
Wenyi Hong, Weihan Wang, Ming Ding, et al.
Qwen2 技术报告
LLM
代码生成
An Yang, Baosong Yang, Binyuan Hui, et al.
一张图像对于重建和生成而言价值32个token
Transformer
图像生成
Qihang Yu, Mark Weber, Xueqing Deng, et al.
自回归模型胜过扩散模型:Llama 实现可扩展的图像生成
LLM
图像生成
Peize Sun, Yi Jiang, Shoufa Chen, et al.
1
34
35
36
37
38
39
40
48
GENIE:用于神经辐射场交互编辑的高斯编码
3D 模型
机器视觉 3D
Mikołaj Zieliński, Krzysztof Byrski, Tomasz Szczepanik, et al.
剪枝无惊喜:通过首令牌意外性实现高效的代码推理
代码生成
推理
Wenhao Zeng, Yaoning Wang, Chao Hu, et al.
Voost:一种用于双向虚拟试穿与试脱的统一且可扩展的扩散Transformer
扩散模型
图像修复
Seungyong Lee, Jeong-gi Kwak
InfiGUI-G1:通过自适应探索策略优化推进GUI定位
Agent
视觉问答
Yuhang Liu, Zeyu Liu, Shuanghe Zhu, et al.
Memp:探索Agent程序记忆
Agent
LLM
Runnan Fang, Yuan Liang, Xiaobin Wang, et al.
Perch 2.0:对生物声学的鹬鸟启示
音频分类
多任务学习
Bart van Merriënboer, Vincent Dumoulin, Jenny Hamer, et al.
我们在评估文档检索增强生成的正确道路上吗?
检索增强生成
基准
Wenxuan Shen, Mingjia Wang, Yaochen Wang, et al.
Hi3DEval:基于分层有效性的三维生成评估
3D 生成
基准
Yuhan Zhang, Long Zhuo, Ziyang Chu, et al.
DeepPHY:面向物理推理的智能体视觉语言模型基准测试
Agent
基准
Xinrun Xu, Pi Bu, Ye Wang, et al.
Genie Envisioner:面向机器人操作的统一世界基础平台
统一多模态
视频生成
Yue Liao, Pengfei Zhou, Siyuan Huang, et al.
R-Zero:从零数据自演化推理的LLM
LLM
推理
Chengsong Huang, Wenhao Yu, Xiaoyang Wang, et al.
监督微调的泛化:基于奖励修正的强化学习视角
监督式微调
强化学习
Yongliang Wu, Yizhou Zhou, Zhou Ziheng, et al.
利用LLM赋能的智能体模拟类人学习动态
Agent
建模
Yu Yuan, Lili Zhao, Wei Chen, et al.
GRAIL:用于检索增强推理的大型知识图谱交互学习
检索增强生成
推理
Ge Chang, Jinbo Su, Jiacheng Liu, et al.
CoTox:基于思维链的分子毒性推理与预测
LLM
推理
Jueon Park, Yein Park, Minju Song, et al.
高效代理:在降低成本的同时构建有效代理
Agent
LLM
Ningning Wang, Xavier Hu, Pai Liu, et al.
LLM 的思维链推理是一场幻觉吗?基于数据分布的视角
LLM
推理
Chengshuai Zhao, Zhen Tan, Pingchuan Ma, et al.
VeriGUI:可验证的长链GUI数据集
Agent
基准
Shunyu Liu, Minghao Liu, Huichi Zhou, et al.
Qwen2.5-VL 技术报告
文档理解
视频理解
Shuai Bai, Keqin Chen, Xuejing Liu, et al.
生成对抗网络已死;万岁,生成对抗网络!一种现代的生成对抗网络基线
深度学习
计算机视觉
Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, et al.
MegaPairs:面向通用多模态检索的大规模数据合成
多模态
数据集
Junjie Zhou, Zheng Liu, Ze Liu, et al.
Lyra:一种高效且以语音为中心的全认知框架
统一多模态
LLM
Zhisheng Zhong, Chengyao Wang, Yuqi Liu, et al.
通过模型、数据和测试时扩展,拓展开源多模态模型的性能边界
多模态
LLM
Zhe Chen, Weiyun Wang, Yue Cao, et al.
NVILA:高效前沿视觉语言模型
多模态
视频理解
Zhijian Liu, Ligeng Zhu, Baifeng Shi, et al.
VisionZip:在视觉语言模型中,更长并不一定更好
多模态
多模态表征
Senqiao Yang, Yukang Chen, Zhuotao Tian, et al.
百川Omni技术报告
多模态
统一多模态
Yadong Li, Haoze Sun, Mingan Lin, et al.
MM1.5:多模态LLM微调的方法、分析与洞见
多模态
LLM
Haotian Zhang, Mingfei Gao, Zhe Gan, et al.
Emu3:下一token预测就是你所需的一切
Transformer
统一多模态
Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, et al.
CogVLM2:用于图像与视频理解的视觉语言模型
图像理解
视频理解
Wenyi Hong, Weihan Wang, Ming Ding, et al.
Qwen2 技术报告
LLM
代码生成
An Yang, Baosong Yang, Binyuan Hui, et al.
一张图像对于重建和生成而言价值32个token
Transformer
图像生成
Qihang Yu, Mark Weber, Xueqing Deng, et al.
自回归模型胜过扩散模型:Llama 实现可扩展的图像生成
LLM
图像生成
Peize Sun, Yi Jiang, Shoufa Chen, et al.
1
34
35
36
37
38
39
40
48