HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务条款
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务条款
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
用于微调MLLMs的定向推理注入
视觉问答
统一多模态
Chao Huang, Zeliang Zhang, Jiang Liu, et al.
语言模型是单射的,因此可逆
Transformer
自然语言处理
Giorgos Nikolaou, Tommaso Mencattini, Donato Crisostomi, et al.
自由Transformer
Transformer
统一多模态
François Fleuret
基于机器学习的量子处理单元(QPU)处理时间预测
机器学习
模型训练
Lucy Xing, Sanjay Vishwakarma, David Kremer, et al.
量子遍历性边缘的建设性干涉观测
AI for Science
建模
Google Quantum AI and Collaborators
VideoAgentTrek:从无标签视频中进行计算机使用预训练
动作识别
人机交互
Dunjie Lu, Yiheng Xu, Junli Wang, et al.
GigaBrain-0:基于世界模型的视觉-语言-行动模型
具身智能
机器人技术
GigaBrain Team, Angen Ye, Boyuan Wang, et al.
LoongRL:面向长上下文的高级推理强化学习
LLM
推理
Siyuan Wang, Gaokai Zhang, Li Lyna Zhang, et al.
BAPO:通过自适应裁剪的平衡策略优化稳定化LLM的离策略强化学习
强化学习
LLM
Zhiheng Xi, Xin Guo, Yang Nan, et al.
每个Attention都至关重要:一种用于长上下文推理的高效混合架构
Transformer
模型训练
Ling Team, Bin Han, Caizhi Tang, et al.
正确着色:连接感知色彩空间与文本嵌入以提升扩散生成效果
图像修复
扩散模型
Sung-Lin Tsai, Bo-Lun Huang, Yu Ting Shen, et al.
基于视觉-语言模型的自指多视角场景空间推理
视觉问答
多模态
Mohsen Gholami, Ahmad Rezaei, Zhou Weimin, et al.
LoFT:面向开放世界场景中长尾半监督学习的参数高效微调
监督式微调
图像识别
Jiahao Chen, Zhiyuan Huang, Yurou Liu, et al.
FLOWER:通过高效的视觉-语言-动作流策略实现通用机器人策略的民主化
LLM
统一多模态
Moritz Reuss, Hongyi Zhou, Marcel Rühle, et al.
基于图像修复引导的扩散型大语言模型策略优化
强化学习
扩散模型
Siyan Zhao, Mengchen Liu, Jing Huang, et al.
MCP-AgentBench:通过MCP中介工具评估真实世界语言Agent性能
基准
Agent
Zikang Guo, Benfeng Xu, Chiwei Zhu, et al.
扩散模型中的缓存方法综述:面向高效多模态生成
扩散模型
多模态
Jiacheng Liu, Xinyu Wang, Yuqi Lin, et al.
重新思考驾驶世界模型作为感知任务的合成数据生成器
视频生成
自动驾驶
Kai Zeng, Zhanqian Wu, Kaixin Xiong, et al.
空间可变对焦
深度估计
计算机视觉
Yingsi Qin, Aswin C. Sankaranarayanan, Matthew O'Toole
何时进行集成:识别用于稳定且快速LLM集成的token级点
LLM
Transformer
Heecheol Yun, Kwangmin Ki, Junghyun Lee, et al.
面向通用检索增强生成的混合模态检索
检索增强生成
多模态
Chenghao Zhang, Guanting Dong, Xinyu Yang, et al.
FineVision:开放数据即所需全部
多模态
统一多模态
Luis Wiedmann, Orr Zohar, Amir Mahla, et al.
Glyph:通过视觉-文本压缩扩展上下文窗口
视觉问答
文档理解
Jiale Cheng, Yusen Liu, Xinyu Zhang, et al.
PICABench:我们离物理上真实的图像编辑还有多远?
图像修复
图生图
Yuandong Pu, Le Zhuo, Songhao Han, et al.
DeepAnalyze:用于自主数据科学的智能体大型语言模型
LLM
Agent
Shaolei Zhang, Ju Fan, Meihao Fan, et al.
基于自注意力机制的算子学习3D-IC热仿真
AI for Science
Transformer
Zhen Huang, Hong Wang, Wenkai Yang, et al.
Earth AI:基于基础模型与跨模态推理解锁地理空间洞察
多模态
推理
Aaron Bell, Amit Aides, Amr Helmy, et al.
从统计学视角重新思考跨语言鸿沟
LLM
自然语言处理
Vihari Piratla, Purvam Jain, Darshan Singh, et al.
通过结构化组件化奖励机制释放科学推理能力以生成生物实验协议
推理
LLM
Haoran Sun, Yankai Jiang, Zhenyu Tang, et al.
Skyfall-GS:从卫星影像合成沉浸式3D城市场景
3D 生成
扩散模型
Jie-Ying Lee, Yi-Ruei Liu, Shr-Ruei Tsai, et al.
上下文学习导致的涌现性错位:有限的上下文示例可导致广泛错位的LLM
LLM
推理
Nikita Afonin, Nikita Andriyanov, Nikhil Bageshpura, et al.
NANO3D:一种无需训练的高效3D编辑方法,无需掩码
3D 模型
图像修复
Junliang Ye, Shenghao Xie, Ruowen Zhao, et al.
1
19
20
21
22
23
24
25
48
用于微调MLLMs的定向推理注入
视觉问答
统一多模态
Chao Huang, Zeliang Zhang, Jiang Liu, et al.
语言模型是单射的,因此可逆
Transformer
自然语言处理
Giorgos Nikolaou, Tommaso Mencattini, Donato Crisostomi, et al.
自由Transformer
Transformer
统一多模态
François Fleuret
基于机器学习的量子处理单元(QPU)处理时间预测
机器学习
模型训练
Lucy Xing, Sanjay Vishwakarma, David Kremer, et al.
量子遍历性边缘的建设性干涉观测
AI for Science
建模
Google Quantum AI and Collaborators
VideoAgentTrek:从无标签视频中进行计算机使用预训练
动作识别
人机交互
Dunjie Lu, Yiheng Xu, Junli Wang, et al.
GigaBrain-0:基于世界模型的视觉-语言-行动模型
具身智能
机器人技术
GigaBrain Team, Angen Ye, Boyuan Wang, et al.
LoongRL:面向长上下文的高级推理强化学习
LLM
推理
Siyuan Wang, Gaokai Zhang, Li Lyna Zhang, et al.
BAPO:通过自适应裁剪的平衡策略优化稳定化LLM的离策略强化学习
强化学习
LLM
Zhiheng Xi, Xin Guo, Yang Nan, et al.
每个Attention都至关重要:一种用于长上下文推理的高效混合架构
Transformer
模型训练
Ling Team, Bin Han, Caizhi Tang, et al.
正确着色:连接感知色彩空间与文本嵌入以提升扩散生成效果
图像修复
扩散模型
Sung-Lin Tsai, Bo-Lun Huang, Yu Ting Shen, et al.
基于视觉-语言模型的自指多视角场景空间推理
视觉问答
多模态
Mohsen Gholami, Ahmad Rezaei, Zhou Weimin, et al.
LoFT:面向开放世界场景中长尾半监督学习的参数高效微调
监督式微调
图像识别
Jiahao Chen, Zhiyuan Huang, Yurou Liu, et al.
FLOWER:通过高效的视觉-语言-动作流策略实现通用机器人策略的民主化
LLM
统一多模态
Moritz Reuss, Hongyi Zhou, Marcel Rühle, et al.
基于图像修复引导的扩散型大语言模型策略优化
强化学习
扩散模型
Siyan Zhao, Mengchen Liu, Jing Huang, et al.
MCP-AgentBench:通过MCP中介工具评估真实世界语言Agent性能
基准
Agent
Zikang Guo, Benfeng Xu, Chiwei Zhu, et al.
扩散模型中的缓存方法综述:面向高效多模态生成
扩散模型
多模态
Jiacheng Liu, Xinyu Wang, Yuqi Lin, et al.
重新思考驾驶世界模型作为感知任务的合成数据生成器
视频生成
自动驾驶
Kai Zeng, Zhanqian Wu, Kaixin Xiong, et al.
空间可变对焦
深度估计
计算机视觉
Yingsi Qin, Aswin C. Sankaranarayanan, Matthew O'Toole
何时进行集成:识别用于稳定且快速LLM集成的token级点
LLM
Transformer
Heecheol Yun, Kwangmin Ki, Junghyun Lee, et al.
面向通用检索增强生成的混合模态检索
检索增强生成
多模态
Chenghao Zhang, Guanting Dong, Xinyu Yang, et al.
FineVision:开放数据即所需全部
多模态
统一多模态
Luis Wiedmann, Orr Zohar, Amir Mahla, et al.
Glyph:通过视觉-文本压缩扩展上下文窗口
视觉问答
文档理解
Jiale Cheng, Yusen Liu, Xinyu Zhang, et al.
PICABench:我们离物理上真实的图像编辑还有多远?
图像修复
图生图
Yuandong Pu, Le Zhuo, Songhao Han, et al.
DeepAnalyze:用于自主数据科学的智能体大型语言模型
LLM
Agent
Shaolei Zhang, Ju Fan, Meihao Fan, et al.
基于自注意力机制的算子学习3D-IC热仿真
AI for Science
Transformer
Zhen Huang, Hong Wang, Wenkai Yang, et al.
Earth AI:基于基础模型与跨模态推理解锁地理空间洞察
多模态
推理
Aaron Bell, Amit Aides, Amr Helmy, et al.
从统计学视角重新思考跨语言鸿沟
LLM
自然语言处理
Vihari Piratla, Purvam Jain, Darshan Singh, et al.
通过结构化组件化奖励机制释放科学推理能力以生成生物实验协议
推理
LLM
Haoran Sun, Yankai Jiang, Zhenyu Tang, et al.
Skyfall-GS:从卫星影像合成沉浸式3D城市场景
3D 生成
扩散模型
Jie-Ying Lee, Yi-Ruei Liu, Shr-Ruei Tsai, et al.
上下文学习导致的涌现性错位:有限的上下文示例可导致广泛错位的LLM
LLM
推理
Nikita Afonin, Nikita Andriyanov, Nikhil Bageshpura, et al.
NANO3D:一种无需训练的高效3D编辑方法,无需掩码
3D 模型
图像修复
Junliang Ye, Shenghao Xie, Ruowen Zhao, et al.
1
19
20
21
22
23
24
25
48