HyperAI超神经

文档
资讯
论文
教程
数据集
百科
SOTA
LLM 模型天梯
GPU 天梯
顶会

关于服务条款隐私政策
中文

HyperAI超神经

Command Palette

Search for a command to run...

首页
论文

论文

每日更新的前沿 AI 研究论文，助您把握人工智能最新动向

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集帮助

产品

资讯教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI超神经

津ICP备17010941号-1

京公网安备11010502038810号

Discord X (formerly Twitter)Bilibili

HyperAI超神经

文档
资讯
论文
教程
数据集
百科
SOTA
LLM 模型天梯
GPU 天梯
顶会

关于服务条款隐私政策
中文

HyperAI超神经

Command Palette

Search for a command to run...

首页
论文

论文

每日更新的前沿 AI 研究论文，助您把握人工智能最新动向

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集帮助

产品

资讯教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI超神经

津ICP备17010941号-1

京公网安备11010502038810号

Discord X (formerly Twitter)Bilibili

论文 | HyperAI超神经

Hunyuan-GameCraft：混合历史条件的高动态交互式游戏视频生成

Hunyuan-GameCraft：混合历史条件的高动态交互式游戏视频生成

Li, Jiaqi, Tang, et al.

VIKI-R：通过强化学习协调具身多智能体合作

VIKI-R：通过强化学习协调具身多智能体合作

Kang, Li, Song, et al.

PAROAttention：面向模式的重排序以提高视觉生成模型中稀疏和量化注意力机制的效率

PAROAttention：面向模式的重排序以提高视觉生成模型中稀疏和量化注意力机制的效率

Zhao, Tianchen, Hong, et al.

视觉引导的分块是你所需要的：增强RAG的多模态文档理解

视觉引导的分块是你所需要的：增强RAG的多模态文档理解

Tripathi, Vishesh, Odapally, et al.

拖放式LLM：零样本提示到权重

拖放式LLM：零样本提示到权重

Liang, Zhiyuan, Tang, et al.

进化缓存加速现成扩散模型

进化缓存加速现成扩散模型

Aggarwal, Anirud, Shrivastava, et al.

RE-IMAGINE：用于推理评估的符号基准合成

RE-IMAGINE：用于推理评估的符号基准合成

Xu, Xinnuo, Lawrence, et al.

SonicVerse：基于音乐特征的多任务学习字幕生成

SonicVerse：基于音乐特征的多任务学习字幕生成

Chopra, Anuradha, Roy, et al.

并非一切尽失：无需检查点的LLM恢复

并非一切尽失：无需检查点的LLM恢复

Blagoev, Nikolay, Ersoy, et al.

日晷：一系列功能强大的时间序列基础模型

日晷：一系列功能强大的时间序列基础模型

Yong Liu, Guo Qin, Zhiyuan Shi, et al.

ADRD：基于规则决策系统的LLM驱动自主驾驶

ADRD：基于规则决策系统的LLM驱动自主驾驶

Fanzhi Zeng, Siqi Wang, Chuzhao Zhu, et al.

改进的迭代精炼方法用于通过结构化指令实现图表到代码的生成

改进的迭代精炼方法用于通过结构化指令实现图表到代码的生成

Chengzhi Xu, Yuyang Wang, Lai Wei, et al.

Show-O2：改进的原生统一多模态模型

Show-O2：改进的原生统一多模态模型

Jinheng Xie, Zhenheng Yang, Mike Zheng Shou

从跨领域视角重新审视强化学习在大语言模型推理中的应用

从跨领域视角重新审视强化学习在大语言模型推理中的应用

Zhoujun Cheng, Shibo Hao, Tianyang Liu, et al.

Raptor：利用预训练2D基础模型实现可扩展的无训练3D医学体积嵌入

Raptor：利用预训练2D基础模型实现可扩展的无训练3D医学体积嵌入

Ulzee An, Moonseong Jeong, Simon Austin Lee, et al.

EmoNet-Voice：用于语音情感检测的细粒度、专家验证基准数据集

EmoNet-Voice：用于语音情感检测的细粒度、专家验证基准数据集

Christoph Schuhmann, Robert Kaczmarczyk, Gollam Rabby, et al.

s1：简单测试时缩放

s1：简单测试时缩放

Niklas Muennighoff, Zitong Yang, Weijia Shi, et al.

VideoLLaMA 3：面向图像与视频理解的前沿多模态基础模型

VideoLLaMA 3：面向图像与视频理解的前沿多模态基础模型

Boqiang Zhang, Kehan Li, Zesen Cheng, et al.

Search-o1：代理增强型搜索大推理模型

Search-o1：代理增强型搜索大推理模型

Xiaoxi Li, Guanting Dong, Jiajie Jin, et al.

LLaVA-Mini：仅用一个视觉token实现高效图像与视频大型多模态模型

LLaVA-Mini：仅用一个视觉token实现高效图像与视频大型多模态模型

Shaolei Zhang, Qingkai Fang, Zhe Yang, et al.

MAmmoTH-VL：通过大规模指令微调激发多模态推理

MAmmoTH-VL：通过大规模指令微调激发多模态推理

Jarvis Guo, Tuney Zheng, Yuelin Bai, et al.

ShowUI：面向GUI视觉Agent的统一视觉-语言-动作模型

ShowUI：面向GUI视觉Agent的统一视觉-语言-动作模型

Kevin Qinghong Lin, Linjie Li, Difei Gao, et al.

OS-ATLAS：用于通用GUI Agent的基础动作模型

OS-ATLAS：用于通用GUI Agent的基础动作模型

Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, et al.

GPT-4o 系统卡

GPT-4o 系统卡

OpenAI, Aaron Hurst, Adam Lerer, et al.

SAM2Long：通过无训练记忆树增强SAM 2的长视频分割能力

SAM2Long：通过无训练记忆树增强SAM 2的长视频分割能力

Shuangrui Ding, Rui Qian, Xiaoyi Dong, et al.

Aria：一个开放的多模态原生专家混合模型

Aria：一个开放的多模态原生专家混合模型

Dongxu Li, Yudong Liu, Haoning Wu, et al.

Qwen2-VL：在任意分辨率下提升视觉-语言模型对世界的感知能力

Qwen2-VL：在任意分辨率下提升视觉-语言模型对世界的感知能力

Peng Wang, Shuai Bai, Sinan Tan, et al.

VGGT：视觉几何接地变压器

VGGT：视觉几何接地变压器

Jianyuan Wang, Minghao Chen, Nikita Karaev, et al.

通过单步奖励实现多轮代码生成

通过单步奖励实现多轮代码生成

Arnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, et al.

重新审视大型语言模型的组合泛化能力及其指令遵循能力

重新审视大型语言模型的组合泛化能力及其指令遵循能力

Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe

具身网络代理：弥合物理-数字领域以实现集成代理智能

具身网络代理：弥合物理-数字领域以实现集成代理智能

Yining Hong, Rui Sun, Bingxuan Li, et al.

语义感知奖励在自由形式生成中的开放式R1训练

语义感知奖励在自由形式生成中的开放式R1训练

Zongxia Li, Yapei Chang, Yuhang Zhou, et al.

Hunyuan-GameCraft：混合历史条件的高动态交互式游戏视频生成

Hunyuan-GameCraft：混合历史条件的高动态交互式游戏视频生成

Li, Jiaqi, Tang, et al.

VIKI-R：通过强化学习协调具身多智能体合作

VIKI-R：通过强化学习协调具身多智能体合作

Kang, Li, Song, et al.

PAROAttention：面向模式的重排序以提高视觉生成模型中稀疏和量化注意力机制的效率

PAROAttention：面向模式的重排序以提高视觉生成模型中稀疏和量化注意力机制的效率

Zhao, Tianchen, Hong, et al.

视觉引导的分块是你所需要的：增强RAG的多模态文档理解

视觉引导的分块是你所需要的：增强RAG的多模态文档理解

Tripathi, Vishesh, Odapally, et al.

拖放式LLM：零样本提示到权重

拖放式LLM：零样本提示到权重

Liang, Zhiyuan, Tang, et al.

进化缓存加速现成扩散模型

进化缓存加速现成扩散模型

Aggarwal, Anirud, Shrivastava, et al.

RE-IMAGINE：用于推理评估的符号基准合成

RE-IMAGINE：用于推理评估的符号基准合成

Xu, Xinnuo, Lawrence, et al.

SonicVerse：基于音乐特征的多任务学习字幕生成

SonicVerse：基于音乐特征的多任务学习字幕生成

Chopra, Anuradha, Roy, et al.

并非一切尽失：无需检查点的LLM恢复

并非一切尽失：无需检查点的LLM恢复

Blagoev, Nikolay, Ersoy, et al.

日晷：一系列功能强大的时间序列基础模型

日晷：一系列功能强大的时间序列基础模型

Yong Liu, Guo Qin, Zhiyuan Shi, et al.

ADRD：基于规则决策系统的LLM驱动自主驾驶

ADRD：基于规则决策系统的LLM驱动自主驾驶

Fanzhi Zeng, Siqi Wang, Chuzhao Zhu, et al.

改进的迭代精炼方法用于通过结构化指令实现图表到代码的生成

改进的迭代精炼方法用于通过结构化指令实现图表到代码的生成

Chengzhi Xu, Yuyang Wang, Lai Wei, et al.

Show-O2：改进的原生统一多模态模型

Show-O2：改进的原生统一多模态模型

Jinheng Xie, Zhenheng Yang, Mike Zheng Shou

从跨领域视角重新审视强化学习在大语言模型推理中的应用

从跨领域视角重新审视强化学习在大语言模型推理中的应用

Zhoujun Cheng, Shibo Hao, Tianyang Liu, et al.

Raptor：利用预训练2D基础模型实现可扩展的无训练3D医学体积嵌入

Raptor：利用预训练2D基础模型实现可扩展的无训练3D医学体积嵌入

Ulzee An, Moonseong Jeong, Simon Austin Lee, et al.

EmoNet-Voice：用于语音情感检测的细粒度、专家验证基准数据集

EmoNet-Voice：用于语音情感检测的细粒度、专家验证基准数据集

Christoph Schuhmann, Robert Kaczmarczyk, Gollam Rabby, et al.

s1：简单测试时缩放

s1：简单测试时缩放

Niklas Muennighoff, Zitong Yang, Weijia Shi, et al.

VideoLLaMA 3：面向图像与视频理解的前沿多模态基础模型

VideoLLaMA 3：面向图像与视频理解的前沿多模态基础模型

Boqiang Zhang, Kehan Li, Zesen Cheng, et al.

Search-o1：代理增强型搜索大推理模型

Search-o1：代理增强型搜索大推理模型

Xiaoxi Li, Guanting Dong, Jiajie Jin, et al.

LLaVA-Mini：仅用一个视觉token实现高效图像与视频大型多模态模型

LLaVA-Mini：仅用一个视觉token实现高效图像与视频大型多模态模型

Shaolei Zhang, Qingkai Fang, Zhe Yang, et al.

MAmmoTH-VL：通过大规模指令微调激发多模态推理

MAmmoTH-VL：通过大规模指令微调激发多模态推理

Jarvis Guo, Tuney Zheng, Yuelin Bai, et al.

ShowUI：面向GUI视觉Agent的统一视觉-语言-动作模型

ShowUI：面向GUI视觉Agent的统一视觉-语言-动作模型

Kevin Qinghong Lin, Linjie Li, Difei Gao, et al.

OS-ATLAS：用于通用GUI Agent的基础动作模型

OS-ATLAS：用于通用GUI Agent的基础动作模型

Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, et al.

GPT-4o 系统卡

GPT-4o 系统卡

OpenAI, Aaron Hurst, Adam Lerer, et al.

SAM2Long：通过无训练记忆树增强SAM 2的长视频分割能力

SAM2Long：通过无训练记忆树增强SAM 2的长视频分割能力

Shuangrui Ding, Rui Qian, Xiaoyi Dong, et al.

Aria：一个开放的多模态原生专家混合模型

Aria：一个开放的多模态原生专家混合模型

Dongxu Li, Yudong Liu, Haoning Wu, et al.

Qwen2-VL：在任意分辨率下提升视觉-语言模型对世界的感知能力

Qwen2-VL：在任意分辨率下提升视觉-语言模型对世界的感知能力

Peng Wang, Shuai Bai, Sinan Tan, et al.

VGGT：视觉几何接地变压器

VGGT：视觉几何接地变压器

Jianyuan Wang, Minghao Chen, Nikita Karaev, et al.

通过单步奖励实现多轮代码生成

通过单步奖励实现多轮代码生成

Arnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, et al.

重新审视大型语言模型的组合泛化能力及其指令遵循能力

重新审视大型语言模型的组合泛化能力及其指令遵循能力

Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe

具身网络代理：弥合物理-数字领域以实现集成代理智能

具身网络代理：弥合物理-数字领域以实现集成代理智能

Yining Hong, Rui Sun, Bingxuan Li, et al.

语义感知奖励在自由形式生成中的开放式R1训练

语义感知奖励在自由形式生成中的开放式R1训练

Zongxia Li, Yapei Chang, Yuhang Zhou, et al.