HyperAI超神经

文档
资讯
论文
教程
数据集
百科
SOTA
LLM 模型天梯
GPU 天梯
顶会

关于服务条款隐私政策
中文

HyperAI超神经

Command Palette

Search for a command to run...

首页
论文

论文

每日更新的前沿 AI 研究论文，助您把握人工智能最新动向

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集帮助

产品

资讯教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI超神经

津ICP备17010941号-1

京公网安备11010502038810号

Discord X (formerly Twitter)Bilibili

HyperAI超神经

文档
资讯
论文
教程
数据集
百科
SOTA
LLM 模型天梯
GPU 天梯
顶会

关于服务条款隐私政策
中文

HyperAI超神经

Command Palette

Search for a command to run...

首页
论文

论文

每日更新的前沿 AI 研究论文，助您把握人工智能最新动向

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集帮助

产品

资讯教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI超神经

津ICP备17010941号-1

京公网安备11010502038810号

Discord X (formerly Twitter)Bilibili

论文 | HyperAI超神经

HumanSense：从多模态感知到通过推理实现共情的上下文感知响应的MLLMs

HumanSense：从多模态感知到通过推理实现共情的上下文感知响应的MLLMs

Zheng Qin, Ruobing Zheng, Yabing Wang, et al.

CamCloneMaster：实现基于参考的相机控制用于视频生成

CamCloneMaster：实现基于参考的相机控制用于视频生成

Yawen Luo, Jianhong Bai, Xiaoyu Shi, et al.

EditScore：通过高保真奖励建模解锁图像编辑中的在线RL

EditScore：通过高保真奖励建模解锁图像编辑中的在线RL

Xin Luo, Jiahao Wang, Chenyuan Wu, et al.

InteractMove：基于文本控制的3D场景中可移动物体的人-物交互生成

InteractMove：基于文本控制的3D场景中可移动物体的人-物交互生成

Xinhao Cai, Minghang Zheng, Xin Jin, et al.

WebCoach：具有跨会话记忆引导的自演化Web Agent

WebCoach：具有跨会话记忆引导的自演化Web Agent

Genglin Liu, Shijie Geng, Sha Li, et al.

信任的学习：在序列决策中对不同建议者可靠性进行贝叶斯自适应

信任的学习：在序列决策中对不同建议者可靠性进行贝叶斯自适应

Dylan M. Asmar, Mykel J. Kochenderfer

GroupRank：一种由强化学习驱动的分组重排序范式

GroupRank：一种由强化学习驱动的分组重排序范式

Duolin Sun, Meixiu Long, Dan Yang, et al.

MMaDA-Parallel：面向思维感知编辑与生成的多模态大扩散语言模型

MMaDA-Parallel：面向思维感知编辑与生成的多模态大扩散语言模型

Ye Tian, Ling Yang, Jiongfan Yang, et al.

TiViBench：面向视频生成模型的视频思维推理基准测试

TiViBench：面向视频生成模型的视频思维推理基准测试

Harold Haodong Chen, Disen Lan, Wen-Jie Shu, et al.

Part-X-MLLM：面向部件感知的3D多模态大语言模型

Part-X-MLLM：面向部件感知的3D多模态大语言模型

Chunshi Wang, Junliang Ye, Yunhan Yang, et al.

Uni-MoE-2.0-Omni：基于先进MoE、训练与数据的面向语言中心的全模态大模型扩展

Uni-MoE-2.0-Omni：基于先进MoE、训练与数据的面向语言中心的全模态大模型扩展

Yunxin Li, Xinyu Chen, Shenyuan Jiang, et al.

P1：基于强化学习的物理奥林匹克竞赛攻关

P1：基于强化学习的物理奥林匹克竞赛攻关

Jiacheng Chen, Qianjia Cheng, Fangchen Yu, et al.

Lancelot：面向高效且隐私保护的拜占庭鲁棒联邦学习的全同态加密框架

Lancelot：面向高效且隐私保护的拜占庭鲁棒联邦学习的全同态加密框架

Siyang Jiang, Hao Yang, Qipeng Xie, et al.

无需变分自编码器的潜在扩散模型

无需变分自编码器的潜在扩散模型

Minglei Shi, Haolin Wang, Wenzhao Zheng, et al.

RewardMap：通过多阶段强化学习应对细粒度视觉推理中的稀疏奖励

RewardMap：通过多阶段强化学习应对细粒度视觉推理中的稀疏奖励

Sicheng Feng, Kaiwen Tuo, Song Wang, et al.

ReinFlow：通过在线强化学习微调流匹配策略

ReinFlow：通过在线强化学习微调流匹配策略

Tonghe Zhang, Chao Yu, Sichang Su, et al.

推理能力的语音评估：诊断模态诱导的性能差距

推理能力的语音评估：诊断模态诱导的性能差距

Yueqian Lin, Zhengmian Hu, Qinsi Wang, et al.

MarsRL：通过代理流水线并行化的强化学习推进多Agent推理系统

MarsRL：通过代理流水线并行化的强化学习推进多Agent推理系统

Shulin Liu, Dong Du, Tao Yang, et al.

虚拟宽度网络

虚拟宽度网络

Seed, Baisheng Li, Banggu Wu, et al.

AIonopedia：一个由 LLM Agent 驱动的多模态学习系统，用于离子液体的发现

AIonopedia：一个由 LLM Agent 驱动的多模态学习系统，用于离子液体的发现

Yuqi Yin, Yibo Fu, Siyuan Wang, et al.

UI2CodeN：一种支持测试时可扩展的交互式UI到代码生成的视觉语言模型

UI2CodeN：一种支持测试时可扩展的交互式UI到代码生成的视觉语言模型

Zhen Yang, Wenyi Hong, Mingde Xu, et al.

GGBench：面向统一多模态模型的几何生成推理基准

GGBench：面向统一多模态模型的几何生成推理基准

Jingxuan Wei, Caijun Jia, Xi Bai, et al.

WEAVE：释放并基准测试上下文交错理解与生成能力

WEAVE：释放并基准测试上下文交错理解与生成能力

Wei Chow, Jiachun Pan, Yongyuan Liang, et al.

DoPE：去噪旋转位置嵌入

DoPE：去噪旋转位置嵌入

Jing Xiong, Liyang Fan, Hui Shen, et al.

BRFL：一种基于区块链的拜占庭鲁棒联邦学习模型

BRFL：一种基于区块链的拜占庭鲁棒联邦学习模型

Yang Li, Chunhe Xia, Chang Li, et al.

基于指数-高斯混合网络的视频观看时长预测多粒度分布建模

基于指数-高斯混合网络的视频观看时长预测多粒度分布建模

Xu Zhao, Ruibo Ma, Jiaqi Chen, et al.

SAC Flow：通过速度重参数化序列建模实现基于流策略的样本高效强化学习

SAC Flow：通过速度重参数化序列建模实现基于流策略的样本高效强化学习

Yixian Zhang, Shu'ang Yu, Tonghe Zhang, et al.

针对闭源MLLM的对抗攻击通过特征最优对齐

针对闭源MLLM的对抗攻击通过特征最优对齐

Xiaojun Jia, Sensen Gao, Simeng Qin, et al.

Hail to the Thief：探索去中心化GRPO中的攻击与防御

Hail to the Thief：探索去中心化GRPO中的攻击与防御

Nikolay Blagoev, Oğuzhan Ersoy, Lydia Yiyu Chen

Depth Anything 3：从任意视角恢复视觉空间

Depth Anything 3：从任意视角恢复视觉空间

Haotong Lin, Sili Chen, Junhao Liew, et al.

大语言模型的黑盒策略蒸馏

大语言模型的黑盒策略蒸馏

Tianzhu Ye, Li Dong, Zewen Chi, et al.

UniVA：面向开源下一代视频通用智能体的通用视频代理

UniVA：面向开源下一代视频通用智能体的通用视频代理

Zhengyang Liang, Daoan Zhang, Huichi Zhou, et al.

HumanSense：从多模态感知到通过推理实现共情的上下文感知响应的MLLMs

HumanSense：从多模态感知到通过推理实现共情的上下文感知响应的MLLMs

Zheng Qin, Ruobing Zheng, Yabing Wang, et al.

CamCloneMaster：实现基于参考的相机控制用于视频生成

CamCloneMaster：实现基于参考的相机控制用于视频生成

Yawen Luo, Jianhong Bai, Xiaoyu Shi, et al.

EditScore：通过高保真奖励建模解锁图像编辑中的在线RL

EditScore：通过高保真奖励建模解锁图像编辑中的在线RL

Xin Luo, Jiahao Wang, Chenyuan Wu, et al.

InteractMove：基于文本控制的3D场景中可移动物体的人-物交互生成

InteractMove：基于文本控制的3D场景中可移动物体的人-物交互生成

Xinhao Cai, Minghang Zheng, Xin Jin, et al.

WebCoach：具有跨会话记忆引导的自演化Web Agent

WebCoach：具有跨会话记忆引导的自演化Web Agent

Genglin Liu, Shijie Geng, Sha Li, et al.

信任的学习：在序列决策中对不同建议者可靠性进行贝叶斯自适应

信任的学习：在序列决策中对不同建议者可靠性进行贝叶斯自适应

Dylan M. Asmar, Mykel J. Kochenderfer

GroupRank：一种由强化学习驱动的分组重排序范式

GroupRank：一种由强化学习驱动的分组重排序范式

Duolin Sun, Meixiu Long, Dan Yang, et al.

MMaDA-Parallel：面向思维感知编辑与生成的多模态大扩散语言模型

MMaDA-Parallel：面向思维感知编辑与生成的多模态大扩散语言模型

Ye Tian, Ling Yang, Jiongfan Yang, et al.

TiViBench：面向视频生成模型的视频思维推理基准测试

TiViBench：面向视频生成模型的视频思维推理基准测试

Harold Haodong Chen, Disen Lan, Wen-Jie Shu, et al.

Part-X-MLLM：面向部件感知的3D多模态大语言模型

Part-X-MLLM：面向部件感知的3D多模态大语言模型

Chunshi Wang, Junliang Ye, Yunhan Yang, et al.

Uni-MoE-2.0-Omni：基于先进MoE、训练与数据的面向语言中心的全模态大模型扩展

Uni-MoE-2.0-Omni：基于先进MoE、训练与数据的面向语言中心的全模态大模型扩展

Yunxin Li, Xinyu Chen, Shenyuan Jiang, et al.

P1：基于强化学习的物理奥林匹克竞赛攻关

P1：基于强化学习的物理奥林匹克竞赛攻关

Jiacheng Chen, Qianjia Cheng, Fangchen Yu, et al.

Lancelot：面向高效且隐私保护的拜占庭鲁棒联邦学习的全同态加密框架

Lancelot：面向高效且隐私保护的拜占庭鲁棒联邦学习的全同态加密框架

Siyang Jiang, Hao Yang, Qipeng Xie, et al.

无需变分自编码器的潜在扩散模型

无需变分自编码器的潜在扩散模型

Minglei Shi, Haolin Wang, Wenzhao Zheng, et al.

RewardMap：通过多阶段强化学习应对细粒度视觉推理中的稀疏奖励

RewardMap：通过多阶段强化学习应对细粒度视觉推理中的稀疏奖励

Sicheng Feng, Kaiwen Tuo, Song Wang, et al.

ReinFlow：通过在线强化学习微调流匹配策略

ReinFlow：通过在线强化学习微调流匹配策略

Tonghe Zhang, Chao Yu, Sichang Su, et al.

推理能力的语音评估：诊断模态诱导的性能差距

推理能力的语音评估：诊断模态诱导的性能差距

Yueqian Lin, Zhengmian Hu, Qinsi Wang, et al.

MarsRL：通过代理流水线并行化的强化学习推进多Agent推理系统

MarsRL：通过代理流水线并行化的强化学习推进多Agent推理系统

Shulin Liu, Dong Du, Tao Yang, et al.

虚拟宽度网络

虚拟宽度网络

Seed, Baisheng Li, Banggu Wu, et al.

AIonopedia：一个由 LLM Agent 驱动的多模态学习系统，用于离子液体的发现

AIonopedia：一个由 LLM Agent 驱动的多模态学习系统，用于离子液体的发现

Yuqi Yin, Yibo Fu, Siyuan Wang, et al.

UI2CodeN：一种支持测试时可扩展的交互式UI到代码生成的视觉语言模型

UI2CodeN：一种支持测试时可扩展的交互式UI到代码生成的视觉语言模型

Zhen Yang, Wenyi Hong, Mingde Xu, et al.

GGBench：面向统一多模态模型的几何生成推理基准

GGBench：面向统一多模态模型的几何生成推理基准

Jingxuan Wei, Caijun Jia, Xi Bai, et al.

WEAVE：释放并基准测试上下文交错理解与生成能力

WEAVE：释放并基准测试上下文交错理解与生成能力

Wei Chow, Jiachun Pan, Yongyuan Liang, et al.

DoPE：去噪旋转位置嵌入

DoPE：去噪旋转位置嵌入

Jing Xiong, Liyang Fan, Hui Shen, et al.

BRFL：一种基于区块链的拜占庭鲁棒联邦学习模型

BRFL：一种基于区块链的拜占庭鲁棒联邦学习模型

Yang Li, Chunhe Xia, Chang Li, et al.

基于指数-高斯混合网络的视频观看时长预测多粒度分布建模

基于指数-高斯混合网络的视频观看时长预测多粒度分布建模

Xu Zhao, Ruibo Ma, Jiaqi Chen, et al.

SAC Flow：通过速度重参数化序列建模实现基于流策略的样本高效强化学习

SAC Flow：通过速度重参数化序列建模实现基于流策略的样本高效强化学习

Yixian Zhang, Shu'ang Yu, Tonghe Zhang, et al.

针对闭源MLLM的对抗攻击通过特征最优对齐

针对闭源MLLM的对抗攻击通过特征最优对齐

Xiaojun Jia, Sensen Gao, Simeng Qin, et al.

Hail to the Thief：探索去中心化GRPO中的攻击与防御

Hail to the Thief：探索去中心化GRPO中的攻击与防御

Nikolay Blagoev, Oğuzhan Ersoy, Lydia Yiyu Chen

Depth Anything 3：从任意视角恢复视觉空间

Depth Anything 3：从任意视角恢复视觉空间

Haotong Lin, Sili Chen, Junhao Liew, et al.

大语言模型的黑盒策略蒸馏

大语言模型的黑盒策略蒸馏

Tianzhu Ye, Li Dong, Zewen Chi, et al.

UniVA：面向开源下一代视频通用智能体的通用视频代理

UniVA：面向开源下一代视频通用智能体的通用视频代理

Zhengyang Liang, Daoan Zhang, Huichi Zhou, et al.