HyperAI超神经

摘要

尽管多模态智能体系统近年来取得了显著进展，现有方法通常将图像操作与网络搜索视为相互独立的能力，严重依赖昂贵的强化学习训练，并且缺乏基于真实工具执行轨迹的规划能力。为解决上述局限，我们提出Skywork-R1V4——一个拥有300亿（A3B）参数的多模态智能体模型，该模型首次实现了多模态规划、主动图像操作（“以图像思考”）、深度多模态搜索，以及最关键的一点：动态交织的推理机制，能够在视觉操作与外部知识检索之间进行实时交替。Skywork-R1V4仅通过在少于3万条高质量、规划与执行一致的轨迹上进行监督微调训练，并结合逐步一致性过滤进行验证，便在感知与多模态搜索基准测试中取得了当前最优性能：在MMSearch上达到66.1分，在FVQA上达到67.2分，全面超越Gemini 2.5 Flash在全部11项指标上的表现。在推理阶段，Skywork-R1V4展现出涌现的长程推理能力，能够成功协调超过10次工具调用，完成复杂且多步骤的任务。我们的实验结果表明，仅通过精心构建的监督学习即可实现高度复杂的多模态智能体智能，无需依赖任何强化学习机制。

摘要

Skywork-R1V4：通过图像与DeepResearch的交织思维迈向智能多模态代理

Yifan Zhang Liang Hu Haofeng Sun Peiyu Wang Yichen Wei Shukang Yin Jiangbo Pei Wei Shen Peng Xia Yi Peng

摘要

用 AI 构建 AI

Hyper Newsletters

Skywork-R1V4：通过图像与DeepResearch的交织思维迈向智能多模态代理

Yifan Zhang Liang Hu Haofeng Sun Peiyu Wang Yichen Wei Shukang Yin Jiangbo Pei Wei Shen Peng Xia Yi Peng

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

Skywork-R1V4：通过图像与DeepResearch的交织思维迈向智能多模态代理

Yifan Zhang Liang Hu Haofeng Sun Peiyu Wang Yichen Wei Shukang Yin Jiangbo Pei Wei Shen Peng Xia Yi Peng5 more

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

Skywork-R1V4：通过图像与DeepResearch的交织思维迈向智能多模态代理

Yifan Zhang Liang Hu Haofeng Sun Peiyu Wang Yichen Wei Shukang Yin Jiangbo Pei Wei Shen Peng Xia Yi Peng5 more

摘要

用 AI 构建 AI

Hyper Newsletters

Yifan Zhang Liang Hu Haofeng Sun Peiyu Wang Yichen Wei Shukang Yin Jiangbo Pei Wei Shen Peng Xia Yi Peng

Yifan Zhang Liang Hu Haofeng Sun Peiyu Wang Yichen Wei Shukang Yin Jiangbo Pei Wei Shen Peng Xia Yi Peng