HyperAI超神经

摘要

我们推出Qwen3-VL，这是迄今为止Qwen系列中能力最强的视觉语言模型，在广泛的多模态基准测试中均展现出卓越性能。该模型原生支持长达256K tokens的交错上下文，能够无缝融合文本、图像与视频信息。模型家族涵盖密集架构（2B/4B/8B/32B）与混合专家架构（30B-A3B/235B-A22B），以适应不同场景下的延迟与质量权衡需求。Qwen3-VL具备三大核心能力：（i）显著增强的纯文本理解能力，在多个场景下超越同类纯文本骨干模型；（ii）强大的长上下文理解能力，原生支持文本及交错式多模态输入的256K token窗口，能够准确保留、检索并跨长文档与视频实现交叉引用；（iii）在单图、多图及视频任务中均展现出先进的多模态推理能力，在MMMU以及视觉数学基准测试（如MathVista和MathVision）中表现领先。在架构层面，我们引入三项关键升级：（i）改进的交错式MRoPE（interleaved-MRoPE），显著增强图像与视频中的时空建模能力；（ii）引入DeepStack机制，有效利用多层级视觉Transformer（ViT）特征，强化视觉与语言之间的对齐；（iii）基于文本的时间对齐技术，从T-RoPE演进为显式的文本时间戳对齐，实现更精确的时序定位。在相近的token预算与延迟约束下，Qwen3-VL在密集架构与混合专家（MoE）架构中均实现了更优性能。我们展望Qwen3-VL将成为现实工作流中图像引导推理、智能体决策以及多模态代码智能的底层核心引擎。

摘要

通义千问3-VL 技术报告

Shuai Bai Yuxuan Cai Ruizhe Chen Keqin Chen Xionghui Chen Zesen Cheng Lianghao Deng Wei Ding Chang Gao Chunjiang Ge

摘要

用 AI 构建 AI

Hyper Newsletters

通义千问3-VL 技术报告

Shuai Bai Yuxuan Cai Ruizhe Chen Keqin Chen Xionghui Chen Zesen Cheng Lianghao Deng Wei Ding Chang Gao Chunjiang Ge

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

通义千问3-VL 技术报告

Shuai Bai Yuxuan Cai Ruizhe Chen Keqin Chen Xionghui Chen Zesen Cheng Lianghao Deng Wei Ding Chang Gao Chunjiang Ge54 more

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

通义千问3-VL 技术报告

Shuai Bai Yuxuan Cai Ruizhe Chen Keqin Chen Xionghui Chen Zesen Cheng Lianghao Deng Wei Ding Chang Gao Chunjiang Ge54 more

摘要

用 AI 构建 AI

Hyper Newsletters

Shuai Bai Yuxuan Cai Ruizhe Chen Keqin Chen Xionghui Chen Zesen Cheng Lianghao Deng Wei Ding Chang Gao Chunjiang Ge

Shuai Bai Yuxuan Cai Ruizhe Chen Keqin Chen Xionghui Chen Zesen Cheng Lianghao Deng Wei Ding Chang Gao Chunjiang Ge