Command Palette

Search for a command to run...

5 天前

通义千问3-VL 技术报告

通义千问3-VL 技术报告

摘要

我们推出Qwen3-VL,这是迄今为止Qwen系列中能力最强的视觉语言模型,在广泛的多模态基准测试中均展现出卓越性能。该模型原生支持长达256K tokens的交错上下文,能够无缝融合文本、图像与视频信息。模型家族涵盖密集架构(2B/4B/8B/32B)与混合专家架构(30B-A3B/235B-A22B),以适应不同场景下的延迟与质量权衡需求。Qwen3-VL具备三大核心能力:(i)显著增强的纯文本理解能力,在多个场景下超越同类纯文本骨干模型;(ii)强大的长上下文理解能力,原生支持文本及交错式多模态输入的256K token窗口,能够准确保留、检索并跨长文档与视频实现交叉引用;(iii)在单图、多图及视频任务中均展现出先进的多模态推理能力,在MMMU以及视觉数学基准测试(如MathVista和MathVision)中表现领先。在架构层面,我们引入三项关键升级:(i)改进的交错式MRoPE(interleaved-MRoPE),显著增强图像与视频中的时空建模能力;(ii)引入DeepStack机制,有效利用多层级视觉Transformer(ViT)特征,强化视觉与语言之间的对齐;(iii)基于文本的时间对齐技术,从T-RoPE演进为显式的文本时间戳对齐,实现更精确的时序定位。在相近的token预算与延迟约束下,Qwen3-VL在密集架构与混合专家(MoE)架构中均实现了更优性能。我们展望Qwen3-VL将成为现实工作流中图像引导推理、智能体决策以及多模态代码智能的底层核心引擎。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供