Command Palette
Search for a command to run...

摘要
我们推出 Qwen2.5-VL,这是 Qwen 视觉语言系列的最新旗舰模型,在基础能力与创新功能方面均实现显著提升。Qwen2.5-VL 通过增强的视觉识别能力、精准的物体定位、强大的文档解析能力以及对长视频的深度理解,实现了对世界认知与交互能力的重大飞跃。Qwen2.5-VL 的一大亮点是能够以边界框或点的形式实现高精度的物体定位,可从发票、表单和表格中稳健提取结构化数据,并对图表、示意图及版面布局进行细致分析。为应对复杂输入,Qwen2.5-VL 引入了动态分辨率处理与绝对时间编码技术,使其能够处理不同尺寸的图像以及长达数小时的视频,并实现秒级事件定位。该设计使模型能够原生感知空间尺度与时间动态,无需依赖传统的归一化处理方法。通过从零开始训练具备原生动态分辨率能力的视觉Transformer(ViT)模型,并结合窗口注意力(Window Attention)机制,我们在保持原生分辨率的同时显著降低了计算开销。因此,Qwen2.5-VL 不仅在静态图像与文档理解方面表现卓越,更可作为具备推理能力、工具调用与任务执行能力的交互式视觉智能体,在操作计算机和移动设备等真实场景中发挥实际作用。Qwen2.5-VL 提供三种不同规模的版本,可满足从边缘AI到高性能计算的多样化应用需求。其中,旗舰版 Qwen2.5-VL-72B 在文档与图示理解方面表现尤为突出,其综合性能可与 GPT-4o、Claude 3.5 Sonnet 等当前最先进模型相媲美。此外,Qwen2.5-VL 仍保持了强大的语言能力,完整保留了 Qwen2.5 大语言模型的核心语言理解与生成能力。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-vqa-on-vlm2-bench | Qwen2.5-VL-7B | Average Score on VLM2-bench (9 subtasks): 54.82 GC-mat: 35.91 GC-trk: 43.38 OC-cnt: 41.72 OC-cpr: 71.39 OC-grp: 47.50 PC-VID: 46.50 PC-cnt: 57.98 PC-cpr: 80.00 PC-grp: 69.00 |