Command Palette

Search for a command to run...

4 个月前

Qwen2.5-VL 技术报告

Qwen2.5-VL 技术报告

摘要

我们推出 Qwen2.5-VL,这是 Qwen 视觉语言系列的最新旗舰模型,在基础能力与创新功能方面均实现显著提升。Qwen2.5-VL 通过增强的视觉识别能力、精准的物体定位、强大的文档解析能力以及对长视频的深度理解,实现了对世界认知与交互能力的重大飞跃。Qwen2.5-VL 的一大亮点是能够以边界框或点的形式实现高精度的物体定位,可从发票、表单和表格中稳健提取结构化数据,并对图表、示意图及版面布局进行细致分析。为应对复杂输入,Qwen2.5-VL 引入了动态分辨率处理与绝对时间编码技术,使其能够处理不同尺寸的图像以及长达数小时的视频,并实现秒级事件定位。该设计使模型能够原生感知空间尺度与时间动态,无需依赖传统的归一化处理方法。通过从零开始训练具备原生动态分辨率能力的视觉Transformer(ViT)模型,并结合窗口注意力(Window Attention)机制,我们在保持原生分辨率的同时显著降低了计算开销。因此,Qwen2.5-VL 不仅在静态图像与文档理解方面表现卓越,更可作为具备推理能力、工具调用与任务执行能力的交互式视觉智能体,在操作计算机和移动设备等真实场景中发挥实际作用。Qwen2.5-VL 提供三种不同规模的版本,可满足从边缘AI到高性能计算的多样化应用需求。其中,旗舰版 Qwen2.5-VL-72B 在文档与图示理解方面表现尤为突出,其综合性能可与 GPT-4o、Claude 3.5 Sonnet 等当前最先进模型相媲美。此外,Qwen2.5-VL 仍保持了强大的语言能力,完整保留了 Qwen2.5 大语言模型的核心语言理解与生成能力。

代码仓库

qwenlm/qwen2.5-vl
pytorch
GitHub 中提及
princeton-nlp/CharXiv
pytorch
GitHub 中提及
qwenlm/qwen2-vl
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-vqa-on-vlm2-benchQwen2.5-VL-7B
Average Score on VLM2-bench (9 subtasks): 54.82
GC-mat: 35.91
GC-trk: 43.38
OC-cnt: 41.72
OC-cpr: 71.39
OC-grp: 47.50
PC-VID: 46.50
PC-cnt: 57.98
PC-cpr: 80.00
PC-grp: 69.00

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供