Command Palette

Search for a command to run...

5 个月前

Ovis-U1 技术报告

Ovis-U1 技术报告

摘要

在本报告中,我们介绍了Ovis-U1,这是一个拥有30亿参数的统一模型,集成了多模态理解、文本到图像生成和图像编辑功能。基于Ovis系列的基础,Ovis-U1结合了一个扩散型视觉解码器和一个双向标记精炼器,使其在图像生成任务上能够与GPT-4o等领先模型相媲美。与一些先前使用冻结多语言大模型(MLLM)进行生成任务的模型不同,Ovis-U1采用了一种新的统一训练方法,从语言模型开始进行训练。相比仅针对理解或生成任务进行训练,统一训练方法表现出更好的性能,这证明了将这两种任务整合在一起所带来的提升。Ovis-U1在OpenCompass多模态学术基准测试中得分为69.6,超过了近期的最先进模型如Ristretto-3B和SAIL-VL-1.5-2B。在文本到图像生成方面,它分别在DPG-Bench和GenEval基准测试中取得了83.72和0.89的高分。对于图像编辑任务,它在ImgEdit-Bench和GEdit-Bench-EN基准测试中的得分分别为4.00和6.42。作为Ovis统一模型系列的首个版本,Ovis-U1推动了多模态理解、生成和编辑技术的边界。

代码仓库

aidc-ai/ovis-u1
官方
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供