HyperAI超神经

摘要

在本报告中，我们介绍了Ovis-U1，这是一个拥有30亿参数的统一模型，集成了多模态理解、文本到图像生成和图像编辑功能。基于Ovis系列的基础，Ovis-U1结合了一个扩散型视觉解码器和一个双向标记精炼器，使其在图像生成任务上能够与GPT-4o等领先模型相媲美。与一些先前使用冻结多语言大模型（MLLM）进行生成任务的模型不同，Ovis-U1采用了一种新的统一训练方法，从语言模型开始进行训练。相比仅针对理解或生成任务进行训练，统一训练方法表现出更好的性能，这证明了将这两种任务整合在一起所带来的提升。Ovis-U1在OpenCompass多模态学术基准测试中得分为69.6，超过了近期的最先进模型如Ristretto-3B和SAIL-VL-1.5-2B。在文本到图像生成方面，它分别在DPG-Bench和GenEval基准测试中取得了83.72和0.89的高分。对于图像编辑任务，它在ImgEdit-Bench和GEdit-Bench-EN基准测试中的得分分别为4.00和6.42。作为Ovis统一模型系列的首个版本，Ovis-U1推动了多模态理解、生成和编辑技术的边界。

代码仓库

aidc-ai/ovis-u1

官方

pytorch

GitHub 中提及

AIDC-AI/Ovis-U1

摘要

代码仓库

aidc-ai/ovis-u1

官方

pytorch

GitHub 中提及

AIDC-AI/Ovis-U1

Ovis-U1 技术报告

Guo-Hua Wang Shanshan Zhao Xinjie Zhang Liangfu Cao Pengxin Zhan Lunhao Duan Shiyin Lu Minghao Fu Xiaohao Chen Jianshan Zhao

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Ovis-U1 技术报告

Guo-Hua Wang Shanshan Zhao Xinjie Zhang Liangfu Cao Pengxin Zhan Lunhao Duan Shiyin Lu Minghao Fu Xiaohao Chen Jianshan Zhao

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

Ovis-U1 技术报告

Guo-Hua Wang Shanshan Zhao Xinjie Zhang Liangfu Cao Pengxin Zhan Lunhao Duan Shiyin Lu Minghao Fu Xiaohao Chen Jianshan Zhao2 more

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

Ovis-U1 技术报告

Guo-Hua Wang Shanshan Zhao Xinjie Zhang Liangfu Cao Pengxin Zhan Lunhao Duan Shiyin Lu Minghao Fu Xiaohao Chen Jianshan Zhao2 more

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Guo-Hua Wang Shanshan Zhao Xinjie Zhang Liangfu Cao Pengxin Zhan Lunhao Duan Shiyin Lu Minghao Fu Xiaohao Chen Jianshan Zhao

Guo-Hua Wang Shanshan Zhao Xinjie Zhang Liangfu Cao Pengxin Zhan Lunhao Duan Shiyin Lu Minghao Fu Xiaohao Chen Jianshan Zhao