Command Palette
Search for a command to run...
Pan Zhang*1, Xiaoyi Dong*1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

摘要
我们提出了一种名为InternLM-XComposer的视觉-语言大模型,该模型能够实现高级图像-文本理解和生成。我们的模型具有以下三个引人注目的特性:1)交错式文本-图像生成:InternLM-XComposer可以轻松生成连贯且上下文相关的文章,无缝集成图像,提供更加吸引人和沉浸式的阅读体验。只需提供写作指令,系统即可生成相应的稿件。它能够智能地识别出文本中哪些部分可以通过插入图像来增强内容,并自动选择最合适的视觉素材进行插入。2)丰富的多语言知识理解:通过在精心设计的策略下训练一个广泛的多模态多语言数据库,该模型对视觉内容的理解达到了深层次。3)最先进的性能:我们的模型在各种主流的视觉-语言基础模型基准测试中始终表现出色,包括MME基准测试、MMBench、MMBench-CN、Seed-Bench、CCBench(中国传统文化基准测试)、QBench和Tiny LVLM。由于缺乏定量评估文本-图像生成效果的标准指标,我们设计了一套稳健的评估程序,其中包括人类评审和GPT4-Vision (GPT4-V),以确保可靠性。值得注意的是,我们的InternLM-XComposer在与公开解决方案(如GPT4-V和GPT3.5)相比时,其文本-图像生成得分具有竞争力。总体而言,InternLM-XComposer将先进的文本-图像理解和生成技术无缝融合,革新了视觉-语言交互方式,并提供了新的见解和机会。InternLM-XComposer模型系列已在https://github.com/InternLM/InternLM-XComposer公开发布。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-vqa-on-core-mm | InternLM-XComposer-VL | Abductive: 35.97 Analogical: 18.61 Deductive: 26.77 Overall score: 26.84 Params: 9B |