Command Palette

Search for a command to run...

6 个月前

InternLM-XComposer:一种用于高级文本-图像理解与生成的视觉-语言大模型

Pan Zhang*1, Xiaoyi Dong*1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

InternLM-XComposer:一种用于高级文本-图像理解与生成的视觉-语言大模型

摘要

我们提出了一种名为InternLM-XComposer的视觉-语言大模型,该模型能够实现高级图像-文本理解和生成。我们的模型具有以下三个引人注目的特性:1)交错式文本-图像生成:InternLM-XComposer可以轻松生成连贯且上下文相关的文章,无缝集成图像,提供更加吸引人和沉浸式的阅读体验。只需提供写作指令,系统即可生成相应的稿件。它能够智能地识别出文本中哪些部分可以通过插入图像来增强内容,并自动选择最合适的视觉素材进行插入。2)丰富的多语言知识理解:通过在精心设计的策略下训练一个广泛的多模态多语言数据库,该模型对视觉内容的理解达到了深层次。3)最先进的性能:我们的模型在各种主流的视觉-语言基础模型基准测试中始终表现出色,包括MME基准测试、MMBench、MMBench-CN、Seed-Bench、CCBench(中国传统文化基准测试)、QBench和Tiny LVLM。由于缺乏定量评估文本-图像生成效果的标准指标,我们设计了一套稳健的评估程序,其中包括人类评审和GPT4-Vision (GPT4-V),以确保可靠性。值得注意的是,我们的InternLM-XComposer在与公开解决方案(如GPT4-V和GPT3.5)相比时,其文本-图像生成得分具有竞争力。总体而言,InternLM-XComposer将先进的文本-图像理解和生成技术无缝融合,革新了视觉-语言交互方式,并提供了新的见解和机会。InternLM-XComposer模型系列已在https://github.com/InternLM/InternLM-XComposer公开发布

基准测试

基准方法指标
visual-question-answering-vqa-on-core-mmInternLM-XComposer-VL
Abductive: 35.97
Analogical: 18.61
Deductive: 26.77
Overall score: 26.84
Params: 9B

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
InternLM-XComposer:一种用于高级文本-图像理解与生成的视觉-语言大模型 | 论文 | HyperAI超神经