Command Palette

Search for a command to run...

4 个月前

用文化知识对多语言多模态LLM进行接地

Jean de Dieu Nyandwi Yueqi Song Simran Khanuja Graham Neubig

用文化知识对多语言多模态LLM进行接地

摘要

多模态大语言模型(MLLMs)在高资源环境下表现优异,但在处理长尾文化实体时常常出现误解,且在低资源语言上的性能表现不佳。为弥补这一差距,我们提出一种以数据为中心的方法,直接将MLLMs与文化知识进行对齐。基于Wikidata构建的大规模知识图谱,我们收集了代表具有文化重要性的实体的图像,并生成了合成的多语言视觉问答数据。由此构建的数据集——CulturalGround,包含2200万条高质量、富含文化内涵的视觉问答对,覆盖42个国家和39种语言。我们在CulturalGround上训练了一个开源的多模态大语言模型CulturalPangea,并穿插使用标准的多语言指令微调数据,以保持其通用能力。实验结果表明,CulturalPangea在多个聚焦文化的多语言多模态基准测试中达到当前开源模型的最先进水平,平均性能超越以往模型5.0个百分点,同时在主流视觉-语言任务上未出现性能下降。研究结果表明,我们提出的这种有针对性的、以文化为根基的方法,能够显著缩小多模态大语言模型中的文化差距,并为构建全球包容性的多模态系统提供一条切实可行的路径。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用文化知识对多语言多模态LLM进行接地 | 论文 | HyperAI超神经