Command Palette

Search for a command to run...

4 个月前

斑马-CoT:一种交叉视觉语言推理数据集

斑马-CoT:一种交叉视觉语言推理数据集

摘要

人类在解决复杂问题时,常常借助视觉辅助工具,例如图表或草图。训练多模态模型也实现类似能力,称为“视觉思维链”(Visual Chain of Thought,Visual CoT),但由于以下两个原因面临挑战:(1)现有的视觉CoT性能较差,这限制了强化学习的应用;(2)缺乏高质量的视觉CoT训练数据。我们引入了Zebra-CoT,这是一个包含182,384个样本的多样化大规模数据集,其中包含逻辑连贯的文本与图像交织推理过程。我们重点关注四类任务,其中绘图或视觉推理尤为自然,包括几何、物理和算法等科学问题;视觉搜索和拼图等二维视觉推理任务;3D多跳推理、具身化与机器人规划等三维推理任务;以及视觉逻辑问题和国际象棋等战略游戏。在Zebra-CoT训练语料上对Anole-7B模型进行微调,使我们在测试集上的准确率提升了+12%,并在标准视觉语言模型(VLM)基准测试中实现了最高+13%的性能提升。对Bagel-7B模型进行微调后,生成的模型能够产生高质量的文本与图像交织推理链,这进一步证明了Zebra-CoT在提升多模态推理能力方面的有效性。我们已开源该数据集和相关模型,以支持视觉CoT的研究与评估。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供