Command Palette
Search for a command to run...

摘要
人类在解决复杂问题时,常常借助视觉辅助工具,例如图表或草图。训练多模态模型也实现类似能力,称为“视觉思维链”(Visual Chain of Thought,Visual CoT),但由于以下两个原因面临挑战:(1)现有的视觉CoT性能较差,这限制了强化学习的应用;(2)缺乏高质量的视觉CoT训练数据。我们引入了Zebra-CoT,这是一个包含182,384个样本的多样化大规模数据集,其中包含逻辑连贯的文本与图像交织推理过程。我们重点关注四类任务,其中绘图或视觉推理尤为自然,包括几何、物理和算法等科学问题;视觉搜索和拼图等二维视觉推理任务;3D多跳推理、具身化与机器人规划等三维推理任务;以及视觉逻辑问题和国际象棋等战略游戏。在Zebra-CoT训练语料上对Anole-7B模型进行微调,使我们在测试集上的准确率提升了+12%,并在标准视觉语言模型(VLM)基准测试中实现了最高+13%的性能提升。对Bagel-7B模型进行微调后,生成的模型能够产生高质量的文本与图像交织推理链,这进一步证明了Zebra-CoT在提升多模态推理能力方面的有效性。我们已开源该数据集和相关模型,以支持视觉CoT的研究与评估。