Command Palette

Search for a command to run...

5 个月前

MiCo:多图像对比强化视觉推理

Xi Chen Mingkang Zhu Shaoteng Liu Xiaoyang Wu Xiaogang Xu Yu Liu Xiang Bai Hengshuang Zhao

MiCo:多图像对比强化视觉推理

摘要

这项研究探讨了如何通过链式思维(Chain-of-Thought, CoT)推理来连接多张图像中的视觉线索。一种直接的方法是将基于规则的强化学习应用于视觉-语言模型(Vision-Language Models, VLMs)。然而,这些方法通常依赖于人工整理的问题-答案对,当处理细粒度的视觉细节和跨图像的复杂逻辑时,这尤为困难。受自监督视觉表示学习的启发,我们观察到图像中存在内在约束,可以作为监督信号。基于这一见解,我们构建了包含同一图像的两个增强视图和第三个相似但不同的图像的三元组。在训练过程中,模型被提示生成一个推理过程来比较这些图像(即判断相同或不同)。然后我们使用基于规则的强化学习来优化模型。由于高视觉相似性和增强视图的存在,模型必须关注细微的视觉变化并进行逻辑推理才能成功。实验表明,尽管仅在视觉比较任务上进行训练,所学得的推理能力能够有效泛化到各种问题上。无需依赖任何人工标注的问题-答案对,我们的方法在多图像推理基准测试中取得了显著改进,并在一般视觉任务中表现出色。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MiCo:多图像对比强化视觉推理 | 论文 | HyperAI超神经