Command Palette

Search for a command to run...

1 天前

ViDiC:视频差异描述

Jiangtao Wu Shihao Li Zhaozhou Bian Yuanxing Zhang Jialu Chen Runzhe Wen An Ping Yiwen He Jiakai Wang Jiaheng Liu

ViDiC:视频差异描述

摘要

理解动态场景之间的视觉差异,需要对构图、空间和时间变化进行对比感知——这一能力在现有视觉-语言系统中仍处于未充分探索的状态。尽管此前在图像差异描述(Image Difference Captioning, IDC)方面的研究已使模型能够描述静态图像之间的语义变化,但这些方法难以捕捉运动的连续性、事件的演化过程或编辑的一致性等时间维度上的关键特征。为此,我们提出了视频差异描述(Video Difference Captioning, ViDiC)任务,并构建了相应的ViDiC-1K数据集,旨在评估多模态大语言模型(Multimodal Large Language Models, MLLMs)对视频对之间相似性与差异性的细粒度描述能力。ViDiC-1K包含1,000组精心筛选的视频对,配有超过4,000项对比检查项,涵盖七个类别:主体、风格、背景、摄影手法、运动、场景位置以及播放技术。为确保评估的可靠性,我们提出一种双检查项框架,基于“大语言模型作为评判者”(LLM-as-a-Judge)的协议,分别衡量模型在相似性与差异性判断上的准确性。在19个代表性多模态模型上的实验表明,这些模型在对比描述与差异感知能力方面存在显著性能差距。我们期望ViDiC-1K能够成为一个具有挑战性的基准,为推动视频理解、编辑意识以及多模态智能中的对比推理能力发展奠定坚实基础。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ViDiC:视频差异描述 | 论文 | HyperAI超神经