Command Palette

Search for a command to run...

5 个月前

AnyCap 项目:可控全模态标题生成的统一框架、数据集和基准测试

AnyCap 项目:可控全模态标题生成的统一框架、数据集和基准测试

摘要

可控字幕生成对于精确的多模态对齐和指令跟随至关重要,然而现有的模型通常缺乏细粒度控制和可靠的评估协议。为了解决这一问题,我们推出了AnyCap项目,这是一个涵盖模型、数据集和评估的综合解决方案。我们介绍了AnyCapModel(ACM),这是一种轻量级的即插即用框架,可以在不重新训练基础模型的情况下增强现有基础模型在全模态字幕生成中的可控性。ACM重用了基础模型原有的字幕,同时结合用户指令和模态特征生成改进后的字幕。为了缓解可控多模态字幕生成中数据稀缺的问题,我们构建了AnyCapDataset(ACD),该数据集覆盖了三种模态、28种用户指令类型以及30万条高质量数据记录。此外,我们提出了AnyCapEval,这是一个新的基准测试,通过解耦内容准确性和风格保真度提供了更可靠的可控字幕生成评估指标。ACM显著提高了在AnyCapEval上多种基础模型的字幕质量。特别是,ACM-8B将GPT-4o的内容得分提高了45%,风格得分提高了12%,并且在广泛使用的基准测试如MIA-Bench和VidCapBench上也取得了显著的进步。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供