Command Palette

Search for a command to run...

4 个月前

RelayFormer:一种用于可扩展图像与视频操纵定位的统一局部-全局注意力框架

Wen Huang Jiarui Yang Tao Dai Jiawei Li Shaoxiong Zhan Bin Wang Shu-Tao Xia

RelayFormer:一种用于可扩展图像与视频操纵定位的统一局部-全局注意力框架

摘要

视觉篡改定位(Visual Manipulation Localization, VML)——涵盖图像与视频两类模态——是数字取证领域中一项关键任务,旨在识别视觉内容中被篡改的区域。然而,现有方法普遍缺乏跨模态泛化能力,且在处理高分辨率图像或长时视频输入时效率低下。

本文提出RelayFormer,一种统一且模块化的架构,用于实现图像与视频中视觉篡改的定位。通过引入灵活的局部单元结构以及全局-局部协同注意力机制(Global-Local Relay Attention, GLoRA),该方法实现了可扩展、与分辨率无关的处理能力,并具备强大的泛化性能。我们的框架可通过轻量级适配模块无缝集成至现有的基于Transformer的主干网络(如ViT和SegFormer),仅需极小的结构改动,即可保持预训练表示的完整性,确保良好的兼容性。

此外,我们设计了一种轻量级、基于查询的掩码解码器,可在视频序列上实现单次推理,计算复杂度为线性。在多个基准数据集上的大量实验表明,所提方法在视觉篡改定位任务中达到了当前最优性能,为可扩展、模态无关的VML任务树立了新的基准。代码已开源,地址见:[this https URL]。

代码仓库

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供