6 个月前

GEB+：通用事件边界标注、定位和检索的基准

Yuxuan Wang Difei Gao Licheng Yu Weixian Lei Matt Feiszli Mike Zheng Shou

摘要

认知科学研究表明，人类在观看视频时会根据主要对象的状态变化来感知事件。状态变化触发新的事件，并且在大量冗余信息中是最有用的信息之一。然而，以往的研究主要集中在对视频片段的整体理解上，而没有评估其中的细粒度状态变化。本文介绍了一个名为Kinetic-GEB+的新数据集。该数据集包含超过17万个边界，这些边界与描述12000个视频中通用事件状态变化的字幕相关联。基于这一新数据集，我们提出了三项任务，旨在通过状态变化促进对视频更细粒度、更稳健和更接近人类的理解能力的发展。我们在数据集中评估了许多代表性基线方法，并设计了一种新的TPD（基于时间的成对差异）建模方法来表示视觉差异，从而实现了显著的性能提升。此外，结果表明，当前方法在利用不同粒度、表示视觉差异以及准确定位状态变化方面仍面临巨大挑战。进一步分析显示，我们的数据集可以推动开发更强大的方法来理解状态变化，从而提高视频层面的理解能力。该数据集包括视频和边界信息，可在https://yuxuan-w.github.io/GEB-plus/ 获取。

代码仓库

yuxuan-w/geb-plus

官方

pytorch

GitHub 中提及

https://yuxuan-w.github.io/GEB-plus

基准测试

基准	方法	指标
boundary-captioning-on-kinetic-geb	ActBERT-revised	CIDEr: 74.71 ROUGE-L: 28.15 SPICE: 19.52
boundary-grounding-on-kinetic-geb	FROZEN-revised	[email protected]: 4.28 [email protected]: 8.54 [email protected]: 18.33 [email protected]: 31.04 [email protected]: 40.48 [email protected]: 47.86 [email protected]: 54.81 [email protected]: 61.45 F1@Avg: 33.35
text-to-video-retrieval-on-kinetic-geb	FROZEN-revised	mAP: 23.39
text-to-video-retrieval-on-kinetic-geb	FROZEN-revised (two-stream)	text-to-video R@1: 12.8 text-to-video R@10: 45.66 text-to-video R@5: 34.81 text-to-video R@50: 68.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI超神经

算力平台

6 个月前

GEB+：通用事件边界标注、定位和检索的基准

查看论文详情查看代码

Yuxuan Wang Difei Gao Licheng Yu Weixian Lei Matt Feiszli Mike Zheng Shou

摘要

代码仓库

yuxuan-w/geb-plus

官方

pytorch

GitHub 中提及

https://yuxuan-w.github.io/GEB-plus

基准测试

基准	方法	指标
boundary-captioning-on-kinetic-geb	ActBERT-revised	CIDEr: 74.71 ROUGE-L: 28.15 SPICE: 19.52
boundary-grounding-on-kinetic-geb	FROZEN-revised	[email protected]: 4.28 [email protected]: 8.54 [email protected]: 18.33 [email protected]: 31.04 [email protected]: 40.48 [email protected]: 47.86 [email protected]: 54.81 [email protected]: 61.45 F1@Avg: 33.35
text-to-video-retrieval-on-kinetic-geb	FROZEN-revised	mAP: 23.39
text-to-video-retrieval-on-kinetic-geb	FROZEN-revised (two-stream)	text-to-video R@1: 12.8 text-to-video R@10: 45.66 text-to-video R@5: 34.81 text-to-video R@50: 68.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

GEB+：通用事件边界标注、定位和检索的基准

Yuxuan Wang Difei Gao Licheng Yu Weixian Lei Matt Feiszli Mike Zheng Shou

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters

Command Palette

GEB+：通用事件边界标注、定位和检索的基准

Yuxuan Wang Difei Gao Licheng Yu Weixian Lei Matt Feiszli Mike Zheng Shou

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters