Command Palette

Search for a command to run...

6 个月前

Sekai:一个面向世界探索的视频数据集

Sekai:一个面向世界探索的视频数据集

摘要

视频生成技术已经取得了显著进展,有望成为互动世界探索的基础。然而,现有的视频生成数据集并不适合用于世界探索训练,因为它们存在一些局限性:地点有限、时长短、场景静态以及缺乏关于探索和世界的注释。在本文中,我们介绍了一个名为Sekai(日语中意为“世界”)的高质量第一人称视角全球视频数据集,该数据集包含来自超过100个国家和地区、750个城市中的超过5,000小时的步行或无人机视角(FPV和UVA)视频。我们开发了一套高效且有效的工具箱,用于收集、预处理并标注视频中的位置、场景、天气、人群密度、字幕和相机轨迹。实验结果证明了该数据集的质量。此外,我们使用该数据集的一个子集来训练一个名为YUME(日语中意为“梦想”)的互动视频世界探索模型。我们认为Sekai将有助于推动视频生成和世界探索领域的发展,并激发有价值的应用。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Sekai:一个面向世界探索的视频数据集 | 论文 | HyperAI超神经