Command Palette
Search for a command to run...

摘要
视频生成技术已经取得了显著进展,有望成为互动世界探索的基础。然而,现有的视频生成数据集并不适合用于世界探索训练,因为它们存在一些局限性:地点有限、时长短、场景静态以及缺乏关于探索和世界的注释。在本文中,我们介绍了一个名为Sekai(日语中意为“世界”)的高质量第一人称视角全球视频数据集,该数据集包含来自超过100个国家和地区、750个城市中的超过5,000小时的步行或无人机视角(FPV和UVA)视频。我们开发了一套高效且有效的工具箱,用于收集、预处理并标注视频中的位置、场景、天气、人群密度、字幕和相机轨迹。实验结果证明了该数据集的质量。此外,我们使用该数据集的一个子集来训练一个名为YUME(日语中意为“梦想”)的互动视频世界探索模型。我们认为Sekai将有助于推动视频生成和世界探索领域的发展,并激发有价值的应用。