Command Palette

Search for a command to run...

4 个月前

Matrix-3D:全向可探索的3D世界生成

Matrix-3D:全向可探索的3D世界生成

摘要

从单张图像或文本提示中生成可探索的三维世界,构成了空间智能的核心基础。近期研究尝试利用视频模型实现大范围且具备泛化能力的三维世界生成。然而,现有方法在生成场景的覆盖范围上往往受限。为此,本文提出Matrix-3D框架,该框架采用全景表示,实现大范围覆盖、全方位可探索的三维世界生成,融合了条件化视频生成与全景三维重建技术。我们首先训练了一种轨迹引导的全景视频扩散模型,以场景网格渲染图为条件,从而实现高质量且几何一致的场景视频生成。为将全景场景视频提升至三维世界,我们提出了两种独立方法:(1)一种前馈式大规模全景重建模型,用于快速完成三维场景重建;(2)一种基于优化的流水线方法,用于实现高精度、细节丰富的三维场景重建。为支持高效训练,我们还构建了Matrix-Pano数据集——首个大规模合成数据集,包含116,000条高质量静态全景视频序列,并附带深度信息与轨迹标注。大量实验表明,所提出的框架在全景视频生成与三维世界生成任务中均达到了当前最优性能。更多详情请见:https://matrix-3d.github.io

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Matrix-3D:全向可探索的3D世界生成 | 论文 | HyperAI超神经