在当今数字化时代,3D 场景的生成技术正逐渐成为各种创意产业的核心工具。

最近,来自北航和 VAST 的研究团队推出了一款名为 MIDI 的创新模型,它可以从单张图像中生成高质量的三维组合场景。

这项技术的出现,不仅提升了3D内容创作的效率,也为设计师和开发者提供了更多的可能性。

MIDI模型:从单张图像生成高质量3D组合场景的技术突破与应用前景

图1:本文介绍了 MIDI,一种新的作曲范式 从单个图像生成 3D 场景。与现有方法不同 依赖于重建或检索技术或最近的 采用多阶段逐对象生成的方法, MIDI 将预先训练的图像到 3D 对象生成模型扩展到 多实例扩散模型,实现同步 生成具有精确空间的多个 3D 实例 关系和高泛化性。

MIDI 模型的最大亮点在于它能够解决传统3D场景生成中存在的一些难题。

以往的技术往往需要多次处理和优化,生成的场景质量不高,空间布局也不够合理。

而 MIDI 通过一种全新的多实例扩散模型,能够同时生成多个3D实例,并确保它们之间有着准确的空间关系。

这就像是从一张图片中提取出多个元素,并将它们合理地组合在一起,形成一个完整的三维场景。

MIDI模型:从单张图像生成高质量3D组合场景的技术突破与应用前景

图2:给定场景的输入图像,我们将其分割成多个部分 并使用以这些为条件的多实例扩散模型 图像生成场景的合成 3D 实例。这些 3D 实例可以直接组合成场景。总计 处理时间仅需 40 秒。

具体来说,MIDI 在生成过程中采用了自注意力机制,这使得它能够有效捕捉不同实例之间的空间关联,避免了以往方法中常见的布局优化问题。

此外,MIDI 还通过数据增强技术,结合有限的场景数据和物体数据进行训练,从而提高了模型的泛化能力。

这意味着即使在复杂的场景中,MIDI 也能生成高质量的3D内容,满足创作者的需求。

MIDI模型:从单张图像生成高质量3D组合场景的技术突破与应用前景

图3:MIDI 是一个多实例扩散模型,用于生成 来自单个图像的场景的合成 3D 实例。基于 在 3D 对象生成模型上,MIDI 会对 latent 使用 权重共享 DiT 模块。多实例注意力层是 引入以学习跨实例交互并启用全局 awareness,而交叉注意力层则整合了 对象图像和全局场景上下文。

在实际应用中,MIDI 展现出了极大的潜力,尤其是在建筑设计、虚拟现实、影视特效和游戏开发等领域。

设计师们可以利用 MIDI 生成精确且高质量的3D场景,大大缩短了创作时间,提高了工作效率。

这种从单张图像到三维场景的转变,简直是为创意工作者打开了一扇新大门。

MIDI模型:从单张图像生成高质量3D组合场景的技术突破与应用前景

图4:使用多实例扩散模型 (MIDI) 从单个图像创建高保真 3D 场景。

如果你对这个项目感兴趣,可以访问他们的 MIDI 项目主页MIDI 论文链接 了解更多信息。