
在 3D 场景作为数字基座的技术发展背景下,单张图像生成三维资产的能力已初步实现,但组合式场景生成面临实例分离、物理约束建模和场景语义理解等瓶颈。
近日,北航与 VAST 等机构联合推出的 MIDI 模型取得突破性进展,其作为多实例扩散模型,能从单张图像端到端生成高几何质量、实例可分离的 3D 组合场景。
该模型通过扩展三维物体生成模型为多实例扩散模型,引入多实例自注意力机制捕获空间关联,并在训练中结合数据增强,有效解决了传统方法流程冗长、几何质量低等问题,在空间布局、生成效率等维度表现优异。
MIDI 为建筑设计、虚拟现实、游戏开发等领域提供了新工具,其技术突破为可交互 3D 场景构建奠定重要基础。
以下是项目和论文链接:
© 版权声明
文章版权归作者所有,未经允许请勿转载。