北航携手VAST开源MIDI模型！单张图直接生成3D组合场景，建筑、游戏、VR行业有新工具啦

前沿论文3周前更新科技咖

95 0 0

北航携手VAST开源MIDI模型！单张图直接生成3D组合场景，建筑、游戏、VR行业有新工具啦

在 3D 场景作为数字基座的技术发展背景下，单张图像生成三维资产的能力已初步实现，但组合式场景生成面临实例分离、物理约束建模和场景语义理解等瓶颈。

近日，北航与 VAST 等机构联合推出的 MIDI 模型取得突破性进展，其作为多实例扩散模型，能从单张图像端到端生成高几何质量、实例可分离的 3D 组合场景。

该模型通过扩展三维物体生成模型为多实例扩散模型，引入多实例自注意力机制捕获空间关联，并在训练中结合数据增强，有效解决了传统方法流程冗长、几何质量低等问题，在空间布局、生成效率等维度表现优异。

MIDI 为建筑设计、虚拟现实、游戏开发等领域提供了新工具，其技术突破为可交互 3D 场景构建奠定重要基础。

以下是项目和论文链接：

隐藏内容！

登录后才能查看！

# 前沿论文 # 图像生成

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

AMD 科研神器上线！多 AI 化身 “虚拟科研团队”，1 小时搞定文献到论文全流程

科技咖

90

机器人能适应陌生环境了！π0.5 模型让它学会各种没学过的任务

科技咖

51

DeepMind新AI自学《我的世界》收集钻石！不靠人类数据登上《自然》，迈向通用AI重要一步

科技咖

78

上海AI Lab等团队开源SpatialVLA模型：让机器人学会3D空间操作，百万真机数据训练代码全公开

科技咖

73

谷歌致谢中国团队！开源模型助力机器人3D认知，训练成本大降

科技咖

157

新加坡国立大学邵林团队推出FLIP模型！让机器人像人类一样规划复杂任务，高效又通用

科技咖

226

科技咖是一个专注于AI和科技产品的平台，提供AI论文、AI报告、AI大模型、AI机器人等内容，展示全球最新的AI技术和应用。在这里，你可以了解到最新的AI动态，发现最有创意的AI产品。

Copyright © 2025 科技咖晋ICP备2024030821号

晋公网安备14010702074479号