
近日,谷歌与斯坦福联合发表的 FirePlace 论文中,特别致谢中国杭州群核科技 SpatialVerse 团队提供的物理级真实 3D 场景数据。
该团队近期在 GTC 2025 大会上开源的 SpatialLM 模型,可通过手机拍摄视频生成带物理规则的 3D 场景布局,为机器人提供包含物体三维坐标、尺寸参数等信息的结构化数据,助力其理解空间几何关系与物理常识。
配合虚拟数字道场 SpatialVerse,机器人能在仿真环境中训练避障、抓取等技能,显著降低训练成本并提升效率。
SpatialLM 突破大语言模型对物理空间的理解局限,采用 MASt3R-SLAM 重建 3D 点云,经点云编码器与大语言模型处理,将点云转化为场景代码及结构化 3D 布局,支持手机、相机等通用设备输入,未来还将接入自然语言交互模式。
群核科技凭借十余年沉淀的室内三维交互数据,构建了从空间认知到行动交互的具身智能训练闭环,推动行业从依赖高价激光雷达采集 3D 数据的传统模式,向低成本、高效率的通用训练范式转变。
以下是项目和论文链接:
© 版权声明
文章版权归作者所有,未经允许请勿转载。