杭州六小龙开源SpatialLM模型:让机器人轻松理解3D世界的黑科技

图1:SpatialLM 是一种 3D 大型语言模型,旨在处理 3D 点云数据并生成结构化的 3D 场景理解输出。这些输出包括建筑元素,如墙壁、门、窗和定向对象边界框及其语义类别。与以前需要专用设备进行数据收集的方法不同,SpatialLM 可以处理来自各种来源的点云,例如单目视频序列、RGBD 图像和 LiDAR 传感器。

在当今科技迅速发展的时代,杭州的群核科技公司凭借其开创性的SpatialLM模型,正在重新定义机器人如何理解和与三维空间互动。

这项技术的核心在于它能够通过普通手机拍摄的视频,生成带有物理规则的三维场景布局。

这意味着,只需简单地用手机录制一个房间的布局,SpatialLM就能分析并输出详细的3D空间信息,比如房间的布局、家具的摆放以及通道的宽度等。

杭州六小龙开源SpatialLM模型:让机器人轻松理解3D世界的黑科技

图2:SpatialLM 的预测结果是通用的,并且跨平台兼容。输出可以用各种格式表示,包括结构布局(如 3D 定向边界框)、2D 平面图)和行业标准格式(如 IFC(行业基础类))。

这一过程的工作原理其实并不复杂。

首先,SpatialLM会对视频进行分析,提取出每一帧中的空间信息,通过一系列算法将这些信息重建为3D点云模型。

接着,它会将这些点云数据转化为结构化的三维布局,这样机器人就能理解空间中每个物体的位置、大小和功能。

这种方式不仅大大降低了数据采集的成本,还让机器人能够更准确地“看”到世界,理解环境中的各种物体及其相互关系。

杭州六小龙开源SpatialLM模型:让机器人轻松理解3D世界的黑科技

图3:给定一个 RGB 视频,我们使用 MASt3R-SLAM 来重建 3D 点云。然后,SpatialLM 将这些密集的点云转换为结构化表示。点云编码器将点云编码为压缩要素,LLM 生成描述场景的场景代码,这些代码可以转换为 3D 结构布局。

与传统的训练方法相比,SpatialLM的优势显而易见。

以往,机器人训练通常依赖于2D图像或昂贵的激光雷达设备,既耗时又耗力。

而SpatialLM的出现,使得任何人只需用手机拍摄,就能为机器人提供丰富的训练数据。

这种“空间翻译机”的功能,让机器人的训练变得更加高效和经济。

杭州六小龙开源SpatialLM模型:让机器人轻松理解3D世界的黑科技

图4:这种多模态架构有效地弥合了非结构化 3D 几何数据和结构化 3D 表示之间的差距,提供了高级语义理解。它增强了嵌入式机器人、自主导航和其他复杂 3D 场景分析任务中的应用程序的空间推理能力。

更重要的是,群核科技并不满足于仅仅实现空间理解。

他们的目标是构建一个完整的训练闭环,使机器人能够从认知到行动,形成一个自我学习的系统。

通过SpatialVerse这个虚拟数字道场,机器人可以在仿真环境中进行技能学习,避免在真实环境中可能出现的错误。

这种训练方式不仅提高了机器人的适应能力,还使得它们能够在复杂的现实世界中灵活应对各种任务。

杭州六小龙开源SpatialLM模型:让机器人轻松理解3D世界的黑科技

图5:SpatialLM 源自最先进的 (SOTA) 强大的 LLM 及其多功能输出选项,未来可以扩展到更多任务,例如作为智能助手与人类交互,以及使具体代理能够在具有挑战性的环境中执行复杂的任务。

随着技术的不断进步,SpatialLM和SpatialVerse的结合形成了一条“Real2Sim2Real”的路径,让机器人在虚拟环境中不断学习和适应,最终能够无缝地迁移到现实生活中。

这一创新的训练模式,标志着具身智能技术的一个重要里程碑,推动了机器人在家庭和工业等领域的广泛应用。

如果你对这个项目感兴趣,想要深入了解其技术细节和应用案例,可以访问群核科技的官方网站,获取更多信息。

公司官网:群核科技
项目地址:SpatialLM