近年来机器人技术取得显著进展 。但在非受控环境中实现跨层级泛化仍是重大挑战 。Physical Intelligence 团队基于前期 π0 模型 ,研发出具备开放世界泛化能力的 π0.5 视觉 – 语言 – 动作模型 。该模型通过异质数据协同训练 ,融合多模态网络数据 、跨具身机器人数据及真实环境操作数据 。构建包含语义推理与动作执行的双层决策框架 。既能理解 “将衣物放入衣柜” 等高层任务语义 ,也能生成抓取餐具把手等底层控制指令 。
消融实验显示 。网页数据显著提升模型对未知物体的识别能力 。跨环境机器人数据则全面优化策略表现 。在包含 100 个训练环境的规模研究中 ,π0.5 性能接近直接训练于测试环境的基线模型 。验证了其高效泛化能力 。真实场景测试中,搭载 π0.5 的机器人可在未训练过的家居环境完成餐具归位 、床铺整理等复杂任务 ,展现出对环境语义的理解能力与操作灵活性 。
作为迈向通用物理智能的重要进展 。π0.5 的协同训练框架为机器人适应开放世界提供了新路径 。尽管仍存在语义推理与运动控制误差 ,但其通过多元数据融合实现泛化的技术路线 ,为行业探索通用机器人系统提供了可参考的工程范式 。
以下是项目和论文链接: