
在当今的科技时代,机器人技术的快速发展为我们带来了许多前所未有的可能性。然而,现有的机器人在处理复杂的多阶段任务时,往往无法像人类一样灵活和高效。
为了应对这一挑战,新加坡国立大学的邵林团队提出了一种全新的机器人任务规划模型,名为FLIP(Flow-Centric Generative Planning as General-Purpose Manipulation World Model)。
这个模型旨在为机器人构建一个类似于人类的“世界模型”,使其能够在执行任务之前进行有效的规划。

图 1:我们的方法概述。左:FLIP 在跨不同任务、对象和机器人的视频数据集上进行训练,每个视频只有一个语言描述作为目标。右图:我们训练一个交互式世界模型,该模型由一个用于生成流的动作模块、一个用于视频生成的动态模块和一个用于在每个步骤分配价值的值模块组成。这些模块可以对 flow 和 video 空间上的作任务执行以 flow 为中心的基于模型的规划。
FLIP的核心思想是通过图像流来实现机器人对物理世界的理解和想象。
人类在面对复杂任务时,往往会首先思考可能的动作,然后预测这些动作的结果,最后选择最佳的行动方案。
FLIP正是模仿这一过程,通过三个主要模块来实现任务规划:
图像流生成模块、动力学预测模块和价值函数预测模块。

图 2:FLIP 的动作模块和动力学模块。左:训练数据中不同模态的标记化过程。中间:我们使用条件 VAE 将 flow 生成为 action。它分别在每个查询点上生成增量刻度和方向,以便进行流重建。右图:我们使用具有时空注意力机制的 DiT 模型来生成流控视频。流程(和观察历史)受交叉注意条件,而语言和时间步长受 AdaLN-zero 条件。
在图像流生成模块中,FLIP利用视频数据训练出一个生成网络,能够根据当前的图像和语言目标生成未来的动作轨迹。
这一模块的设计使得机器人可以在动态环境中灵活地选择动作,而不是仅仅依赖于固定的指令或数据。
接下来,动力学预测模块会根据生成的图像流预测短期内的视觉结果,从而为后续的规划提供依据。
最后,价值函数预测模块则通过评估生成的视频结果来选择最佳的动作方案,确保机器人能够在复杂的任务中做出最优决策。

图 3:FLIP 是一个通用框架,用于跨对象和机器人的各种作任务,甚至适用于人手。将生成所有流和映像。
FLIP的实验结果显示,它在模拟和真实环境中都能成功完成多种机器人操控任务,比如布料的折叠和展开等。
这一模型不仅能生成高质量的长期视频结果,还能有效指导低层次的策略训练,展现出良好的交互性和可扩展性。
通过使用带有语言标注的视频数据,FLIP的训练过程变得更加高效,机器人在执行任务时的表现也得到了显著提升。