7 个月前

摘要

我们提出了一种自监督方法，用于从多个视角录制的未标记视频中完全学习表示和机器人行为，并研究了这种表示在两种机器人模仿场景中的应用：从人类视频中模仿物体交互，以及模仿人类姿势。模仿人类行为需要一种视角不变的表示，该表示能够捕捉末端执行器（手或机器人夹爪）与环境、物体属性和身体姿态之间的关系。我们使用度量学习损失来训练这些表示，在嵌入空间中吸引同一观察的不同同时视角，而排斥时间上的邻居，这些邻居通常视觉上相似但功能不同。换句话说，模型同时学会了识别不同外观图像之间的共同点，以及相似外观图像之间的差异。这种信号促使我们的模型发现那些在视角变化时不变但在时间变化时会改变的属性，同时忽略诸如遮挡、运动模糊、光照和背景等干扰变量。我们展示了这种表示可以被机器人直接用来模仿人类姿势而无需显式对应，并且可以在强化学习算法中作为奖励函数使用。虽然表示是从一组与任务相关的未标记视频中学习到的，但像倒水这样的机器人行为可以通过观看一个人类的第三人称演示来学习。通过在学习到的表示下遵循人类演示获得的奖励函数，使得适用于实际机器人的高效强化学习成为可能。视频结果、开源代码和数据集可在 https://sermanet.github.io/imitate 获取。

源 PDF