摘要

多模态预训练是一种在自主机器人表征学习中实现三大目标的有效策略：1）提取任务进展的局部与全局信息；2）保证视觉表征的时间一致性；3）实现轨迹级语言语义的对齐。现有大多数方法通过独立的目标分别处理这些任务，往往难以达到最优解。本文提出一种统一的通用目标函数，能够同时从图像序列中提取有意义的任务进展信息，并实现与语言指令的无缝对齐。我们发现，通过引入隐式偏好机制——即视觉轨迹与其对应的语言指令之间天然具有更强的对齐性，而与不匹配的指令对则相对弱——结合适当的奖励重参数化，可将广为使用的Bradley-Terry模型转化为一种表征学习框架。由此构建的框架——DecisionNCE，虽在形式上类似于InfoNCE目标函数，但其设计专为决策任务量身定制，提供了一种具身化表征学习的新范式。该框架能够优雅地同时提取局部与全局的任务进展特征，通过隐式的时间对比学习机制保障时间一致性，同时借助多模态联合编码实现轨迹级指令语义的精准对齐。在仿真环境与真实机器人上的实验评估表明，DecisionNCE能有效促进多种下游策略学习任务的性能提升，为统一的表征学习与奖励学习提供了一种通用且灵活的解决方案。项目主页：https://2toinf.github.io/DecisionNCE/

源 PDF