Anthony BrohanNoah BrownJustice CarbajalYevgen ChebotarJoseph DabisChelsea FinnKeerthana GopalakrishnanKarol HausmanAlex HerzogJasmine HsuJulian IbarzBrian IchterAlex IrpanTomas JacksonSally JesmonthNikhil J JoshiRyan JulianDmitry KalashnikovYuheng KuangIsabel LealKuang-Huei LeeSergey LevineYao LuUtsav MallaDeeksha ManjunathIgor MordatchOfir NachumCarolina ParadaJodilyn PeraltaEmily PerezKarl PertschJornell QuiambaoKanishka RaoMichael RyooGrecia SalazarPannag SanketiKevin SayedJaspiar SinghSumedh SontakkeAustin StoneClayton TanHuong TranVincent VanhouckeSteve VegaQuan VuongFei XiaTed XiaoPeng XuSichun XuTianhe YuBrianna Zitkovich

摘要
通过从大规模、多样化且任务无关的数据集迁移知识,现代机器学习模型能够在零样本(zero-shot)或仅使用少量特定任务数据的情况下,实现对具体下游任务的高性能解决。尽管这一能力已在计算机视觉、自然语言处理和语音识别等领域得到验证,但在机器人学领域尚未得到充分证明。由于真实世界机器人数据的采集极为困难,模型的泛化能力在机器人领域显得尤为关键。我们认为,实现通用机器人模型成功的关键在于开放式的、任务无关的训练方式,结合高容量的模型架构,以充分吸收来自多样化机器人数据的丰富信息。本文提出一类新型模型,称为“机器人Transformer”(Robotics Transformer),其展现出良好的可扩展性特征。我们通过一项大规模研究验证了上述观点:基于真实机器人执行真实任务的海量数据集,系统比较了不同模型类别在数据规模、模型规模和数据多样性变化下的泛化能力。该项目的官方网站与演示视频可访问:robotics-transformer1.github.io
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| robot-manipulation-on-simpler-env | RT-1-X | Variant Aggregation: 0.397 Variant Aggregation-Move Near: 0.323 Variant Aggregation-Open/Close Drawer: 0.294 Variant Aggregation-Pick Coke Can: 0.490 Visual Matching: 0.534 Visual Matching-Move Near: 0.317 Visual Matching-Open/Close Drawer: 0.597 Visual Matching-Pick Coke Can: 0.567 |
| robot-manipulation-on-simplerenv-widow-x | RT-1-X | Average: 0.011 Put Carrot on Plate: 0.042 Put Spoon on Towel: 0.000 Stack Green Block on Yellow Block: 0.000 |