Danny DriessFei XiaMehdi S. M. SajjadiCorey LynchAakanksha ChowdheryBrian IchterAyzaan WahidJonathan TompsonQuan VuongTianhe YuWenlong HuangYevgen ChebotarPierre SermanetDaniel DuckworthSergey LevineVincent VanhouckeKarol HausmanMarc ToussaintKlaus GreffAndy ZengIgor MordatchPete Florence

摘要
大型语言模型在众多复杂任务中表现出色。然而,在现实世界中实现通用推理(例如在机器人任务中)面临着“具身化”(grounding)的挑战。为此,我们提出了具身语言模型(embodied language models),通过直接将现实世界中的连续传感器模态(如视觉、状态估计等)融入语言模型,建立语言符号与感知输入之间的直接联系。我们模型的输入为多模态句子,其中交织融合了视觉信息、连续状态估计结果以及文本编码。我们采用端到端的方式,联合预训练的大规模语言模型,对这些编码进行训练,以完成多种具身任务,包括序列化机器人操作规划、视觉问答以及图像描述生成。评估结果表明,PaLM-E——这一单一的大型具身多模态模型——能够处理来自多种感知模态、适用于多种机器人平台的多样化具身推理任务,并展现出显著的正向迁移能力:模型在互联网规模的语言、视觉及视觉-语言数据上进行联合训练后,性能得到全面提升。我们最大的模型PaLM-E-562B(参数量达5620亿)不仅在机器人任务上进行了训练,还具备先进的视觉-语言通用能力,在OK-VQA基准测试中达到当前最优水平,同时随着模型规模的增大,其通用语言能力也持续增强。
代码仓库
kyegomez/PALM-E
pytorch
GitHub 中提及
KastanDay/video-pretrained-transformer
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-ok-vqa | PaLM-E-562B | Accuracy: 66.1 |