3 个月前

PaLM-E:具身多模态语言模型

PaLM-E:具身多模态语言模型

摘要

大型语言模型在众多复杂任务中表现出色。然而,在现实世界中实现通用推理(例如在机器人任务中)面临着“具身化”(grounding)的挑战。为此,我们提出了具身语言模型(embodied language models),通过直接将现实世界中的连续传感器模态(如视觉、状态估计等)融入语言模型,建立语言符号与感知输入之间的直接联系。我们模型的输入为多模态句子,其中交织融合了视觉信息、连续状态估计结果以及文本编码。我们采用端到端的方式,联合预训练的大规模语言模型,对这些编码进行训练,以完成多种具身任务,包括序列化机器人操作规划、视觉问答以及图像描述生成。评估结果表明,PaLM-E——这一单一的大型具身多模态模型——能够处理来自多种感知模态、适用于多种机器人平台的多样化具身推理任务,并展现出显著的正向迁移能力:模型在互联网规模的语言、视觉及视觉-语言数据上进行联合训练后,性能得到全面提升。我们最大的模型PaLM-E-562B(参数量达5620亿)不仅在机器人任务上进行了训练,还具备先进的视觉-语言通用能力,在OK-VQA基准测试中达到当前最优水平,同时随着模型规模的增大,其通用语言能力也持续增强。

代码仓库

kyegomez/PALM-E
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-ok-vqaPaLM-E-562B
Accuracy: 66.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PaLM-E:具身多模态语言模型 | 论文 | HyperAI超神经