6 个月前

机器人技术

Danny Driess Fei Xia Mehdi S. M. Sajjadi Corey Lynch Aakanksha Chowdhery Brian Ichter Ayzaan Wahid Jonathan Tompson Quan Vuong Tianhe Yu

摘要

大型语言模型在众多复杂任务中表现出色。然而，在现实世界中实现通用推理（例如在机器人任务中）面临着“具身化”（grounding）的挑战。为此，我们提出了具身语言模型（embodied language models），通过直接将现实世界中的连续传感器模态（如视觉、状态估计等）融入语言模型，建立语言符号与感知输入之间的直接联系。我们模型的输入为多模态句子，其中交织融合了视觉信息、连续状态估计结果以及文本编码。我们采用端到端的方式，联合预训练的大规模语言模型，对这些编码进行训练，以完成多种具身任务，包括序列化机器人操作规划、视觉问答以及图像描述生成。评估结果表明，PaLM-E——这一单一的大型具身多模态模型——能够处理来自多种感知模态、适用于多种机器人平台的多样化具身推理任务，并展现出显著的正向迁移能力：模型在互联网规模的语言、视觉及视觉-语言数据上进行联合训练后，性能得到全面提升。我们最大的模型PaLM-E-562B（参数量达5620亿）不仅在机器人任务上进行了训练，还具备先进的视觉-语言通用能力，在OK-VQA基准测试中达到当前最优水平，同时随着模型规模的增大，其通用语言能力也持续增强。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

机器人技术

Danny Driess Fei Xia Mehdi S. M. Sajjadi Corey Lynch Aakanksha Chowdhery Brian Ichter Ayzaan Wahid Jonathan Tompson Quan Vuong Tianhe Yu

摘要

大型语言模型在众多复杂任务中表现出色。然而，在现实世界中实现通用推理（例如在机器人任务中）面临着“具身化”（grounding）的挑战。为此，我们提出了具身语言模型（embodied language models），通过直接将现实世界中的连续传感器模态（如视觉、状态估计等）融入语言模型，建立语言符号与感知输入之间的直接联系。我们模型的输入为多模态句子，其中交织融合了视觉信息、连续状态估计结果以及文本编码。我们采用端到端的方式，联合预训练的大规模语言模型，对这些编码进行训练，以完成多种具身任务，包括序列化机器人操作规划、视觉问答以及图像描述生成。评估结果表明，PaLM-E——这一单一的大型具身多模态模型——能够处理来自多种感知模态、适用于多种机器人平台的多样化具身推理任务，并展现出显著的正向迁移能力：模型在互联网规模的语言、视觉及视觉-语言数据上进行联合训练后，性能得到全面提升。我们最大的模型PaLM-E-562B（参数量达5620亿）不仅在机器人任务上进行了训练，还具备先进的视觉-语言通用能力，在OK-VQA基准测试中达到当前最优水平，同时随着模型规模的增大，其通用语言能力也持续增强。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

PaLM-E：具身多模态语言模型 | 论文 | HyperAI超神经