3 个月前

SAM2Act:将视觉基础模型与记忆架构融合用于机器人操作

SAM2Act:将视觉基础模型与记忆架构融合用于机器人操作

摘要

在多样且动态的环境中运行的机器人操作系统必须具备三项关键能力:多任务交互、对未见场景的泛化能力以及空间记忆。尽管机器人操作领域已取得显著进展,但现有方法在应对复杂环境变化的泛化能力以及处理依赖记忆的任务方面仍存在不足。为弥合这一差距,我们提出SAM2Act——一种基于多视角机器人Transformer的策略框架,该框架利用大规模基础模型提供的视觉表征,并结合多分辨率上采样技术,显著提升了性能。在RLBench基准测试中,SAM2Act在18项任务上实现了86.8%的平均成功率达当前最优水平;在The Colosseum基准测试中,其在多种环境扰动下仍表现出优异的鲁棒性,性能下降仅4.3%。在此基础上,我们进一步提出SAM2Act+,一种受SAM2启发的基于记忆的架构,通过引入记忆库(memory bank)、编码器及注意力机制,有效增强系统的空间记忆能力。为满足对记忆依赖性任务的评估需求,我们设计了MemoryBench——一个全新的基准测试平台,专门用于评估机器人操作中的空间记忆与动作回溯能力。在MemoryBench的基于记忆的任务中,SAM2Act+实现了94.3%的平均成功率,显著优于现有方法,推动了记忆增强型机器人系统的发展边界。项目主页:sam2act.github.io。

代码仓库

sam2act/sam2act
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
robot-manipulation-on-rlbenchSAM2Act
Input Image Size: 128
Succ. Rate (18 tasks, 100 demo/task): 86.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SAM2Act:将视觉基础模型与记忆架构融合用于机器人操作 | 论文 | HyperAI超神经