
摘要
受大规模语言模型进展的启发,我们采用类似的方法构建了一个超越文本输出领域的单一通用代理。该代理被称为Gato,其工作方式为多模态、多任务、多实体的通用策略。同一网络使用相同的权重可以玩Atari游戏、为图像添加标题、进行对话、用真实的机械臂堆叠积木等更多任务,根据上下文决定输出文本、关节扭矩、按钮按下或其他标记。在本报告中,我们将描述该模型及其数据,并记录Gato当前的能力。
代码仓库
OrigamiDream/gato
tf
GitHub 中提及
ManifoldRG/gato-control
pytorch
GitHub 中提及
LAS1520/Gato-A-Generalist-Agent
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| skill-generalization-on-rgb-stacking | Gato | Average: 50.2 Group 1: 24.5 Group 2: 33 Group 3: 50.5 Group 4: 76.5 Group 5: 66.5 |
| skill-mastery-on-rgb-stacking | Gato | Average: 75.6 Group 1: 58 Group 2: 57.6 Group 3: 78.5 Group 4: 89 Group 5: 95.1 |