3 个月前

SoFar:基于语言的地物定位桥接空间推理与物体操作

SoFar:基于语言的地物定位桥接空间推理与物体操作

摘要

空间智能是具身人工智能(embodied AI)的关键组成部分,有助于机器人理解并与其环境进行交互。尽管近期进展提升了视觉语言模型(VLMs)对物体位置及相对位置关系的感知能力,但其在精确理解物体朝向方面仍存在明显不足——而朝向理解正是执行精细操作任务的核心需求。克服这一局限不仅需要几何推理能力,还需一种表达性强且直观的朝向表示方法。在此背景下,我们提出,相较于传统的标准坐标系,自然语言提供了一个更具灵活性的表示空间,因而特别适用于遵循指令的机器人系统。本文中,我们引入“语义朝向”(semantic orientation)的概念,采用无参考坐标系的方式,利用自然语言描述物体的朝向(例如,USB接口的“插入方向”或刀具的“手柄方向”)。为支持该方法,我们构建了OrienText300K——一个大规模3D模型数据集,其中每个模型均标注了语义朝向信息,实现了几何理解与功能语义之间的有效关联。通过将语义朝向集成至VLM系统中,我们使机器人能够生成同时满足位置与朝向约束的操作动作。在仿真环境与真实世界中的大量实验表明,本方法显著提升了机器人的操作能力:在Open6DOR基准上达到48.7%的准确率,在SIMPLER基准上达到74.9%的准确率。

代码仓库

qizekun/SoFar
pytorch
GitHub 中提及
zhangwenyao1/open6dor_v2_execution
pytorch
GitHub 中提及

基准测试

基准方法指标
object-rearrangement-on-open6dor-v2SoFar
6-DoF: 48.7
pos-level0: 96.0
pos-level1: 81.5
rot-level0: 68.6
rot-level1: 42.2
rot-level2: 70.1
robot-manipulation-on-simpler-envSoFar
Variant Aggregation: 0.676
Variant Aggregation-Move Near: 0.740
Variant Aggregation-Open/Close Drawer: 0.297
Variant Aggregation-Pick Coke Can: 0.907
Visual Matching: 0.749
Visual Matching-Move Near: 0.917
Visual Matching-Open/Close Drawer: 0.403
Visual Matching-Pick Coke Can: 0.923
robot-manipulation-on-simplerenv-widow-xSoFar
Average: 0.583
Put Carrot on Plate: 0.667
Put Eggplant in Yellow Basket: 0.375
Put Spoon on Towel: 0.583
Stack Green Block on Yellow Block: 0.708
spatial-reasoning-on-6-dof-spatialbenchSoFar
Orientation-abs: 31.3
Orientation-rel: 54.6
Position-abs: 33.8
Position-rel: 59.6
Total: 43.9
spatial-reasoning-on-embspatial-benchSoFar
Generation: 70.88

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SoFar:基于语言的地物定位桥接空间推理与物体操作 | 论文 | HyperAI超神经