Zekun QiWenyao ZhangYufei DingRunpei DongXinqiang YuJingwen LiLingyun XuBaoyu LiXialin HeGuofan FanJiazhao ZhangJiawei HeJiayuan GuXin JinKaisheng MaZhizheng ZhangHe WangLi Yi

摘要
空间智能是具身人工智能(embodied AI)的关键组成部分,有助于机器人理解并与其环境进行交互。尽管近期进展提升了视觉语言模型(VLMs)对物体位置及相对位置关系的感知能力,但其在精确理解物体朝向方面仍存在明显不足——而朝向理解正是执行精细操作任务的核心需求。克服这一局限不仅需要几何推理能力,还需一种表达性强且直观的朝向表示方法。在此背景下,我们提出,相较于传统的标准坐标系,自然语言提供了一个更具灵活性的表示空间,因而特别适用于遵循指令的机器人系统。本文中,我们引入“语义朝向”(semantic orientation)的概念,采用无参考坐标系的方式,利用自然语言描述物体的朝向(例如,USB接口的“插入方向”或刀具的“手柄方向”)。为支持该方法,我们构建了OrienText300K——一个大规模3D模型数据集,其中每个模型均标注了语义朝向信息,实现了几何理解与功能语义之间的有效关联。通过将语义朝向集成至VLM系统中,我们使机器人能够生成同时满足位置与朝向约束的操作动作。在仿真环境与真实世界中的大量实验表明,本方法显著提升了机器人的操作能力:在Open6DOR基准上达到48.7%的准确率,在SIMPLER基准上达到74.9%的准确率。
代码仓库
qizekun/SoFar
pytorch
GitHub 中提及
zhangwenyao1/open6dor_v2_execution
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| object-rearrangement-on-open6dor-v2 | SoFar | 6-DoF: 48.7 pos-level0: 96.0 pos-level1: 81.5 rot-level0: 68.6 rot-level1: 42.2 rot-level2: 70.1 |
| robot-manipulation-on-simpler-env | SoFar | Variant Aggregation: 0.676 Variant Aggregation-Move Near: 0.740 Variant Aggregation-Open/Close Drawer: 0.297 Variant Aggregation-Pick Coke Can: 0.907 Visual Matching: 0.749 Visual Matching-Move Near: 0.917 Visual Matching-Open/Close Drawer: 0.403 Visual Matching-Pick Coke Can: 0.923 |
| robot-manipulation-on-simplerenv-widow-x | SoFar | Average: 0.583 Put Carrot on Plate: 0.667 Put Eggplant in Yellow Basket: 0.375 Put Spoon on Towel: 0.583 Stack Green Block on Yellow Block: 0.708 |
| spatial-reasoning-on-6-dof-spatialbench | SoFar | Orientation-abs: 31.3 Orientation-rel: 54.6 Position-abs: 33.8 Position-rel: 59.6 Total: 43.9 |
| spatial-reasoning-on-embspatial-bench | SoFar | Generation: 70.88 |