
摘要
抓取任务在众多应用场景中至关重要,同时也是计算机视觉领域的一项挑战性问题。然而,在杂乱场景下,现有研究普遍面临训练数据不足以及缺乏统一评估基准的难题。为此,本文提出一个大规模的抓取位姿检测数据集,并配套一套统一的评估体系。该数据集包含97,280组RGB-D图像,涵盖超过十亿个抓取位姿。同时,我们的评估系统通过解析计算直接判断抓取是否成功,无需对所有抓取姿态进行 exhaustive(穷举式)真实标签标注,即可对任意类型的抓取姿态进行高效评估。此外,本文提出一种基于点云输入的端到端抓取位姿预测网络,其中采用解耦方式分别学习接近方向与操作参数。为进一步提升抓取的鲁棒性,我们设计了一种新型抓取亲和场(grasp affinity field)机制。通过大量实验验证,结果表明,所提出的数据集与评估体系能够与真实世界实验良好对齐,且所提出的网络在性能上达到了当前最优水平。本文所构建的数据集、源代码及预训练模型均已公开,可通过 www.graspnet.net 获取。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| robotic-grasping-on-graspnet-1billion | graspnet-baseline-CD | AP_novel: 16.61 AP_seen: 47.47 AP_similar: 42.27 mAP: 35.45 |
| robotic-grasping-on-graspnet-1billion | graspnet-baseline | AP_novel: 10.55 AP_seen: 27.56 AP_similar: 26.11 mAP: 21.41 |