
摘要
抓取物体是机器人学与计算机视觉领域的一项基础性挑战,对于提升机器人操作能力具有重要意义。柔性物体(如布料、衣物)由于其非刚性特性,带来了额外的复杂性。本文提出了一种名为CeDiRNet-3DoF的深度学习模型,用于抓取点检测,特别针对布料类物体进行了优化。该模型结合中心方向回归与定位网络,在2023年ICRA布料操作挑战赛的感知任务中取得了第一名的成绩。针对现有文献中缺乏标准化基准数据集、导致方法间难以有效比较的问题,我们构建了ViCoS毛巾数据集(ViCoS Towel Dataset)。该数据集包含8,000张真实图像与12,000张合成图像,是一个大规模、高质量的基准数据集,可为当前基于数据驱动的深度学习方法提供可靠的训练与评估资源。大量实验评估表明,CeDiRNet-3DoF在真实场景中展现出优异的鲁棒性,性能优于现有的先进方法,包括最新的基于Transformer的模型。本工作填补了布料抓取领域的重要空白,为计算机视觉与机器人领域的布料抓取问题提供了强有力的解决方案与标准化基准。相关代码与数据集已开源,地址为:https://github.com/vicoslab/CeDiRNet-3DoF
代码仓库
vicoslab/cedirnet-3dof
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| keypoint-detection-on-vicos-towel-dataset | Lisp et al. - RGB (ConvNetx-B) | Best F1: 65.7 |
| keypoint-detection-on-vicos-towel-dataset | YOLOv7 - RGB | Best F1: 48.3 |
| keypoint-detection-on-vicos-towel-dataset | CeDiRNet-3DoF - RGB (ConvNext-B) | Best F1: 78 |
| keypoint-detection-on-vicos-towel-dataset | MaskRCNN - RGB (ResNext101) | Best F1: 68.3 |
| keypoint-detection-on-vicos-towel-dataset | DINO - RGB (ConvNetx-B) | Best F1: 72.7 |
| keypoint-detection-on-vicos-towel-dataset | CeDiRNet-3DoF - RGB (ConvNext-L) | Best F1: 78.4 |
| keypoint-detection-on-vicos-towel-dataset | DeformDETR - RGB (ConvNetx-B) | Best F1: 61.2 |
| keypoint-detection-on-vicos-towel-dataset | CeDiRNet-3DoF - RGB-D (ConvNext-B) | Best F1: 81.4 |
| keypoint-detection-on-vicos-towel-dataset | CeDiRNet-3DoF - RGB-D (ConvNext-L) | Best F1: 80.8 |