3 个月前

布料抓取点定位的中心方向网络

Domen Tabernik Jon Muhovič Matej Urbas Danijel Skočaj

摘要

抓取物体是机器人学与计算机视觉领域的一项基础性挑战，对于提升机器人操作能力具有重要意义。柔性物体（如布料、衣物）由于其非刚性特性，带来了额外的复杂性。本文提出了一种名为CeDiRNet-3DoF的深度学习模型，用于抓取点检测，特别针对布料类物体进行了优化。该模型结合中心方向回归与定位网络，在2023年ICRA布料操作挑战赛的感知任务中取得了第一名的成绩。针对现有文献中缺乏标准化基准数据集、导致方法间难以有效比较的问题，我们构建了ViCoS毛巾数据集（ViCoS Towel Dataset）。该数据集包含8,000张真实图像与12,000张合成图像，是一个大规模、高质量的基准数据集，可为当前基于数据驱动的深度学习方法提供可靠的训练与评估资源。大量实验评估表明，CeDiRNet-3DoF在真实场景中展现出优异的鲁棒性，性能优于现有的先进方法，包括最新的基于Transformer的模型。本工作填补了布料抓取领域的重要空白，为计算机视觉与机器人领域的布料抓取问题提供了强有力的解决方案与标准化基准。相关代码与数据集已开源，地址为：https://github.com/vicoslab/CeDiRNet-3DoF

代码仓库

vicoslab/cedirnet-3dof

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
keypoint-detection-on-vicos-towel-dataset	Lisp et al. - RGB (ConvNetx-B)	Best F1: 65.7
keypoint-detection-on-vicos-towel-dataset	YOLOv7 - RGB	Best F1: 48.3
keypoint-detection-on-vicos-towel-dataset	CeDiRNet-3DoF - RGB (ConvNext-B)	Best F1: 78
keypoint-detection-on-vicos-towel-dataset	MaskRCNN - RGB (ResNext101)	Best F1: 68.3
keypoint-detection-on-vicos-towel-dataset	DINO - RGB (ConvNetx-B)	Best F1: 72.7
keypoint-detection-on-vicos-towel-dataset	CeDiRNet-3DoF - RGB (ConvNext-L)	Best F1: 78.4
keypoint-detection-on-vicos-towel-dataset	DeformDETR - RGB (ConvNetx-B)	Best F1: 61.2
keypoint-detection-on-vicos-towel-dataset	CeDiRNet-3DoF - RGB-D (ConvNext-B)	Best F1: 81.4
keypoint-detection-on-vicos-towel-dataset	CeDiRNet-3DoF - RGB-D (ConvNext-L)	Best F1: 80.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供