{Helmut PrendingerYutaka MatsuoMondher BouaziziSatoshi SuzukiBastien RigaultArtur GonçalvesSimon Speth}
摘要
本文介绍了用于执行特定受限灾害场景下灾害救援任务中监测与巡逻任务的无人机系统中的人工智能(AI)组件。该任务由日本先进机器人基金会(Advanced Robotics Foundation)指定。AI组件采用深度学习模型实现环境识别与目标检测功能。在环境识别方面,基于RGB图像采用语义分割(即像素级标注)方法进行处理。目标检测是识别并定位受困人员的关键技术。由于从无人机视角看,人类目标相对较小,因此本研究同时利用RGB图像与热成像图像进行检测。为训练模型,我们构建了一个新型的多光谱、公开可用的人体数据集。通过地理定位方法,实现对地面上人员位置的精确识别。在语义分割模型方面,我们采用多种特征提取器进行了广泛测试。此外,我们专门构建了两个数据集,并已向公众开放。与基线模型相比,表现最优的模型在平均交并比(mean Intersection over Union, IoU)上提升了1.3%。在人员检测模型的对比实验中,我们评估了两种不同架构:第一种为“后融合”(late fusion)集成模型,将RGB与热成像信息在决策层进行融合;第二种为四通道模型,采用“早融合”(early fusion)方式在输入层整合两种模态信息。实验结果表明,在更严格的IoU阈值(0.75)下,四通道模型的平均精度(average precision)相比集成模型提升了40.6%;相较于仅使用热成像的模型,其平均精度也提高了5.8%。所有模型均在NVIDIA AGX Xavier平台完成部署与实际测试。据我们所知,本研究是首个从无人机视角同时利用RGB与热成像数据开展监测任务的系统性工作,具有重要的技术示范意义。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multispectral-object-detection-on-nii-cu-mapd | YOLOv3-4‐channel | AP@0.5: 97.9 AP@0.75: 76.9 mAP@0.5:0.95: 64.4 |
| multispectral-object-detection-on-nii-cu-mapd | YOLOv3-Ensemble | AP@0.5: 97.3 AP@0.75: 54.7 mAP@0.5:0.95: 53.4 |
| object-detection-on-nii-cu-mapd | YOLOv3 | AP@0.5: 92.4 AP@0.75: 44.5 mAP@0.5:0.95: 48.3 |
| semantic-segmentation-on-okutama-drone-and | DeepLabv3+‐ResNet‐101 | Acc: 90.78 mIoU: 65.88 |
| semantic-segmentation-on-okutama-drone-and | DeepLabv3+‐Xception‐65 | Acc: 90.72 mIoU: 64.34 |
| semantic-segmentation-on-okutama-drone-and | DeepLabv3+‐ResNet‐50 | Acc: 78.65 mIoU: 43.65 |
| semantic-segmentation-on-okutama-drone-and | DeepLabv3+‐Xception‐71 | Acc: 74.31 mIoU: 37.81 |