
摘要
事件相机(Event Camera)是一种新型类脑传感器,近年来受到越来越多的关注。现有的基于事件的主干网络主要依赖于基于图像的设计,通过将事件转换为图像来提取空间信息,却忽视了事件本身所具有的时间与极性等关键属性。为解决这一问题,本文提出一种面向事件视觉的新型分组视觉Transformer主干网络——分组事件Transformer(Group Event Transformer, GET),该方法在特征提取过程中将时间-极性信息与空间信息解耦。具体而言,我们首先提出一种新的事件表示方式——分组令牌(Group Token),该方式根据事件的时间戳和极性对异步事件进行分组。随后,GET采用事件双自注意力模块(Event Dual Self-Attention block)与分组令牌聚合模块(Group Token Aggregation module),以实现空间域以及时间-极性域中的高效特征交互与融合。在此基础上,GET可通过连接不同任务头,灵活适配多种下游任务。我们在四个基于事件的分类数据集(Cifar10-DVS、N-MNIST、N-CARS 和 DVS128Gesture)以及两个基于事件的目标检测数据集(1Mpx 和 Gen1)上对所提方法进行了评估,实验结果表明,GET在各项任务中均优于现有最先进方法。代码已开源,地址为:https://github.com/Peterande/GET-Group-Event-Transformer。
代码仓库
qiwang233/dailydvs-200
pytorch
GitHub 中提及
peterande/get-group-event-transformer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| classification-on-n-cars | GET | Accuracy (%): 96.7 Architecture: Transformer Params (M): 4.5 Representation: Token |
| object-detection-on-gen1-detection | GET-T | Params: 21.9 mAP: 47.9 |