
摘要
尽管人类行为预测本质上是一个多模态任务,但当前主流方法在知名的行为预测数据集上仍通过集成策略,对单模态预测网络的得分进行平均来利用多模态数据。在本工作中,我们提出了一种基于Transformer的模态融合技术,能够在早期阶段统一多模态数据。所提出的前瞻性特征融合Transformer(Anticipative Feature Fusion Transformer, AFFT)在性能上显著优于主流的得分融合方法,并在EpicKitchens-100和EGTEA Gaze+数据集上取得了当前最优的实验结果。该模型具有良好的可扩展性,无需修改网络结构即可轻松集成新的模态。基于此,我们在EpicKitchens-100数据集上提取了音频特征,并将其加入社区中常用的特征集合中,以进一步提升模型表现。
代码仓库
zeyun-zhong/afft
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-anticipation-on-epic-kitchens-100 | AFFT | Recall@5: 18.5 |
| action-anticipation-on-epic-kitchens-100-test | AFFT | recall@5: 14.9 |