3 个月前

用于多模态动作预测的前瞻特征融合Transformer

用于多模态动作预测的前瞻特征融合Transformer

摘要

尽管人类行为预测本质上是一个多模态任务,但当前主流方法在知名的行为预测数据集上仍通过集成策略,对单模态预测网络的得分进行平均来利用多模态数据。在本工作中,我们提出了一种基于Transformer的模态融合技术,能够在早期阶段统一多模态数据。所提出的前瞻性特征融合Transformer(Anticipative Feature Fusion Transformer, AFFT)在性能上显著优于主流的得分融合方法,并在EpicKitchens-100和EGTEA Gaze+数据集上取得了当前最优的实验结果。该模型具有良好的可扩展性,无需修改网络结构即可轻松集成新的模态。基于此,我们在EpicKitchens-100数据集上提取了音频特征,并将其加入社区中常用的特征集合中,以进一步提升模型表现。

代码仓库

zeyun-zhong/afft
官方
pytorch
GitHub 中提及

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于多模态动作预测的前瞻特征融合Transformer | 论文 | HyperAI超神经