HyperAI超神经

摘要

尽管人类行为预测本质上是一个多模态任务，但当前主流方法在知名的行为预测数据集上仍通过集成策略，对单模态预测网络的得分进行平均来利用多模态数据。在本工作中，我们提出了一种基于Transformer的模态融合技术，能够在早期阶段统一多模态数据。所提出的前瞻性特征融合Transformer（Anticipative Feature Fusion Transformer, AFFT）在性能上显著优于主流的得分融合方法，并在EpicKitchens-100和EGTEA Gaze+数据集上取得了当前最优的实验结果。该模型具有良好的可扩展性，无需修改网络结构即可轻松集成新的模态。基于此，我们在EpicKitchens-100数据集上提取了音频特征，并将其加入社区中常用的特征集合中，以进一步提升模型表现。

摘要

Zeyun Zhong David Schneider Michael Voit Rainer Stiefelhagen Jürgen Beyerer

摘要

用 AI 构建 AI

HyperAI Newsletters

Zeyun Zhong David Schneider Michael Voit Rainer Stiefelhagen Jürgen Beyerer

摘要

用 AI 构建 AI

HyperAI Newsletters

Zeyun Zhong David Schneider Michael Voit Rainer Stiefelhagen Jürgen Beyerer

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

用于多模态动作预测的前瞻特征融合Transformer

Zeyun Zhong David Schneider Michael Voit Rainer Stiefelhagen Jürgen Beyerer

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

用于多模态动作预测的前瞻特征融合Transformer

Zeyun Zhong David Schneider Michael Voit Rainer Stiefelhagen Jürgen Beyerer

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

用于多模态动作预测的前瞻特征融合Transformer

Zeyun Zhong David Schneider Michael Voit Rainer Stiefelhagen Jürgen Beyerer

摘要

用 AI 构建 AI

HyperAI Newsletters