HyperAIHyperAI

Command Palette

Search for a command to run...

端到端时空动作定位的视频变换器方法

Alexey Gritsenko; Xuehan Xiong; Josip Djolonga; Mostafa Dehghani; Chen Sun; Mario Lučić; Cordelia Schmid; Anurag Arnab

摘要

最先进的时空动作定位模型通常依赖外部的人体检测建议和复杂的外部记忆库。我们提出了一种完全端到端、纯基于 Transformer (Transformer)的模型,该模型可以直接输入视频,并输出管状序列——即每帧中的边界框序列及其对应的动作类别。我们的灵活模型可以使用稀疏的单帧边界框监督或完整的管状序列注释进行训练。在这两种情况下,模型都能预测出连贯的管状序列作为输出。此外,我们的端到端模型无需额外的预处理步骤来生成人体检测建议,也无需在后处理中进行非极大值抑制。我们进行了广泛的消融实验,并在四个不同的时空动作定位基准数据集上显著提升了现有技术水平,无论使用稀疏关键帧还是完整的管状序列注释。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供