3 个月前

Bridge-Prompt:面向教学视频中的序次动作理解

Bridge-Prompt:面向教学视频中的序次动作理解

摘要

动作识别模型在短视频片段中对人体动作分类方面展现出令人瞩目的能力。在真实场景中,多个相关的人体动作通常以特定顺序连续发生,构成具有语义意义的复合人类活动。传统动作识别方法主要聚焦于单一动作的分析,然而它们难以充分建模相邻动作之间的上下文关系,而这些关系为理解长视频提供了潜在的时间逻辑依据。本文提出一种基于提示(prompt)的框架——Bridge-Prompt(Br-Prompt),用于建模相邻动作之间的语义关联,从而能够同时利用一系列有序动作中的上下文外(out-of-context)与上下文(contextual)信息,尤其适用于教学类视频的分析。具体而言,我们重新设计了单个动作标签,将其转化为整合性的文本提示(text prompts)作为监督信号,以弥合单个动作语义之间的鸿沟。生成的文本提示与对应的视频片段配对,通过对比学习策略共同训练文本编码器与视频编码器。经过训练的视觉编码器在与有序动作相关的下游任务中表现出更强的性能,例如动作分割和人类活动识别。我们在多个视频数据集上评估了所提方法的性能:佐治亚理工学院第一人称活动数据集(GTEA)、50Salads 以及 Breakfast 数据集。实验结果表明,Br-Prompt 在多个基准测试中均达到了当前最优(state-of-the-art)水平。代码已开源,地址为:https://github.com/ttlmh/Bridge-Prompt。

代码仓库

ttlmh/bridge-prompt
官方
pytorch

基准测试

基准方法指标
action-segmentation-on-50-salads-1Br-Prompt+ASFormer
Acc: 88.1
Edit: 83.8
F1@10%: 89.2
F1@25%: 87.8
F1@50%: 81.3
action-segmentation-on-gtea-1Br-Prompt+ASFormer
Acc: 81.2
Edit: 91.6
F1@10%: 94.1
F1@25%: 92.0
F1@50%: 83.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Bridge-Prompt:面向教学视频中的序次动作理解 | 论文 | HyperAI超神经