3 个月前

事实:用于高效动作分割的帧-动作交叉注意力时序建模

事实:用于高效动作分割的帧-动作交叉注意力时序建模

摘要

我们研究的是监督式动作分割任务,其目标是预测视频中每一帧的动作标签。现有方法为了捕捉长时程的时序依赖关系,通常通过Transformer增强帧级特征,或利用学习到的动作特征来优化帧级预测。然而,这些方法计算开销较大,且忽略了帧特征与动作特征之间蕴含的互补信息——这些信息若能被有效利用,将有助于提升两类特征的质量并改进时序建模能力。为此,我们提出一种高效且新颖的帧-动作交叉注意力时序建模框架(Frame-Action Cross-attention Temporal modeling, FACT)。该框架并行地利用帧特征与动作特征进行时序建模,并通过这种并行结构实现特征间的迭代式双向信息传递,从而持续优化两类特征。FACT网络包含三个核心组件:(i)帧分支,通过卷积操作学习帧级特征;(ii)动作分支,借助Transformer建模动作级别的依赖关系,并引入动作标记(action tokens);(iii)交叉注意力机制,实现两分支之间的信息交互与通信。此外,我们设计了一种新的匹配损失函数,确保每个动作标记能够唯一地编码一个动作片段,从而更准确地捕捉其语义信息。得益于该架构设计,FACT还可有效利用视频的文本转录内容辅助动作分割任务。我们在四个视频数据集(包括两个第一人称视角和两个第三人称视角)上对FACT进行了评估,涵盖有无文本转录的两种场景。实验结果表明,FACT在显著提升当前最先进方法的分割准确率的同时,其计算效率更高——相比现有的基于Transformer的方法,推理速度提升了约3倍,展现出卓越的性能与效率平衡。

基准测试

基准方法指标
action-segmentation-on-breakfast-1FACT (efficient hybrid of convolution and transformer model)
Acc: 76.2
Average F1: 74.7
Edit: 79.7
F1@10%: 81.4
F1@25%: 76.5
F1@50%: 66.2
action-segmentation-on-gtea-1FACT
Acc: 84.5
Edit: 93.5
F1@10%: 96.1
F1@25%: 95.6
F1@50%: 87.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
事实:用于高效动作分割的帧-动作交叉注意力时序建模 | 论文 | HyperAI超神经