3 个月前

基于边界感知查询投票的高效时序动作分割

基于边界感知查询投票的高效时序动作分割

摘要

尽管近年来时序动作分割(Temporal Action Segmentation, TAS)的性能取得了显著提升,但其往往伴随着高昂的计算成本,主要原因包括密集的输入数据、复杂的模型结构以及资源消耗较大的后处理需求。为在保持性能的同时提升效率,本文提出一种以“逐段分类”为核心的新视角。通过利用Transformer的强大建模能力,我们将每个视频片段表示为一个独立的实例令牌(instance token),并赋予其内在的实例分割能力。为实现高效的动作分割,我们提出了BaFormer——一种具备边界感知能力的Transformer网络。该模型采用实例查询(instance queries)完成实例分割,同时引入全局查询(global query)进行类别无关的边界预测,从而生成连续的片段提案。在推理阶段,BaFormer采用一种简单而高效的投票策略,基于实例分割结果对边界划分的片段进行分类。值得注意的是,作为一项单阶段方法,BaFormer显著降低了计算开销,其运行时间仅为当前最先进方法DiffAct的6%,同时在多个主流基准上实现了更优或相当的准确率。该项目代码已公开,地址为:https://github.com/peiyao-w/BaFormer。

代码仓库

基准测试

基准方法指标
action-segmentation-on-50-salads-1BaFormer
Acc: 89.5
Edit: 84.2
F1@10%: 89.3
F1@25%: 88.4
F1@50%: 83.9
action-segmentation-on-breakfast-1BaFormer
Acc: 76.6
Average F1: 72.4
Edit: 77.3
F1@10%: 79.2
F1@25%: 74.9
F1@50%: 63.2
action-segmentation-on-gtea-1BaFormer
Acc: 83.0
Edit: 88.7
F1@10%: 92.0
F1@25%: 91.3
F1@50%: 83.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于边界感知查询投票的高效时序动作分割 | 论文 | HyperAI超神经