3 个月前

ASQuery:一种基于查询的动作分割模型

ASQuery:一种基于查询的动作分割模型

摘要

在时间动作分割任务中,现有方法通常将其视为逐帧分类问题。本文提出了一种简洁而有效的模型——ASQuery,该模型通过学习每一类动作的中心表示,将分类问题转化为类别特定查询与帧特征之间的相似性计算。这些中心表示由我们提出的Transformer解码器模块动态生成,从而赋予模型对整个视频更灵活、更全面的感知能力。此外,本文首次引入边界查询(boundary query)以优化分割结果,有效缓解了令人困扰的过分割问题。在两个公开的动作分割数据集(Breakfast 和 Assembly101)上,ASQuery 在平均指标上分别取得了 0.9% 和 4.1% 的性能提升,显著优于当前最先进模型。项目源代码已开源,地址为:https://github.com/zlngan/ASQuery。

基准测试

基准方法指标
action-segmentation-on-assembly101ASQuery
Edit: 35.3
F1@10%: 37.8
F1@25%: 35.6
F1@50%: 29.4
MoF: 40.4
action-segmentation-on-breakfast-1ASQuery
Acc: 77.9
Average F1: 74.6
Edit: 78.4
F1@10%: 80.7
F1@25%: 76.5
F1@50%: 66.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ASQuery:一种基于查询的动作分割模型 | 论文 | HyperAI超神经