3 个月前

ASPnet:基于多数据源共享-私有表征的动作分割

ASPnet:基于多数据源共享-私有表征的动作分割

摘要

当前大多数先进的动作分割方法基于单一输入模态,或采用简单的多源数据融合策略。然而,有效融合互补信息有望增强分割模型的性能,使其对传感器噪声更具鲁棒性,并在较小训练数据集下实现更高精度。为提升动作分割中的多模态表征学习能力,我们提出将多流分割模型的隐层特征解耦为两类成分:共享模态成分(包含跨数据源的共性信息)与私有模态成分(反映各模态特有信息);随后,通过引入注意力瓶颈机制,在保持连续处理层中特征解耦性的前提下,捕捉数据中的长时序依赖关系。在50Salads、Breakfast和RARP45数据集上的实验表明,所提出的多模态方法在多视角与多模态数据源上均优于多种数据融合基线方法,其性能达到或超越当前最先进的水平。此外,该模型对加性传感器噪声具有更强的鲁棒性,在训练数据较少的情况下,仍可实现与强视频基线相当的性能表现。

基准测试

基准方法指标
action-segmentation-on-50-salads-1Br-Prompt+ASPnet (RGB, flow, accelerometer)
Acc: 91.4
Edit: 87.5
F1@10%: 92.7
F1@25%: 91.6
F1@50%: 88.5
action-segmentation-on-breakfast-1ASPnet
Acc: 75.9
Average F1: 70.6
Edit: 76.3
F1@10%: 78.1
F1@25%: 72.9
F1@50%: 60.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ASPnet:基于多数据源共享-私有表征的动作分割 | 论文 | HyperAI超神经