
摘要
在本文中,我们提出了一种全新的完全无监督框架,该框架能够从单个输入视频本身学习适用于动作分割任务的动作表示,而无需任何训练数据。我们的方法是一种基于浅层网络的深度度量学习方法,通过在相似度分布上应用三元组损失,并结合一种新颖的三元组选择策略,有效建模时间先验和语义先验,从而在新的表示空间中发现动作。在此基础上,我们成功地恢复了所学动作表示中的时间边界,其质量优于现有的无监督方法。所提出的算法在两个广泛使用的动作分割基准数据集上进行了评估,并通过在所学表示上应用通用聚类算法,取得了具有竞争力的性能。
代码仓库
elenabbbuenob/tsa-actionseg
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-segmentation-on-breakfast-1 | TSA (Spectral) | Acc: 63.2 F1: 57.8 mIoU: 52.7 |
| action-segmentation-on-breakfast-1 | TSA (FINCH) | Acc: 65.1 mIoU: 52.1 |
| action-segmentation-on-breakfast-1 | TSA (Kmeans) | Acc: 63.7 F1: 58 mIoU: 53.3 |
| action-segmentation-on-youtube-inria | TSA (Kmeans) | Acc: 59.7 F1: 55.3 |
| action-segmentation-on-youtube-inria | TSA (FINCH) | Acc: 62.4 F1: 54.7 |