
摘要
我们提出了一种从大规模未标记视频数据中学习视频表示的新方法。理想情况下,这种表示将是通用且可迁移的,可以直接用于新的任务,如动作识别和零样本或少样本学习。我们将无监督表示学习表述为一个多模态、多任务学习问题,其中通过蒸馏在不同模态之间共享表示。此外,我们引入了损失函数进化(loss function evolution)的概念,利用进化搜索算法自动找到捕捉多种(自监督)任务和模态的最优损失函数组合。第三,我们提出了一种基于齐普夫定律(Zipf's law)的无监督表示评估指标,该指标使用分布匹配到一个大型未标记数据集作为先验约束。这种无监督约束不依赖任何标签信息,却能产生与弱监督、特定任务的方法相似的结果。所提出的无监督表示学习方法生成了一个单一的RGB网络,并优于先前的方法。值得注意的是,除了大型、完全标注的视频数据集外,该方法的效果也优于几种基于标签的方法(例如ImageNet)。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| self-supervised-action-recognition-on-hmdb51 | ELo | Frozen: false Top-1 Accuracy: 64.5 |
| self-supervised-action-recognition-on-hmdb51-1 | ELo | Top-1 Accuracy: 67.4 |
| self-supervised-action-recognition-on-ucf101-1 | ELo | 3-fold Accuracy: 93.8 |