
摘要
近年来,视频识别领域通过丰富的注释基准得到了显著的发展。然而,研究仍然主要集中在人类动作或体育识别上——专注于一个高度特定的视频理解任务,从而在描述视频整体内容方面留下了一定的差距。为填补这一空白,我们提出了一个大规模的“综合视频理解数据集”(HVU)。HVU 按照语义分类法进行层次组织,关注多标签和多任务视频理解问题,涵盖动态场景中多个语义方面的识别。HVU 总共包含约 572,000 个视频,用于训练、验证和测试集的注释数量达到 900 万条,涉及 3142 个标签。HVU 涵盖了场景、对象、动作、事件、属性和概念等多个类别的语义方面,自然地捕捉了现实世界的情景。我们在三个具有挑战性的任务上展示了 HVU 的泛化能力:1) 视频分类;2) 视频字幕生成;3) 视频聚类任务。特别是在视频分类方面,我们引入了一种新的时空深度神经网络架构——“综合外观和时间网络”(HATNet),该架构通过融合 2D 和 3D 架构,并结合外观和时间线索的中间表示来构建。HATNet 关注多标签和多任务学习问题,并以端到端的方式进行训练。通过我们的实验,我们验证了综合表征学习是互补的,并且可以在许多实际应用中发挥关键作用。
代码仓库
holistic-video-understanding/HVU-Dataset
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-kinetics-400 | HATNet (32 frames) | Acc@1: 77.6 |
| action-recognition-in-videos-on-hmdb-51 | HATNet (32 frames) | Average accuracy of 3 splits: 76.5 |
| action-recognition-in-videos-on-ucf101 | HATNet (32 frames) | 3-fold Accuracy: 97.8 |