摘要

近年来，计算机视觉领域的许多进展都归功于大规模数据集。开源的机器学习软件包和廉价的商品硬件降低了在大规模上探索新方法的门槛。现在可以在几天内训练出涵盖数百万个样本的模型。尽管存在像ImageNet这样的大规模图像理解数据集，但目前尚无同等规模的视频分类数据集。本文中，我们介绍了YouTube-8M，这是迄今为止最大的多标签视频分类数据集，包含约800万个视频（总计50万小时），并用4800个视觉实体词汇进行了标注。为了获取这些视频及其标签，我们使用了YouTube的视频标注系统，该系统会为视频标注其主要主题。虽然这些标签是由机器生成的，但它们具有高精度，并且源自多种基于人类信号的数据源，包括元数据和查询点击信号。我们通过自动化和人工策展策略对视频标签（知识图谱实体）进行了过滤，其中包括询问人类评估员这些标签是否可视觉识别。随后，我们将每个视频以每秒一帧的速度解码，并使用在ImageNet上预训练的深度卷积神经网络（Deep CNN）提取分类层之前的隐藏表示。最后，我们压缩了帧特征，并提供了可供下载的特征和视频级别的标签。我们在该数据集上训练了各种（较为简单的）分类模型，使用流行的评估指标对其进行了评估，并报告了这些模型作为基线。尽管数据集规模庞大，但我们的一些模型在单台机器上使用TensorFlow进行训练时，在不到一天的时间内即可收敛。我们计划发布用于训练TensorFlow模型和计算评估指标的代码。

源 PDF