摘要

近年来，学龄前儿童在线媒体消费的持续增长，迫切需要基于数据驱动的工具，帮助教育工作者筛选适合幼儿学习的教育内容。本文提出一种用于检测在线视频中教育内容的方法。研究聚焦于两类广泛应用的教育内容类别：读写能力与数学。针对每一类，我们依据《共同核心标准》（Common Core Standards）选取具有代表性的子类别（即“代码”），例如，读写能力类包括“字母名称”“字母发音”，数学类包括“计数”“分类”等。由于视频可能同时包含多种类型的教育内容，且不同内容类别在视觉上具有相似性（如“字母名称”与“字母发音”），因此我们将该问题建模为细粒度的多标签分类任务。为此，本文提出一种基于类别原型的监督对比学习方法，能够有效处理具有多个标签的细粒度样本。该方法为每个类别学习一个类别原型，并设计损失函数，以最小化类别原型与其所属样本之间的距离，同时最大化其与其它类别样本之间的距离，从而增强类间区分能力。考虑到视觉与音频线索之间的对齐对于有效理解至关重要，我们采用多模态Transformer网络，以捕捉视频中视觉与音频特征之间的交互关系，同时学习视频的联合嵌入表示。为评估方法性能，我们构建了一个名为APPROVE的新数据集，该数据集来源于YouTube的教育视频，由教育研究专家进行细粒度教育类别标注。APPROVE包含193小时专家标注的视频，涵盖19个细粒度教育类别。实验结果表明，所提方法在APPROVE数据集及其他基准数据集（如Youtube-8M、COIN）上均显著优于现有强基线模型。相关数据集已公开，访问地址为：https://nusci.csl.sri.com/project/APPROVE。

源 PDF