3 个月前

基于类别原型的对比学习用于多标签与细粒度教育视频分类

基于类别原型的对比学习用于多标签与细粒度教育视频分类

摘要

近年来,学龄前儿童在线媒体消费的持续增长,迫切需要基于数据驱动的工具,帮助教育工作者筛选适合幼儿学习的教育内容。本文提出一种用于检测在线视频中教育内容的方法。研究聚焦于两类广泛应用的教育内容类别:读写能力与数学。针对每一类,我们依据《共同核心标准》(Common Core Standards)选取具有代表性的子类别(即“代码”),例如,读写能力类包括“字母名称”“字母发音”,数学类包括“计数”“分类”等。由于视频可能同时包含多种类型的教育内容,且不同内容类别在视觉上具有相似性(如“字母名称”与“字母发音”),因此我们将该问题建模为细粒度的多标签分类任务。为此,本文提出一种基于类别原型的监督对比学习方法,能够有效处理具有多个标签的细粒度样本。该方法为每个类别学习一个类别原型,并设计损失函数,以最小化类别原型与其所属样本之间的距离,同时最大化其与其它类别样本之间的距离,从而增强类间区分能力。考虑到视觉与音频线索之间的对齐对于有效理解至关重要,我们采用多模态Transformer网络,以捕捉视频中视觉与音频特征之间的交互关系,同时学习视频的联合嵌入表示。为评估方法性能,我们构建了一个名为APPROVE的新数据集,该数据集来源于YouTube的教育视频,由教育研究专家进行细粒度教育类别标注。APPROVE包含193小时专家标注的视频,涵盖19个细粒度教育类别。实验结果表明,所提方法在APPROVE数据集及其他基准数据集(如Youtube-8M、COIN)上均显著优于现有强基线模型。相关数据集已公开,访问地址为:https://nusci.csl.sri.com/project/APPROVE。

基准测试

基准方法指标
video-classification-on-sri-approve-fineMulti-Label Prototypes Contrastive Learning
AUPR: 88.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于类别原型的对比学习用于多标签与细粒度教育视频分类 | 论文 | HyperAI超神经