3 个月前

基于远程监督学习识别过程性活动

基于远程监督学习识别过程性活动

摘要

本文研究从长达数分钟的长视频中对细粒度、多步骤活动(例如:烹饪不同食谱、实施各类家庭维修、创作多种艺术与手工艺作品)进行分类的问题。准确识别此类活动不仅需要识别构成任务的各个独立步骤,还需捕捉这些步骤之间的时序依赖关系。这一问题与传统的动作分类任务存在显著差异:传统方法通常基于仅持续数秒的视频片段进行优化,且这些视频已由人工裁剪,仅包含简单、原子化的动作。尽管步骤标注有助于训练模型识别程序性活动的各个步骤,但现有大规模数据集中普遍缺乏此类段落级标注,原因在于在长视频中人工标注时间边界成本极高。为解决这一难题,我们提出一种方法,通过利用包含大量复杂活动详细步骤描述的文本知识库(wikiHow)所提供的远程监督信号,自动识别教学类视频中的步骤。该方法采用语言模型,将视频中噪声较大的自动语音识别结果与知识库中的步骤描述进行匹配。实验表明,基于此类自动标注步骤训练得到的视频模型(无需人工监督),在四项下游任务中均展现出优越的泛化性能,包括程序性活动识别、步骤分类、步骤预测以及第一人称视角视频分类。

代码仓库

facebookresearch/video-distant-supervision
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-classification-on-breakfastD-Sprv.
Accuracy (%): 89.9
video-classification-on-coin-1D-Sprv.
Accuracy (%): 90.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于远程监督学习识别过程性活动 | 论文 | HyperAI超神经