6 个月前

摘要

教学视频是学习文本-视频乃至多模态表示的常用数据来源，通常通过自动语音识别系统（ASR）从视频音频中提取字幕，进而实现文本与视频的对齐。然而，与人工标注的字幕相比，语音转写的字幕在语义上往往与视频视觉内容存在自然偏差，因此仅能提供噪声较大的监督信号。这一问题导致目前大规模无标注网络视频训练数据在训练文本-视频模型时仍存在性能瓶颈。为此，本文提出利用大语言模型（LLM）的能力，大规模生成与视频内容高度对齐的高质量视频描述。具体而言，我们设计了一种提示策略，引导LLM基于教学视频的ASR字幕生成合理且连贯的视频描述。该方法特别设计了能够处理较长字幕文本的提示机制，从而有效捕捉单句之外的上下文语义信息。进一步地，我们引导LLM根据原始字幕的时间戳信息，为生成的每条描述分配相应的时间标记，并实现描述与视频内容在时间维度上的精准对齐。由此，我们能够在无需人工标注的前提下，大规模生成具有人类写作风格的视频描述。我们将该方法应用于HowTo100M数据集的字幕，构建了一个全新的大规模数据集——HowToCaption。实验评估表明，所生成的描述不仅在多种基准数据集上显著提升了零样本文本-视频检索与视频字幕生成任务的性能，还实现了文本叙述与音频信号的有效解耦，从而进一步提升了文本-视频-音频联合任务的性能表现。

源 PDF