3 个月前

HowToCaption:通过提示工程实现大规模视频标注到文本描述的转换

HowToCaption:通过提示工程实现大规模视频标注到文本描述的转换

摘要

教学视频是学习文本-视频乃至多模态表示的常用数据来源,通常通过自动语音识别系统(ASR)从视频音频中提取字幕,进而实现文本与视频的对齐。然而,与人工标注的字幕相比,语音转写的字幕在语义上往往与视频视觉内容存在自然偏差,因此仅能提供噪声较大的监督信号。这一问题导致目前大规模无标注网络视频训练数据在训练文本-视频模型时仍存在性能瓶颈。为此,本文提出利用大语言模型(LLM)的能力,大规模生成与视频内容高度对齐的高质量视频描述。具体而言,我们设计了一种提示策略,引导LLM基于教学视频的ASR字幕生成合理且连贯的视频描述。该方法特别设计了能够处理较长字幕文本的提示机制,从而有效捕捉单句之外的上下文语义信息。进一步地,我们引导LLM根据原始字幕的时间戳信息,为生成的每条描述分配相应的时间标记,并实现描述与视频内容在时间维度上的精准对齐。由此,我们能够在无需人工标注的前提下,大规模生成具有人类写作风格的视频描述。我们将该方法应用于HowTo100M数据集的字幕,构建了一个全新的大规模数据集——HowToCaption。实验评估表明,所生成的描述不仅在多种基准数据集上显著提升了零样本文本-视频检索与视频字幕生成任务的性能,还实现了文本叙述与音频信号的有效解耦,从而进一步提升了文本-视频-音频联合任务的性能表现。

代码仓库

ninatu/howtocaption
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-captioning-on-msr-vtt-1HowToCaption
BLEU-4: 49.8
CIDEr: 65.3
METEOR: 32.2
ROUGE-L: 66.3
video-captioning-on-msvd-1HowToCaption
BLEU-4: 70.4
CIDEr: 154.2
METEOR: 46.4
ROUGE-L: 83.2
video-captioning-on-youcook2HowToCaption
BLEU-4: 8.8
CIDEr: 116.4
METEOR: 15.9
ROUGE-L: 37.3
zero-shot-video-retrieval-on-lsmdcHowToCaption
text-to-video Median Rank: 29
text-to-video R@1: 17.3
text-to-video R@10: 38.6
text-to-video R@5: 31.7
zero-shot-video-retrieval-on-lsmdcVAST, HowToCaption-finetuned
text-to-video Median Rank: 7
text-to-video R@1: 27.7
text-to-video R@10: 54.6
text-to-video R@5: 46.5
zero-shot-video-retrieval-on-msr-vttHowToCaption
text-to-video Median Rank: 3
text-to-video R@1: 37.6
text-to-video R@10: 73.3
text-to-video R@5: 62
zero-shot-video-retrieval-on-msr-vttVAST, HowToCaption-finetuned
text-to-video Median Rank: 1
text-to-video R@1: 50
text-to-video R@10: 81.4
text-to-video R@5: 73.2
zero-shot-video-retrieval-on-msvdHowToCaption
text-to-video Median Rank: 2
text-to-video R@1: 44.5
text-to-video R@10: 82.1
text-to-video R@5: 73.3
zero-shot-video-retrieval-on-msvdVAST, HowToCaption-finetuned
text-to-video Median Rank: 1
text-to-video R@1: 54.8
text-to-video R@10: 87.2
text-to-video R@5: 80.9
zero-shot-video-retrieval-on-youcook2VAST, HowToCaption-finetuned
text-to-video Median Rank: 8
text-to-video R@1: 19.7
text-to-video R@10: 53.9
text-to-video R@5: 43.6
zero-shot-video-retrieval-on-youcook2HowToCaption
text-to-video Median Rank: 15
text-to-video R@1: 13.4
text-to-video R@10: 44.1
text-to-video R@5: 33.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
HowToCaption:通过提示工程实现大规模视频标注到文本描述的转换 | 论文 | HyperAI超神经