6 个月前

摘要

我们提出了电视节目检索（TV Show Retrieval, TVR）这一全新的多模态检索数据集。TVR 要求系统能够同时理解视频内容及其关联的字幕（对话）文本，从而实现更贴近真实场景的多模态理解任务。该数据集共包含 10.9 万个查询，覆盖 2.18 万段来自 6 部不同题材电视剧的视频片段，每个查询均对应一个精确的时间窗口。此外，所有查询均标注了查询类型，用以标明其更侧重于视频内容、字幕文本，还是两者兼有，这为数据集的深入分析以及基于该数据集的模型研究提供了有力支持。为保障数据质量，我们采用了严格的筛选标准和后期标注验证机制。此外，我们提出了若干基线方法，并设计了一种新颖的跨模态时刻定位（Cross-modal Moment Localization, XML）网络，用于多模态时刻检索任务。所提出的 XML 模型采用晚期融合架构，并引入了一种创新的卷积型起止检测器（Convolutional Start-End detector, ConvSE），在性能上显著超越现有基线方法，同时具备更高的计算效率，为后续研究提供了强有力的起点。为进一步拓展应用，我们还为 TVR 中每个标注的时间片段额外收集了描述性文本，构建了一个新的多模态字幕生成数据集，命名为电视节目字幕（TV Show Caption, TVC），共包含 26.2 万条字幕。目前，TVR 与 TVC 两个数据集均已公开。TVR 数据集：https://tvr.cs.unc.eduTVC 数据集：https://tvr.cs.unc.edu/tvc.html

源 PDF