3 个月前

TVR:用于视频-字幕时段检索的大规模数据集

TVR:用于视频-字幕时段检索的大规模数据集

摘要

我们提出了电视节目检索(TV Show Retrieval, TVR)这一全新的多模态检索数据集。TVR 要求系统能够同时理解视频内容及其关联的字幕(对话)文本,从而实现更贴近真实场景的多模态理解任务。该数据集共包含 10.9 万个查询,覆盖 2.18 万段来自 6 部不同题材电视剧的视频片段,每个查询均对应一个精确的时间窗口。此外,所有查询均标注了查询类型,用以标明其更侧重于视频内容、字幕文本,还是两者兼有,这为数据集的深入分析以及基于该数据集的模型研究提供了有力支持。为保障数据质量,我们采用了严格的筛选标准和后期标注验证机制。此外,我们提出了若干基线方法,并设计了一种新颖的跨模态时刻定位(Cross-modal Moment Localization, XML)网络,用于多模态时刻检索任务。所提出的 XML 模型采用晚期融合架构,并引入了一种创新的卷积型起止检测器(Convolutional Start-End detector, ConvSE),在性能上显著超越现有基线方法,同时具备更高的计算效率,为后续研究提供了强有力的起点。为进一步拓展应用,我们还为 TVR 中每个标注的时间片段额外收集了描述性文本,构建了一个新的多模态字幕生成数据集,命名为电视节目字幕(TV Show Caption, TVC),共包含 26.2 万条字幕。目前,TVR 与 TVC 两个数据集均已公开。TVR 数据集:https://tvr.cs.unc.eduTVC 数据集:https://tvr.cs.unc.edu/tvc.html

代码仓库

jayleicn/TVCaption
官方
pytorch
GitHub 中提及
jayleicn/TVRetrieval
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-retrieval-on-tvrXML (Lei et al., 2020)
R@10: 8.93

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TVR:用于视频-字幕时段检索的大规模数据集 | 论文 | HyperAI超神经