4 个月前

Shot2Story:多镜头视频全面理解的新基准

Shot2Story:多镜头视频全面理解的新基准

摘要

一段视频片段可能包含多个事件的发展过程和一个引人入胜的故事线。人类需要捕捉每个镜头中的事件并将它们联系起来,以理解其背后的故事。在本研究中,我们提出了一种新的多镜头视频理解基准——Shot2Story,该基准提供了详细的镜头级字幕、全面的视频摘要以及问答对。为了促进对视频的更好语义理解,我们为视觉信号和人类叙述都提供了字幕。我们设计了几个不同的任务,包括单镜头视频字幕生成、多镜头视频摘要生成以及多镜头视频问答。初步实验表明,为多镜头视频生成长而全面的摘要存在一些挑战。然而,即使生成的摘要不够完美,它们已经在现有的视频理解任务(如视频问答)中取得了具有竞争力的表现,促进了详细摘要在未充分探索的视频理解领域的应用。

代码仓库

bytedance/Shot2Story
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-captioning-on-shot2story20kShot2Story
BLEU-4: 10.7
CIDEr: 37.4
METEOR: 16.2
ROUGE: 29.6
video-narration-captioning-on-shot2story20kOurs
BLEU-4: 18.8
CIDEr: 168.7
METEOR: 24.8
ROUGE: 39
video-summarization-on-shot2story20kSUM-shot
BLEU-4: 11.7
CIDEr: 8.6
METEOR: 19.7
ROUGE: 26.8
zeroshot-video-question-answer-on-msrvtt-qaSUM-shot+Vicuna
Accuracy: 56.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Shot2Story:多镜头视频全面理解的新基准 | 论文 | HyperAI超神经