3 个月前

Shotluck Holmes:面向视频字幕生成与摘要的一类高效小规模大语言视觉模型

Shotluck Holmes:面向视频字幕生成与摘要的一类高效小规模大语言视觉模型

摘要

视频作为一种日益突出且信息密度高的媒介,对语言模型提出了重大挑战。一段典型的视频由一系列较短的片段(即镜头)组成,这些镜头共同构成一个连贯的叙事。每个镜头类似于句子中的一个词,需要同时处理多种信息流(如视觉与听觉数据)。要全面理解整个视频,不仅需要解析每个镜头的视听信息,还要求模型能够建立镜头之间的语义关联,从而生成一个完整而统一的故事。尽管该领域已取得显著进展,但现有方法往往忽视了视频更细粒度的逐镜头语义信息。在本项目中,我们提出了一类高效的大规模语言视觉模型(Large Language Vision Models, LLVMs),命名为 Shotluck Holmes,旨在提升视频摘要与字幕生成性能。通过采用更优的预训练策略与数据收集方法,我们成功将现有小型 LLVM 模型的能力从理解单张图像扩展至理解连续帧序列。具体而言,Shotluck Holmes 在 Shot2Story 视频字幕生成与摘要任务上,取得了优于当前最先进水平的结果,同时使用了更小、计算效率更高的模型架构。

代码仓库

Skyline-9/Shotluck-Holmes
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-captioning-on-shot2story20kShotluck-Holmes (3.1B)
BLEU-4: 8.7
CIDEr: 63.2
METEOR: 25.7
ROUGE: 36.2
video-summarization-on-shot2story20kShotluck-Holmes (3.1B)
BLEU-4: 7.67
CIDEr: 152.3
METEOR: 23.2
ROUGE: 43

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Shotluck Holmes:面向视频字幕生成与摘要的一类高效小规模大语言视觉模型 | 论文 | HyperAI超神经