6 个月前

计算机视觉

Richard Luo Austin Peng Adithya Vasudev Rishabh Jain

摘要

视频作为一种日益突出且信息密度高的媒介，对语言模型提出了重大挑战。一段典型的视频由一系列较短的片段（即镜头）组成，这些镜头共同构成一个连贯的叙事。每个镜头类似于句子中的一个词，需要同时处理多种信息流（如视觉与听觉数据）。要全面理解整个视频，不仅需要解析每个镜头的视听信息，还要求模型能够建立镜头之间的语义关联，从而生成一个完整而统一的故事。尽管该领域已取得显著进展，但现有方法往往忽视了视频更细粒度的逐镜头语义信息。在本项目中，我们提出了一类高效的大规模语言视觉模型（Large Language Vision Models, LLVMs），命名为 Shotluck Holmes，旨在提升视频摘要与字幕生成性能。通过采用更优的预训练策略与数据收集方法，我们成功将现有小型 LLVM 模型的能力从理解单张图像扩展至理解连续帧序列。具体而言，Shotluck Holmes 在 Shot2Story 视频字幕生成与摘要任务上，取得了优于当前最先进水平的结果，同时使用了更小、计算效率更高的模型架构。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Richard Luo Austin Peng Adithya Vasudev Rishabh Jain

摘要

视频作为一种日益突出且信息密度高的媒介，对语言模型提出了重大挑战。一段典型的视频由一系列较短的片段（即镜头）组成，这些镜头共同构成一个连贯的叙事。每个镜头类似于句子中的一个词，需要同时处理多种信息流（如视觉与听觉数据）。要全面理解整个视频，不仅需要解析每个镜头的视听信息，还要求模型能够建立镜头之间的语义关联，从而生成一个完整而统一的故事。尽管该领域已取得显著进展，但现有方法往往忽视了视频更细粒度的逐镜头语义信息。在本项目中，我们提出了一类高效的大规模语言视觉模型（Large Language Vision Models, LLVMs），命名为 Shotluck Holmes，旨在提升视频摘要与字幕生成性能。通过采用更优的预训练策略与数据收集方法，我们成功将现有小型 LLVM 模型的能力从理解单张图像扩展至理解连续帧序列。具体而言，Shotluck Holmes 在 Shot2Story 视频字幕生成与摘要任务上，取得了优于当前最先进水平的结果，同时使用了更小、计算效率更高的模型架构。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Shotluck Holmes：面向视频字幕生成与摘要的一类高效小规模大语言视觉模型 | 论文 | HyperAI超神经