4 个月前

多模态抽象概括在How2视频中的应用

多模态抽象概括在How2视频中的应用

摘要

本文研究了开放域视频的抽象摘要生成。与传统的文本新闻摘要不同,其目标不仅仅是“压缩”文本信息,而是提供一个流畅的文本摘要,该摘要从不同的源模态(在我们的案例中为视频和音频转录文本)收集并融合了信息。我们展示了如何利用具有层次注意力机制的多源序列到序列模型将不同模态的信息整合为连贯的输出,并比较了使用不同模态训练的各种模型。此外,我们在How2教学视频语料库上进行了初步实验。我们还提出了一种新的评估指标(Content F1),用于抽象摘要任务,该指标衡量的是摘要的语义充分性而非流畅性,后者通常由ROUGE和BLEU等指标覆盖。

基准测试

基准方法指标
text-summarization-on-how2Ground-truth transcript + Action with Hierarchical Attn
Content F1: 48.9
ROUGE-L: 54.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多模态抽象概括在How2视频中的应用 | 论文 | HyperAI超神经