3 个月前

基于知识图谱增强的Transformer模型用于视频字幕生成

基于知识图谱增强的Transformer模型用于视频字幕生成

摘要

视频字幕生成旨在使用自然语言描述视频内容。尽管该领域已取得显著进展,但在实际应用中仍存在提升空间,主要受限于“长尾词汇”问题。本文提出一种基于知识图谱增强的文本Transformer模型(TextKG),用于视频字幕生成。值得注意的是,TextKG采用双流架构,由外部流(external stream)和内部流(internal stream)构成。外部流旨在引入额外知识,通过建模外部知识(如预构建的知识图谱)与视频内部信息(如显著目标区域、语音转录文本及视频字幕)之间的交互关系,有效缓解长尾词汇带来的挑战。与此同时,内部流则专注于挖掘视频中的多模态信息(如视频帧的视觉特征、语音转录文本及字幕内容),以保障生成字幕的质量。此外,两流之间还引入交叉注意力机制,实现信息共享,使双流能够相互协同,进一步提升生成结果的准确性。在四个具有挑战性的视频字幕数据集(YouCookII、ActivityNet Captions、MSRVTT 和 MSVD)上进行的大量实验表明,所提方法在性能上优于现有最先进方法。具体而言,在YouCookII数据集上,TextKG方法相较最优公开结果,绝对CIDEr得分提升了18.7%。

基准测试

基准方法指标
video-captioning-on-msr-vtt-1TextKG
BLEU-4: 46.6
CIDEr: 60.8
METEOR: 30.5
ROUGE-L: 64.8
video-captioning-on-youcook2TextKG
BLEU-4: 11.7
CIDEr: 1.33
METEOR: 14.8
ROUGE-L: 40.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于知识图谱增强的Transformer模型用于视频字幕生成 | 论文 | HyperAI超神经