6 个月前

摘要

视频字幕生成旨在使用自然语言描述视频内容。尽管该领域已取得显著进展，但在实际应用中仍存在提升空间，主要受限于“长尾词汇”问题。本文提出一种基于知识图谱增强的文本Transformer模型（TextKG），用于视频字幕生成。值得注意的是，TextKG采用双流架构，由外部流（external stream）和内部流（internal stream）构成。外部流旨在引入额外知识，通过建模外部知识（如预构建的知识图谱）与视频内部信息（如显著目标区域、语音转录文本及视频字幕）之间的交互关系，有效缓解长尾词汇带来的挑战。与此同时，内部流则专注于挖掘视频中的多模态信息（如视频帧的视觉特征、语音转录文本及字幕内容），以保障生成字幕的质量。此外，两流之间还引入交叉注意力机制，实现信息共享，使双流能够相互协同，进一步提升生成结果的准确性。在四个具有挑战性的视频字幕数据集（YouCookII、ActivityNet Captions、MSRVTT 和 MSVD）上进行的大量实验表明，所提方法在性能上优于现有最先进方法。具体而言，在YouCookII数据集上，TextKG方法相较最优公开结果，绝对CIDEr得分提升了18.7%。

源 PDF