6 个月前

摘要

现有大多数视频字幕生成方法通过利用动作识别模型提取的特征来捕捉视频中的动作信息。然而，若直接使用缺乏对象特异性表示的动作特征，可能难以准确刻画对象之间的交互关系，导致生成的字幕在描述动作及场景中对象时准确性不足。为解决这一问题，我们提出将动作特征作为图神经网络中的边特征，其中节点代表视频中的对象，从而更精细地建模对象—动作—对象之间的视觉关系。以往基于图的视频字幕方法通常依赖预训练的目标检测模型来构建节点表示，但目标检测模型可能遗漏某些关键对象。为缓解此问题，我们进一步引入了一种基于网格的节点表示方法，即通过提取视频帧网格区域的特征来表示节点，从而更全面地捕获场景中的重要对象。为避免在推理阶段引入额外复杂性，我们采用知识蒸馏技术，将所提出的图结构中的知识迁移至另一神经网络。实验结果表明，所提出的方法在两个主流视频字幕数据集MSVD和MSR-VTT上，所有评估指标均达到当前最优水平。本方法的代码已公开，地址为：https://github.com/Sejong-VLI/V2T-Action-Graph-JKSUCIS-2023。

源 PDF 查看代码