3 个月前

基于图神经网络的视频描述生成中的动作知识

基于图神经网络的视频描述生成中的动作知识

摘要

现有大多数视频字幕生成方法通过利用动作识别模型提取的特征来捕捉视频中的动作信息。然而,若直接使用缺乏对象特异性表示的动作特征,可能难以准确刻画对象之间的交互关系,导致生成的字幕在描述动作及场景中对象时准确性不足。为解决这一问题,我们提出将动作特征作为图神经网络中的边特征,其中节点代表视频中的对象,从而更精细地建模对象—动作—对象之间的视觉关系。以往基于图的视频字幕方法通常依赖预训练的目标检测模型来构建节点表示,但目标检测模型可能遗漏某些关键对象。为缓解此问题,我们进一步引入了一种基于网格的节点表示方法,即通过提取视频帧网格区域的特征来表示节点,从而更全面地捕获场景中的重要对象。为避免在推理阶段引入额外复杂性,我们采用知识蒸馏技术,将所提出的图结构中的知识迁移至另一神经网络。实验结果表明,所提出的方法在两个主流视频字幕数据集MSVD和MSR-VTT上,所有评估指标均达到当前最优水平。本方法的代码已公开,地址为:https://github.com/Sejong-VLI/V2T-Action-Graph-JKSUCIS-2023。

基准测试

基准方法指标
video-captioning-on-msrvtt-ctnAKGNN
CIDEr: 25.90
ROUGE-L: 21.42
SPICE: 11.99
video-captioning-on-msvd-ctnAKGNN
CIDEr: 35.08
ROUGE-L: 25.11
SPICE: 14.55

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于图神经网络的视频描述生成中的动作知识 | 论文 | HyperAI超神经