6 个月前

摘要

尽管视觉与音频信号中固有的时间模式对于情感化视频内容分析至关重要，但目前尚未得到充分探索。本文提出一种新颖的时序感知多模态（Temporal-Aware Multimodal, TAM）方法，以全面捕捉时间信息。具体而言，我们设计了一个跨时序多模态融合模块，该模块采用基于注意力机制的融合策略，对视频片段内部及跨片段的不同模态进行融合，从而充分建模不同模态间的时间关联关系。此外，单一情感标签难以为每个视频片段的表示学习提供有效监督，导致时间模式挖掘面临挑战。为此，我们引入时间同步评论（Time-Synchronized Comments, TSCs）作为辅助监督信号，因其易于获取且蕴含丰富的语义与情感线索。我们设计了两项基于TSC的自监督任务：第一项任务旨在根据视频表示与TSC上下文语义预测评论中的情感词汇；第二项任务则通过计算视频表示与TSC嵌入之间的相关性，预测该TSC所对应的具体视频片段。上述自监督任务在大规模无标注的视频-TSC数据集上进行预训练，该数据集通过网络爬取获得，无需人工标注成本。这些自监督预训练任务促使融合模块在包含TSC的视频片段上进行表示学习，从而更有效地捕捉时间维度上的情感模式。在三个基准数据集上的实验结果表明，所提出的融合模块在情感化视频内容分析任务中达到了当前最优性能。消融实验进一步验证了：经过基于TSC的预训练后，融合模块能够学习到更多片段级的情感模式，整体性能显著提升。

源 PDF