7 个月前

摘要

视频识别已引起广泛的研究兴趣，并取得了显著进展。合适的帧采样策略可以提高识别的准确性和效率。然而，主流解决方案通常采用手工设计的帧采样策略进行识别。这可能会降低性能，尤其是在未剪辑的视频中，由于帧级显著性的变化。为此，我们专注于通过开发基于学习的帧采样策略来改进未剪辑视频分类。我们直观地将帧采样过程建模为多个并行的马尔可夫决策过程（Markov Decision Processes），每个过程旨在通过逐步调整初始采样来挑选出一个帧/片段。然后，我们提出使用多智能体强化学习（Multi-Agent Reinforcement Learning, MARL）来解决这些问题。我们的MARL框架包括一个新颖的基于RNN的情境感知观察网络，该网络联合建模了相邻智能体之间的上下文信息和特定智能体的历史状态；一个策略网络，在每一步生成预定义动作空间上的概率分布；以及一个分类网络，用于奖励计算和最终识别。大量的实验结果表明，我们的基于MARL的方案在各种2D和3D基线方法上显著优于手工设计的策略。我们的单个RGB模型在多模态多模型融合的情况下达到了与ActivityNet v1.3冠军提交相当的性能，并在YouTube Birds和YouTube Cars数据集上取得了新的最先进结果。

源 PDF