8 个月前

卷积神经网络

计算机视觉

Shafkat Farabi Hasibul Himel Fakhruddin Gazzali Md. Bakhtiar Hasan Md. Hasanul Kabir Moshieur Farazi

摘要

动作质量评估（AQA）旨在通过视频自动判断人类动作并为其分配一个表现分数。现有文献中的大多数AQA研究工作将RGB视频分割为短片段，使用卷积3D（C3D）网络将这些片段转换为高层次表示，并通过平均方法进行聚合。这些高层次表示用于执行AQA。我们发现，当前基于片段的特征聚合技术——平均法无法充分捕捉片段特征的相对重要性。在本工作中，我们提出了一种基于学习的加权平均技术。利用该技术，可以在不大幅牺牲计算资源的情况下获得更好的性能。我们将这种技术称为权重决定器（Weight-Decider, WD）。此外，我们还尝试使用残差网络（ResNets）来学习更高质量的动作质量评估表示。我们评估了卷积神经网络的深度和输入片段大小对动作评分预测质量的影响。通过使用具有34层（2+1）D残差网络且能够处理32帧片段的模型，并结合WD聚合技术，我们在MTL-AQA数据集上实现了新的最先进的Spearman等级相关系数0.9315（提高了0.45%）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

卷积神经网络

计算机视觉

Shafkat Farabi Hasibul Himel Fakhruddin Gazzali Md. Bakhtiar Hasan Md. Hasanul Kabir Moshieur Farazi

摘要

动作质量评估（AQA）旨在通过视频自动判断人类动作并为其分配一个表现分数。现有文献中的大多数AQA研究工作将RGB视频分割为短片段，使用卷积3D（C3D）网络将这些片段转换为高层次表示，并通过平均方法进行聚合。这些高层次表示用于执行AQA。我们发现，当前基于片段的特征聚合技术——平均法无法充分捕捉片段特征的相对重要性。在本工作中，我们提出了一种基于学习的加权平均技术。利用该技术，可以在不大幅牺牲计算资源的情况下获得更好的性能。我们将这种技术称为权重决定器（Weight-Decider, WD）。此外，我们还尝试使用残差网络（ResNets）来学习更高质量的动作质量评估表示。我们评估了卷积神经网络的深度和输入片段大小对动作评分预测质量的影响。通过使用具有34层（2+1）D残差网络且能够处理32帧片段的模型，并结合WD聚合技术，我们在MTL-AQA数据集上实现了新的最先进的Spearman等级相关系数0.9315（提高了0.45%）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供