8 个月前

计算机视觉

卷积神经网络

计算机视觉

Giorgos Kordopatis-Zilos Symeon Papadopoulos Ioannis Patras Ioannis Kompatsiaris

摘要

本文介绍了一种名为ViSiL（Video Similarity Learning）的视频相似度学习架构，该架构考虑了视频对之间的细粒度时空关系——这些关系在以往的视频检索方法中通常会丢失，因为这些方法在进行相似度估计之前，会将整个帧甚至整段视频嵌入到一个向量描述符中。相比之下，我们基于卷积神经网络（CNN）的方法训练用于从精细的帧间相似度矩阵计算视频间的相似度，从而同时考虑帧内和帧间的关系。在所提出的方法中，通过应用张量点积（Tensor Dot, TD）和查姆费尔相似度（Chamfer Similarity, CS）来估计区域CNN帧特征之间的两两帧相似度——这避免了在帧间相似度计算前进行特征聚合。随后，所有视频帧之间的相似度矩阵被输入到一个四层的CNN中，并通过查姆费尔相似度（CS）汇总为一个视频间的相似度分数——这避免了在视频间相似度计算前进行特征聚合，并捕捉到了匹配帧序列之间的时序相似模式。我们使用三元组损失方案训练所提出的网络，并在四个不同的视频检索问题上对其进行了评估，涉及五个公开基准数据集，在这些数据集上展示了相对于现有技术的巨大改进。ViSiL的实现代码已公开提供。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

卷积神经网络

计算机视觉

Giorgos Kordopatis-Zilos Symeon Papadopoulos Ioannis Patras Ioannis Kompatsiaris

摘要

本文介绍了一种名为ViSiL（Video Similarity Learning）的视频相似度学习架构，该架构考虑了视频对之间的细粒度时空关系——这些关系在以往的视频检索方法中通常会丢失，因为这些方法在进行相似度估计之前，会将整个帧甚至整段视频嵌入到一个向量描述符中。相比之下，我们基于卷积神经网络（CNN）的方法训练用于从精细的帧间相似度矩阵计算视频间的相似度，从而同时考虑帧内和帧间的关系。在所提出的方法中，通过应用张量点积（Tensor Dot, TD）和查姆费尔相似度（Chamfer Similarity, CS）来估计区域CNN帧特征之间的两两帧相似度——这避免了在帧间相似度计算前进行特征聚合。随后，所有视频帧之间的相似度矩阵被输入到一个四层的CNN中，并通过查姆费尔相似度（CS）汇总为一个视频间的相似度分数——这避免了在视频间相似度计算前进行特征聚合，并捕捉到了匹配帧序列之间的时序相似模式。我们使用三元组损失方案训练所提出的网络，并在四个不同的视频检索问题上对其进行了评估，涉及五个公开基准数据集，在这些数据集上展示了相对于现有技术的巨大改进。ViSiL的实现代码已公开提供。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

ViSiL：细粒度时空视频相似性学习 | 论文 | HyperAI超神经