
摘要
从社交媒体视频(如Instagram、TikTok)中检索服装是电子时尚领域的最新前沿,这一技术在计算机视觉文献中被称为“视频到购物”(video-to-shop)。本文介绍了MovingFashion,这是首个公开可用的数据集,旨在应对这一挑战。MovingFashion包含14855个社交媒体视频,每个视频都与电子商务网站上的“购物”图片相关联,这些图片清晰展示了相应的服装商品。此外,我们提出了一种名为SEAM Match-RCNN的网络模型,用于在这种场景下检索购物图片。该模型通过图像到视频域适应进行训练,允许使用仅与购物图片关联的视频序列,从而消除了对数百万个标注边界框的需求。SEAM Match-RCNN构建了一个嵌入空间,在这个空间中,通过对社交媒体视频中的少数帧(10帧)进行基于注意力机制的加权求和,即可在包含14000多个购物元素的图库中准确识别出前5个检索结果中的正确产品,准确率达到80%。这在MovingFashion数据集上提供了最佳性能,并且与相关领域的最先进方法和其他基线进行了详尽的对比测试。
代码仓库
humaticslab/seam-match-rcnn
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-to-shop-on-movingfashion | SEAM Match-RCNN | Top-1 Accuracy: 0.49 |