3 个月前

动态度量学习:迈向可扩展度量空间以适应多种语义尺度

动态度量学习:迈向可扩展度量空间以适应多种语义尺度

摘要

本文首次将现实世界度量工具中的一个基础特性——动态范围(dynamic range)引入深度视觉识别领域。在度量学中,动态范围是度量工具的基本质量指标,用以表征其对不同尺度的适应能力,动态范围越大,灵活性越高。在视觉识别任务中,多尺度问题同样存在:不同的视觉概念可能对应不同的语义尺度。例如,“动物”和“植物”具有较大的语义尺度,而“驼鹿”(Elk)的语义尺度则要小得多。在较小的语义尺度下,两只不同的驼鹿可能看起来差异显著;然而在较大的语义尺度下(如“动物”与“植物”之间),这两只驼鹿应被视为具有相似性。我们认为,这种跨尺度的灵活性对于深度度量学习同样至关重要,因为不同的视觉概念确实对应着不同的语义尺度。基于上述思想,我们将动态范围引入深度度量学习,提出了一项全新的计算机视觉任务——动态度量学习(Dynamic Metric Learning)。该任务旨在学习一个可扩展的度量空间,以适应跨越多个语义尺度的视觉概念。为此,我们基于三类图像数据——车辆、动物以及在线商品,构建了三个面向动态度量学习的数据集。我们采用主流的深度度量学习方法对这些数据集进行了基准测试,结果表明,动态度量学习任务极具挑战性。其主要难点在于不同尺度之间的内在冲突:在小尺度下具备强区分能力的模型,往往在大尺度下性能下降,反之亦然。作为次要贡献,我们提出了一种跨尺度学习(Cross-Scale Learning, CSL)方法,以缓解这一尺度冲突问题。实验结果表明,CSL在所有三个数据集上均能稳定提升基线模型的性能。相关数据集与代码将公开发布于:https://github.com/SupetZYK/DynamicMetricLearning。

代码仓库

基准测试

基准方法指标
metric-learning-on-dyml-animalCSL
Average-mAP: 31.0
metric-learning-on-dyml-productCSL
Average-mAP: 28.7
metric-learning-on-dyml-vehicleCSL
Average-mAP: 12.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
动态度量学习:迈向可扩展度量空间以适应多种语义尺度 | 论文 | HyperAI超神经