
摘要
当前视觉模式识别模型与人类水平的视觉认知之间仍存在显著差距,尤其是在少样本学习(few-shot learning)和新概念的组合推理(compositional reasoning)方面。为此,我们提出了 Bongard-HOI——一个专注于从自然图像中学习人类-物体交互(Human-Object Interactions, HOIs)组合性知识的新视觉推理基准。该基准灵感源自经典博加德问题(Bongard Problems, BPs)所具备的两项理想特性:1)少样本概念学习能力;2)依赖上下文的推理能力。我们精心构建了包含困难负样本(hard negatives)的少样本实例,其中正样本与负样本仅在动作标签上存在差异,因此仅靠识别物体类别无法完成任务,从而对模型提出了更高要求。此外,我们设计了多个测试集,系统性地研究视觉学习模型的泛化能力,通过在少样本实例的训练集与测试集之间调整 HOI 概念的重叠程度(从部分重叠到完全无重叠),全面评估模型在不同情境下的表现。Bongard-HOI 对当前主流视觉识别模型构成了严峻挑战:最先进的 HOI 检测模型在少样本二分类任务上的准确率仅为 62%,而通过 MTurk 平台招募的普通人类测试者准确率却高达 91%。我们希望通过 Bongard-HOI 基准,推动视觉推理领域的进一步研究,特别是在整体感知-推理系统以及更优表征学习方面的进展。
代码仓库
nvlabs/bongard-hoi
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| few-shot-image-classification-on-bongard-hoi | ANIL (ImageNet_R50) | Avg. Accuracy: 49.74 |
| few-shot-image-classification-on-bongard-hoi | Meta-Baseline (Scratch_R50) | Avg. Accuracy: 54.23 |
| few-shot-image-classification-on-bongard-hoi | Meta-Baseline (ImagNet_R50) | Avg. Accuracy: 55.82 |
| few-shot-image-classification-on-bongard-hoi | Meta-Baseline (MoCov2_R50) | Avg. Accuracy: 54.30 |
| few-shot-image-classification-on-bongard-hoi | Human (Amateur) | Avg. Accuracy: 91.42 |