
摘要
当前机器学习方法在解决Bongard问题方面仍面临显著挑战。Bongard问题是一类类似于智商测试的任务,要求从一组正例(positive)和负例(negative)“支撑图像”中推导出一个抽象的“概念”,并判断新的查询图像是否体现了该核心概念。在面向自然图像的Bongard-HOI基准上,现有大多数方法的最高准确率仅为69%(随机猜测的基准为50%)。低准确率通常归因于神经网络难以发现类似人类的符号化规则。在本研究中,我们指出,许多现有方法在性能上的局限性实际上源于一个更为基础的问题:它们未能充分利用支撑集整体所包含的信息来动态调整图像特征,而是仅依赖于从单个支撑样本中提取的局部信息。这一问题尤为关键,因为典型的Bongard问题中的“核心概念”往往需要结合多个正例与多个负例才能被有效区分。为此,我们探索了若干简单而有效的机制以引入上下文信息,并在实验中取得了显著性能提升。相较于采用相同视觉主干网络架构且在原始Bongard数据集上表现优异的方法(准确率为60.8%),我们的方法在Bongard-LOGO和Bongard-HOI两个基准上分别达到了75.3%和76.4%的新SOTA(state-of-the-art)准确率。
代码仓库
nraghuraman/bongard-context
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| few-shot-image-classification-on-bongard-hoi | SVM-Mimic (frozen CLIP RN-50) | Avg. Accuracy: 72.45 |
| few-shot-image-classification-on-bongard-hoi | SVM-Mimic + PMF (fine-tuned CLIP RN-50) | Avg. Accuracy: 76.41 |