3 个月前

Bongard-HOI:面向人-物体交互的少样本视觉推理基准测试

Bongard-HOI:面向人-物体交互的少样本视觉推理基准测试

摘要

当前视觉模式识别模型与人类水平的视觉认知之间仍存在显著差距,尤其是在少样本学习(few-shot learning)和新概念的组合推理(compositional reasoning)方面。为此,我们提出了 Bongard-HOI——一个专注于从自然图像中学习人类-物体交互(Human-Object Interactions, HOIs)组合性知识的新视觉推理基准。该基准灵感源自经典博加德问题(Bongard Problems, BPs)所具备的两项理想特性:1)少样本概念学习能力;2)依赖上下文的推理能力。我们精心构建了包含困难负样本(hard negatives)的少样本实例,其中正样本与负样本仅在动作标签上存在差异,因此仅靠识别物体类别无法完成任务,从而对模型提出了更高要求。此外,我们设计了多个测试集,系统性地研究视觉学习模型的泛化能力,通过在少样本实例的训练集与测试集之间调整 HOI 概念的重叠程度(从部分重叠到完全无重叠),全面评估模型在不同情境下的表现。Bongard-HOI 对当前主流视觉识别模型构成了严峻挑战:最先进的 HOI 检测模型在少样本二分类任务上的准确率仅为 62%,而通过 MTurk 平台招募的普通人类测试者准确率却高达 91%。我们希望通过 Bongard-HOI 基准,推动视觉推理领域的进一步研究,特别是在整体感知-推理系统以及更优表征学习方面的进展。

代码仓库

nvlabs/bongard-hoi
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
few-shot-image-classification-on-bongard-hoiANIL (ImageNet_R50)
Avg. Accuracy: 49.74
few-shot-image-classification-on-bongard-hoiMeta-Baseline (Scratch_R50)
Avg. Accuracy: 54.23
few-shot-image-classification-on-bongard-hoiMeta-Baseline (ImagNet_R50)
Avg. Accuracy: 55.82
few-shot-image-classification-on-bongard-hoiMeta-Baseline (MoCov2_R50)
Avg. Accuracy: 54.30
few-shot-image-classification-on-bongard-hoiHuman (Amateur)
Avg. Accuracy: 91.42

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Bongard-HOI:面向人-物体交互的少样本视觉推理基准测试 | 论文 | HyperAI超神经