
摘要
在视觉问答(VQA)数据集中,大多数计数问题较为简单,仅需进行物体检测即可解决。然而,本研究关注的是涉及物体间关系、属性识别、推理等复杂因素的计数问题。为此,我们创建了TallyQA,这是目前世界上最大的开放性计数数据集。我们提出了一种新的计数算法,该算法利用带有区域建议的关系网络。这种方法使得关系网络能够在高分辨率图像中高效应用。与基线系统和近期系统相比,我们的方法在TallyQA和HowMany-QA基准测试中均取得了最先进的结果。
代码仓库
manoja328/tallyqacode
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| object-counting-on-howmany-qa | RCN | Accuracy: 60.3 RMSE: 2.35 |
| object-counting-on-tallyqa-complex | RCN | Accuracy: 56.2 RMSE: 1.43 |
| object-counting-on-tallyqa-simple | RCN | Accuracy: 71.8 RMSE: 1.13 |