4 个月前

TallyQA:回答复杂的计数问题

TallyQA:回答复杂的计数问题

摘要

在视觉问答(VQA)数据集中,大多数计数问题较为简单,仅需进行物体检测即可解决。然而,本研究关注的是涉及物体间关系、属性识别、推理等复杂因素的计数问题。为此,我们创建了TallyQA,这是目前世界上最大的开放性计数数据集。我们提出了一种新的计数算法,该算法利用带有区域建议的关系网络。这种方法使得关系网络能够在高分辨率图像中高效应用。与基线系统和近期系统相比,我们的方法在TallyQA和HowMany-QA基准测试中均取得了最先进的结果。

代码仓库

基准测试

基准方法指标
object-counting-on-howmany-qaRCN
Accuracy: 60.3
RMSE: 2.35
object-counting-on-tallyqa-complexRCN
Accuracy: 56.2
RMSE: 1.43
object-counting-on-tallyqa-simpleRCN
Accuracy: 71.8
RMSE: 1.13

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TallyQA:回答复杂的计数问题 | 论文 | HyperAI超神经