3 个月前

开放世界文本指定物体计数

开放世界文本指定物体计数

摘要

我们的目标是实现图像中的开放世界物体计数,其中目标物体类别由文本描述指定。为此,我们提出了一种名为CounTX的模型,该模型为无类别依赖(class-agnostic)的单阶段架构,基于预训练的联合文本-图像表征,采用Transformer解码器作为计数头。CounTX仅需输入一张图像和目标物体类别的文本描述,即可准确统计任意类别物体的实例数量,并支持端到端训练。除该模型外,我们还做出以下贡献:(i)我们在开放世界物体计数任务上对CounTX与现有方法进行了对比,结果表明,在使用文本描述指定任务的所有方法中,我们的方法在FSC-147基准测试的所有评估指标上均超越了当前最优水平;(ii)我们提出了并发布了FSC-147-D,这是FSC-147数据集的增强版本,新增了详细的文本描述,使得物体类别能够以比简单类别名称更丰富的语言进行描述。FSC-147-D数据集及代码已公开,访问地址为:https://www.robots.ox.ac.uk/~vgg/research/countx。

代码仓库

niki-amini-naieni/countx
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
object-counting-on-carpkCounTX (uses arbitrary text input to specify object to count, used "the cars" for CARPK)
MAE: 8.13
RMSE: 10.87
object-counting-on-fsc147CounTX (uses text descriptions instead of visual exemplars)
MAE(test): 15.88
MAE(val): 17.10
RMSE(test): 106.29
RMSE(val): 65.61

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
开放世界文本指定物体计数 | 论文 | HyperAI超神经