HyperAIHyperAI

Command Palette

Search for a command to run...

MoVie:重新审视用于视觉计数及其他任务的调制卷积

Duy-Kien Nguyen Vedanuj Goswami Xinlei Chen

摘要

本文聚焦于视觉计数任务,旨在根据一张自然图像和一个查询(如问题或类别)预测其中目标实例的数量。与大多数先前工作采用显式符号化模型(这类方法通常计算开销大且泛化能力有限)不同,本文提出了一种简洁而高效的新方法——通过重新审视局部融合查询与图像信息的调制卷积(modulated convolutions)。受残差瓶颈结构(residual bottleneck)设计的启发,我们将该方法命名为MoVie(Modulated conVolutional bottlenecks)。值得注意的是,MoVie采用隐式且整体化的推理机制,推理阶段仅需一次前向传播。尽管结构简单,MoVie在计数任务上展现出强大的性能:1)在面向计数的视觉问答(VQA)任务上取得了新的最先进水平,同时具备更高的效率;2)在COCO等具有挑战性的基准数据集上,对常见物体计数任务的表现优于现有最优方法;3)在2020年VQA挑战赛中,作为通用VQA模型中处理“数量”相关问题的模块,助力团队获得第一名。最后,我们提供了实证证据表明,诸如MoVie所采用的调制卷积机制,可作为一种通用的推理范式,适用于超越计数任务的多种视觉推理场景。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MoVie:重新审视用于视觉计数及其他任务的调制卷积 | 论文 | HyperAI超神经