4 个月前

解耦的框提议和特征化与超细粒度语义标签改善了图像描述和视觉问答

解耦的框提议和特征化与超细粒度语义标签改善了图像描述和视觉问答

摘要

目标检测在当前解决视觉与语言任务(如图像描述和视觉问答)的方案中发挥着重要作用。然而,像Faster R-CNN这样的流行模型依赖于对边界框及其对应的语义标签进行耗时的真值标注过程,这使得它作为迁移学习的基本任务变得不太适用。本文中,我们研究了将边界框提议与特征化解耦对下游任务的影响。关键在于,这种解耦方法使我们能够利用大量之前无法用于标准目标检测基准测试的标注数据。通过实验验证,我们证明这种方法可以实现有效的迁移学习,并提高图像描述和视觉问答模型的性能,这一点已在公开可用的基准测试中得到证实。

基准测试

基准方法指标
visual-question-answering-on-vizwiz-2018-1B-Ultra
number: 28.81
other: 35.41
overall: 53.68
unanswerable: 84.03
yes/no: 68.12

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
解耦的框提议和特征化与超细粒度语义标签改善了图像描述和视觉问答 | 论文 | HyperAI超神经