4 个月前

基于Transformer的视觉关系检测中的组查询 specialization 和质量感知多分配

基于Transformer的视觉关系检测中的组查询 specialization 和质量感知多分配

摘要

视觉关系检测(VRD)在基于Transformer的架构方面最近取得了显著进展。然而,我们在训练基于Transformer的VRD模型时发现传统标签分配方法存在两个关键限制,该过程涉及将真实值(Ground Truth, GT)映射到预测结果。在传统分配方法下,由于期望每个查询都能检测所有关系,因此未对查询进行专门化训练,这使得查询难以专注于特定的关系。此外,由于一个真实值仅被分配给单个预测结果,因此接近正确甚至完全正确的预测结果因未被分配任何关系的真实值而受到抑制。为了解决这些问题,我们提出了一种组内查询专门化和质量感知多分配(SpeaQ)的方法。组内查询专门化通过将查询和关系划分为互不相交的组,并引导特定查询组中的查询仅关注对应关系组中的关系来实现专门化训练。质量感知多分配则进一步通过将真实值分配给多个在主体、客体及二者之间的关系上与真实值显著接近的预测结果来促进训练。实验结果和分析表明,SpeaQ有效地训练了专门化的查询,更好地利用了模型的能力,在多个VRD模型和基准测试中实现了性能的一致提升,并且没有增加额外的推理成本。代码可在https://github.com/mlvlab/SpeaQ 获取。

代码仓库

mlvlab/speaq
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
scene-graph-generation-on-visual-genomeSpeaQ (with reweighting)
R@100: 35.5
Recall@100: 35.5
Recall@50: 32.1
mR@100: 17.6
mR@50: 15.1
mean Recall @100: 17.6
scene-graph-generation-on-visual-genomeSpeaQ (without reweighting)
R@100: 36.0
Recall@100: 36.0
Recall@50: 32.9
mR@100: 14.1
mR@50: 11.8
mean Recall @100: 14.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于Transformer的视觉关系检测中的组查询 specialization 和质量感知多分配 | 论文 | HyperAI超神经