Chaoyang ZhuYiyi ZhouYunhang ShenGen LuoXingjia PanMingbao LinChao ChenLiujuan CaoXiaoshuai SunRongrong Ji

摘要
本文提出了一种简单而通用的网络架构——SeqTR,用于视觉定位任务,包括短语定位(phrase localization)、指代表达理解(Referring Expression Comprehension, REC)以及指代表达分割(Referring Expression Segmentation, RES)。传统的视觉定位方法通常需要针对不同任务精心设计网络结构与损失函数,导致模型难以在不同任务间有效泛化。为简化并统一建模流程,本文将视觉定位问题重新建模为一个基于图像和文本输入的点预测任务:无论是边界框(bounding box)还是二值掩码(binary mask),均被表示为一系列离散的坐标标记(coordinate tokens)序列。在此框架下,SeqTR网络无需为不同任务设计专用的分支或头结构(例如RES任务中常用的卷积掩码解码器),从而显著降低了多任务建模的复杂性。此外,SeqTR在所有任务上采用相同的优化目标,仅使用简单的交叉熵损失(cross-entropy loss),进一步避免了人工设计复杂损失函数的需要。在五个基准数据集上的实验结果表明,所提出的SeqTR在性能上优于(或至少与)现有最先进方法相当,充分证明了采用一种简洁而通用的方法实现视觉定位任务的可行性。代码已开源,地址为:https://github.com/sean-zhuh/SeqTR。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-expression-segmentation-on-refcoco-8 | SeqTR | Overall IoU: 69.79 |
| referring-expression-segmentation-on-refcoco-9 | SeqTR | Overall IoU: 64.12 |