3 个月前

SeqTR:一种简单而通用的视觉定位网络

SeqTR:一种简单而通用的视觉定位网络

摘要

本文提出了一种简单而通用的网络架构——SeqTR,用于视觉定位任务,包括短语定位(phrase localization)、指代表达理解(Referring Expression Comprehension, REC)以及指代表达分割(Referring Expression Segmentation, RES)。传统的视觉定位方法通常需要针对不同任务精心设计网络结构与损失函数,导致模型难以在不同任务间有效泛化。为简化并统一建模流程,本文将视觉定位问题重新建模为一个基于图像和文本输入的点预测任务:无论是边界框(bounding box)还是二值掩码(binary mask),均被表示为一系列离散的坐标标记(coordinate tokens)序列。在此框架下,SeqTR网络无需为不同任务设计专用的分支或头结构(例如RES任务中常用的卷积掩码解码器),从而显著降低了多任务建模的复杂性。此外,SeqTR在所有任务上采用相同的优化目标,仅使用简单的交叉熵损失(cross-entropy loss),进一步避免了人工设计复杂损失函数的需要。在五个基准数据集上的实验结果表明,所提出的SeqTR在性能上优于(或至少与)现有最先进方法相当,充分证明了采用一种简洁而通用的方法实现视觉定位任务的可行性。代码已开源,地址为:https://github.com/sean-zhuh/SeqTR。

代码仓库

luogen1996/simrec
pytorch
GitHub 中提及
sean-zhuh/seqtr
官方
pytorch
GitHub 中提及
seanzhuh/seqtr
pytorch
GitHub 中提及

基准测试

基准方法指标
referring-expression-segmentation-on-refcoco-8SeqTR
Overall IoU: 69.79
referring-expression-segmentation-on-refcoco-9SeqTR
Overall IoU: 64.12

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SeqTR:一种简单而通用的视觉定位网络 | 论文 | HyperAI超神经