6 个月前

摘要

近期，一些开放词汇方法通过采用统一架构来应对通用分割与检测任务。然而，由于不同任务之间的冲突，其性能仍落后于专用任务模型，且受限于对CLIP的利用不足，其开放词汇能力也较为有限。为解决上述挑战，本文提出一种基于通用Transformer的框架，简称OpenSD，该框架采用相同的架构与网络参数，统一处理开放词汇的分割与检测任务。首先，我们引入一种解耦式解码器学习策略，缓解“物体”（thing）与“场景”（stuff）类别之间的语义冲突，使各项任务在统一框架下能够更有效地进行学习。其次，为更充分地利用CLIP实现端到端的分割与检测，我们设计了双分类器机制，分别处理词汇表内（in-vocabulary）与词汇表外（out-of-vocabulary）的类别。同时，通过解耦式提示学习（decoupled prompt learning），进一步训练文本编码器，使其对“物体”与“场景”类别均具备区域感知能力，从而有效过滤重复及低质量的预测结果，这对于端到端的分割与检测至关重要。我们在多个数据集及多种场景下进行了大量实验，结果表明，OpenSD在封闭词汇与开放词汇设置下，均显著优于当前最先进的开放词汇分割与检测方法。代码已开源，地址为：https://github.com/strongwolf/OpenSD

源 PDF