3 个月前

视频-语言分割中的极坐标相对位置编码

视频-语言分割中的极坐标相对位置编码

摘要

在本文中,我们针对一项具有挑战性的任务——视频-语言分割(video-language segmentation)展开研究。给定一段视频和一句自然语言描述,其目标是在视频帧中准确分割出句子所描述的对象或主体。为了精确标识目标对象,通常需要结合多个属性信息,例如与之相邻的其他物体及其空间关系等。为此,本文提出了一种新颖的极坐标相对位置编码(Polar Relative Positional Encoding, PRPE)机制,该机制以“语言化”的方式表征空间关系,即通过方向和距离两个维度进行表达。通过该机制,句子特征能够更直接地与位置嵌入进行交互,从而有效提取隐含的相对位置关系。此外,我们设计了参数化函数来适应连续值方向与距离,使位置嵌入具备更强的表达能力。基于PRPE,我们进一步构建了极坐标注意力模块(Polar Attention Module, PAM),作为视觉-语言融合的基本单元。实验结果表明,我们的方法在具有挑战性的A2D Sentences数据集上,以mAP指标相比此前最优方法实现了11.4个百分点的绝对提升。同时,该方法在J-HMDB Sentences数据集上也取得了具有竞争力的性能表现。

基准测试

基准方法指标
referring-expression-segmentation-on-a2dPRPE
AP: 0.388
IoU mean: 0.529
IoU overall: 0.661
Precision@0.5: 0.634
Precision@0.6: 0.579
Precision@0.7: 0.483
Precision@0.8: 0.322
Precision@0.9: 0.083
referring-expression-segmentation-on-j-hmdbPRPE
AP: 0.294
Precision@0.5: 0.572
Precision@0.6: 0.690
Precision@0.7: 0.319
Precision@0.8: 0.06
Precision@0.9: 0.001

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视频-语言分割中的极坐标相对位置编码 | 论文 | HyperAI超神经