
摘要
语义稀疏性是结构化视觉分类任务中的一个普遍挑战;当输出空间较为复杂时,绝大多数可能的预测结果在训练集中几乎从未出现。本文研究了情境识别任务中的语义稀疏性问题,该任务旨在生成图像中正在发生事件的结构化摘要,包括活动、物体及其在活动中的角色。我们通过实证发现,大多数物体-角色组合极为罕见,而当前最先进的模型在这一稀疏数据环境下表现显著不佳。为缓解此类问题,我们提出两种策略:(1)引入一种新颖的张量组合函数,该函数能够跨不同角色-名词组合共享训练样本;(2)利用网络数据自动收集罕见输出的示例,对训练数据进行语义增强。当将该张量方法整合至完整的基于条件随机场(CRF)的结构化预测模型中时,其在顶-5动词准确率和顶-5名词-角色准确率上分别相对于现有最先进方法实现了2.11%和4.40%的相对提升。进一步地,通过引入500万张经语义增强技术处理的图像,顶-5动词准确率和顶-5名词-角色准确率的相对性能分别再提升6.23%和9.57%。
代码仓库
my89/imSitu
pytorch
GitHub 中提及
thilinicooray/my_imsitu
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| grounded-situation-recognition-on-swig | CRF + Aug | Top-1 Verb: 34.12 Top-1 Verb u0026 Value: 26.45 Top-5 Verbs: 62.59 Top-5 Verbs u0026 Value: 46.88 |
| situation-recognition-on-imsitu | CRF + Aug | Top-1 Verb: 34.12 Top-1 Verb u0026 Value: 26.45 Top-5 Verbs: 62.59 Top-5 Verbs u0026 Value: 46.88 |