
摘要
描绘复杂动态场景的图像自动解析具有挑战性,需要对整体情境进行高层次的理解以及对参与实体及其互动进行细致的识别。目前的方法通常使用针对子任务(如情境识别和人与人、人与物体交互检测)定制的不同方法。然而,最近在图像理解方面的进展往往利用了网络规模的视觉-语言(V&L)表示来减少特定任务的工程需求。在这项工作中,我们提出了一种通过利用现代冻结的V&L表示知识来解决动态场景理解任务的框架。通过将这些任务以一种通用的方式——预测和解析结构化文本,或将表示直接连接到现有模型的输入——我们取得了最先进的结果,同时相对于现有的方法使用了最少的可训练参数。此外,我们对这些表示中的动态知识进行了分析,结果显示最近更强大的表示有效地编码了动态场景的语义,使得这种方法成为可能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| grounded-situation-recognition-on-swig | Ours (CoFormer+) | Top-1 Verb: 58.88 Top-1 Verb u0026 Grounded-Value: 41.28 Top-1 Verb u0026 Value: 51.10 Top-5 Verbs u0026 Grounded-Value: 58.23 |
| human-object-interaction-detection-on-hico | Ours (PViC+) | mAP: 46.49 |
| situation-recognition-on-imsitu | Ours | Top-1 Verb: 58.88 |