
摘要
本文提出了一种基于循环神经网络(RNN)的模型,用于预测结构化的“图像情境”——即与特定动作相关的动作本身以及承担语义角色的名词实体。与以往依赖条件随机场(CRF)的方法不同,本文采用一个专门设计的动作预测网络,随后接一个RNN进行名词预测。该系统在具有挑战性的imSitu数据集上取得了当前最优的准确率,显著优于基于CRF的模型,包括那些利用额外数据进行训练的模型。此外,我们还证明,从情境预测任务中学到的专用特征,可有效迁移至图像描述生成任务中,从而更准确地描述人与物体之间的交互关系。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| grounded-situation-recognition-on-swig | RNN + Fusion | Top-1 Verb: 35.9 Top-1 Verb u0026 Value: 27.45 Top-5 Verbs: 63.08 Top-5 Verbs u0026 Value: 46.88 |
| situation-recognition-on-imsitu | RNN + Fusion | Top-1 Verb: 35.9 Top-1 Verb u0026 Value: 27.45 Top-5 Verbs: 63.08 Top-5 Verbs u0026 Value: 46.88 |