Muhammad Saif Ullah KhanMuhammad Ferjad NaeemFederico TombariLuc Van GoolDidier StrickerMuhammad Zeshan Afzal

摘要
我们提出了一种基于大语言模型(LLM)的新颖流程,仅利用辅助属性即可生成图像中人体姿态的上下文描述。该方法促进了MPII姿态描述数据集(MPII Pose Descriptions Dataset)的构建,该数据集包含17,367张包含人类活动的图像,涵盖410种不同动作的自然语言标注。我们验证了所生成姿态描述在零样本人类中心分类任务中的有效性,该任务基于CLIP模型实现。此外,我们提出了FocusCLIP框架,该框架在CLIP中引入了主体聚焦注意力机制(Subject-Focused Attention, SFA),以提升文本到图像的对齐能力。我们的模型在MPII姿态描述数据集上进行预训练,并在五个未见数据集上评估其零样本性能,覆盖三类任务。实验结果表明,FocusCLIP显著优于基线CLIP模型,平均准确率提升8.61%(达到33.65%,而CLIP为25.04%)。具体而言,我们在动作识别任务上提升3.98%,年龄分类任务上提升14.78%,情绪识别任务上提升7.06%。这些结果充分展示了将详细姿态描述与主体级引导信息融入通用预训练框架的潜力,可有效提升下游任务的性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| activity-recognition-on-stanford40 | CLIP | Top-3 Accuracy (%): 6.49 |
| activity-recognition-on-stanford40 | FocusCLIP | Top-3 Accuracy (%): 10.47 |
| emotion-recognition-on-emotic | FocusCLIP | Top-3 Accuracy (%): 13.73 |