3 个月前

MOMA-LRG:用于多对象多演员活动解析的语言精炼图

MOMA-LRG:用于多对象多演员活动解析的语言精炼图

摘要

视频-语言模型(Video-Language Models, VLMs)是基于互联网上大量但存在噪声的视频-文本配对数据进行预训练的大型模型,凭借其卓越的泛化能力与开放词汇(open-vocabulary)特性,极大地推动了行为识别领域的发展。然而,复杂的人类活动通常具有层次性和组合性特征,而当前大多数用于评估VLMs的任务仅聚焦于高层级的视频理解,难以准确评估和解析VLMs在理解复杂且细粒度人类活动方面的实际能力。受近期提出的MOMA框架启发,我们提出将活动图(activity graphs)作为人类活动的统一表征形式,该形式能够同时涵盖活动、子活动与原子动作三个层次的视频理解。在此基础上,我们将活动解析(activity parsing)重新定义为活动图生成这一综合性任务,要求模型在上述三个层次上均具备对人类活动的深入理解能力。为促进模型在活动解析任务上的评估,我们构建了MOMA-LRG(Multi-Object Multi-Actor Language-Refined Graphs)数据集——一个大规模、复杂的人类活动数据集,其包含结构化的活动图标注,并可轻松转换为自然语言句子,从而实现跨模态的可解释性分析。最后,我们提出一种模型无关且轻量级的方法,通过将活动图中的结构化知识融入VLMs,实现对VLMs的适配与评估,有效弥补了语言模型与图模型各自的局限性。实验表明,该方法在少样本活动解析任务中展现出优异性能。本框架旨在推动未来在视频、图结构与语言三者联合建模方向的研究发展。

基准测试

基准方法指标
few-shot-action-recognition-on-moma-lrgCMN
Activity Classification Accuracy (5-shot 5-way): 86.3
Subactivity Classification Accuracy (5-shot 5-way): 66.6
few-shot-action-recognition-on-moma-lrgOTAM
Activity Classification Accuracy (5-shot 5-way): 92.07
Subactivity Classification Accuracy (5-shot 5-way): 72.59
few-shot-action-recognition-on-moma-lrgSG-VLM
Activity Classification Accuracy (5-shot 5-way): 92.5
Subactivity Classification Accuracy (5-shot 5-way): 32.70

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MOMA-LRG:用于多对象多演员活动解析的语言精炼图 | 论文 | HyperAI超神经