HyperAIHyperAI

Command Palette

Search for a command to run...

MOMA-LRG:用于多对象多演员活动解析的语言精炼图

摘要

视频-语言模型(Video-Language Models, VLMs)是基于互联网上大量但存在噪声的视频-文本配对数据进行预训练的大型模型,凭借其卓越的泛化能力与开放词汇(open-vocabulary)特性,极大地推动了行为识别领域的发展。然而,复杂的人类活动通常具有层次性和组合性特征,而当前大多数用于评估VLMs的任务仅聚焦于高层级的视频理解,难以准确评估和解析VLMs在理解复杂且细粒度人类活动方面的实际能力。受近期提出的MOMA框架启发,我们提出将活动图(activity graphs)作为人类活动的统一表征形式,该形式能够同时涵盖活动、子活动与原子动作三个层次的视频理解。在此基础上,我们将活动解析(activity parsing)重新定义为活动图生成这一综合性任务,要求模型在上述三个层次上均具备对人类活动的深入理解能力。为促进模型在活动解析任务上的评估,我们构建了MOMA-LRG(Multi-Object Multi-Actor Language-Refined Graphs)数据集——一个大规模、复杂的人类活动数据集,其包含结构化的活动图标注,并可轻松转换为自然语言句子,从而实现跨模态的可解释性分析。最后,我们提出一种模型无关且轻量级的方法,通过将活动图中的结构化知识融入VLMs,实现对VLMs的适配与评估,有效弥补了语言模型与图模型各自的局限性。实验表明,该方法在少样本活动解析任务中展现出优异性能。本框架旨在推动未来在视频、图结构与语言三者联合建模方向的研究发展。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MOMA-LRG:用于多对象多演员活动解析的语言精炼图 | 论文 | HyperAI超神经