4 个月前

HERMES:基于事件和语义的时序连贯长文本理解

HERMES:基于事件和语义的时序连贯长文本理解

摘要

现有研究通常将长视频视为扩展的短视频,导致了若干局限性:无法充分捕捉长距离依赖关系、处理冗余信息效率低下以及未能提取高层次语义概念。为了解决这些问题,我们提出了一种新颖的方法,该方法更准确地反映了人类的认知过程。本文介绍了HERMES:基于时间连贯性的长视频理解模型(temporal-coHERent long-forM understanding with Episodes and Semantics),该模型通过模拟情景记忆积累来捕捉动作序列,并利用分散在整个视频中的语义知识对其进行强化。我们的工作做出了两项关键贡献:首先,我们开发了一种情景压缩器(Episodic COmpressor, ECO),能够高效地从微观到半宏观层面聚合重要表示,克服了长距离依赖关系的挑战。其次,我们提出了一个语义检索器(Semantics ReTRiever, SeTR),通过关注更广泛的上下文来增强这些聚合表示,并显著降低特征维度,同时保留相关的宏观信息。这解决了冗余问题和高层次概念提取不足的问题。大量实验表明,HERMES在零样本和全监督设置下,在多个长视频理解基准测试中均达到了最先进的性能。

代码仓库

joslefaure/HERMES
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-classification-on-breakfastHERMES
Accuracy (%): 95.2
video-classification-on-coin-1HERMES
Accuracy (%): 93.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
HERMES:基于事件和语义的时序连贯长文本理解 | 论文 | HyperAI超神经