4 个月前

HiCM$^2$:用于密集视频字幕生成的层次紧凑内存建模

HiCM$^2$:用于密集视频字幕生成的层次紧凑内存建模

摘要

随着解决现实世界视频挑战的需求不断增长,密集视频字幕生成(DVC)的兴趣也在逐渐上升。DVC涉及对未剪辑视频进行自动字幕生成和定位。多项研究表明,DVC面临诸多挑战,并引入了利用先验知识(如预训练和外部记忆)的改进方法。在本研究中,我们提出了一种模型,该模型借鉴了人类记忆层次结构和认知机制,利用以人类为中心的分层紧凑记忆。为了模拟类似人类的记忆回忆过程,我们构建了一个分层记忆模块和一个分层记忆读取模块。通过采用事件聚类和使用大型语言模型进行总结的方法,我们建立了一个高效的分层紧凑记忆系统。对比实验表明,这种分层记忆回忆过程显著提升了DVC的性能,在YouCook2和ViTT数据集上达到了最先进的水平。

代码仓库

ailab-kyunghee/HiCM2-DVC
pytorch
GitHub 中提及

基准测试

基准方法指标
dense-video-captioning-on-vittHiCM²
CIDEr: 51.2
METEOR: 9.6
SODA: 0.150
dense-video-captioning-on-youcook2HiCM²
BLEU4: 6.11
CIDEr: 71.84
F1: 32.51
METEOR: 12.80
Precision: 32.51
Recall: 32.51
SODA: 10.73

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
HiCM$^2$:用于密集视频字幕生成的层次紧凑内存建模 | 论文 | HyperAI超神经