4 个月前

更好地利用音视频线索:基于双模态变换器的密集视频字幕生成

更好地利用音视频线索:基于双模态变换器的密集视频字幕生成

摘要

密集视频字幕生成的目标是在未剪辑的视频中定位并描述重要事件。现有的方法主要通过利用视觉特征来解决这一任务,而完全忽略了音频轨道。尽管有少数先前的研究尝试结合两种模态,但它们在特定领域的数据集上表现出较差的结果或仅能证明其重要性。本文中,我们引入了双模态Transformer(Bi-modal Transformer),该模型将Transformer架构扩展到双模态输入。我们展示了在密集视频字幕生成任务中,结合音频和视觉模态的所提模型的有效性,然而该模块还能够在任何序列到序列任务中处理任意两种模态。此外,我们还证明了作为双模态Transformer一部分的预训练双模态编码器可以作为简单提案生成模块的特征提取器使用。我们在具有挑战性的ActivityNet Captions数据集上展示了模型的性能,结果表明我们的模型取得了卓越的表现。代码已公开:v-iashin.github.io/bmt

代码仓库

v-iashin/video_features
pytorch
GitHub 中提及
v-iashin/BMT
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
dense-video-captioning-on-activitynetBMT
BLEU-3: 3.84
BLEU-4: 1.88
METEOR: 8.44
temporal-action-proposal-generation-on-1BMT
Average F1: 60.27
Average Precision: 48.23
Average Recall: 80.31

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
更好地利用音视频线索:基于双模态变换器的密集视频字幕生成 | 论文 | HyperAI超神经