HyperAIHyperAI

Command Palette

Search for a command to run...

更好地利用音视频线索:基于双模态变换器的密集视频字幕生成

Vladimir Iashin; Esa Rahtu

摘要

密集视频字幕生成的目标是在未剪辑的视频中定位并描述重要事件。现有的方法主要通过利用视觉特征来解决这一任务,而完全忽略了音频轨道。尽管有少数先前的研究尝试结合两种模态,但它们在特定领域的数据集上表现出较差的结果或仅能证明其重要性。本文中,我们引入了双模态Transformer(Bi-modal Transformer),该模型将Transformer架构扩展到双模态输入。我们展示了在密集视频字幕生成任务中,结合音频和视觉模态的所提模型的有效性,然而该模块还能够在任何序列到序列任务中处理任意两种模态。此外,我们还证明了作为双模态Transformer一部分的预训练双模态编码器可以作为简单提案生成模块的特征提取器使用。我们在具有挑战性的ActivityNet Captions数据集上展示了模型的性能,结果表明我们的模型取得了卓越的表现。代码已公开:v-iashin.github.io/bmt


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
更好地利用音视频线索:基于双模态变换器的密集视频字幕生成 | 论文 | HyperAI超神经