4 个月前

音频字幕变换器

音频字幕变换器

摘要

音频字幕生成旨在自动为音频片段生成自然语言描述。大多数字幕生成模型遵循编码器-解码器架构,其中解码器根据编码器提取的音频特征预测单词。卷积神经网络(CNNs)和循环神经网络(RNNs)通常被用作音频编码器。然而,CNN在建模音频信号中时间帧之间的时序关系方面存在局限性,而RNN在建模时间帧之间的长距离依赖关系方面也存在局限性。本文提出了一种基于编码器-解码器架构的全Transformer网络——音频字幕生成Transformer(ACT),该方法完全不使用卷积操作。所提出的方法在建模音频信号中的全局信息以及捕捉音频事件之间的时间关系方面具有更强的能力。我们在最大的公开可用音频字幕数据集AudioCaps上对我们的模型进行了评估,结果表明,该模型与其他最先进的方法相比具有竞争力的表现。

代码仓库

XinhaoMei/ACT
官方
pytorch

基准测试

基准方法指标
audio-captioning-on-audiocapsCNN+Transformer
CIDEr: 0.693
SPICE: 0.159
SPIDEr: 0.426
retrieval-augmented-few-shot-in-context-audioAudio captioning transformer
CIDEr: 0.149

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
音频字幕变换器 | 论文 | HyperAI超神经