
摘要
我们提出了一种名为EnCLAP的新框架,用于自动化音频字幕生成。EnCLAP采用两种声学表征模型——EnCodec与CLAP,以及一个预训练语言模型BART。此外,我们引入了一种新的训练目标——掩码编码建模(masked codec modeling),以增强预训练语言模型对声学信息的感知能力。在AudioCaps和Clotho数据集上的实验结果表明,我们的模型性能优于基线模型。源代码将公开于 https://github.com/jaeyeonkim99/EnCLAP。在线演示可通过 Hugging Face 空间访问:https://huggingface.co/spaces/enclap-team/enclap。
代码仓库
jaeyeonkim99/enclap
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-captioning-on-audiocaps | EnCLAP-large | CIDEr: 0.8029 METEOR: 0.2554 SPICE: 0.1879 SPIDEr: 0.4954 |
| audio-captioning-on-audiocaps | EnCLAP-base | CIDEr: 0.7795 METEOR: 0.2473 SPICE: 0.1863 SPIDEr: 0.4829 |