
摘要
在本研究中,我们旨在对当前最先进的自动音频字幕生成模型——EnCLAP框架进行分析与优化。通过系统探究声学编码器组件的修改对模型性能的影响,评估在不同数据规模下进行预训练的效果,并深入研究重排序(reranking)策略的有效性,我们基于大量实验与生成字幕的定量分析,提出改进版本EnCLAP++。该优化版本在性能上显著超越原始模型,展现出更强的生成能力与鲁棒性。
代码仓库
jaeyeonkim99/enclap
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-captioning-on-audiocaps | EnCLAP++-large | CIDEr: 0.823 FENSE: 0.665 METEOR: 0.269 SPICE: 0.197 SPIDEr: 0.510 |
| audio-captioning-on-audiocaps | EnCLAP++-base | CIDEr: 0.815 FENSE: 0.661 METEOR: 0.257 SPICE: 0.188 SPIDEr: 0.501 |