3 个月前

EnCLAP++:针对优化自动音频字幕生成性能的EnCLAP框架分析

EnCLAP++:针对优化自动音频字幕生成性能的EnCLAP框架分析

摘要

在本研究中,我们旨在对当前最先进的自动音频字幕生成模型——EnCLAP框架进行分析与优化。通过系统探究声学编码器组件的修改对模型性能的影响,评估在不同数据规模下进行预训练的效果,并深入研究重排序(reranking)策略的有效性,我们基于大量实验与生成字幕的定量分析,提出改进版本EnCLAP++。该优化版本在性能上显著超越原始模型,展现出更强的生成能力与鲁棒性。

代码仓库

jaeyeonkim99/enclap
官方
pytorch

基准测试

基准方法指标
audio-captioning-on-audiocapsEnCLAP++-large
CIDEr: 0.823
FENSE: 0.665
METEOR: 0.269
SPICE: 0.197
SPIDEr: 0.510
audio-captioning-on-audiocapsEnCLAP++-base
CIDEr: 0.815
FENSE: 0.661
METEOR: 0.257
SPICE: 0.188
SPIDEr: 0.501

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
EnCLAP++:针对优化自动音频字幕生成性能的EnCLAP框架分析 | 论文 | HyperAI超神经