3 个月前

SLAM-AAC:通过LLM实现的重述增强与CLAP-Refine提升音频字幕生成

SLAM-AAC:通过LLM实现的重述增强与CLAP-Refine提升音频字幕生成

摘要

自动音频字幕生成(Automated Audio Captioning, AAC)旨在为输入的音频信号生成自然流畅的文本描述。近年来,音频预训练模型与大规模语言模型(Large Language Models, LLMs)的快速发展显著提升了音频理解与文本推理能力,为AAC性能的进一步提升奠定了基础。本文提出SLAM-AAC框架,通过引入改写增强(paraphrasing augmentation)与基于CLAP的精炼机制(CLAP-Refine),充分利用LLMs的能力以进一步优化AAC性能。本方法首先采用自监督的EAT模型提取细粒度的音频表征,并通过轻量级线性层将这些表征与文本嵌入进行对齐。在生成阶段,采用LoRA适配器高效地微调caption生成用的LLM,显著降低计算开销。受机器翻译中回译(back-translation)方法的启发,我们在预训练阶段引入改写增强策略,对Clotho数据集进行数据扩充。该策略有效缓解了音频-文本配对样本稀缺的问题,并能从少量音频片段中生成更具多样性的字幕描述。在推理阶段,我们提出一种即插即用的CLAP-Refine策略,充分利用多路解码输出,类似于语音识别中的n-best重评分机制。通过CLAP模型计算音频与文本之间的语义相似度,从多个搜索路径生成的候选文本中筛选出最匹配输入音频的描述。实验结果表明,SLAM-AAC在Clotho V2和AudioCaps两个主流基准数据集上均取得了当前最优的性能,显著超越了以往主流模型,验证了所提方法的有效性与先进性。

代码仓库

X-LANCE/SLAM-LLM
官方
pytorch

基准测试

基准方法指标
audio-captioning-on-audiocapsSLAM-AAC
CIDEr: 0.841
FENSE: 0.668
METEOR: 0.268
SPICE: 0.194
SPIDEr: 0.518
SPIDEr-FL: 0.515
audio-captioning-on-clothoSLAM-AAC
CIDEr: 0.515
FENSE: 0.540
METEOR: 0.197
SPICE: 0.148
SPIDEr: 0.332
SPIDEr-FL: 0.330

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SLAM-AAC:通过LLM实现的重述增强与CLAP-Refine提升音频字幕生成 | 论文 | HyperAI超神经