3 个月前

AudioCaps:为野外音频生成字幕

AudioCaps:为野外音频生成字幕

摘要

我们探讨了音频描述(Audio Captioning)这一问题:即为任意类型的野外音频生成自然语言描述,这一课题在以往研究中却鲜有涉及。为此,我们构建了一个大规模数据集,包含46,000段音频片段及其由众包方式收集的人工撰写的文本描述对,数据来源为AudioSet数据集。通过系统的实证研究,我们不仅验证了所收集的描述文本确实与音频输入高度一致,还揭示了在音频描述任务中,哪些音频表示方式与描述模型具有较好的有效性。基于大量实验,我们进一步提出了两个新颖的组件,以提升音频描述性能:自上而下的多尺度编码器(top-down multi-scale encoder)以及对齐语义注意力机制(aligned semantic attention)。

基准测试

基准方法指标
audio-captioning-on-audiocapsTopDown-AlignedAtt (1NN)
CIDEr: 0.593
SPICE: 0.144
SPIDEr: 0.369

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AudioCaps:为野外音频生成字幕 | 论文 | HyperAI超神经