3 个月前

NTT DCASE2020挑战赛任务6系统:基于关键词与句子长度估计的自动化音频描述生成

NTT DCASE2020挑战赛任务6系统:基于关键词与句子长度估计的自动化音频描述生成

摘要

本技术报告介绍了参与2020年音频场景与事件检测与分类(DCASE 2020)挑战赛任务6——自动音频描述生成(automated audio captioning)的系统方案。我们的提交重点针对自动音频描述生成中的两个不确定性问题:词汇选择的不确定性与句子长度的不确定性。通过多任务学习框架,我们同时对主描述生成任务及子不确定性问题进行建模,实现关键词预测与句子长度估计。我们在开发测试数据集上对简化版模型进行了测试,结果表明,本模型的SPIDEr得分为20.7,显著优于基线系统的5.4分。

基准测试

基准方法指标
audio-captioning-on-clothoEnsemble
CIDEr: 0.319
SPICE: 0.094
SPIDEr: 0.207

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
NTT DCASE2020挑战赛任务6系统:基于关键词与句子长度估计的自动化音频描述生成 | 论文 | HyperAI超神经