3 个月前

基于多维边缘的音频事件关系图表示学习用于声学场景分类

基于多维边缘的音频事件关系图表示学习用于声学场景分类

摘要

现有的大多数基于深度学习的声景分类(Acoustic Scene Classification, ASC)方法直接利用频谱图提取的表征来识别目标声景。然而,这些方法往往忽视了声景中实际发生的音频事件,尽管这些事件蕴含着关键的语义信息。本文首次开展研究,探讨仅基于描述有限数量音频事件的特征,是否能够可靠地识别真实生活中的声景。为建模粗粒度声景与细粒度音频事件之间的特定任务关系,本文提出一种面向声景分类的事件关系图表示学习框架(Event Relational Graph Representation Learning, ERGL)。具体而言,ERGL从输入音频中学习声景的图表示,其中每个音频事件的嵌入作为图中的节点,而每对事件嵌入之间的关系线索则通过一个学习得到的多维边特征进行描述。在多音声景数据集上的实验表明,所提出的ERGL框架仅使用有限数量的音频事件嵌入,且无需任何数据增强,即可在ASC任务上取得具有竞争力的性能。该结果验证了所提ERGL框架的有效性,证明了基于事件关系图识别多样化声景的可行性。相关代码已开源,可访问我们的主页获取:https://github.com/Yuanbo2020/ERGL。

代码仓库

yuanbo2020/ergl
官方
GitHub 中提及

基准测试

基准方法指标
acoustic-scene-classification-on-tut-urbanERGL: event relational graph representation learning
Acc: 78.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于多维边缘的音频事件关系图表示学习用于声学场景分类 | 论文 | HyperAI超神经