6 个月前

音频和语音处理

多模态表征

Yuanbo Hou Siyang Song Chuang Yu Yuxin Song Wenwu Wang Dick Botteldooren

摘要

现有的大多数基于深度学习的声景分类（Acoustic Scene Classification, ASC）方法直接利用频谱图提取的表征来识别目标声景。然而，这些方法往往忽视了声景中实际发生的音频事件，尽管这些事件蕴含着关键的语义信息。本文首次开展研究，探讨仅基于描述有限数量音频事件的特征，是否能够可靠地识别真实生活中的声景。为建模粗粒度声景与细粒度音频事件之间的特定任务关系，本文提出一种面向声景分类的事件关系图表示学习框架（Event Relational Graph Representation Learning, ERGL）。具体而言，ERGL从输入音频中学习声景的图表示，其中每个音频事件的嵌入作为图中的节点，而每对事件嵌入之间的关系线索则通过一个学习得到的多维边特征进行描述。在多音声景数据集上的实验表明，所提出的ERGL框架仅使用有限数量的音频事件嵌入，且无需任何数据增强，即可在ASC任务上取得具有竞争力的性能。该结果验证了所提ERGL框架的有效性，证明了基于事件关系图识别多样化声景的可行性。相关代码已开源，可访问我们的主页获取：https://github.com/Yuanbo2020/ERGL。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

多模态表征

Yuanbo Hou Siyang Song Chuang Yu Yuxin Song Wenwu Wang Dick Botteldooren

摘要

现有的大多数基于深度学习的声景分类（Acoustic Scene Classification, ASC）方法直接利用频谱图提取的表征来识别目标声景。然而，这些方法往往忽视了声景中实际发生的音频事件，尽管这些事件蕴含着关键的语义信息。本文首次开展研究，探讨仅基于描述有限数量音频事件的特征，是否能够可靠地识别真实生活中的声景。为建模粗粒度声景与细粒度音频事件之间的特定任务关系，本文提出一种面向声景分类的事件关系图表示学习框架（Event Relational Graph Representation Learning, ERGL）。具体而言，ERGL从输入音频中学习声景的图表示，其中每个音频事件的嵌入作为图中的节点，而每对事件嵌入之间的关系线索则通过一个学习得到的多维边特征进行描述。在多音声景数据集上的实验表明，所提出的ERGL框架仅使用有限数量的音频事件嵌入，且无需任何数据增强，即可在ASC任务上取得具有竞争力的性能。该结果验证了所提ERGL框架的有效性，证明了基于事件关系图识别多样化声景的可行性。相关代码已开源，可访问我们的主页获取：https://github.com/Yuanbo2020/ERGL。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

基于多维边缘的音频事件关系图表示学习用于声学场景分类 | 论文 | HyperAI超神经