4 个月前

CLAPSep:利用对比预训练模型进行多模态查询条件下的目标声音提取

CLAPSep:利用对比预训练模型进行多模态查询条件下的目标声音提取

摘要

普遍声音分离(USS)旨在从现实世界的录音中提取任意类型的声音。这可以通过语言查询目标声音提取(TSE)来实现,通常包括两个组件:一个查询网络,将用户查询转换为条件嵌入;以及一个分离网络,根据这些条件嵌入提取目标声音。现有的方法通常从头开始训练模型,因此需要大量的数据和计算资源才能使随机初始化的模型理解声音事件并进行相应的分离。在本文中,我们提出将预训练模型集成到TSE模型中以解决上述问题。具体而言,我们将强大的对比语言-音频预训练模型(CLAP)定制和适应于USS,记作CLAPSep。CLAPSep还接受灵活的用户输入,可以处理单模态或多模态的正向和负向用户提示,用于目标声音提取。这些关键特性不仅能够提升提取性能,还能增强其应用的灵活性。我们在5个不同的数据集上进行了广泛的实验,以展示所提出的CLAPSep在快速训练收敛、零样本和少样本泛化能力方面的优越性能,显著超越了以往的方法。我们已发布完整的代码和一些音频示例,以便于复现和评估。

代码仓库

aisaka0v0/clapsep
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
target-sound-extraction-on-audiocapsCLAPSep
SDRi: 10.08
SI-SDRi: 9.40
target-sound-extraction-on-audiosetCLAPSep
SDRi: 9.29
SI-SDRi: 8.44

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CLAPSep:利用对比预训练模型进行多模态查询条件下的目标声音提取 | 论文 | HyperAI超神经