3 个月前

BYTECOVER2:面向高效伴奏歌曲识别的潜在嵌入维度压缩

BYTECOVER2:面向高效伴奏歌曲识别的潜在嵌入维度压缩

摘要

基于卷积神经网络(CNN)的方法在近期的Cover Song Identification(CSI,翻唱歌曲识别)研究中占据主导地位。一个典型代表是我们提出的ByteCover系统,该系统在所有主流CSI数据集上均取得了当前最优的识别性能。本文提出了一种ByteCover的升级版本——ByteCover2,其在识别准确率和计算效率方面均进一步优于原版ByteCover。与ByteCover相比,ByteCover2引入了一个额外的PCA-FC模块,该模块融合了主成分分析(PCA)与全连接(FC)神经网络的能力,用于音频嵌入的降维处理,从而使得ByteCover2能够以更高的精度和效率完成CSI任务。我们在多种不同维度大小和训练设置下的多个数据集上对ByteCover2进行了评估,结果表明,即便在128维的低维配置下(仅为ByteCover原始维度的1/15),ByteCover2仍优于所有对比方法,包括原始的ByteCover系统。

基准测试

基准方法指标
cover-song-identification-on-covers80ByteCover2
MAP: 0.928
cover-song-identification-on-da-tacosByteCover2
mAP: 0.791
cover-song-identification-on-shs100k-testBytecover
mAP: 0.864

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BYTECOVER2:面向高效伴奏歌曲识别的潜在嵌入维度压缩 | 论文 | HyperAI超神经