8 个月前

音频和语音处理

Yuki Hasegawa Masashi Sugiyama

摘要

为了减少对熟练临床医生在心音解读方面的需求，近期关于自动化心脏听诊的研究探索了深度学习方法。然而，尽管深度学习需要大量数据，但现有的心音数据集规模有限，且没有可用的预训练模型。相比之下，许多针对通用音频任务的预训练模型作为通用音频表示已经存在。本研究探讨了在大规模数据集上预训练的通用音频表示在心杂音检测中的迁移学习潜力。实验结果表明，在CirCor DigiScope心音数据集上，最近提出的自监督学习方法Masked Modeling Duo（M2D）的表现优于以往的方法，其加权准确率为0.832，未加权平均召回率为0.713。进一步的实验还证实了通过与其他模型集成可以提高M2D的性能。这些结果展示了通用音频表示在处理心音方面的有效性，并为未来应用开辟了道路。我们的代码已在线提供，可以在配备24 GB消费级GPU的设备上运行，地址为：https://github.com/nttcslab/m2d/tree/master/app/circor

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

音频和语音处理

Yuki Hasegawa Masashi Sugiyama

摘要

为了减少对熟练临床医生在心音解读方面的需求，近期关于自动化心脏听诊的研究探索了深度学习方法。然而，尽管深度学习需要大量数据，但现有的心音数据集规模有限，且没有可用的预训练模型。相比之下，许多针对通用音频任务的预训练模型作为通用音频表示已经存在。本研究探讨了在大规模数据集上预训练的通用音频表示在心杂音检测中的迁移学习潜力。实验结果表明，在CirCor DigiScope心音数据集上，最近提出的自监督学习方法Masked Modeling Duo（M2D）的表现优于以往的方法，其加权准确率为0.832，未加权平均召回率为0.713。进一步的实验还证实了通过与其他模型集成可以提高M2D的性能。这些结果展示了通用音频表示在处理心音方面的有效性，并为未来应用开辟了道路。我们的代码已在线提供，可以在配备24 GB消费级GPU的设备上运行，地址为：https://github.com/nttcslab/m2d/tree/master/app/circor

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供