HyperAI超神经

一、教程简介

DiffVox 项目是由索尼 AI 、索尼集团与伦敦玛丽女王大学的研究团队于 2025 年 5 月联合发布。该模型的核心能力在于，它采用推理时优化的先进方法，并创新性地引入高斯先验约束，从而能够将一段原始人声干声，智能地转化为在听感上逼近目标参考、且在参数上符合专业混音标准的优质音频。它是一个专注于人声音效风格迁移的先进模型，相关论文成果为 DiffVox: A Differentiable Model for Capturing and Analysing Vocal Effects Distributions（已被 DAFx25 接收）和 Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior（已被 WASPAA 2025 接收）。

本教程默认使用资源为单卡 RTX 5090，最低可用单卡 RTX 4090 启动使用。

二、项目示例

三、运行步骤

1. 启动容器

2. 进入网页后，即可进行模型的使用

若显示「Bad Gateway」，这表示模型正在初始化，请等待 2-3 分钟后刷新页面。使用 Safari 浏览器时，音频可能无法直接播放，需要下载后进行播放。

引用信息

本项目引用信息如下：

@inproceedings{ycy2025diffvox,
     title={DiffVox: A Differentiable Model for Capturing and Analysing Vocal Effects Distributions}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Ben Hayes and Wei-Hsiang Liao and György Fazekas and Yuki Mitsufuji},
     year={2025},
     booktitle={Proc. DAFx},
}

@inproceedings{ycy2025ito,
     title={Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Wei-Hsiang Liao and Yuki Mitsufuji and György Fazekas},
     year={2025},
     booktitle={Proc. WASPAA},
}

一、教程简介

本教程默认使用资源为单卡 RTX 5090，最低可用单卡 RTX 4090 启动使用。

二、项目示例

三、运行步骤

1. 启动容器

2. 进入网页后，即可进行模型的使用

若显示「Bad Gateway」，这表示模型正在初始化，请等待 2-3 分钟后刷新页面。使用 Safari 浏览器时，音频可能无法直接播放，需要下载后进行播放。

引用信息

本项目引用信息如下：

@inproceedings{ycy2025diffvox,
     title={DiffVox: A Differentiable Model for Capturing and Analysing Vocal Effects Distributions}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Ben Hayes and Wei-Hsiang Liao and György Fazekas and Yuki Mitsufuji},
     year={2025},
     booktitle={Proc. DAFx},
}

@inproceedings{ycy2025ito,
     title={Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Wei-Hsiang Liao and Yuki Mitsufuji and György Fazekas},
     year={2025},
     booktitle={Proc. WASPAA},
}

一、教程简介

本教程默认使用资源为单卡 RTX 5090，最低可用单卡 RTX 4090 启动使用。

二、项目示例

三、运行步骤

1. 启动容器

2. 进入网页后，即可进行模型的使用

若显示「Bad Gateway」，这表示模型正在初始化，请等待 2-3 分钟后刷新页面。使用 Safari 浏览器时，音频可能无法直接播放，需要下载后进行播放。

引用信息

本项目引用信息如下：

@inproceedings{ycy2025diffvox,
     title={DiffVox: A Differentiable Model for Capturing and Analysing Vocal Effects Distributions}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Ben Hayes and Wei-Hsiang Liao and György Fazekas and Yuki Mitsufuji},
     year={2025},
     booktitle={Proc. DAFx},
}

@inproceedings{ycy2025ito,
     title={Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Wei-Hsiang Liao and Yuki Mitsufuji and György Fazekas},
     year={2025},
     booktitle={Proc. WASPAA},
}

Command Palette

DiffVox：声音区分效果模型

一、教程简介

二、项目示例

三、运行步骤

1. 启动容器

2. 进入网页后，即可进行模型的使用

相关参数说明

主控与预设

参数均衡器

压缩器和扩展器

乒乓延迟

FDN 混响

引用信息

教程概览

用 AI 构建 AI

HyperAI Newsletters

Command Palette

DiffVox：声音区分效果模型

一、教程简介

二、项目示例

三、运行步骤

1. 启动容器

2. 进入网页后，即可进行模型的使用

相关参数说明

主控与预设

参数均衡器

压缩器和扩展器

乒乓延迟

FDN 混响

引用信息

教程概览

用 AI 构建 AI

HyperAI Newsletters

Command Palette

DiffVox：声音区分效果模型

一、教程简介

二、项目示例

三、运行步骤

1. 启动容器

2. 进入网页后，即可进行模型的使用

相关参数说明

主控与预设

参数均衡器

压缩器和扩展器

乒乓延迟

FDN 混响

引用信息

教程概览

用 AI 构建 AI

HyperAI Newsletters