HyperAIHyperAI

Command Palette

Search for a command to run...

DiffVox:声音区分效果模型

An error occurred in the Server Components render. The specific message is omitted in production builds to avoid leaking sensitive details. A digest property is included on this error instance which may provide additional details about the nature of the error.

Failed to load notebook details

一、教程简介

Build

DiffVox 项目是由索尼 AI 、索尼集团与伦敦玛丽女王大学的研究团队于 2025 年 5 月联合发布。该模型的核心能力在于,它采用推理时优化的先进方法,并创新性地引入高斯先验约束,从而能够将一段原始人声干声,智能地转化为在听感上逼近目标参考、且在参数上符合专业混音标准的优质音频。 它是一个专注于人声音效风格迁移的先进模型,相关论文成果为 DiffVox: A Differentiable Model for Capturing and Analysing Vocal Effects Distributions(已被 DAFx25 接收)和 Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior(已被 WASPAA 2025 接收)。

本教程默认使用资源为单卡 RTX 5090,最低可用单卡 RTX 4090 启动使用。

二、项目示例

三、运行步骤

1. 启动容器

2. 进入网页后,即可进行模型的使用

若显示「Bad Gateway」,这表示模型正在初始化,请等待 2-3 分钟后刷新页面。使用 Safari 浏览器时,音频可能无法直接播放,需要下载后进行播放。

相关参数说明

主控与预设

Rapid Audio

  • 作用:主控制面板,包含音频处理的核心功能和预设选择
  • 说明:这是整个效果处理链的入口,负责协调所有效果模块的工作

Dry/Wet Ratio

  • 作用:控制干声(原始声音)和湿声(处理后的声音)的混合比例
  • 说明
    • 0%:完全干声,只输出原始声音
    • 50%:干湿声平衡混合
    • 100%:完全湿声,只输出处理后的声音
  • 应用:用于控制效果处理的强度,避免过度处理

Output Audio

  • 作用:最终混合后的输出音频
  • 说明:经过所有效果处理和干湿混合后的完整结果

Dry Audio

  • 作用:未经任何效果处理的原始干声
  • 说明:保留了录音的原始特性,用于对比或后期处理

Wet Audio

  • 作用:经过所有效果处理后的湿声
  • 说明:包含均衡、压缩、延迟、混响等所有效果的声音

Select Preset(1~365)

  • 作用:预设效果库选择
  • 说明
    • 包含 365 种专业调校的效果预设
    • 涵盖各种音乐风格和声音特性
    • 可作为起点进行个性化调整

参数均衡器

Parametric EQ

  • 作用:精确的音色调节工具
  • 说明:通过多个滤波器对特定频段进行增强或衰减,塑造声音的频谱特性

High Pass(高通滤波器)

  • 作用:切除指定频率以下的低频成分
  • 应用
    • 去除呼吸声、风声等低频噪声
    • 减少浑浊感,增加清晰度
    • 典型设置:80-120 Hz

Low Shelf(低频搁架式均衡器)

  • 作用:整体提升或衰减所有低频
  • 应用
    • 增加声音的厚度和温暖感
    • 减少低频轰鸣声
    • 典型频率:100-250 Hz

Peak Filter(峰值滤波器)

  • 作用:针对特定频率点进行精确调节
  • 应用
    • 消除共振峰
    • 增强人声的临场感
    • 修正特定频段的音色问题

High Shelf(高频搁架式均衡器)

  • 作用:整体提升或衰减所有高频
  • 应用
    • 增加空气感和亮度
    • 减少刺耳的高频
    • 典型频率:8-12 kHz

Frequency

  • 作用:选择要处理的中心频率
  • 说明:决定滤波器作用的频点位置

Gain

  • 作用:控制频率的增强或衰减程度
  • 范围:-12 dB 到 +12 dB
  • 正值:增强该频率
  • 负值:衰减该频率

Q

  • 作用:控制受影响频率范围的宽窄
  • 说明
    • 高 Q 值:影响范围窄,针对性强
    • 低 Q 值:影响范围宽,效果平滑
  • 应用:窄 Q 用于精确修正,宽 Q 用于整体调节

压缩器和扩展器

Compressor and Expander

  • 作用:动态范围处理器
  • 功能:压缩器减小动态范围,扩展器增大动态范围

Threshold

  • 作用:设定压缩/扩展开始的电平阈值
  • 说明
    • 高于此电平的信号会被压缩
    • 低于此电平的信号会被扩展
  • 范围:-60 dB 到 0 dB

Comp.Ratio(压缩比)

  • 作用:控制压缩的强度
  • 说明
    • 2:1:轻度压缩
    • 4:1:中等压缩
    • 10:1:强压缩
    • ∞:1:限制器效果

Make up(增益补偿)

  • 作用:补偿压缩后的电平损失
  • 应用:使压缩后的音量与压缩前相当

Attack Time(启动时间)

  • 作用:控制压缩器开始工作的速度
  • 说明
    • 快启动:保留瞬态,增加冲击感
    • 慢启动:软化瞬态,声音更平滑
  • 范围:0.1-100 ms

Release Time(释放时间)

  • 作用:控制压缩器停止工作的速度
  • 说明
    • 快释放:恢复动态快,可能产生抽吸效应
    • 慢释放:恢复动态慢,效果更自然
  • 范围:50-1000 ms

Exp. Ratio(扩展比)

  • 作用:控制扩展的强度
  • 说明
    • 1:2:信号低于阈值时电平减半
    • 1:10:强扩展,有效降低噪声
  • 范围:0-1(实际为扩展比的倒数)

Exp. Threshold(扩展阈值)

  • 作用:设定扩展器开始工作的电平点
  • 说明:低于此阈值的信号会被进一步衰减

RMS Averaging coefficient

  • 作用:控制压缩器对信号响应的敏感度
  • 说明
    • 高值:对平均音量敏感,响应平滑
    • 低值:对瞬时峰值敏感,响应快速
  • 应用:根据音乐风格和需求调整响应特性

乒乓延迟

Ping-Pong Delay

  • 作用:立体声延迟效果
  • 特点:回声在左右声道之间交替跳动

Delay Time

  • 作用:控制回声的时间间隔
  • 范围:100-1000 ms
  • 应用
    • 短延迟:增加空间感和厚度
    • 长延迟:创造明显的回声效果

Feedback

  • 作用:控制回声的重复次数
  • 说明
    • 低反馈:少量回声
    • 高反馈:多次重复,可能产生自激
  • 范围:0-1

Gain

  • 作用:控制延迟效果的音量
  • 范围:-80 dB 到 0 dB

Odd/Even Delay Pan

  • 作用:分别控制奇数和偶数次回声的声像位置
  • 说明
    • -100:完全左声道
    • 0:居中
    • 100:完全右声道
  • 应用:创造立体的空间移动效果

Low Pass Frequency

  • 作用:对延迟回声进行低频滤波
  • 应用
    • 模拟自然衰减的高频损失
    • 创造温暖、不刺耳的回声

Reverb Send

  • 作用:控制延迟信号发送到混响的量
  • 应用:为延迟回声增加空间感,创造更自然的效果

FDN 混响

FDN Reverb

  • 作用:高质量数字混响效果
  • 特点:基于反馈延迟网络,提供自然的空间模拟

Tone Correction(PEQ)

  • 作用:混响效果内部的均衡器
  • 功能
    • 调节混响尾音的频率特性
    • 控制混响的明亮度或温暖度
    • 避免混响与主声冲突

Decay Time

  • 作用:控制混响的衰减时间
  • 说明
    • 短衰减:小房间效果
    • 长衰减:大厅或教堂效果
  • 范围:0-9 秒
  • 应用:根据空间大小需求调整混响持续时间

引用信息

本项目引用信息如下:

@inproceedings{ycy2025diffvox,
     title={DiffVox: A Differentiable Model for Capturing and Analysing Vocal Effects Distributions}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Ben Hayes and Wei-Hsiang Liao and György Fazekas and Yuki Mitsufuji},
     year={2025},
     booktitle={Proc. DAFx},
}
@inproceedings{ycy2025ito,
     title={Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Wei-Hsiang Liao and Yuki Mitsufuji and György Fazekas},
     year={2025},
     booktitle={Proc. WASPAA},
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供