4 个月前

Frieren:基于修正流匹配的高效视频转音频生成网络

Frieren:基于修正流匹配的高效视频转音频生成网络

摘要

视频到音频(V2A)生成的目标是从无声视频中合成内容匹配的音频,而构建具有高质量、高效性和视听时间同步性的V2A模型仍然是一项挑战。我们提出了一种基于修正流匹配的V2A模型——Frieren。Frieren通过直线路径从噪声回归到频谱图潜在空间中的条件传输向量场,并通过求解常微分方程(ODE)进行采样,在音频质量方面优于自回归和基于得分的模型。通过采用基于前馈变换器的非自回归向量场估计器以及具有强时间对齐能力的通道级跨模态特征融合,我们的模型生成的音频与输入视频高度同步。此外,通过再流和带有引导向量场的一步蒸馏,我们的模型可以在少数甚至仅一步采样中生成优质的音频。实验结果表明,Frieren在VGGSound数据集上实现了生成质量和时间对齐方面的最先进性能,对齐准确率达到97.22%,并且在强大的扩散基线模型上,其初始分数提高了6.2%。音频样本可在 http://frieren-v2a.github.io 获取。

代码仓库

cyanbx/Frieren-V2A
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-to-sound-generation-on-vgg-soundFrieren
FAD: 1.32
FD: 12.26

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Frieren:基于修正流匹配的高效视频转音频生成网络 | 论文 | HyperAI超神经