4 个月前

阅读、观看和尖叫!从文本和视频生成声音

阅读、观看和尖叫!从文本和视频生成声音

摘要

尽管多模态生成模型取得了令人瞩目的进展,视频到音频的生成仍然存在性能有限的问题,并且在场景中优先合成特定对象的声音方面灵活性不足。相反,文本到音频的生成方法可以生成高质量的音频,但在确保全面的场景描绘和时间变化控制方面面临挑战。为了解决这些问题,我们提出了一种新的视频和文本到音频的生成方法,称为“我们的方法”(\ours),其中视频作为文本到音频生成模型的条件控制。特别是,我们的方法从视频中估计声音的结构信息(即能量),同时从用户提示中接收关键内容线索。我们采用了一个表现良好的文本到音频模型来整合视频控制,这使得使用大规模三元组配对(音频-视频-文本)数据训练多模态扩散模型更加高效。此外,通过分离音频的生成组件,该系统变得更加灵活,允许用户根据自己的偏好自由调整能量、周围环境和主要声源。实验结果表明,我们的方法在质量、可控性和训练效率方面具有优越性。代码和演示可在 https://naver-ai.github.io/rewas 获取。为了进一步优化译文的专业性和可读性,以下是经过微调后的版本:尽管多模态生成模型已取得显著进展,视频到音频的生成仍存在性能受限的问题,并且在场景中优先合成特定对象的声音方面灵活性不足。相比之下,文本到音频的生成方法能够产生高质量的音频,但在确保全面的场景描述和时间动态控制方面面临挑战。为此,我们提出了一种新的视频和文本到音频生成方法——“我们的方法”(\ours),其中视频作为条件控制输入用于指导文本到音频生成模型。具体而言,我们的方法从视频中提取声音的能量等结构信息,并结合用户提供的关键内容提示进行合成。我们利用一个高效的文本到音频模型来整合这一视频控制机制,从而在使用大规模三元组配对(音频-视频-文本)数据训练多模态扩散模型时显著提高了效率。此外,通过分离音频的不同生成组件,该系统变得更加灵活,允许用户根据个人需求自由调整声音的能量、环境背景以及主要声源。实验结果证明了我们的方法在音质、可控性和训练效率方面的优越性。相关代码和演示可在 https://naver-ai.github.io/rewas 获取。

代码仓库

naver-ai/rewas
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-to-sound-generation-on-vgg-soundReWas
FAD: 2.16
FD: 15.24

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
阅读、观看和尖叫!从文本和视频生成声音 | 论文 | HyperAI超神经