HyperAIHyperAI

Command Palette

Search for a command to run...

VibeVoice 技术报告

Abstract

本报告介绍了VibeVoice,这是一种新型模型,通过采用“下一词扩散”(next-token diffusion)技术,实现多说话人长时语音的合成。该方法是一种统一的连续数据建模方式,通过扩散过程自回归地生成潜在向量。为实现这一目标,我们提出了一种新型连续语音分词器。与流行的Encodec模型相比,该分词器在保持相当性能的前提下,实现了80倍的数据压缩率。该分词器在有效保留音频保真度的同时,显著提升了处理长序列的计算效率。因此,VibeVoice能够在最大64K上下文窗口长度下,支持最多4名说话人,合成长达90分钟的长时语音,精准捕捉真实对话中的“氛围”(vibe),其表现超越了现有的开源及专有对话模型。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供