HyperAI超神经

摘要

本报告介绍了VibeVoice，这是一种新型模型，通过采用“下一词扩散”（next-token diffusion）技术，实现多说话人长时语音的合成。该方法是一种统一的连续数据建模方式，通过扩散过程自回归地生成潜在向量。为实现这一目标，我们提出了一种新型连续语音分词器。与流行的Encodec模型相比，该分词器在保持相当性能的前提下，实现了80倍的数据压缩率。该分词器在有效保留音频保真度的同时，显著提升了处理长序列的计算效率。因此，VibeVoice能够在最大64K上下文窗口长度下，支持最多4名说话人，合成长达90分钟的长时语音，精准捕捉真实对话中的“氛围”（vibe），其表现超越了现有的开源及专有对话模型。

摘要

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang

摘要

用 AI 构建 AI

HyperAI Newsletters

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang

摘要

用 AI 构建 AI

HyperAI Newsletters

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

VibeVoice 技术报告

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang3 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

VibeVoice 技术报告

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang3 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

VibeVoice 技术报告

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang3 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang