1 个月前

通义千问3-全能技术报告

通义千问3-全能技术报告

摘要

我们提出 Qwen3-Omni,这是一个单一的多模态模型,首次在文本、图像、音频和视频四种模态上均实现了当前最先进的性能,且在各项任务中均未出现相对于单模态模型的性能下降。Qwen3-Omni 在相同参数规模下,其性能与 Qwen 系列中的单模态模型相当,并在音频任务上表现尤为突出。在 36 个音频及音视频基准测试中,Qwen3-Omni 在其中 32 个实现了开源模型的最优表现(SOTA),在 22 个任务上达到整体最优,显著优于 Gemini-2.5-Pro、Seed-ASR 和 GPT-4o-Transcribe 等强大闭源模型。Qwen3-Omni 采用“思考者-说话者”混合专家(Thinker-Talker MoE)架构,统一融合了文本、图像、音频与视频的感知与生成能力,从而实现流畅的文本输出和自然的实时语音交互。该模型支持 119 种语言的文本交互,具备 19 种语言的语音理解能力,以及 10 种语言的语音生成能力。为降低流式合成中的首包延迟(first-packet latency),其“说话者”模块采用多码本(multi-codebook)方案,通过自回归方式预测离散语音编码,实现高效语音生成。基于这些码本强大的表征能力,我们以轻量级因果卷积网络(causal ConvNet)替代计算密集型的分块扩散模型(block-wise diffusion),从而实现从首个编码帧即可开始流式输出。在冷启动场景下,Qwen3-Omni 的理论端到端首包延迟仅为 234 毫秒。为进一步增强多模态推理能力,我们引入了一个“思考”模型,可对任意模态输入进行显式推理。由于当前研究社区尚缺乏通用的音频字幕生成模型,我们对 Qwen3-Omni-30B-A3B 进行微调,得到了 Qwen3-Omni-30B-A3B-Captioner,该模型能够为任意音频输入生成详细且低幻觉的字幕。Qwen3-Omni-30B-A3B、Qwen3-Omni-30B-A3B-Thinking 以及 Qwen3-Omni-30B-A3B-Captioner 已在 Apache 2.0 许可证下公开发布。

基准测试

基准方法指标
optical-character-recognition-on-ocrbench-v2-chineseQwen3-Omni-30B-A3B-Instruct
Accuracy: 60.0
optical-character-recognition-on-ocrbench-v2-englishQwen3-Omni-30B-A3B-Instruct
Accuracy: 61.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通义千问3-全能技术报告 | 论文 | HyperAI超神经