HyperAIHyperAI

Command Palette

Search for a command to run...

专家混合体

摘要

我们介绍了一种名为Mixtral 8x7B的稀疏专家混合(Sparse Mixture of Experts, SMoE)语言模型。Mixtral采用了与Mistral 7B相同的架构,不同之处在于每一层由8个前馈块(即专家)组成。对于每个标记,在每一层上,路由网络会选择两个专家来处理当前状态并合并其输出。尽管每个标记仅能看到两个专家,但所选专家在每个时间步可以不同。因此,每个标记可以访问470亿参数,但在推理过程中仅使用130亿活跃参数。Mixtral在训练时使用了32,000个标记的上下文大小,并且在所有评估基准上均超过了或匹配了Llama 2 700亿和GPT-3.5的表现。特别是在数学、代码生成和多语言基准测试中,Mixtral大幅超越了Llama 2 700亿。此外,我们还提供了一个经过微调以遵循指令的模型——Mixtral 8x7B - Instruct,在人类基准测试中超越了GPT-3.5 Turbo、Claude-2.1、Gemini Pro以及Llama 2 700亿 - 聊天模型。基础模型和指令模型均在Apache 2.0许可下发布。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供