HyperAIHyperAI

Command Palette

Search for a command to run...

Nemotron 3 Nano:面向Agent推理的开源、高效混合专家Mamba-Transformer模型

NVIDIA

Abstract

我们推出了Nemotron 3 Nano 30B-A3B,这是一种基于混合专家(Mixture-of-Experts)架构的混合Mamba-Transformer语言模型。Nemotron 3 Nano在25万亿个文本标记上进行了预训练,其中包括超过3万亿个相较于Nemotron 2新增的唯一标记,随后在多样化环境中进行了监督微调及大规模强化学习。与前代Nemotron 2 Nano相比,Nemotron 3 Nano在每前向传播过程中激活的参数少于一半,同时实现了更高的准确率。在推理吞吐量方面,其性能最高可达类似规模开源模型(如GPT-OSS 20B和Qwen3-30B-A3B-Thinking-2507)的3.3倍,且在多个主流基准测试中表现更优。Nemotron 3 Nano在智能体行为、推理能力及对话交互方面均有显著提升,并支持长达100万标记的上下文长度。我们已在Hugging Face平台公开发布Nemotron 3 Nano 30B-A3B基础预训练模型(Base)及后续微调后的检查点(post-trained checkpoints)。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供