新闻资讯

Nemotron 3 Ultra开源发布:5500亿参数推理5倍速,英伟达从显卡厂变模型军火商

事件背景

2026年6月1日GTC台北大会上,英伟达CEO黄仁勋发布了面向全天候运行智能体的全新开源模型Nemotron 3 Ultra。这款拥有5500亿参数的混合专家模型,是英伟达从硬件巨头向AI全栈服务商转型的标志性产品。黄仁勋没有拿出新的显卡,却让全场开发者两次起立鼓掌——因为Nemotron 3 Ultra把GPT-4o级别的推理能力搬到了单张GPU上,并且完全开源。开源大模型的"GPT-4o时刻",这一次由英伟达亲手点燃。

核心参数与性能

  • 参数规模:5500亿参数,混合专家架构
  • 推理速度:较同级别主流开源前沿模型最高提升5倍
  • 使用成本:较同级别模型最高降低30%
  • 适配平台:Hermes Agent、LangChain Deep Agents、OpenClaw、OpenHands、OpenCode等主流智能体平台
  • 获取渠道:Hugging Face、ModelScope、OpenRouter及build.nvidia.com(NVIDIA NIM微服务形式),预计6月4日推出

Nemotron 3 Ultra的核心优势在于其专为长效智能体设计的架构。传统大模型在处理代码开发、科研分析等长链条推理任务时,往往面临上下文丢失和推理效率下降的问题。Nemotron 3 Ultra通过混合专家架构,在保持大参数规模的同时显著降低了每次推理的激活参数量,从而实现了5倍的推理速度提升和30%的成本降低。

企业级应用场景

英伟达同时发布了安全防护与语音识别类Nemotron模型,用于打造专业化企业级智能体。首批企业级落地案例包括:

  • CrowdStrike:将模型应用于专用安全智能体,不间断排查漏洞、划分风险等级并修复配置错误,显著减轻安全团队运维压力
  • Palantir:接入前线部署工程师AI平台,实现复杂任务自主执行,依托交互数据持续迭代优化,搭建适配特定业务领域的企业系统

此外,英伟达还推出包含NemoGuard、Nemotron、OpenShell与CUDA-X的智能体工具包,为企业提供从模型到部署的完整解决方案。

行业格局分析

Nemotron 3 Ultra的发布标志着开源大模型竞争进入新阶段。此前,Meta的Llama系列和DeepSeek的开源模型一直占据开源大模型的主导地位。英伟达的入局带来了独特的竞争优势:首先,英伟达拥有全球最大的GPU安装基数,Nemotron模型可以深度优化GPU推理效率;其次,英伟达的智能体工具包提供了从训练到部署的全栈支持,降低了企业采用门槛;最后,5500亿参数的开源模型将迫使竞争对手加速迭代,推动整个开源AI生态的快速发展。

对开发者而言,Nemotron 3 Ultra的意义在于:一个GPT-4o级别的模型可以在单张消费级GPU上运行,这意味着个人开发者和小团队也能构建高质量的AI智能体应用,而不再依赖昂贵的API调用。这可能是推动AI Agent从大企业专属走向大众化的关键一步。