JetBrains开源Mellum2编程模型:12B参数升级AI智能体助手
知名开发工具厂商JetBrains今日宣布开源其第二代编程AI模型Mellum2,这款拥有120亿参数的新一代模型较上一代的40亿参数实现了三倍的规模增长,标志着JetBrains在AI辅助编程领域的技术实力迈上了新台阶。Mellum2采用Apache 2.0开源协议发布,全球开发者均可免费使用、修改和分发。
从技术架构来看,Mellum2采用了稀疏混合专家(Sparse MoE)架构,虽然总参数量达到120亿,但每次推理时仅有25亿参数处于活跃状态。这种设计在保持强大性能的同时,显著降低了计算资源需求和推理延迟。更重要的是,Mellum2的上下文窗口从上一代的8192个token大幅扩展至131072个token,这意味着模型能够处理更长的代码文件和更复杂的项目结构。
Mellum2提供了三个版本以满足不同场景的需求:基础版(Base)适用于通用代码生成任务;指令版(Instruction)能够理解自然语言指令并执行相应的编程操作;思考版(Thinking)则具备深度推理能力,能够处理复杂的算法设计和架构优化任务。这三个版本的模型均可生成和编辑代码、调用外部工具,并执行多步骤的智能体工作流,为开发者提供了全方位的AI编程辅助。
JetBrains表示,Mellum2的开发定位主要针对四大应用场景。首先是AI工作负载路由,模型能够智能地将不同类型的任务分配给最适合的处理单元。其次是低延迟的RAG管道,使得开发者能够基于大型代码库构建高效的检索增强生成系统。第三是在复杂工作流中作为快速子智能体使用,Mellum2的小体积和快速响应特性使其成为多智能体系统的理想选择。最后是私有化本地部署,企业可以在完全隔离的环境中运行模型,确保代码和数据的安全性。
在训练方法上,Mellum2采用了创新的三阶段预训练课程。第一阶段专注于通用语言能力的培养,第二阶段针对编程领域进行专项强化,第三阶段则通过指令微调和人类反馈优化模型的实用性能。这种渐进式的训练策略使得Mellum2在保持广泛适用性的同时,具备了深厚的编程专业能力。
业界分析人士指出,JetBrains开源Mellum2的举措具有重要的战略意义。作为全球最受欢迎的IDE提供商之一,JetBrains通过开源其AI模型,有望构建一个围绕其开发工具生态的庞大开发者社区。与此同时,Mellum2的开源也为整个AI编程领域注入了新的活力,开发者可以基于该模型进行二次开发,创造出更多创新的应用场景。可以预见,Mellum2将成为AI辅助编程领域的重要里程碑。