微软自研MAI大模型:语音+通用双线出击,告别OpenAI依赖
微软AI掌门人、DeepMind联合创始人Mustafa Suleyman正式宣布:微软AI推出MAI-Voice-1以及MAI-1-preview!这标志着在多年依赖OpenAI模型之后,微软AI部门正式与OpenAI及整个行业正面竞争,也意味着微软在AI竞赛中开始掌握更多主动权。
MAI-Voice-1:单GPU秒出1分钟音频
语音将成为AI助手的重要战场。MAI-Voice-1语音模型效率极高:单GPU秒出1分钟音频,使用Copilot即可体验。该模型在语音自然性、情感丰富度、低延迟响应上显著提升,能够在一句话之内实现语调、语言的无缝切换,还支持工具调用和指令跟随能力。
Suleyman表示:「微软是世界上最大的公司之一,我们必须具备内部能力来打造世界最强的模型。」富有情感和个性的数字伙伴是当前AI发展的新突破点,MAI-Voice-1有望推动语音助手晋级为「数字伙伴」。
MAI-1-preview:MoE架构的首个自研模型
MAI-1-preview是微软AI首个端到端内部训练的自研基础模型,采用MoE(混合专家)架构。训练使用约1.5万张NVIDIA H100 GPU,在LMArena文本任务榜单排名第13。Suleyman认为自研新模型表现远超其硬件规模,「现在才刚刚开始调优,一旦投入实际应用并开始收集反馈,性能还会显著提升。」
MoE架构是大模型的新趋势:多个专家网络各司其职,根据输入动态激活,兼顾性能与成本。随着LLM细分应用增多,多专家模型将成为重要方向。微软已经在使用全球最大的数据中心之一配备NVIDIA下一代GB-200芯片研发下一版本模型,且有庞大的五年规划。
与OpenAI关系:竞争中合作
长期以来微软主要依靠OpenAI的人工智能模型为核心产品提供AI功能。OpenAI估值约5000亿美元,微软一家投资超过130亿美元。但现在双方关系日渐恶化——去年微软在年度财报中正式将OpenAI列入竞争对手名单,OpenAI也转向CoreWeave、谷歌和甲骨文等其他云服务商。
Suleyman表示微软未来会继续使用OpenAI的模型,也会用开源模型,但关键在于「编排器」(orchestrator)——一种模型调度系统,能根据任务自动选择合适的模型来完成特定请求。这种编排能力将成为微软的重要知识产权。外界猜测微软推出自研模型是否意味着与OpenAI关系降温,Suleyman回应:「我们的目标是进一步加深与OpenAI的合作。」但市场看到的是一个正在减少依赖的微软。
行业信号:大模型进入百模大战
微软此举释放出多重信号:第一,语音将成为AI助手的核心战场;第二,OpenAI不再是唯一选择,大模型进入「百模大战」阶段;第三,MoE架构成为新趋势;第四,模型生态开放值得期待。对微软来说,这仅仅是个开始——他们已经启动下一个更大规模模型的研发,一切已经就位。AI竞赛的格局正在被重新书写。