谷歌Gemma 4 12B:砍掉独立编码器 推翻多模态拼接架构 能跑16GB笔记本
6月4日,谷歌发布Gemma 4 12B。官方定位很克制:介于E4B与26B MoE之间的中端型号,能跑16GB笔记本,Apache 2.0开源。但DeepMind科学家Michael Tschannen的推文泄露了另一层意图——这款模型要做的不是把模型做小,而是让原始音画无损直通大语言模型。
推翻三年来的多模态拼接范式
过去三年,主流多模态模型如LLaVA、GPT-4V甚至Gemma 4 26B,本质上都是「拼接怪」。内部结构大同小异:视觉编码器(如ViT)将图像转换为特征token,音频编码器将语音转换为特征token,文本tokenizer处理文字,三种模态的token在Transformer主干中拼接处理。Gemma 4 12B没打算修这条管道,它直接把管道拆了。视觉方面,抛弃了传统ViT编码器,改用35M轻量嵌入模块——单次矩阵乘法加2D坐标嵌入加归一化,图像块直接映射到与文本Token相同的向量空间。音频更彻底,完全移除音频编码器,原始音频信号直接投影到文本Token的向量空间。不做频谱转换,不做声学特征提取,原始声波直接进模型。
统一表征空间的真正含义
传统架构是「分别处理再拼接」,Gemma 4 12B是「混合Token序列统一处理」。图像Token、音频Token、文本Token按顺序排列,进入统一的Transformer主干后,由同一套注意力机制处理,共享主干网络的权重和推理逻辑。这就是Tschannen所说的「统一」——不是功能层面的「支持多模态」,而是架构层面的「所有模态共享同一套表征空间」。这意味着当模型处理一张包含对话的图片时,它不是先「看」图再「读」字,而是在同一个认知空间里同时理解视觉和文本信息。
实测逼近26B MoE
atomic.chat的实测数据很能说明问题:RTX 4090上,12B生成8.9k Token的物理模拟代码,显存仅9GB,性能逼近26B MoE的15GB配置。二者参数差距高达140亿,12B用不到一半的显存跑出了旗舰模型超半数的速度,代码生成质量和物理逻辑推理能力几乎无差距。过往大厂内卷思路永远是堆MoE、堆参数量抬升性能,而Gemma 4 12B证明:优化架构同样能追平旗舰效果,直接动摇「靠堆参数取胜」的行业惯性研发思路。
对行业的深远影响
Gemma 4 12B的发布传递了几个重要信号。首先,多模态推理从「双路工作站」降到了「单张消费级显卡」,9GB显存跑原生多模态,这个门槛直接决定了它能不能进入普通开发者的工作流。其次,LoRA等轻量微调方法可以直接作用于Transformer主干,理论上能同步优化全模态回路,不再需要分别维护编码器和主干。最后,统一嵌入空间在架构理论上预留了扩展接口,新增模态理论上只需定制专属投影层即可接入主干。不过必须诚实地说,Gemma 4 12B面对超过三步的复杂串联任务、多工具联动场景,仍会出现规划幻觉和路径偏移的问题,正处于从「能对话」到「能做事」的过渡期。



