科技

谷歌Gemma 4 12B：砍掉独立编码器推翻多模态拼接架构能跑16GB笔记本

📅 2026-06-08 23:02 · 👁 0 次阅读 · 📝 1,249 字 · ⏱ 约 5 分钟读完

6月4日，谷歌发布Gemma 4 12B。官方定位很克制：介于E4B与26B MoE之间的中端型号，能跑16GB笔记本，Apache 2.0开源。但DeepMind科学家Michael Tschannen的推文泄露了另一层意图——这款模型要做的不是把模型做小，而是让原始音画无损直通大语言模型。

推翻三年来的多模态拼接范式

过去三年，主流多模态模型如LLaVA、GPT-4V甚至Gemma 4 26B，本质上都是「拼接怪」。内部结构大同小异：视觉编码器（如ViT）将图像转换为特征token，音频编码器将语音转换为特征token，文本tokenizer处理文字，三种模态的token在Transformer主干中拼接处理。Gemma 4 12B没打算修这条管道，它直接把管道拆了。视觉方面，抛弃了传统ViT编码器，改用35M轻量嵌入模块——单次矩阵乘法加2D坐标嵌入加归一化，图像块直接映射到与文本Token相同的向量空间。音频更彻底，完全移除音频编码器，原始音频信号直接投影到文本Token的向量空间。不做频谱转换，不做声学特征提取，原始声波直接进模型。

统一表征空间的真正含义

传统架构是「分别处理再拼接」，Gemma 4 12B是「混合Token序列统一处理」。图像Token、音频Token、文本Token按顺序排列，进入统一的Transformer主干后，由同一套注意力机制处理，共享主干网络的权重和推理逻辑。这就是Tschannen所说的「统一」——不是功能层面的「支持多模态」，而是架构层面的「所有模态共享同一套表征空间」。这意味着当模型处理一张包含对话的图片时，它不是先「看」图再「读」字，而是在同一个认知空间里同时理解视觉和文本信息。

实测逼近26B MoE

atomic.chat的实测数据很能说明问题：RTX 4090上，12B生成8.9k Token的物理模拟代码，显存仅9GB，性能逼近26B MoE的15GB配置。二者参数差距高达140亿，12B用不到一半的显存跑出了旗舰模型超半数的速度，代码生成质量和物理逻辑推理能力几乎无差距。过往大厂内卷思路永远是堆MoE、堆参数量抬升性能，而Gemma 4 12B证明：优化架构同样能追平旗舰效果，直接动摇「靠堆参数取胜」的行业惯性研发思路。

对行业的深远影响

Gemma 4 12B的发布传递了几个重要信号。首先，多模态推理从「双路工作站」降到了「单张消费级显卡」，9GB显存跑原生多模态，这个门槛直接决定了它能不能进入普通开发者的工作流。其次，LoRA等轻量微调方法可以直接作用于Transformer主干，理论上能同步优化全模态回路，不再需要分别维护编码器和主干。最后，统一嵌入空间在架构理论上预留了扩展接口，新增模态理论上只需定制专属投影层即可接入主干。不过必须诚实地说，Gemma 4 12B面对超过三步的复杂串联任务、多工具联动场景，仍会出现规划幻觉和路径偏移的问题，正处于从「能对话」到「能做事」的过渡期。

本站文章来源于网络摘取整理发布，如有侵权请联系 hy@uicn.cn 删除

相关文章

微软Build大会一文看尽：9款自研模型、Majorana 2量子芯片、Windows版龙虾Agent

GPT-5.5 Instant发布：幻觉率降52.5% 数学能力暴涨 成ChatGPT默认模型

ChatGPT将迎来史上最大改版：Codex并入聊天框 AI只用来聊天的时代结束了

GPT-5.5 Instant发布：幻觉率降52.5% 数学能力暴涨成ChatGPT默认模型