Google 推出 Gemma 4 12B(Apache 2.0),采用无独立视觉编码器的统一多模态架构。仅用 35M 参数的轻量嵌入器,将图像切为 48×48 块、音频(16kHz 原始波形)切为 40ms 帧,直接作为 token 输入 Transformer。M4 Max 上 4-bit 量化识图延迟 1.2-1.5 秒,官方称 16GB 内存可用,但社区指出高分辨率多图会压线。该设计暗示:当基座模型足够大,专用子模块不再是必需,未来一个微调好的统一模型可能取代传统拼装 Whisper、LLaVa 等多模态 pipeline。
150M 的活,35M 干了, Google 新出的 Gemma 4 12B,把多模态里那个最重的零件,视觉编码器, 从 150M-550M 直接压到 35M了,
过去做多模态,套路是固定的, 图片先扔给一个专门的视觉编码器翻译成模型能懂的语言, 再交给大模型理解,就像配了个翻译官。
这个翻译官,传统 ViT 编码器要 150M 到 550M 参数。
Gemma 4 12B 直接把翻译官辞了, 只留一个 35M 的轻量嵌入器,把图片切成 48×48 的小块,当成 token 直接扔进去, 让 Transformer 自己学着看世界,
音频也一样,16kHz 原始波形切成 40ms 一帧,直接喂进同一个模型。
也就是说,图片、声音、文字,第一次被当成同一种东西。
为什么敢这么干,
因为它赌的是一件事, 当基座模型大到某个临界点,那些专门的子模块,就不再是必需品了。
这个剧本你可能见过, 当年 ViT 取代 CNN,也是同一个套路, 规模够大的时候,与其手工设计一堆专用结构,不如把活儿直接交给一个统一的大模型自己学。
现在这套逻辑,正从视觉单模态,蔓延到整个多模态架构。
而且 12B 这个尺寸不是随便选的, 刚好大到能扔掉编码器,又刚好小到能塞进 16GB 的笔记本里, 据 aaryan_kakad 在 M4 Max 上的实测,4-bit 量化下识图延迟 1.2 到 1.5 秒, 官方说 16GB 够用,社区的说法更实在,能跑,但高分辨率多图会压线。
但这条新闻真正值得琢磨的,不是它能跑在你的笔记本上, 是它意味着什么,
过去做一个多模态应用,你得拼装 Whisper 转录、LLaVa 看图、再接一个 LLM, 像攒一台机器,每个零件都得你自己调好接口、对齐、调试。
如果 encoder-free 这条路走通, 未来一个微调好的统一模型,可能就把这一整条流水线吃掉了。
那一刻贬值的,不是某个工具, 是你过去攒那台机器、拼那条 pipeline 攒下的全部手艺。
模型不是在帮你省一个零件, 是在悄悄重写哪种手艺还值钱。