Google 发布 Gemma 4 12B：无独立视觉编码器的统一多模态架构

AYi@AYi_AInotes

2026-06-04 01:28·12天前

AI 摘要

Google 推出 Gemma 4 12B（Apache 2.0），采用无独立视觉编码器的统一多模态架构。仅用 35M 参数的轻量嵌入器，将图像切为 48×48 块、音频（16kHz 原始波形）切为 40ms 帧，直接作为 token 输入 Transformer。M4 Max 上 4-bit 量化识图延迟 1.2-1.5 秒，官方称 16GB 内存可用，但社区指出高分辨率多图会压线。该设计暗示：当基座模型足够大，专用子模块不再是必需，未来一个微调好的统一模型可能取代传统拼装 Whisper、LLaVa 等多模态 pipeline。

150M 的活，35M 干了， Google 新出的 Gemma 4 12B，把多模态里那个最重的零件，视觉编码器，从 150M-550M 直接压到 35M了，

过去做多模态，套路是固定的，图片先扔给一个专门的视觉编码器翻译成模型能懂的语言，再交给大模型理解，就像配了个翻译官。

这个翻译官，传统 ViT 编码器要 150M 到 550M 参数。

Gemma 4 12B 直接把翻译官辞了，只留一个 35M 的轻量嵌入器，把图片切成 48×48 的小块，当成 token 直接扔进去，让 Transformer 自己学着看世界，

音频也一样，16kHz 原始波形切成 40ms 一帧，直接喂进同一个模型。

也就是说，图片、声音、文字，第一次被当成同一种东西。

为什么敢这么干，

因为它赌的是一件事，当基座模型大到某个临界点，那些专门的子模块，就不再是必需品了。

这个剧本你可能见过，当年 ViT 取代 CNN，也是同一个套路，规模够大的时候，与其手工设计一堆专用结构，不如把活儿直接交给一个统一的大模型自己学。

现在这套逻辑，正从视觉单模态，蔓延到整个多模态架构。

而且 12B 这个尺寸不是随便选的，刚好大到能扔掉编码器，又刚好小到能塞进 16GB 的笔记本里，据 aaryan_kakad 在 M4 Max 上的实测，4-bit 量化下识图延迟 1.2 到 1.5 秒，官方说 16GB 够用，社区的说法更实在，能跑，但高分辨率多图会压线。

但这条新闻真正值得琢磨的，不是它能跑在你的笔记本上，是它意味着什么，

过去做一个多模态应用，你得拼装 Whisper 转录、LLaVa 看图、再接一个 LLM，像攒一台机器，每个零件都得你自己调好接口、对齐、调试。

如果 encoder-free 这条路走通，未来一个微调好的统一模型，可能就把这一整条流水线吃掉了。

那一刻贬值的，不是某个工具，是你过去攒那台机器、拼那条 pipeline 攒下的全部手艺。

模型不是在帮你省一个零件，是在悄悄重写哪种手艺还值钱。

Google GemmaMeet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to your laptop, and released under an Apache...

Google多模态大佬观点端侧

在 X 查看原推

AYi@AYi_AInotes · X