Gemma 4 12B:一种统一的、无需编码器的多模态模型
我觉得Gemma 4 12B最大的变化不是参数大小,而是第一次在开源模型里把多模态直接交给LLM主干处理,没有单独的视觉编码器,这意味着本地多模态应用的延迟和内存占用都会大幅下降,对于在笔记本上做Agent的开发者,这是一个必试的版本。
Gemma 4 12B 是 Google 发布的一款统一架构、无需独立视觉编码器的多模态大语言模型(LLM)。该模型直接处理图像与文本输入,无需传统视觉编码器,简化了多模态推理流程。基于 12B 参数规模,Gemma 4 12B 面向开发者工具生态开放。目前其具体 benchmark 分数、上下文窗口、价格及开源/API 可用性等细节尚未披露。
# Gemma 4 12B 发布:一款统一的、无需编码器的多模态模型
2026 年 6 月 3 日
Gemma 4 12B 旨在将高性能多模态智能直接带到你的笔记本电脑上,融合移动优先的效率和高级推理能力。
你的浏览器不支持音频元素。
今天,我们正式发布 Gemma 4 12B,这是我们最新的模型,专为将智能体多模态智能直接带到笔记本电脑而设计。Gemma 4 12B 在边缘友好的 E4B 与更先进的 26B 混合专家(MoE)之间架起桥梁,以更小的内存占用封装了强大的能力。它也是我们首款原生支持音频输入的中型模型。
感谢开发者社区,Gemma 4 系列模型的下载量现已突破 1.5 亿次。你们用它构建了从物理辅助可穿戴机械臂到企业级 AI 安全系统等各种应用。我们非常期待看到大家用这个最新成员创造什么。
以下是 Gemma 4 12B 的独特之处概览:
- **新颖的统一架构**:无需多模态编码器。视觉和音频输入直接流入大语言模型主干。 - **高级推理能力**:基准测试表现接近我们的 26B 模型,解锁了强大的多步推理和智能体工作流。 - **笔记本电脑就绪**:体积足够小,仅需 16GB 的显存或统一内存即可本地运行。 - **开放且易获取**:基于 Apache 2.0 许可发布,并获得整个开发者生态系统的支持。 - **草稿模型就绪**:Gemma 4 12B 内置了多 token 预测(MTP)草稿器,可降低延迟。
这些特性共同将先进的多模态能力带到了日常硬件上,同时不牺牲速度或推理能力。接下来,让我们仔细看看 Gemma 4 12B 是如何做到这一点的。
## 在本地运行最先进的智能体
Gemma 4 12B 在标准基准测试中表现出接近我们更大的 26B MoE 模型的性能,但总内存占用不到后者的一半。它的体积足够小,可以在配备 16GB 内存的消费级笔记本电脑上本地运行,从而在你的机器上解锁强大的多模态和智能体体验。
体验一款独特且高效的统一架构。
Gemma 4 12B 的突出之处在于其处理视觉和音频输入的精简方法。传统多模态模型通常依赖独立的编码器来转换图像和音频,然后再将这些表示传递给语言模型。由于这种分离的编码器会增加延迟并提升内存占用,我们采用无编码器架构训练了 Gemma 4 12B,以直接整合音频和视觉输入。
以下是 Gemma 4 12B 原生处理多模态输入的方式:
视觉:我们用轻量级嵌入模块替换了 Gemma 4 的视觉编码器,该模块仅由一次矩阵乘法、位置嵌入和归一化组成。这使得大语言模型主干能够接管视觉处理。
音频:我们进一步简化了音频处理。我们完全移除了音频编码器,并将原始音频信号投影到与文本 token 相同的维度空间。
需要详细说明的开发者,请查阅我们的配套文档《Gemma 4 12B 开发者指南》。
立即开始
自行尝试:在 LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent 应用以及 LiteRT-LM CLI 中,只需点击几下即可体验。
下载权重:从 Hugging Face 和 Kaggle 直接下载预训练和指令微调的检查点。
集成与学习:查阅开发者文档和快速入门笔记本。
使用你偏好的开发工具:通过 Hugging Face Transformers、llama.cpp、MLX、SGLang 和 vLLM 实现本地推理流水线,或使用 Unsloth 高效微调。
借助 Gemma Skills 解锁智能体开发:为支持 AI 智能体利用最新的 Gemma 进展进行构建,我们发布了官方技能库(Skills Repository)。这是一个专门为帮助智能体基于 Gemma 模型进行构建而设计的技能库。
按需部署:使用 Google Cloud 在生产环境中启动端点。通过 Gemini Enterprise Agent Platform Model Garden、Cloud Run 和 GKE 进行部署。