Gemma 4 12B：一种统一的、无需编码器的多模态模型

2026-06-04 01:09·15天前·rvz

精选理由

我觉得Gemma 4 12B最大的变化不是参数大小，而是第一次在开源模型里把多模态直接交给LLM主干处理，没有单独的视觉编码器，这意味着本地多模态应用的延迟和内存占用都会大幅下降，对于在笔记本上做Agent的开发者，这是一个必试的版本。

AI 摘要

Gemma 4 12B 是 Google 发布的一款统一架构、无需独立视觉编码器的多模态大语言模型（LLM）。该模型直接处理图像与文本输入，无需传统视觉编码器，简化了多模态推理流程。基于 12B 参数规模，Gemma 4 12B 面向开发者工具生态开放。目前其具体 benchmark 分数、上下文窗口、价格及开源/API 可用性等细节尚未披露。

AI 翻译 · 中文

# Gemma 4 12B 发布：一款统一的、无需编码器的多模态模型

2026 年 6 月 3 日

Gemma 4 12B 旨在将高性能多模态智能直接带到你的笔记本电脑上，融合移动优先的效率和高级推理能力。

你的浏览器不支持音频元素。

今天，我们正式发布 Gemma 4 12B，这是我们最新的模型，专为将智能体多模态智能直接带到笔记本电脑而设计。Gemma 4 12B 在边缘友好的 E4B 与更先进的 26B 混合专家（MoE）之间架起桥梁，以更小的内存占用封装了强大的能力。它也是我们首款原生支持音频输入的中型模型。

感谢开发者社区，Gemma 4 系列模型的下载量现已突破 1.5 亿次。你们用它构建了从物理辅助可穿戴机械臂到企业级 AI 安全系统等各种应用。我们非常期待看到大家用这个最新成员创造什么。

以下是 Gemma 4 12B 的独特之处概览：

- **新颖的统一架构**：无需多模态编码器。视觉和音频输入直接流入大语言模型主干。 - **高级推理能力**：基准测试表现接近我们的 26B 模型，解锁了强大的多步推理和智能体工作流。 - **笔记本电脑就绪**：体积足够小，仅需 16GB 的显存或统一内存即可本地运行。 - **开放且易获取**：基于 Apache 2.0 许可发布，并获得整个开发者生态系统的支持。 - **草稿模型就绪**：Gemma 4 12B 内置了多 token 预测（MTP）草稿器，可降低延迟。

这些特性共同将先进的多模态能力带到了日常硬件上，同时不牺牲速度或推理能力。接下来，让我们仔细看看 Gemma 4 12B 是如何做到这一点的。

## 在本地运行最先进的智能体

Gemma 4 12B 在标准基准测试中表现出接近我们更大的 26B MoE 模型的性能，但总内存占用不到后者的一半。它的体积足够小，可以在配备 16GB 内存的消费级笔记本电脑上本地运行，从而在你的机器上解锁强大的多模态和智能体体验。

体验一款独特且高效的统一架构。

Gemma 4 12B 的突出之处在于其处理视觉和音频输入的精简方法。传统多模态模型通常依赖独立的编码器来转换图像和音频，然后再将这些表示传递给语言模型。由于这种分离的编码器会增加延迟并提升内存占用，我们采用无编码器架构训练了 Gemma 4 12B，以直接整合音频和视觉输入。

以下是 Gemma 4 12B 原生处理多模态输入的方式：

视觉：我们用轻量级嵌入模块替换了 Gemma 4 的视觉编码器，该模块仅由一次矩阵乘法、位置嵌入和归一化组成。这使得大语言模型主干能够接管视觉处理。

音频：我们进一步简化了音频处理。我们完全移除了音频编码器，并将原始音频信号投影到与文本 token 相同的维度空间。

需要详细说明的开发者，请查阅我们的配套文档《Gemma 4 12B 开发者指南》。

立即开始

自行尝试：在 LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent 应用以及 LiteRT-LM CLI 中，只需点击几下即可体验。

下载权重：从 Hugging Face 和 Kaggle 直接下载预训练和指令微调的检查点。

集成与学习：查阅开发者文档和快速入门笔记本。

使用你偏好的开发工具：通过 Hugging Face Transformers、llama.cpp、MLX、SGLang 和 vLLM 实现本地推理流水线，或使用 Unsloth 高效微调。

借助 Gemma Skills 解锁智能体开发：为支持 AI 智能体利用最新的 Gemma 进展进行构建，我们发布了官方技能库（Skills Repository）。这是一个专门为帮助智能体基于 Gemma 模型进行构建而设计的技能库。

按需部署：使用 Google Cloud 在生产环境中启动端点。通过 Gemini Enterprise Agent Platform Model Garden、Cloud Run 和 GKE 进行部署。

Google多模态模型发布端侧

Hacker News 热门（buzzing.cc 中文翻译）

精选78