苹果发布第三代 Apple Foundation Models（AFM）

2026-06-08 08:00·7天前

精选理由

Apple与Google罕见联手推出的第三代基础模型，直接为下一代Siri和系统级AI功能铺路，标志着消费级AI的深度整合，产品经理和iOS开发者必须关注。

AI 摘要

苹果推出第三代 Apple Foundation Models（AFM）基础模型家族，与 Google 合作定制，包含五个模型，覆盖从设备端到基于 Private Cloud Compute 的服务器端模型。这些模型旨在驱动 Apple Intelligence 功能，包括全新 Siri 和智能工具，以用户为中心深度融合操作系统，隐私为核心设计原则。

AI 翻译 · 中文

我们隆重推出第三代 Apple 基础模型。

我们新一代的 Apple 智能以用户为中心，深度集成于操作系统之中，并依托一种以隐私为核心的大胆新架构来驱动。

这一架构的核心是我们的第三代 Apple 基础模型（AFM），这是一个由五个基础模型组成的系列，由 Apple 与 Google 合作定制构建。这些模型涵盖从端侧模型到基于私有云计算运行的服务器端模型。

Apple 基础模型旨在为用户解锁一系列便捷实用的体验，例如全新的 Siri 以及让日常应用更智能、更实用的智能工具。

该模型系列包含两个端侧模型：

AFM 3 Core——我们下一代 30 亿参数密集模型，在质量上实现了显著提升。

AFM 3 Core Advanced——我们最强大的端侧模型。它原生支持多模态，能够实现富有表现力的语音和更高准确度的听写等实用功能。该模型基于 Apple 最前沿的研究成果，是一个 200 亿参数的稀疏架构模型，根据请求的不同，每次仅激活 10 亿到 40 亿个参数。AFM 3 Core Advanced 由我们最强大的 Apple 硅片系统解锁并优化。

我们最新的 Apple 基础模型还包括三个运行在私有云计算上的服务器端模型，这确保用户数据永远不会被存储或与任何人（包括 Apple）共享。这些模型包括：

AFM 3 Cloud——我们的服务器端主力模型，针对速度、效率和性能进行了优化。

ADM 3 Cloud（图像）——用于图像生成和编辑，解锁了先进的照片编辑工具、全新的 Image Playground 等功能。

AFM 3 Cloud Pro——我们能力最强的服务器端模型，为最严苛的使用场景提供支持，例如智能体工具调用和复杂推理。

AFM 3 Core、AFM 3 Core Advanced 以及 AFM 3 Cloud 和 ADM 3 Cloud 均为 Apple 硅片量身打造。

针对 AFM 3 Cloud Pro，我们与 Google 和 NVIDIA 合作，将私有云计算扩展到 Google Cloud 中的 NVIDIA GPU，同时保持相同的隐私保护承诺。更多详情请访问我们的安全研究网站。

我们的第三代 Apple Foundation Models 在能力和质量方面实现了显著提升。在下文的概述中，我们将深入探讨为设备端模型和服务器端模型提供动力的可扩展架构、我们的训练方法论，以及更多内容。

**模型架构**

我们为设备端模型和服务器端模型设计了架构，以向用户提供强大的 Apple Intelligence 体验，并将我们最新的模型深度集成到操作系统中。

**最大化设备端 AI 能力**

一个深度创新领域是我们最强大的设备端模型 AFM 3 Core Advanced。传统的大语言模型——无论是密集激活还是稀疏激活的——都需要将所有权重驻留在活跃内存（DRAM）中，这造成了巨大的占用空间，限制了在消费硬件上的可扩展性。为了突破这一瓶颈，AFM 3 Core Advanced 引入了一种基于指令跟随剪枝（IFP）的新型稀疏激活架构，这是苹果研究人员开发的一项技术（见图 1）。

该模型并非将整个模型强制加载到 DRAM 中，而是将完整模型存储在闪存（NAND）中。由于 NAND 到 DRAM 的带宽无法像标准 MoE 模型所要求的那样逐 token 交换权重，因此 AFM 3 Core Advanced 按每个提示词进行路由决策。一个轻量级的密集块在初始处理过程中选择一组固定的专家，并在生成过程中定期重新选择它们。为了最小化数据移动，该模型依赖高比例的始终激活的“共享专家”，同时配合仅在需要时才交换到 DRAM 中的输入依赖型“路由专家”。

**AFM 3 Core Advanced 模型架构**

图 1：AFM 3 Core Advanced 模型架构示意图。该模型的绝大多数参数是与堆叠 Transformer 架构中的前馈（FFN）模块相关联的“专家”权重。给定用户查询后，模型选择性地加载一小部分专家，并将其与共享的静态权重拼接，在 DRAM 中形成一个密集模型。模型在 token 生成过程中会定期重新选择并更新已激活的专家。

这种设计还引入了关键的推理时弹性。与为所有任务使用单一模型或管理一组较小模型组合不同，AFM 3 Core Advanced 根据每个具体使用场景使用预定数量的活跃参数。这使得权重能够根据请求难度的不同进行增量加载，从而将模型规模扩展到远超传统 DRAM 限制的范围，同时将延迟降至最低。

扩展服务器基础模型

除了设备端 AI 的创新之外，我们在服务器端模型方面也迈出了重要一步。例如，我们的服务器端模型 AFM 3 Cloud 代表了由私有云计算（Private Cloud Compute）驱动的多模态推理能力的重大进步。为此，我们对去年推出的并行轨迹混合专家（PT-MoE）基础架构进行了多项关键升级。这些架构改进稳定了训练过程，并提升了模型在处理复杂服务器端查询时，对其上下文窗口内的信息进行推理和准确召回的能力。

使用 ADM 3 Cloud 创建和编辑图像

另一个我们推进模型架构的例子是我们的最新图像模型 ADM 3 Cloud。为了支持高质量的图像创建（见图 2）、编辑以及 Genmoji，我们开发了 ADM 3 Cloud，以实现强大的可控性和参数效率。它能够泛化到不同的宽高比和分辨率，并借助更广泛的 Apple 基础模型家族来指导创建和编辑。虽然基础模型原生支持图像创建、编辑和 Genmoji，我们还使用了专门的适配器来驱动特定的下游编辑体验，例如照片中的空间重构图功能，以及图像游乐场中基于触控的图像修改和个性化功能。

图 2：由 ADM 3 Cloud 驱动的原生图像生成示例。该模型在不同主体和复杂光照条件下均能展现出照片级真实感。

训练数据

强大的基础模型需要多样化的高质量数据。为了训练我们的基础模型，我们使用了混合数据，包括公开可获取的信息、从第三方许可或购买的数据、开源数据、通过专门研究获得的数据以及合成数据。我们在训练基础模型时，不会使用用户的私人个人数据或用户交互数据。我们还尊重网页发布者选择退出基础模型训练的权利。

训练方案

为了支持我们全新的 Apple Intelligence 体验，我们在最新一代云端 TPU 加速器上大幅扩展了预训练规模。所有模型在针对各自架构与用例进行专门化之前，都共享同一个初始基础，并增加了多模态能力，例如音频、图像理解、长上下文推理以及高质量视觉生成。随后，我们扩展了后训练流程，将监督微调与多阶段强化学习相结合。

最后，我们针对目标硬件对每一款模型进行了优化。AFM 3 Core、AFM 3 Core Advanced、AFM 3 Cloud 和 ADM 3 Cloud（图像）进行了优化，以便在 Apple 芯片上高效运行；AFM 3 Cloud Pro 则针对 NVIDIA GPU 进行了优化。通过使用量化感知训练，我们在保持高精度的同时大幅压缩了模型，共同交付了用户所期望的响应迅速、高质量的体验。

评估

我们的第三代 Apple 基础模型旨在驱动集成的 Apple Intelligence 体验，使我们的操作系统更加智能、更有帮助。我们在模型层面和功能层面均进行了质量评估。

下面，我们首先详细介绍模型层面的评估，然后是模型所解锁功能的评估结果。这些评估反映的是模型在当前开发阶段的表现。在测试版期间，我们将持续改进它们，以便为用户带来出色的体验。

模型层面评估

为确保卓越的体验，内部人工评分员会从多个关键维度评估模型回复，包括指令遵循、真实性和呈现效果。对于基于图像的提示词，我们还会评估图像理解能力，衡量模型成功识别、提取并推理视觉内容的能力。

在这些维度上，我们的端侧设备模型展现了显著的代际进步。在通用文本能力方面，更新后的 AFM 3 Core 模型相比其前代有所提升，在 45.6% 的提示词中更受青睐，而 2025 年基线模型则为 23.3%（见图 3）。这一进步也延伸到了视觉输入；在图像理解方面，当用户偏好两者之一时，他们选择 AFM 3 Core 而非上一代的概率超过 61%（见图 4）。

我们的服务器模型 AFM 3 Cloud 相比其前代也有显著提升。在文本通用能力的成对人工评估中，该模型在 64.7% 的提示词上被优先选择，而 2025 年 AFM 服务器模型仅为 8.7%，这是一个在各个语言区域都一致的代际飞跃。我们也在单侧评估中看到了持续提升——该评估沿多个维度独立对响应进行评分：AFM 3 Cloud 在整体响应满意度上相比 2025 年 AFM 服务器模型实现了约 36% 的相对提升，在指令遵循性能上实现了约 21% 的相对提升。此外，在图像理解（模型对视觉输入进行解释和推理）方面，AFM 3 Cloud 相比去年的前代模型也有显著进步，在 37.8% 的提示词上获得偏好，而 2025 年基线仅为 9.6%。

最后，AFM 3 Cloud Pro 在 AFM 3 Cloud 基础上进一步改进，在文本整体响应满意度上实现了约 10% 的相对提升，在图像理解整体上实现了约 14% 的相对提升。AFM 3 Cloud Pro 在特定任务类别（如数学）中表现出色，相比 AFM 3 Cloud 实现了约 14% 的相对提升。

关于文本的人类评估

图 3：在文本通用能力的成对人工评估中，偏好响应的比例，比较 AFM 3 Core 和 AFM 3 Cloud 与我们上一代模型。结果按四个不同语言区域组展示，以显示在国际变体上的一致性能。"English"¹ 代表我们的全球英语评估集，"PFIGSCJK"²、"DNNSTV"³ 和 "AFIHHMPRTU"⁴ 代表我们其余支持的全球语言区域。

关于图像理解的人类评估

特定功能评估

除了模型层面的评估，我们还评估了由我们基础模型支持的所有功能。下面，我们重点介绍其中一些结果。

为了衡量我们新表达力语音的质量，人类评估人员使用5分制平均意见得分（MOS）量表，将AFM 3 Core Advanced与苹果现有的生产级文本转语音（TTS）系统进行了对比评分（见表1）。在运行于高效的10亿参数激活规模下，AFM 3 Core Advanced获得了4.15分的总得分——较当前生产基线提升了0.28分，考虑到MOS量表上0.1分的提升即代表客户体验中非常明显的改善，这一提升尤为显著（见音频1）。这一质量差距在对话式文本上进一步拉大，例如在朗读口头语言时使用的随意风格。在这些对话场景中，AFM 3 Core Advanced得分为4.24，而生产系统为3.82，两者相差0.42分，差距更大，展现出明显更自然、更具表达力的音频体验。

| 指标 | 当前TTS | AFM 3 Core Advanced | |------|---------|----------------------| | 通用语音 | 3.87 | 4.15 | | 对话语音 | 3.82 | 4.24 |

表1：文本转语音（TTS）生成的人工评估结果，采用5分制平均意见得分评分。结果将AFM 3 Core Advanced与苹果现有的生产级TTS系统进行了比较。每项中的最高分以粗体显示。

| 当前TTS | AFM 3 Core Advanced | |---------|----------------------| | 当前TTS | AFM 3 Core Advanced |

音频1：对话式文本转语音的并排对比。顶部一行展示了一条涉及三人讨论读书俱乐部的多轮群聊通知。底部一行展示了一组对话式步行导航指令：“一直往前走，你不会错过的。你会看到左边有一排商店，包括一家亮红色遮阳篷的鞋店。看到了吗？那就是我们快到了的信号。”在两个例子中，左侧列展示当前生产基线，右侧列展示AFM 3 Core Advanced更自然、更具表达力的韵律。

除了这些文本转语音的改进之外，AFM 3 Core Advanced 在其语音转文字能力上也展现了显著进步（见图 5）。针对诸如听写等具体的下游功能，我们从七个维度收集了与之前听写系统的逐对偏好判断：整体质量、标点符号、大小写、布局、语义捕捉、非流利性处理以及风格。在 10 亿参数激活规模下，AFM 3 Core Advanced 在整体质量上获得了 44.7% 对 17.6% 的偏好优势，并且这种偏好一致地延伸到了其余六个维度。

**音频人工评估**

**负责任 AI**

我们最新的 Apple 基础模型在每一步都融入了我们的核心价值观，并建立在行业领先的隐私保护基础之上。此外，在开发和推进 Apple Intelligence 与 Apple 基础模型的每个阶段，我们都运用负责任 AI 原则来指导我们的功能和模型：

* **以智能工具赋能用户**：我们识别出能够负责任地使用 AI 来创建工具、满足特定用户需求的领域。我们尊重用户选择如何使用这些工具来实现他们的目标。 * **代表我们的用户**：我们构建深度个性化的产品，目标是真实地代表全球各地的用户。我们持续努力，避免在我们的 AI 工具和模型中延续刻板印象和系统性偏见。 * **精心设计**：我们在整个过程中（包括设计、模型训练、功能开发和质量评估）都采取预防措施，以识别我们的 AI 工具可能被滥用或导致潜在伤害的方式。我们将持续监控，并在用户反馈的帮助下主动改进我们的 AI 工具。 * **保护隐私**：我们通过强大的设备端处理能力和诸如私有云计算之类的突破性基础设施来保护用户隐私。我们在训练基础模型时不会使用用户的私人个人数据或用户交互。

我们的安全分类法有助于识别需要谨慎处理的敏感内容。为了确保我们的模型在不同语言和文化背景下尊重这些边界，我们进行多语言后训练对齐，使用特定语言的护栏模型，并在我们支持的所有地区开展由母语者优化的人工红队测试。我们持续致力于改进模型与我们负责任AI方法的对齐，我们的最新模型已展现出显著进展。

结论

我们的第三代Apple Foundation Models代表了一次重大飞跃，为新的Apple Intelligence体验提供动力，使我们的操作系统对用户更加有用。这包括全新版本的Siri、先进的照片编辑工具、Image Playground的强大更新、极具表现力的语音等等。为保护用户隐私，这些模型仅在设备端和Private Cloud Compute上运行。我们期待在今年夏末的一份技术报告中分享关于我们最新基础模型的更多细节，包括更新的评估和基准测试。

脚注

英语指不同国家的方言（例如美国、英国、澳大利亚、印度）。

PFIGSCJK 指葡萄牙语、法语、意大利语、德语、西班牙语、中文、日语和韩语。

DNNSTV 指丹麦语、荷兰语、挪威语、瑞典语、土耳其语和越南语。

AFIHHMPRTU 指阿拉伯语、芬兰语、印度尼西亚语、希伯来语、印地语、马来语、波兰语、俄语、泰语和乌克兰语。