苹果WWDC 2026发布Siri AI：五个AFM 3模型，端侧200亿参数MoE

小互@xiaohu

2026-06-09 21:06·5天前

AI 摘要

苹果在WWDC 2026发布全新Siri AI，由第三代Apple Foundation Models（AFM 3）驱动，共五个模型：端侧AFM 3 Core（30亿）和AFM 3 Core Advanced（200亿MoE，每次激活10-40亿）；服务器AFM 3 Cloud、ADM 3 Cloud（图像）、AFM 3 Cloud Pro（Agent/推理）。核心创新将200亿参数模型塞入手机：权重存闪存，自研Instruction-Following Pruning技术按Prompt路由专家而非逐Token，大幅降低搬运次数。最强算力依赖Google和NVIDIA。

http：//x.com/i/article/2064329494736011265

# 揭秘苹果全新 Siri AI 背后模型：苹果如何将 200 亿参数的模型塞进手机里

苹果在 WWDC 2026 上发布了全新的 Apple Intelligence（苹果智能）和独立的 Siri AI。

本次更新背后，都是由它的第三代 Apple Foundation Models（苹果基础模型，下面简称 AFM 3）驱动。

Apple Foundation Models 是苹果给自家 Apple Intelligence 做的一整套自研基础模型，从能跑在手机上的小模型，到跑在云端的大模型都有。这次一口气来了五个。

本次最大的看点是，苹果把一个 200 亿参数的大模型真的塞进了你的手机里，用了一套挺巧的工程办法。

这篇文章一次讲清楚：

- 五个模型分别是谁、各管什么

- 手机装不下大模型这个老难题，苹果这次怎么绕过去的

- 这些模型到底能让你用上哪些新功能

- 苹果公布的评测数据该怎么看

- 一个反常的点：最在意隐私和自研的苹果，这次最强的算力全靠 Google 和 NVIDIA

## 先看看本次 WWDC 都更新了什么

## Siri AI 新在哪：它终于像个 AI 助手了

旧 Siri 的能力基本停在"听一句指令、做一件事"。这次的 Siri AI 由 Apple Intelligence 驱动，补上了过去几年最被人诟病的几块短板。

- 能正经对话。可以开放式提问、帮你头脑风暴、来回多轮地聊，而不是说错一个词就得重来。

- 懂你的个人上下文。翻几年前的某张照片、找埋在收件箱深处的某封邮件、调出之前随手记的某条笔记，一句话的事。

- 能在 App 里替你动手。基于你当下在做的事，直接在 Messages、Music、Reminders 等 App 里操作：把刚发出去的消息改一下，把车里听到的歌加进健身歌单。

- 有了世界知识。能联网查最新信息，问事实、问菜谱、问旅行建议都行。关键变化是：过去 Siri 答不上来就把你甩去网页搜索，现在它自己答，并标注信息来源。

- 有了独立的 Siri App。所有对话集中一处，iPhone 上问一半、换 iPad 接着聊，常用对话还能 pin 住。这是苹果第一次把 Siri 做成一个像 ChatGPT 那样的"目的地 App"，而不只是个唤醒词。

- CarPlay 里也能用。开车时直接问"朋友推荐的那个登山口在哪"，不用手离方向盘。

- 声音能自己调。音高、语速、语气、口音都能调到顺耳为止。不过表现力声音这类完整体验，需要 iPhone 17 Pro、17 Pro Max 或 iPhone Air。

## Visual Intelligence：看到什么就能问什么

过去只在 iPhone 上的视觉识别能力 Visual Intelligence，这次扩展到了 iPad、Mac 和 Apple Vision Pro。

- 相机里的 Siri 模式。抬手一拍，就能问眼前这东西是什么、有什么营养。

- 新的智能操作。吃完饭对着账单分账、查面前菜品的营养信息、把一张卡片导入 Apple Wallet，都能一步完成。

- 各设备的用法。 Mac 上截屏后直接搜索或操作；iPad 上截屏后用手指点、或用 Apple Pencil 圈出想问的东西；Apple Vision Pro 上看着某个真实物体就能问。

## Apple Intelligence 这一轮还更新了什么

这批功能大多随秋季系统一起来，跟 Siri AI 本体的时间表不一样。

- 照片编辑更强：拍完之后还能用 Spatial Reframing 重新构图、用 Extend 把画面往外扩、用增强版 Clean Up 抹掉更大的物体。

- Image Playground 能出写实图了：支持照片级写实在内的几乎任何风格。配套的 Image Wand 能在备忘录里把草图直接变成图（已上线）。

- 随处可写、边写边校：Write with Siri 能在几乎任何输入框里从零起草或帮你改稿，在 Messages 和 Mail 里还会模仿你的文风、标点和语气；Proofread 则随时检查语法拼写。

- Safari 更聪明：标签页能按主题自动分组；Notify Me 帮你盯着某个页面的降价、补货，到点提醒；还能做扩展来自定义网页内容。

- 密码一键修：Passwords App 发现弱密码或已泄露的密码，能直接替你改掉。

- 描述一句就能办事：用大白话说需求，Shortcuts 自动把跨 App 的动作串成一条快捷指令；日历也能"把午餐会改成喝咖啡"这样直接改。

- 几个先出英文的功能：Messages/Mail 的快捷建议 Suggestions、打商户电话时自动递确认码的 Call Context、以及精度更高的听写 Dictation，都标注"先出英文"。

- 已经上线的部分：实时翻译 Live Translation（Messages、FaceTime 字幕、电话、AirPods 对话）现已可用；家庭 App 的 AI、健身搭子 Workout Buddy 等也有增强。

## 再把五个模型说清楚

五个模型和 Google 合作定制开发，按跑在哪里分成两组。

端侧（直接在你设备上跑）两个：

- AFM 3 Core：上一代那个 30 亿参数稠密模型的升级版，主要是质量更好了。

- AFM 3 Core Advanced：苹果最强的端侧模型，原生支持多模态。200 亿参数，属于 MoE（Mixture of Experts，混合专家模型），每次根据任务只激活其中 10 到 40 亿。

服务器（跑在苹果的 Private Cloud Compute 上）三个：

- AFM 3 Cloud：服务端的主力，主打快和稳。

- ADM 3 Cloud（图像）：专门做图像生成和编辑的模型，注意名字是 ADM 不是 AFM，单独一条线。

- AFM 3 Cloud Pro：最强的服务器模型，专门接 Agent 工具调用、复杂推理这种最吃性能的活。

一句话记住分工：日常的、轻的、要保护隐私的，尽量在手机上用 Core 系列解决；真正难的、重的，才送到云端的 Cloud 系列。

## 核心看点：手机装不下大模型，苹果怎么解决

先说普通人能懂的痛点。你希望手机上的 Siri 又聪明又快，但有个硬约束：手机的内存（就是那块动不动 8GB、16GB 的 RAM，业内叫 DRAM）就那么大。模型越大、参数越多，占的内存就越多，一个真正大的模型，根本塞不进手机内存。

## 先说为什么装不下：内存太小

手机里有两种存数据的地方，性格正好相反。

一种是内存（DRAM），读写极快，但容量小又贵，iPhone 上通常就几 GB，还得分给系统和所有 app。

另一种是闪存（NAND），就是平时存照片、装应用的那块，容量大得多也便宜得多，但读写慢，尤其往内存里搬数据时，那条通道的带宽远远不够快。

模型要跑起来，它的权重（也就是模型里那几百亿个数字）必须待在内存里，芯片才能随时取用。

传统大模型不管什么架构，都默认把全部权重一次性塞进内存。一个 200 亿参数的模型，光权重就要占十几 GB，手机内存根本放不下。这就是过去端侧模型普遍只做到二三十亿参数的原因，再大就溢出了。

这就像，想把一整座图书馆的书全摊在一张小书桌上，桌子太小，摊不开。

## 业界省内存的常规思路，在手机上偏偏行不通

这个常规思路叫混合专家（Mixture-of-Experts，MoE）。它把一个大模型拆成很多个"专家"，可以理解成一堆各有所长的小网络；回答某个问题时只挑其中几个上场，其余的歇着。这样每次计算只动用一小部分参数，又快又省算力。

但 MoE 省的是"每次算多少"，没省"总共要放多少"。标准 MoE 仍然要求全部专家都待在内存里随时待命，因为它每生成一个字（token）就要重新挑一批专家。换得这么勤，专家就必须近在手边。这在数据中心的 GPU 上不是问题，显存大、专家又都连在一起；可搬到手机上就卡死了：要是专家存在慢速的闪存里，每吐一个字都得去闪存搬一批权重进内存，那条慢通道根本喂不动，模型会卡到没法用。

## 苹果的解法：换个地方放，换个频率取

苹果的解法分两步。

第一步，把完整模型挪出内存，存到闪存里。完整模型不放 DRAM 内存，而是存到闪存（NAND）里，就是平时存照片、存 App 的那块，空间大得多（一般 256GB 起步）。需要哪几个专家，再从闪存搬进 DRAM 来用，就像书放在图书馆的书架里，用哪本取哪本。

第二步，把路由决策从"按 Token"改成"按 Prompt"。这步是整套设计的关键，它得先解决一个绕不开的硬约束：闪存到内存的搬运带宽，远远跟不上模型逐字生成的速度。要是照搬普通 MoE"每个 Token 换一批专家"的做法，光等专家从闪存搬进内存，就慢到没法用了。

为此苹果自研了一套 Instruction-Following Pruning（指令跟随剪枝，简称 IFP）技术，解决两件事：权重放在哪、以及多久换一次。

它是一个轻量的稠密小模块，在开始处理你这条问题时就一次性选定一批专家，整段生成里只周期性地再调整，而不是每个字都重选。专家搬运的次数因此被压到很低。落到画面上就是：你问一句话，模型先用极短的时间判断这题归哪几支专家管，把它们调进内存，接下来这一整段回答基本就靠这批专家了。

专家本身还分两类，进一步省搬运：

- 共享专家（shared experts）：不管什么任务都常驻在内存里；

- 路由专家（routed experts）：只在跟当前任务相关时才临时搬进来。

打个比方：一个手艺人有几千件工具，工作台（内存）小得只摆得下几件，于是他把全套工具锁进隔壁又大又慢的仓库（闪存），工作台上只留当前这单活真正要用的那几件。麻烦在于仓库远、取一趟慢，没法每拧一颗螺丝就跑一趟换工具，那样活儿没法干。他改了两条规矩，正对应苹果的两个设计：

- 按整单活备料，不按每颗螺丝。每接一单活（一次完整的 prompt），开工前先看一眼整张工单，一次性把这单大概率用得上的工具搬上工作台，干的过程中隔一阵再补一次。对应到模型，就是那个轻量模块在开始处理时一次性选定一组专家，生成过程中周期性重选，而不是像标准 MoE 那样每个字都重挑。

- 常用工具一直摆台上。有些工具几乎每单活都用，干脆固定放在工作台不收回去，对应常驻内存的共享专家；少量按需调入的，才是路由专家。

合起来就是：完整的 200 亿参数躺在闪存里，当模型的"账面身家"；内存里任何时刻只装当前激活的那 10 到 40 亿参数。模型的规模可以做得很大，跑起来却只占一小块内存。

这套设计还白捡一个好处：按难度伸缩。苹果把它叫推理时弹性（inference-time elasticity）。既然专家是按需调入的，那激活多少参数就也能随任务难度变：简单的问题少调几个专家、少激活参数，复杂的多调几个。前面说的 10 到 40 亿参数不是一个固定值，而是按每次请求的难度临时定的。于是同一个模型，既能轻快地应付日常小事，又能在难题上把参数顶上去，延迟还都压得住。在我看来，这才是这代端侧模型真正的工程突破，比 200 亿这个数字本身更重要。

## 那它还解决不了什么？

端侧再巧，单次激活的规模终归有上限。真正复杂的推理、Agent 多步操作这类重活，还是得交给云端的 Cloud Pro 大模型来处理。

## 那么 Google 到底参与了多少？

这是整件事的关键，也是外界误读最深的地方。

Subramanya（苹果 AI 副总裁）在发布会上称：上面四个为 Apple 芯片定制的模型，是用苹果自研数据训练，再"从 Google 的 Gemini 前沿模型蒸馏（distillation）精炼"而来。蒸馏的意思是，用一个更强的模型当老师，把它的能力压缩进自己更小的学生模型里，Gemini 只在训练环节出现，不进入成品。

Federighi（苹果软件工程高级副总裁）更直接："我们用到的 Google Assistant 的量是零。"

具体拆开是三个"不用"：

- 不用 Gemini App，用户交互时不碰任何 Google 客户端代码；

- 不用 Google 部署给自家客户的那些模型，也不用它的部署基础设施；

- 查询世界知识不用 Google 的搜索，用苹果自建多年的 World Knowledge Service。

唯一真正用到 Google 的，是 AFM 3 Cloud Pro 云端模型。这个模型为了上线，苹果联合 Google 和 NVIDIA，把私有云计算部署到了 Google 云里的 NVIDIA GPU 上。它的性能被描述为"与 Gemini 前沿模型相当"。

换句话说，被大家解读成"苹果的 Siri 大脑由 Gemini 驱动"的那些报道，落到产品上就是五个模型里的一个跑在 Google 的硬件上，其余四个从头到尾是苹果自己的。

## 云端的两处架构升级

端侧那个模型的看点是怎么把大模型塞进小内存，云端的看点则是怎么把规模和质量做上去。三个云端模型里，主力 AFM 3 Cloud 和图像模型 ADM 3 Cloud 各做了一处升级。

AFM 3 Cloud：把去年的 PT-MoE 又拧紧了一圈。

AFM 3 Cloud 是云端主力，接的是端侧扛不动、要送上私有云的活。它的底子是苹果去年第二代就引入的一种服务端架构，叫并行轨道混合专家（Parallel-Track Mixture-of-Experts，PT-MoE）。大体上，它把一个大模型拆成几条并行的"轨道"，每条轨道是个更小的、自带专家路由的子模型，输入分别在各条轨道里走，轨道之间只在头尾必要的节点上同步一次。这样做的好处是同步等待大幅减少，专家可以铺得更多，质量上去了，延迟和成本却没跟着失控。

这一代不是换架构，而是在 PT-MoE 上做了几处关键调校，效果落在两点：训练更稳，规模拉大时不容易崩；以及在它的上下文窗口里，对信息的推理和准确召回更强。后面这点对服务端格外要紧，复杂的查询往往要模型在一大段上下文里翻找、对照、推断，记不住或记岔了，整个回答就废了。

ADM 3 Cloud：一个底模，挂一堆适配器。

先留意这个模型叫 ADM，不是 AFM，它是苹果这套体系里专门的图像模型，管生图、修图和 Genmoji。苹果给它定的两个目标是强可控性和参数效率：既要做到你说什么它画什么、改哪儿动哪儿，又不靠堆出一个臃肿的大模型来实现。它还能跨不同的画幅比例和分辨率工作，不挑尺寸，并且会借助更大的 AFM 家族来给创作和编辑当参谋。

它的搭法是另一个重点：基础模型本身原生就会生图、编辑、Genmoji 这些通用能力；而像照片里的 Spatial Reframing（空间重构）、用手指直接在图上涂改、Image Playground 里的个性化，这些更具体的功能不是各训一个模型，而是在同一个底模上挂不同的适配器（adapter）。适配器是一小块外接的、专门微调过的权重，按功能换上即可。一个底模配一组小适配器，比为每个功能各养一个大模型省得多，往后加一个新的图像玩法也更快。

## 隐私：连苹果都看不到

三个云端模型都跑在 Private Cloud Compute 上。它的承诺是：用户数据从不被存储、从不被共享，连苹果自己都看不到，只在处理这一次请求时用一下。这个承诺不是口头的，第三方研究者可以持续验证。

即便是跑在 Google 云 NVIDIA GPU 上的 AFM 3 Cloud Pro，同样的隐私保证也不打折。Google 也在合作宣布当天确认，不会从这笔 Siri 交易里拿到苹果用户的数据。

训练这一层同样划了线：不使用用户的私人数据和交互数据，并尊重网站发布者退出训练的权利。

## 训练怎么做的

- 预训练：在最新一代云端 TPU 上扩大规模训练。所有模型先共享同一个初始基座，再分化成各自的架构和用途，分别加上音频、图像理解、长上下文推理、视觉生成等能力。

- 后训练：监督微调（supervised fine-tuning）加多阶段强化学习。

- 压缩上线：用量化感知训练（Quantization Aware Training）大幅压缩模型，同时保住准确率。这也是 200 亿参数能在手机上跑起来的另一半原因。

## 评测数字

苹果用人工评分给出了一组对比，挑几个有代表性的：

- AFM 3 Core（端侧文本）：在 45.6% 的提示上被偏好，上一代是 23.3%。

- AFM 3 Cloud（云端文本）：在 64.7% 的提示上被偏好，对比 2025 年的服务器模型只有 8.7%，差出一整个代际。

- 语音（5 分制 MOS 评分）：AFM 3 Core Advanced 拿到 4.15，现役系统 3.87；在对话场景下差距更大，4.24 对 3.82。苹果特别提到，MOS 评分涨 0.1 用户就能明显感知，0.28 和 0.42 的差是实打实的。

- 听写：整体质量上 AFM 3 Core Advanced 被偏好 44.7%，旧听写系统 17.6%。

需要说明的是，这些都是苹果自己的人工评测，不是第三方公开基准。苹果预告今年夏天稍晚会出技术报告，含更新的评测和基准，到时候才好横向比。

## 写在最后

苹果这次确实把 Siri 该有的样子端出来了：能对话、有世界知识、有独立 App，第一次正面站到了 ChatGPT 和 Gemini 对面（哪怕这身本事有一半是 Gemini 教出来的）。

虽然还是被各种吐槽说Siri AI基本还是相当于去年的 ChatGPT 而已，甚至还不如豆包…

但是从这次底层模型来看，起码基础牢固了，苹果并没有直接去用Google的模型来全盘替代，还是坚持走自己的路线。

延续了苹果一贯的稳扎稳定（挤牙膏）的作风…

基本盘还是很稳的…

所以这依旧是很苹果的一次更新：不抢第一，慢，被骂挤牙膏，但每步都踩在自己能长期攥住的地方。

短期看，Siri 还得被拉去跟 ChatGPT、豆包比嘴皮子，未必讨好；长期看，基本盘反倒是这场牌局里最稳的几家之一。

官方介绍：https：//machinelearning.apple.com/research/introducing-third-generation-of-apple-foundation-models

多模态现象/趋势端侧语音

在 X 查看原推

小互@xiaohu · X