苹果WWDC 2026发布Siri AI:五个AFM 3模型,端侧200亿参数MoE · AI HOT
‹ 返回
小互 @xiaohu 74
2026-06-09 21:06 ·5天前
AI 摘要 苹果在WWDC 2026发布全新Siri AI,由第三代Apple Foundation Models(AFM 3)驱动,共五个模型:端侧AFM 3 Core(30亿)和AFM 3 Core Advanced(200亿MoE,每次激活10-40亿);服务器AFM 3 Cloud、ADM 3 Cloud(图像)、AFM 3 Cloud Pro(Agent/推理)。核心创新将200亿参数模型塞入手机:权重存闪存,自研Instruction-Following Pruning技术按Prompt路由专家而非逐Token,大幅降低搬运次数。最强算力依赖Google和NVIDIA。
多模态 现象/趋势 端侧 语音
← 返回
小互 @xiaohu · X 74
2026-06-09 21:06 · 5天前
AI 摘要 苹果在WWDC 2026发布全新Siri AI,由第三代Apple Foundation Models(AFM 3)驱动,共五个模型:端侧AFM 3 Core(30亿)和AFM 3 Core Advanced(200亿MoE,每次激活10-40亿);服务器AFM 3 Cloud、ADM 3 Cloud(图像)、AFM 3 Cloud Pro(Agent/推理)。核心创新将200亿参数模型塞入手机:权重存闪存,自研Instruction-Following Pruning技术按Prompt路由专家而非逐Token,大幅降低搬运次数。最强算力依赖Google和NVIDIA。
- 各设备的用法。 Mac 上截屏后直接搜索或操作;iPad 上截屏后用手指点、或用 Apple Pencil 圈出想问的东西;Apple Vision Pro 上看着某个真实物体就能问。
## Apple Intelligence 这一轮还更新了什么
这批功能大多随秋季系统一起来,跟 Siri AI 本体的时间表不一样。
- 照片编辑更强:拍完之后还能用 Spatial Reframing 重新构图、用 Extend 把画面往外扩、用增强版 Clean Up 抹掉更大的物体。
- Image Playground 能出写实图了:支持照片级写实在内的几乎任何风格。配套的 Image Wand 能在备忘录里把草图直接变成图(已上线)。
- 随处可写、边写边校:Write with Siri 能在几乎任何输入框里从零起草或帮你改稿,在 Messages 和 Mail 里还会模仿你的文风、标点和语气;Proofread 则随时检查语法拼写。
- Safari 更聪明:标签页能按主题自动分组;Notify Me 帮你盯着某个页面的降价、补货,到点提醒;还能做扩展来自定义网页内容。
- 密码一键修:Passwords App 发现弱密码或已泄露的密码,能直接替你改掉。
- 描述一句就能办事:用大白话说需求,Shortcuts 自动把跨 App 的动作串成一条快捷指令;日历也能"把午餐会改成喝咖啡"这样直接改。
- 几个先出英文的功能:Messages/Mail 的快捷建议 Suggestions、打商户电话时自动递确认码的 Call Context、以及精度更高的听写 Dictation,都标注"先出英文"。
- 已经上线的部分:实时翻译 Live Translation(Messages、FaceTime 字幕、电话、AirPods 对话)现已可用;家庭 App 的 AI、健身搭子 Workout Buddy 等也有增强。
五个模型和 Google 合作定制开发,按跑在哪里分成两组。
- AFM 3 Core:上一代那个 30 亿参数稠密模型的升级版,主要是质量更好了。
- AFM 3 Core Advanced:苹果最强的端侧模型,原生支持多模态。200 亿参数,属于 MoE(Mixture of Experts,混合专家模型),每次根据任务只激活其中 10 到 40 亿。
服务器(跑在苹果的 Private Cloud Compute 上)三个:
- AFM 3 Cloud:服务端的主力,主打快和稳。
- ADM 3 Cloud(图像):专门做图像生成和编辑的模型,注意名字是 ADM 不是 AFM,单独一条线。
- AFM 3 Cloud Pro:最强的服务器模型,专门接 Agent 工具调用、复杂推理这种最吃性能的活。
一句话记住分工:日常的、轻的、要保护隐私的,尽量在手机上用 Core 系列解决;真正难的、重的,才送到云端的 Cloud 系列。
先说普通人能懂的痛点。你希望手机上的 Siri 又聪明又快,但有个硬约束:手机的内存(就是那块动不动 8GB、16GB 的 RAM,业内叫 DRAM)就那么大。模型越大、参数越多,占的内存就越多,一个真正大的模型,根本塞不进手机内存。
一种是内存(DRAM),读写极快,但容量小又贵,iPhone 上通常就几 GB,还得分给系统和所有 app。
另一种是闪存(NAND),就是平时存照片、装应用的那块,容量大得多也便宜得多,但读写慢,尤其往内存里搬数据时,那条通道的带宽远远不够快。
模型要跑起来,它的权重(也就是模型里那几百亿个数字)必须待在内存里,芯片才能随时取用。
传统大模型不管什么架构,都默认把全部权重一次性塞进内存。一个 200 亿参数的模型,光权重就要占十几 GB,手机内存根本放不下。这就是过去端侧模型普遍只做到二三十亿参数的原因,再大就溢出了。
这就像,想把一整座图书馆的书全摊在一张小书桌上,桌子太小,摊不开。
这个常规思路叫混合专家(Mixture-of-Experts,MoE)。它把一个大模型拆成很多个"专家",可以理解成一堆各有所长的小网络;回答某个问题时只挑其中几个上场,其余的歇着。这样每次计算只动用一小部分参数,又快又省算力。
但 MoE 省的是"每次算多少",没省"总共要放多少"。标准 MoE 仍然要求全部专家都待在内存里随时待命,因为它每生成一个字(token)就要重新挑一批专家。换得这么勤,专家就必须近在手边。这在数据中心的 GPU 上不是问题,显存大、专家又都连在一起;可搬到手机上就卡死了:要是专家存在慢速的闪存里,每吐一个字都得去闪存搬一批权重进内存,那条慢通道根本喂不动,模型会卡到没法用。
第一步,把完整模型挪出内存,存到闪存里。 完整模型不放 DRAM 内存,而是存到闪存(NAND)里,就是平时存照片、存 App 的那块,空间大得多(一般 256GB 起步)。需要哪几个专家,再从闪存搬进 DRAM 来用,就像书放在图书馆的书架里,用哪本取哪本。
第二步,把路由决策从"按 Token"改成"按 Prompt"。 这步是整套设计的关键,它得先解决一个绕不开的硬约束:闪存到内存的搬运带宽,远远跟不上模型逐字生成的速度。要是照搬普通 MoE"每个 Token 换一批专家"的做法,光等专家从闪存搬进内存,就慢到没法用了。
为此苹果自研了一套 Instruction-Following Pruning(指令跟随剪枝,简称 IFP)技术,解决两件事:权重放在哪、以及多久换一次。
它是一个轻量的稠密小模块,在开始处理你这条问题时就一次性选定一批专家,整段生成里只周期性地再调整,而不是每个字都重选。专家搬运的次数因此被压到很低。落到画面上就是:你问一句话,模型先用极短的时间判断这题归哪几支专家管,把它们调进内存,接下来这一整段回答基本就靠这批专家了。
- 共享专家(shared experts):不管什么任务都常驻在内存里;
- 路由专家(routed experts):只在跟当前任务相关时才临时搬进来。
打个比方:一个手艺人有几千件工具,工作台(内存)小得只摆得下几件,于是他把全套工具锁进隔壁又大又慢的仓库(闪存),工作台上只留当前这单活真正要用的那几件。麻烦在于仓库远、取一趟慢,没法每拧一颗螺丝就跑一趟换工具,那样活儿没法干。他改了两条规矩,正对应苹果的两个设计:
- 按整单活备料,不按每颗螺丝。 每接一单活(一次完整的 prompt),开工前先看一眼整张工单,一次性把这单大概率用得上的工具搬上工作台,干的过程中隔一阵再补一次。对应到模型,就是那个轻量模块在开始处理时一次性选定一组专家,生成过程中周期性重选,而不是像标准 MoE 那样每个字都重挑。
- 常用工具一直摆台上。 有些工具几乎每单活都用,干脆固定放在工作台不收回去,对应常驻内存的共享专家;少量按需调入的,才是路由专家。
合起来就是:完整的 200 亿参数躺在闪存里,当模型的"账面身家";内存里任何时刻只装当前激活的那 10 到 40 亿参数。模型的规模可以做得很大,跑起来却只占一小块内存。
这套设计还白捡一个好处:按难度伸缩。 苹果把它叫推理时弹性(inference-time elasticity)。既然专家是按需调入的,那激活多少参数就也能随任务难度变:简单的问题少调几个专家、少激活参数,复杂的多调几个。前面说的 10 到 40 亿参数不是一个固定值,而是按每次请求的难度临时定的。于是同一个模型,既能轻快地应付日常小事,又能在难题上把参数顶上去,延迟还都压得住。在我看来,这才是这代端侧模型真正的工程突破,比 200 亿这个数字本身更重要。
端侧再巧,单次激活的规模终归有上限。真正复杂的推理、Agent 多步操作这类重活,还是得交给云端的 Cloud Pro 大模型来处理。
Subramanya(苹果 AI 副总裁)在发布会上称:上面四个为 Apple 芯片定制的模型,是用苹果自研数据训练,再"从 Google 的 Gemini 前沿模型蒸馏(distillation)精炼"而来。蒸馏的意思是,用一个更强的模型当老师,把它的能力压缩进自己更小的学生模型里,Gemini 只在训练环节出现,不进入成品。
Federighi(苹果软件工程高级副总裁)更直接:"我们用到的 Google Assistant 的量是零。"
- 不用 Gemini App,用户交互时不碰任何 Google 客户端代码;
- 不用 Google 部署给自家客户的那些模型,也不用它的部署基础设施;
- 查询世界知识不用 Google 的搜索,用苹果自建多年的 World Knowledge Service。
唯一真正用到 Google 的,是 AFM 3 Cloud Pro 云端模型。这个模型为了上线,苹果联合 Google 和 NVIDIA,把私有云计算部署到了 Google 云里的 NVIDIA GPU 上。它的性能被描述为"与 Gemini 前沿模型相当"。
换句话说,被大家解读成"苹果的 Siri 大脑由 Gemini 驱动"的那些报道,落到产品上就是五个模型里的一个跑在 Google 的硬件上,其余四个从头到尾是苹果自己的。
端侧那个模型的看点是怎么把大模型塞进小内存,云端的看点则是怎么把规模和质量做上去。三个云端模型里,主力 AFM 3 Cloud 和图像模型 ADM 3 Cloud 各做了一处升级。
AFM 3 Cloud:把去年的 PT-MoE 又拧紧了一圈。
AFM 3 Cloud 是云端主力,接的是端侧扛不动、要送上私有云的活。它的底子是苹果去年第二代就引入的一种服务端架构,叫并行轨道混合专家(Parallel-Track Mixture-of-Experts,PT-MoE)。大体上,它把一个大模型拆成几条并行的"轨道",每条轨道是个更小的、自带专家路由的子模型,输入分别在各条轨道里走,轨道之间只在头尾必要的节点上同步一次。这样做的好处是同步等待大幅减少,专家可以铺得更多,质量上去了,延迟和成本却没跟着失控。
这一代不是换架构,而是在 PT-MoE 上做了几处关键调校,效果落在两点:训练更稳,规模拉大时不容易崩;以及在它的上下文窗口里,对信息的推理和准确召回更强。后面这点对服务端格外要紧,复杂的查询往往要模型在一大段上下文里翻找、对照、推断,记不住或记岔了,整个回答就废了。
先留意这个模型叫 ADM,不是 AFM,它是苹果这套体系里专门的图像模型,管生图、修图和 Genmoji。苹果给它定的两个目标是强可控性和参数效率:既要做到你说什么它画什么、改哪儿动哪儿,又不靠堆出一个臃肿的大模型来实现。它还能跨不同的画幅比例和分辨率工作,不挑尺寸,并且会借助更大的 AFM 家族来给创作和编辑当参谋。
它的搭法是另一个重点:基础模型本身原生就会生图、编辑、Genmoji 这些通用能力;而像照片里的 Spatial Reframing(空间重构)、用手指直接在图上涂改、Image Playground 里的个性化,这些更具体的功能不是各训一个模型,而是在同一个底模上挂不同的适配器(adapter)。适配器是一小块外接的、专门微调过的权重,按功能换上即可。一个底模配一组小适配器,比为每个功能各养一个大模型省得多,往后加一个新的图像玩法也更快。
三个云端模型都跑在 Private Cloud Compute 上。它的承诺是:用户数据从不被存储、从不被共享,连苹果自己都看不到,只在处理这一次请求时用一下。这个承诺不是口头的,第三方研究者可以持续验证。
即便是跑在 Google 云 NVIDIA GPU 上的 AFM 3 Cloud Pro,同样的隐私保证也不打折。Google 也在合作宣布当天确认,不会从这笔 Siri 交易里拿到苹果用户的数据。
训练这一层同样划了线:不使用用户的私人数据和交互数据,并尊重网站发布者退出训练的权利。
- 预训练:在最新一代云端 TPU 上扩大规模训练。所有模型先共享同一个初始基座,再分化成各自的架构和用途,分别加上音频、图像理解、长上下文推理、视觉生成等能力。
- 后训练:监督微调(supervised fine-tuning)加多阶段强化学习。
- 压缩上线:用量化感知训练(Quantization Aware Training)大幅压缩模型,同时保住准确率。这也是 200 亿参数能在手机上跑起来的另一半原因。
- AFM 3 Core(端侧文本):在 45.6% 的提示上被偏好,上一代是 23.3%。
- AFM 3 Cloud(云端文本):在 64.7% 的提示上被偏好,对比 2025 年的服务器模型只有 8.7%,差出一整个代际。
- 语音(5 分制 MOS 评分):AFM 3 Core Advanced 拿到 4.15,现役系统 3.87;在对话场景下差距更大,4.24 对 3.82。苹果特别提到,MOS 评分涨 0.1 用户就能明显感知,0.28 和 0.42 的差是实打实的。
- 听写:整体质量上 AFM 3 Core Advanced 被偏好 44.7%,旧听写系统 17.6%。
需要说明的是,这些都是苹果自己的人工评测,不是第三方公开基准。苹果预告今年夏天稍晚会出技术报告,含更新的评测和基准,到时候才好横向比。
苹果这次确实把 Siri 该有的样子端出来了:能对话、有世界知识、有独立 App,第一次正面站到了 ChatGPT 和 Gemini 对面(哪怕这身本事有一半是 Gemini 教出来的)。
虽然还是被各种吐槽说Siri AI基本还是相当于去年的 ChatGPT 而已,甚至还不如豆包…
但是从这次底层模型来看,起码基础牢固了,苹果并没有直接去用Google的模型来全盘替代,还是坚持走自己的路线。
所以这依旧是很苹果的一次更新:不抢第一,慢,被骂挤牙膏,但每步都踩在自己能长期攥住的地方。
短期看,Siri 还得被拉去跟 ChatGPT、豆包比嘴皮子,未必讨好;长期看,基本盘反倒是这场牌局里最稳的几家之一。
官方介绍:https://machinelearning.apple.com/research/introducing-third-generation-of-apple-foundation-models