苹果WWDC 2026：AI为主轴，Siri AI发布，与Gemini深度合作

数字生命卡兹克@Khazix0918

2026-06-09 13:16·6天前

AI 摘要

苹果WWDC 2026落幕，核心仍是AI。Apple Intelligence新架构：与Google Gemini合作开发5个模型；端侧分AFM 3 Core（3B）和AFM 3 Core Advanced（20B MoE）。新Siri正式命名Siri AI，基于系统编排器融合上下文理解、App Actions、屏幕感知等能力，支持连续对话、跨平台同步及独立App，但未展示自主Agent能力。视觉智能、全系统听写、写作工具等同步更新。目前仅支持英语，国区不可用，可用时间未知。

http：//x.com/i/article/2064208729172746240

# 帮大家总结了一下凌晨的苹果WWDC26。

就在凌晨，苹果的WWDC 2026结束了。

这是Tim Cook作为CEO最后一次站在WWDC的舞台上了，9月1号，他就会把位置交给硬件工程高级副总裁John Ternus，所以今年这场，多少带了点告别的意思。

但发布会本身，坦率的讲，还是那个苹果。

不惊不喜，稳稳当当。

整场下来最大的主题就一个，还是AI，比如跟Gemini的合作终于落地了，比如Siri终于有了个AI的后缀，比如各种IOS的APP，也都往AI化的方向一步步集成。

不过苹果还是那个苹果，动作慢的可怜，并且最难崩的依然是国区几乎都不支持。

原话是：

不过，这些功能的更新还是值得一看的，以及国内到底苹果会跟谁合作，还是一个意思的话题。

我也通宵给大家蹲完，然后整理完了。

希望对大家有用。

一. Apple Intelligence新架构

先说底层，因为后面所有AI相关的东西都建立在这套新架构上。

1. 跟Google Gemini的深度合作

这次苹果也终于官宣了。

Apple Foundation Models的新一代是跟Google合作，基于Gemini家族一起来做的，搞了5个模型，然后苹果把这些模型适配到了端侧运行和Private Cloud Compute服务器上运行。

Private Cloud Compute就是苹果专门为AI搭建的一套云计算基础设施，跑在苹果自研芯片上，用的是一个从iOS裁剪出来的专用操作系统。核心承诺是，你的数据端到端加密，只用于处理你的请求，处理完立刻删除，不存储、不留痕，连苹果自己的工程师也看不到你的数据。

再细节的参数啥的就没说了，反正就是苹果承认了自己在大模型基础能力上追不上第一梯队，选择花钱买他们认为对普通消费者来说最好的底座，然后在上面做自己擅长的系统集成和体验设计。

策略上说得通，面子上。。。

面子有啥用你说对吧。

2. 双端侧模型苹果今年的端侧模型分了两档。所有支持Apple Intelligence的设备都有一个基础版端侧模型。但在能力强一点的的Apple设备上，比如iPhone 17 Pro、iPhone 17 Pro Max、iPhone Air、M4 及以上且至少 12GB 统一内存的 iPad、M3 及以上且至少 12GB 统一内存的 Mac，苹果额外部署了一个更强的第二版。这两个端侧模型分别是： AFM 3 Core，一个3B的小模型。AFM 3 Core Advanced，20B的MoE模型。这个更强的模型多出来的核心能力是语音和更高精度的听写等功能，它能听懂语音也能生成语音。所以像Siri更有表现力的新声音、更精准的全系统听写这些功能，都只有跑得动第二版模型的设备才能用。 3. 系统架构有了模型之后，对模型的调度还是需要一些设计的。苹果做了一个叫系统编排器（System Orchestrator）的东西，它是整个Apple Intelligence的调度中心，负责协调四大系统级能。

上下文理解。你设备上所有的内容，照片、邮件、备忘录、消息，都通过Spotlight的语义索引被组织起来了。

广泛世界知识。比如你问世界杯赛程是什么，系统编排器会让Apple Intelligence联网去搜索，然后通过Private Cloud Compute来生成回答。

App Actions。这是让Siri能动手做事的关键。系统编排器知道你手机上每个App能做什么（通过App Intents框架），当你说发消息给某某的时候，它会调用Messages来执行。理论上，任何适配了App Intents的第三方App都能被Siri调用。

屏幕感知。系统编排器能看到你当前屏幕上显示的内容。比如你正在Safari里看一篇文章，这时候问Siri一个问题，它能结合你正在看的内容来给出更相关的回答。

这四个能力组合在一起，就是苹果所说的以你为中心的AI，也是硬件跟AI结合的一个比较完整的方案。

4. 隐私

他们的原话是：

We believe privacy in AI is non-negotiable.

我们认为，AI中的隐私是不可谈判的。

苹果的态度是，很多AI厂商在嘴上说隐私，但默认情况下都在保留你的个人交互数据，把保护隐私的责任推给用户。

苹果的方案就是前面说的端侧处理+Private Cloud Compute，数据不存储、不可访问，只用于执行请求，外部专家可以随时审计。

二. Siri AI

今天真正的重头戏，也是苹果最大的发布了。

给新版Siri正式命名为Siri AI。

1. 核心能力升级

Siri AI基于整套新的Apple Intelligence架构，集成了上面提到的很多的新能力。

苹果的说法是，Siri现在是一个"有了质的飞跃"的助手。

然后基于这次的新Siri AI，他们做了一些演示。

演示一，问答+提醒+音乐。

问"旧金山的某位歌手演唱会什么时候"→ Siri给出答案（7月26号）→ 追问怎么买票 → Siri说要抽签 → "抽签开始的时候提醒我"→ 设好提醒 → "放一首她的新单曲"

演示二，屏幕感知+个人上下文+路线规划

看到一张照片问"这是哪"→ Siri识别出圣克鲁兹海岸的天然桥州立海滩 → "我朋友Jeff最近搬到附近了，他新家在哪"→ Siri从消息记录里找到Jeff发过的地址 → "给我导航到那个拱门，中间停一下Jeff家"→ Siri规划路线

演示三，照片筛选+共享

"给我看上周在沙斯塔山的照片"→ Siri搜索照片 → "只把有Bryce、Madison和Quinn的照片加到家庭共享相册"→ 完成

演示四，对话式体验

查世界杯开幕周末赛程 → "我想为巴西vs摩洛哥那场办个观赛派对，给我两个国家的经典菜"→ Siri给出菜品（还带图片）→ "Maria最近提到的那个甜点是什么"→ Siri搜索消息找到椰子饼干→ "把这些整合成一个菜单"→ Siri生成创意菜单 → "发消息给Gold Chasers群组问他们要不要来，附上菜单"→ 发送

演示五，Mac上的对话式Siri

Siri也集成进了Spotlight。

在Spotlight里输入问题就能启动跟Siri的对话，窗口可以拖拽和调整大小。

演示了让Siri分析多个不同格式的文件比较三个棚子的报价，然后结合儿子之前发的消息里提到的电路问题来做推荐，最后让Siri直接起草一封邮件给选中的供应商。

大概就是这样。

我的感受是，怎么说呢。

2026年了，Siri AI的演示核心还是问答、搜索个人信息、发消息、设提醒这些事。对话式体验确实比以前强了不少，能连续聊、能带上下文了，但说实话，这些demo跟现在的ChatGPT、Claude比，谈不上什么惊喜。

最关键的是，没有看到真正的Agent能力。也没有看到Siri自主规划、自主执行多步任务、自主调用多个App完成一个复杂目标的场景。

苹果说了App Actions，但演示里最复杂的也就是搜索照片→筛选→加到共享相册这种程度。

这块确实是有一点失望。

2. 新语音体验

在支持第二个强端侧模型的设备上，Siri有了全新的语音。

更有表现力，语调变化更自然。

苹果还让你可以自定义Siri的语音风格，调表现力和语速，更亲切更好玩一点。

3. 全系统听写升级

同样需要第二档端侧模型，新的听写引擎在拼写、标点和大小写上都更精准了。

因为它是内建在系统键盘里的，所以不管你在哪个App里，只要调出键盘就能用。发布会上提到的场景是"在地铁上用语音发消息"和"边想边说地用日记App记录"，都是日常会用到的，这个我觉得还是比较刚需的，好评。

4. 视觉智能 iPhone上，Visual Intelligence（视觉智能）集成进了相机App，新增了一个Siri模式。

按快门键让Siri看到你看到的东西，然后给你有用的回应，可以下拉查看详细信息、问后续问题。

5. 写作工具 + Siri集成

写作工具现在更深度地跟Siri结合了，你可以在任何能打字的地方用自然语言描述让Siri从头生成文本。

在邮件和信息里，Siri还能根据你跟特定联系人的沟通风格来调整语气。

另外，Apple Intelligence现在全系统自动校对了，你在任何App里打字，它都会自动检查拼写和语法，不用你手动触发，大多数第三方App也支持。

6. Siri独立App + 跨平台

苹果给Siri做了一个独立的App，这是第一次。

现在有了独立App之后，你所有跟Siri的对话都会被保存在这里，可以随时回看。

最重要的是跨平台同步，你在iPhone上跟Siri聊了一个话题，打开iPad上的Siri App可以看到这段对话，继续往下聊，在Mac上也一样。

对话历史通过iCloud加密同步，苹果看不到你的对话内容。

Siri AI还扩展到了watchOS（手腕上直接问）和visionOS（3D可视化的Siri，放在你空间里的任何位置，看着它说话就行，不用说「hey Siri」）。

然后新版的Siri，目前只支持英语，后续会扩展其他的语言，欧盟和中国都目前不可用，可用时间未知。

三. APP智能化反而是我今天觉得比较惊喜的部分。

让AI渗透进所有人的生活中，确实还是得从老的APP改造入口，是最能进日常场景的。

1. Safari

三个新功能。

智能标签页整理，Safari用Apple Intelligence分析你打开的每个页面，自动按主题分组。你浏览的时候，相关新标签页会自动归到对应主题下，可以一键关掉整个主题或者存为标签页组。

Notify Me，你可以用自然语言告诉Safari你在等什么变化（比如某个商品补货、某个报名开放），然后关掉那个标签页，Safari会自动监控，变化发生时推送通知。

这个功能太实用了，不知道执行效果怎么样，但思路是对的。

Describe an Extension，用自然语言描述你想要什么，Safari帮你生成一个自定义扩展来调整网页内容，比如在工具栏加一个按钮来保存和评分你试过的食谱。

还有一条，Safari所有智能功能都不追踪你的浏览数据，不跟任何人分享，包括苹果自己，然后稍微内涵了一下友商。。。

"不像某些浏览器"。

2. 密码App

密码App现在已经能提醒你弱密码和泄露密码了。

新功能是，它现在能自动帮你更新密码，背后是Apple Intelligence和Safari配合，自动导航到对应网站、登录、改密码。

一个"agentic"的动作，难得见到苹果用这个词。。。

3. 短信

Messages现在能理解对话上下文，提供一键建议。

比如有人提到某个事，Messages会建议你创建提醒或备忘录，有人问你要照片，Messages帮你根据关键词、地点和人名搜索最合适的照片。

4. 邮件

邮件也有了更智能的上下文建议，让你快速用喜欢的App（包括第三方App）采取行动。

5. 日历

可以用自然语言添加事件了。

你打字的时候，日历会自动识别联系人、地点，填上标题。

编辑也更智能，比如把"每周"改成"每两周"，日历自动调频率。

6. 电话

苹果把这个电话的功能叫Call Context。

这个是我的刚需。

打电话给商家的时候，电话App可以主动从你其他App里找相关信息。比如你打电话给航空公司改机票，它能自动从邮件里找到你的确认码。

而且全部端侧运行，看的是你打给谁。

但是咱就是说，新AI上国内的时候，咱能不能把那些恶心的营销电话也都用AI处理一下。。。

7. Home 家庭App可以支持用Apple Intelligence理解摄像头通知，把相关的通知合并成一个持续更新的活动通知。

还能分析录像片段，生成描述，支持用自然语言搜索录像内容（比如搜快递），支持4K分辨率回放。

8. 快捷指令

这个更新也挺好的，类似飞书的AI生成工作流。

快捷指令现在支持用自然语言描述你想要的自动化，Apple Intelligence帮你组装所有步骤。

演示里的例子是，"当我离开公司时，发消息告诉佩德罗我在路上，附上到家的预计时间"→ 快捷指令自动创建了一个自动化，检测离开公司地址 → 用地图计算到家时间 → 用信息App发送。

还能追加描述来调整，比如自动播放最爱的播客。

四. 创意与影像这块苹果也用AI雕了一些有意思的花。 1. Image Playground大升级

Image Playground这次大幅升级了一下。

核心变化，支持写实风格了，之前只能生成那种卡通/插画风格，现在用Private Cloud Compute上的跟Gemini搞的新生成模型，可以做高质量的各种风格图片。

毕竟你都用Gemini了，生图再不迭代一下，那就真说不过去了。

你可以用照片库里的人来生成图片，用自然语言描述修改，用触摸手势圈选对象来移动/缩放/修改。

还能选择不同的画幅，生成联系人海报和锁屏壁纸。

同时，给开发者也开放了Image Playground API。

2. Photos AI编辑三件套

Cleanup升级，去除干扰物的效果更好了，复杂场景下的填充更真实。

Extend，扩展图片边界，给主体更多空间，或者调整画幅时不用裁掉重要内容。

Spatial Reframing（空间重构），这个是今年Photos里最酷的新功能。你可以在拍完之后重新调整照片的构图，就像你在拍照那个瞬间移动了相机一样。

它用的是端侧的空间模型做实时预览，然后用Private Cloud Compute上的生成模型来填充透视变化产生的新区域。只生成空白区域的内容，原始照片的部分保持不变。

演示效果确实不错，而且这个功能基于Apple Vision Pro积累的空间理解技术，对老照片和其他相机拍的照片也能用。

五. 开发者工具 1. Xcode 苹果说Xcode是做agentic coding最好的地方。。。我一直不知道该从哪开始吐槽起。。。反正这次也做了一些更新，也基本围绕的着AI。比如它现在能一键把你的整个App本地化成其他语言，能跟模拟器里的虚拟设备直接交互（以前只能看代码），还支持自定义skills来扩展助手的能力。然后呢Xcode的代码助手现在可以选择不同的AI模型了，包括Google的Gemini。。。

你还可以把它跟Figma和GitHub这样的外部工具连起来，让代码助手能够参考设计稿和代码仓库。测试方面，苹果推出了全新的Device Hub，把所有模拟设备和真实设备统一到一个界面里。

你可以在里面模拟多点触控操作，一键切换App的深色/浅色模式，还能动态调整App的窗口大小来测试不同屏幕尺寸下的表现。

2. Foundation Models Framework

开发者可以在App里用Apple的端侧模型，今年新增了图像输入（之前只有文本），支持自定义Skills扩展模型能力，还能用同一套Swift API调用服务器端的模型。

3. Core AI Framework

全新框架，可以在所有苹果平台上用Apple Silicon的全部算力来本地运行其他模型。这个对开发者来说可能是最实际的，意味着你可以把自己的模型或者第三方模型直接跑在设备上。

六. 体验升级就是一些偏系统偏设计的了，跟AI关系不大了。 1. Liquid Glass优化去年WWDC最爆的就是Liquid Glass这套全新设计语言。好看是真好看，但争议也不小。苹果今年也说去年太激进了，所以在IOS27上，底层优化了Liquid Glass的模糊算法，对复杂背景的弥散效果好多了。

也加了一个透明度滑块，现在，你可以自己调Liquid Glass的透明度。

macOS上还做了几个调整，工具栏更统一了，侧边栏延伸到窗口边缘，侧边栏图标恢复了彩色，所有窗口统一了更紧凑的圆角，App图标也迭代了一版，在图标内部加了多层Liquid Glass折射效果。

2. 性能提升

常规操作，比如iPhone和iPad上App启动速度快了30%，新拍的照片在图库里出现的速度快了70%，隔空投送传文件速度快了80%，iPad接外部硬盘浏览和传输文件速度快了5倍。

3. 搜索基础设施重建

苹果重建了聚焦搜索、照片和邮件背后的搜索索引，让它更稳定、更全面。

新内容几乎实时入索引，邮件搜索还加了全新的排名系统，置顶结果更准了。

4. 其他小更新

照片，iCloud共享相册终于支持Android和Windows用户加入了，还支持全分辨率共享。

AirPods，支持自定义EQ了。

Apple Vision Pro，全景照片可以变成有深度的空间场景。

地图，Flyover大幅升级，航拍影像+视觉智能模型，建筑细节和树木形态都清晰得多。

网络切换，iPhone更智能地判断什么时候该从Wi-Fi切回蜂窝（终于不用手动去控制中心关Wi-Fi了）。

信息App，低带宽环境下发大文件不会卡住对话了，会显示发送进度。

无障碍，苹果官网上列了不少Apple Intelligence在无障碍方面的集成。

VoiceOver现在能更丰富地描述周围环境和屏幕内容，Magnifier可以放大后直接问Siri，Voice Control更灵活了，可以用自然语言跟App交互。

这块发布会上没提，但确实是AI落地到实际场景里的好例子。

写在最后今天WWDC算是平稳结束了。

这也是Cook最后主持的一届WWDC了。

苹果，这个伟大的企业，终于要交接到了下一棒人手中去。

最后，我想用我特别特别喜欢的乔布斯的一段词结尾：

"向那些疯狂的家伙们致敬。

他们特立独行。

他们桀骜不驯。

他们惹事生非。

他们格格不入。

他们用与众不同的眼光看待事物。

他们不喜欢墨守成规。

他们也不安于现状。

你可以认同他们，反对他们，

颂扬或是诋毁他们。

但唯独不能漠视他们。

因为他们改变了寻常事物。

他们推动人类向前迈进。

或许他们是别人眼里的疯子，

但他们却是我们眼中的天才。

因为只有那些疯狂到以为自己能够改变世界的人，

才能真正改变世界。

MCP/工具多模态大佬观点语音

在 X 查看原推

数字生命卡兹克@Khazix0918 · X