苹果WWDC 2026:AI为主轴,Siri AI发布,与Gemini深度合作 · AI HOT
数字生命卡兹克@Khazix091870
2026-06-09 13:16·6天前
AI 摘要苹果WWDC 2026落幕,核心仍是AI。Apple Intelligence新架构:与Google Gemini合作开发5个模型;端侧分AFM 3 Core(3B)和AFM 3 Core Advanced(20B MoE)。新Siri正式命名Siri AI,基于系统编排器融合上下文理解、App Actions、屏幕感知等能力,支持连续对话、跨平台同步及独立App,但未展示自主Agent能力。视觉智能、全系统听写、写作工具等同步更新。目前仅支持英语,国区不可用,可用时间未知。
MCP/工具多模态大佬观点语音
数字生命卡兹克@Khazix0918 · X70
2026-06-09 13:16·6天前
AI 摘要苹果WWDC 2026落幕,核心仍是AI。Apple Intelligence新架构:与Google Gemini合作开发5个模型;端侧分AFM 3 Core(3B)和AFM 3 Core Advanced(20B MoE)。新Siri正式命名Siri AI,基于系统编排器融合上下文理解、App Actions、屏幕感知等能力,支持连续对话、跨平台同步及独立App,但未展示自主Agent能力。视觉智能、全系统听写、写作工具等同步更新。目前仅支持英语,国区不可用,可用时间未知。
App Actions。这是让Siri能动手做事的关键。系统编排器知道你手机上每个App能做什么(通过App Intents框架),当你说发消息给某某的时候,它会调用Messages来执行。理论上,任何适配了App Intents的第三方App都能被Siri调用。
屏幕感知。系统编排器能看到你当前屏幕上显示的内容。比如你正在Safari里看一篇文章,这时候问Siri一个问题,它能结合你正在看的内容来给出更相关的回答。
这四个能力组合在一起,就是苹果所说的以你为中心的AI,也是硬件跟AI结合的一个比较完整的方案。
We believe privacy in AI is non-negotiable.
苹果的态度是,很多AI厂商在嘴上说隐私,但默认情况下都在保留你的个人交互数据,把保护隐私的责任推给用户。
苹果的方案就是前面说的端侧处理+Private Cloud Compute,数据不存储、不可访问,只用于执行请求,外部专家可以随时审计。
Siri AI基于整套新的Apple Intelligence架构,集成了上面提到的很多的新能力。
苹果的说法是,Siri现在是一个"有了质的飞跃"的助手。
然后基于这次的新Siri AI,他们做了一些演示。
问"旧金山的某位歌手演唱会什么时候"→ Siri给出答案(7月26号)→ 追问怎么买票 → Siri说要抽签 → "抽签开始的时候提醒我"→ 设好提醒 → "放一首她的新单曲"
看到一张照片问"这是哪"→ Siri识别出圣克鲁兹海岸的天然桥州立海滩 → "我朋友Jeff最近搬到附近了,他新家在哪"→ Siri从消息记录里找到Jeff发过的地址 → "给我导航到那个拱门,中间停一下Jeff家"→ Siri规划路线
"给我看上周在沙斯塔山的照片"→ Siri搜索照片 → "只把有Bryce、Madison和Quinn的照片加到家庭共享相册"→ 完成
查世界杯开幕周末赛程 → "我想为巴西vs摩洛哥那场办个观赛派对,给我两个国家的经典菜"→ Siri给出菜品(还带图片)→ "Maria最近提到的那个甜点是什么"→ Siri搜索消息找到椰子饼干→ "把这些整合成一个菜单"→ Siri生成创意菜单 → "发消息给Gold Chasers群组问他们要不要来,附上菜单"→ 发送
在Spotlight里输入问题就能启动跟Siri的对话,窗口可以拖拽和调整大小。
演示了让Siri分析多个不同格式的文件比较三个棚子的报价,然后结合儿子之前发的消息里提到的电路问题来做推荐,最后让Siri直接起草一封邮件给选中的供应商。
2026年了,Siri AI的演示核心还是问答、搜索个人信息、发消息、设提醒这些事。对话式体验确实比以前强了不少,能连续聊、能带上下文了,但说实话,这些demo跟现在的ChatGPT、Claude比,谈不上什么惊喜。
最关键的是,没有看到真正的Agent能力。也没有看到Siri自主规划、自主执行多步任务、自主调用多个App完成一个复杂目标的场景。
苹果说了App Actions,但演示里最复杂的也就是搜索照片→筛选→加到共享相册这种程度。
在支持第二个强端侧模型的设备上,Siri有了全新的语音。
苹果还让你可以自定义Siri的语音风格,调表现力和语速,更亲切更好玩一点。
同样需要第二档端侧模型,新的听写引擎在拼写、标点和大小写上都更精准了。
因为它是内建在系统键盘里的,所以不管你在哪个App里,只要调出键盘就能用。发布会上提到的场景是"在地铁上用语音发消息"和"边想边说地用日记App记录",都是日常会用到的,这个我觉得还是比较刚需的,好评。
4. 视觉智能
iPhone上,Visual Intelligence(视觉智能)集成进了相机App,新增了一个Siri模式。
按快门键让Siri看到你看到的东西,然后给你有用的回应,可以下拉查看详细信息、问后续问题。
写作工具现在更深度地跟Siri结合了,你可以在任何能打字的地方用自然语言描述让Siri从头生成文本。
在邮件和信息里,Siri还能根据你跟特定联系人的沟通风格来调整语气。
另外,Apple Intelligence现在全系统自动校对了,你在任何App里打字,它都会自动检查拼写和语法,不用你手动触发,大多数第三方App也支持。
现在有了独立App之后,你所有跟Siri的对话都会被保存在这里,可以随时回看。
最重要的是跨平台同步,你在iPhone上跟Siri聊了一个话题,打开iPad上的Siri App可以看到这段对话,继续往下聊,在Mac上也一样。
对话历史通过iCloud加密同步,苹果看不到你的对话内容。
Siri AI还扩展到了watchOS(手腕上直接问)和visionOS(3D可视化的Siri,放在你空间里的任何位置,看着它说话就行,不用说「hey Siri」)。
然后新版的Siri,目前只支持英语,后续会扩展其他的语言,欧盟和中国都目前不可用,可用时间未知。
三. APP智能化
反而是我今天觉得比较惊喜的部分。
让AI渗透进所有人的生活中,确实还是得从老的APP改造入口,是最能进日常场景的。
智能标签页整理,Safari用Apple Intelligence分析你打开的每个页面,自动按主题分组。你浏览的时候,相关新标签页会自动归到对应主题下,可以一键关掉整个主题或者存为标签页组。
Notify Me,你可以用自然语言告诉Safari你在等什么变化(比如某个商品补货、某个报名开放),然后关掉那个标签页,Safari会自动监控,变化发生时推送通知。
这个功能太实用了,不知道执行效果怎么样,但思路是对的。
Describe an Extension,用自然语言描述你想要什么,Safari帮你生成一个自定义扩展来调整网页内容,比如在工具栏加一个按钮来保存和评分你试过的食谱。
还有一条,Safari所有智能功能都不追踪你的浏览数据,不跟任何人分享,包括苹果自己,然后稍微内涵了一下友商。。。
新功能是,它现在能自动帮你更新密码,背后是Apple Intelligence和Safari配合,自动导航到对应网站、登录、改密码。
一个"agentic"的动作,难得见到苹果用这个词。。。
Messages现在能理解对话上下文,提供一键建议。
比如有人提到某个事,Messages会建议你创建提醒或备忘录,有人问你要照片,Messages帮你根据关键词、地点和人名搜索最合适的照片。
邮件也有了更智能的上下文建议,让你快速用喜欢的App(包括第三方App)采取行动。
你打字的时候,日历会自动识别联系人、地点,填上标题。
编辑也更智能,比如把"每周"改成"每两周",日历自动调频率。
打电话给商家的时候,电话App可以主动从你其他App里找相关信息。比如你打电话给航空公司改机票,它能自动从邮件里找到你的确认码。
但是咱就是说,新AI上国内的时候,咱能不能把那些恶心的营销电话也都用AI处理一下。。。
7. Home
家庭App可以支持用Apple Intelligence理解摄像头通知,把相关的通知合并成一个持续更新的活动通知。
还能分析录像片段,生成描述,支持用自然语言搜索录像内容(比如搜快递),支持4K分辨率回放。
快捷指令现在支持用自然语言描述你想要的自动化,Apple Intelligence帮你组装所有步骤。
演示里的例子是,"当我离开公司时,发消息告诉佩德罗我在路上,附上到家的预计时间"→ 快捷指令自动创建了一个自动化,检测离开公司地址 → 用地图计算到家时间 → 用信息App发送。
四. 创意与影像
这块苹果也用AI雕了一些有意思的花。
1. Image Playground大升级
Image Playground这次大幅升级了一下。
核心变化,支持写实风格了,之前只能生成那种卡通/插画风格,现在用Private Cloud Compute上的跟Gemini搞的新生成模型,可以做高质量的各种风格图片。
毕竟你都用Gemini了,生图再不迭代一下,那就真说不过去了。
你可以用照片库里的人来生成图片,用自然语言描述修改,用触摸手势圈选对象来移动/缩放/修改。
同时,给开发者也开放了Image Playground API。
Cleanup升级,去除干扰物的效果更好了,复杂场景下的填充更真实。
Extend,扩展图片边界,给主体更多空间,或者调整画幅时不用裁掉重要内容。
Spatial Reframing(空间重构),这个是今年Photos里最酷的新功能。你可以在拍完之后重新调整照片的构图,就像你在拍照那个瞬间移动了相机一样。
它用的是端侧的空间模型做实时预览,然后用Private Cloud Compute上的生成模型来填充透视变化产生的新区域。只生成空白区域的内容,原始照片的部分保持不变。
演示效果确实不错,而且这个功能基于Apple Vision Pro积累的空间理解技术,对老照片和其他相机拍的照片也能用。
五. 开发者工具
1. Xcode
苹果说Xcode是做agentic coding最好的地方。。。
我一直不知道该从哪开始吐槽起。。。
反正这次也做了一些更新,也基本围绕的着AI。
比如它现在能一键把你的整个App本地化成其他语言,能跟模拟器里的虚拟设备直接交互(以前只能看代码),还支持自定义skills来扩展助手的能力。
然后呢Xcode的代码助手现在可以选择不同的AI模型了,包括Google的Gemini。。。
你还可以把它跟Figma和GitHub这样的外部工具连起来,让代码助手能够参考设计稿和代码仓库。测试方面,苹果推出了全新的Device Hub,把所有模拟设备和真实设备统一到一个界面里。
你可以在里面模拟多点触控操作,一键切换App的深色/浅色模式,还能动态调整App的窗口大小来测试不同屏幕尺寸下的表现。
2. Foundation Models Framework
开发者可以在App里用Apple的端侧模型,今年新增了图像输入(之前只有文本),支持自定义Skills扩展模型能力,还能用同一套Swift API调用服务器端的模型。
全新框架,可以在所有苹果平台上用Apple Silicon的全部算力来本地运行其他模型。这个对开发者来说可能是最实际的,意味着你可以把自己的模型或者第三方模型直接跑在设备上。
六. 体验升级
就是一些偏系统偏设计的了,跟AI关系不大了。
1. Liquid Glass优化
去年WWDC最爆的就是Liquid Glass这套全新设计语言。
好看是真好看,但争议也不小。
苹果今年也说去年太激进了,所以在IOS27上,底层优化了Liquid Glass的模糊算法,对复杂背景的弥散效果好多了。
也加了一个透明度滑块,现在,你可以自己调Liquid Glass的透明度。
macOS上还做了几个调整,工具栏更统一了,侧边栏延伸到窗口边缘,侧边栏图标恢复了彩色,所有窗口统一了更紧凑的圆角,App图标也迭代了一版,在图标内部加了多层Liquid Glass折射效果。
常规操作,比如iPhone和iPad上App启动速度快了30%,新拍的照片在图库里出现的速度快了70%,隔空投送传文件速度快了80%,iPad接外部硬盘浏览和传输文件速度快了5倍。
苹果重建了聚焦搜索、照片和邮件背后的搜索索引,让它更稳定、更全面。
新内容几乎实时入索引,邮件搜索还加了全新的排名系统,置顶结果更准了。
照片,iCloud共享相册终于支持Android和Windows用户加入了,还支持全分辨率共享。
Apple Vision Pro,全景照片可以变成有深度的空间场景。
地图,Flyover大幅升级,航拍影像+视觉智能模型,建筑细节和树木形态都清晰得多。
网络切换,iPhone更智能地判断什么时候该从Wi-Fi切回蜂窝(终于不用手动去控制中心关Wi-Fi了)。
信息App,低带宽环境下发大文件不会卡住对话了,会显示发送进度。
无障碍,苹果官网上列了不少Apple Intelligence在无障碍方面的集成。
VoiceOver现在能更丰富地描述周围环境和屏幕内容,Magnifier可以放大后直接问Siri,Voice Control更灵活了,可以用自然语言跟App交互。
这块发布会上没提,但确实是AI落地到实际场景里的好例子。
苹果,这个伟大的企业,终于要交接到了下一棒人手中去。