Labs starting to pull up the ladders on the ability to diffuse AI was inevitable. Doing it without telling the user is m...
The best part of all these Claude 5 Fable safety measures is I bet the jailbreaking community will still get past them, so the people doing open research in good faith don't get access to the best models but bad actors maybe can.
译所有这些 Claude 5 Fable 安全措施最好的一点是,我打赌越狱社区仍然能绕过它们,因此本着诚意进行公开研究的人无法使用最优秀的模型,而坏人反而可能用上。
If anthropic can't convince a bunch of tech bro's on X that they're not safety washing, good luck convincing the american public.
译如果Anthropic无法让X上的一群科技人士相信他们不是在安全洗白,那就祝你好运去说服美国公众吧。
The guardrails are way too strict. Even the simplest questions get cut off immediately. And it's only on the schedule until June 22nd. Damn, Anthropic really thinks the model is too powerful.
译用户称 Claude 5 Fable 安全护栏过于严格,简单问题也会被立即切断。该模型仅开放至 6 月 22 日,暗示 Anthropic 认为其能力过强。引用信息显示:Fable 5 在软件工程、知识工作、视觉、科学研究等几乎所有 AI 基准测试中达到 SOTA,任务越长越复杂领先越大;它比此前 Claude 模型更节省 token,能在数百万 token 的长任务中保持专注,并利用自身笔记改进输出。Stripe 早期测试中,Fable 5 在 5000 万行 Ruby 代码库中一天完成全库迁移,而人工需两个多月。
Claude Fable 5 changed how we work on the Claude Code team day to day. We used to verify that Claude did the work right. Now we verify that it's doing the right work. Here’s the 3 biggest changes:
译Claude Fable 5 改变了我们 Claude Code 团队的日常运作方式。 我们过去常常验证 Claude 是否正确完成了工作。现在我们验证它是否在做正确的工作。 以下是最大的三个变化:
Mythos is live! so excited to have our FrontierCode recognized as the next frontier coding bench. on FC Diamond, BOTH Opus 4.8 and GPT 5.5 don't meaningfully scale with effort, which many of you caught yesterday. Mythos/Fable posttraining have really applied that test time compute toward solving very, very long running problems - dozens of human hour equivalents, hundreds of dollars per task, for the first time ever measured. Available now in @Cognition @Devin for only 1.4x ACUs too! (I never thought i'd see this launch lol)
译Mythos正式上线FrontierCode基准测试,旨在衡量AI生成可维护代码的能力。该基准包含超1000小时维护者验证的任务,并引入3000+评分标准防奖励攻击。最高难度FC Diamond上,Opus 4.8得分仅13.8%,且Opus 4.8与GPT 5.5均未随effort扩展提升。Mythos/Fable后训练将test time compute用于数小时级长任务。基准已在Devin上线,ACU成本仅1.4倍。FC Extended中最易的1/3任务在2025年末被快速攻克——Opus从41%升至74%,标志着AI编码进入“维护可读代码”新时代。
分享一个开源免费的省token神器,17k star,本周增速最快的项目之一, 可以把AI API账单直接砍到原来的1/5,回答质量还不变, 这就是刚火起来的 headroom,专门干一件事: 把所有要喂给AI的东西(输出、日志、文件、RAG块)先压缩一遍, 砍掉 60%-95% 的 token,最终回答质量完全没变。 最爽的是不用改一行现有代码, 直接当库、代理或者 MCP 服务器插进去就行,无缝对接所有大模型。 以前为了省token绞尽脑汁凑提示词, 现在一行配置,直接砍九成账单, 这才是所有AI开发者真正的刚需啊😲
译开源免费的 token 压缩工具 headroom 本周增速最快,已获 17k star。它专为所有 AI API 调用(输出、日志、文件、RAG 块)设计,压缩 60%-95% 的 token,将账单直接砍到原来的 1/5,且回答质量不变。无需修改一行现有代码,可作为库、代理或 MCP 服务器无缝对接所有大模型。开发者无需再绞尽脑汁凑提示词,一行配置即可大幅降低 API 成本。
Claude Fable 5 / Mythos 5 wins everywhere. I thought Fable 5 was just a nerfed Mythos Preview, but it’s literally better. SWE-Bench Pro: Fable 5: 80.3%, GPT-5.5: 58.6%. And the price is only 2x Opus 4.8: $10/input MTok, $50/output MTok. I don't think GPT 5.6 can beat this...
译Claude Fable 5 / Mythos 5 全面胜出。 我以为 Fable 5 只是弱化版 Mythos Preview,但它实际更强。SWE-Bench Pro:Fable 5:80.3%,GPT-5.5:58.6%。 而且价格仅为 Opus 4.8 的 2 倍:$10/输入 MTok,$50/输出 MTok。 我认为 GPT 5.6 无法超越这个成绩。
I've had access to Fable for a bit. A genuine jump in capability, I could feed it a 15 page design document for a project and it would work for 9+ hours and deliver terrific results. But working with it is weird & weirder is coming Lots of examples: https://open.substack.com/pub/oneusefulthing/p/what-it-feels-like-to-work-with-mythos?r=i5f7&utm_campaign=post&utm_medium=web&showWelcomeOnShare=true
译我曾短暂使用过 Fable。能力确实跃升,我可以给它一份 15 页的项目设计文档,它能连续工作 9 个多小时并输出极好的结果。 但使用它的感觉很奇怪,而且更奇怪的东西即将到来。 大量示例:https://open.substack.com/pub/oneusefulthing/p/what-it-feels-like-to-work-with-mythos?r=i5f7&utm_campaign=post&utm_medium=web&showWelcomeOnShare=true
有了AI后,iOS开发也方便,打算做个支持语音自动跟随的提词器。 计划用远程服务器管理文字脚本,也支持iOS文本粘贴。 不需要对外发布就简单很多,希望明天能搞定。
译有了AI后,iOS开发也方便,打算做个支持语音自动跟随的提词器。 计划用远程服务器管理文字脚本,也支持iOS文本粘贴。 不需要对外发布就简单很多,希望明天能搞定。
Want to use OpenRouter with Cursor? Here's an integration guide: https://openrouter.ai/docs/cookbook/coding-agents/cursor-integration
译想要在Cursor中使用OpenRouter吗? 这里有一份集成指南:https://openrouter.ai/docs/cookbook/coding-agents/cursor-integration
What kind of issues do you run into when you are using Codex to create PDFs?
译你在使用Codex创建PDF时遇到了哪些问题?
第一次录口播脚本,推荐本好书《被讨厌的勇气》。 工具:Pocket3 + 免费提词器teleprompter + 手机配件 脚本:用刚做的书籍口播解读 Skill 生成,改天开源。 剪辑:剪映加片头片尾,调色用LUT文件CELLULOID_01_FU_LOW.cube
译作者首次录制口播脚本推荐书籍《被讨厌的勇气》,使用Pocket3相机与免费提词器teleprompter,脚本由自制的书籍口播解读Skill生成(计划稍后开源),剪辑用剪映添加片头片尾,调色采用LUT文件CELLULOID_01_FU_LOW.cube。
This is basically Claude for marketing..
译Crowdreply 推出 Searchmaxxing,一种让品牌在所有 AI 搜索平台都可见的新策略。Rohan Paul 称这基本上是营销领域的 Claude。
We've known about LLM test-time compute scaling since @OpenAI o1. Yet 2 years later labs still report scalar evals for models; safety orgs are still surprised when a scaffold does better via 100x inference; and RSPs still ignore inference budget when deciding critical thresholds.
译自 @OpenAI o1 以来,我们就知道 LLM 测试时计算缩放。 然而两年后,实验室仍在报告模型的标量评测;安全组织仍对某个脚手架通过 100 倍推理表现更好感到惊讶;而 RSP 在决定关键阈值时仍忽略推理预算。
DeepSeekV4 1.6T Day 0 to Day 43 Performance Over Time - Huawei, GB300 NVL72, MI355X, B200 Day 0 Inference Performance on InferenceX 100x performance improvement in 26 Days Cost per Million Tokens Huawei 950DT Inference Trace Analysis https://semianalysis.substack.com/p/deepseekv4-16t-day-0-to-day-43-performance
译DeepSeek V4 1.6T 第0天至第43天性能随时间变化 - 华为, GB300 NVL72, MI355X, B200 第0天在InferenceX上的推理性能 26天内100倍性能提升 每百万Token成本 华为950DT推理追踪分析 https://semianalysis.substack.com/p/deepseekv4-16t-day-0-to-day-43-performance
23,000+ ChinaRxiv papers are now freely available with more complete English translations after one developer replaced a complex OCR pipeline with GPT‑5.5. https://x.com/seconds_0/status/2059829527199592899
译23,000+ 篇 ChinaRxiv 论文现已免费提供,并带有更完整的英文翻译,源于一位开发者用 GPT-5.5 替换了复杂的 OCR 管道。
The New York Times published a roundtable discussion between @DAcemogluMIT, @deanwball, @clarashih & myself about the future of AI & who wins at work. I think it is a really nice overview of the core debates on the topic, and has some fun examples. https://www.nytimes.com/2026/06/09/magazine/ai-jobs-workforce-labor.html
译纽约时报发布了一场圆桌讨论,参与者包括@DAcemogluMIT、@deanwball、@clarashih和我本人,讨论AI的未来以及谁会在工作中胜出。我认为这是对该话题核心辩论的一个很好的概述,并且包含一些有趣的例子。https://www.nytimes.com/2026/06/09/magazine/ai-jobs-workforce-labor.html
Google 的 Gemini 模型并不驱动 Siri Siri 是由苹果自研的的基础模型驱动 Siri 不过这个自研的的基础模型是通过Gemini蒸馏训练而来 Google 的Gemini 模型只在 Apple iCloud 上提供额外支持,而且也是苹果定制的,而且也不使用Google 的搜索来提供世界知识,由苹果自己的服务提供。 感觉Google 又被耍了😂
译苹果Siri由自研基础模型驱动,但该模型通过Google Gemini蒸馏训练而来。Gemini本身不直接驱动Siri,仅在Apple iCloud上提供额外定制支持,且不接入Google搜索,世界知识由苹果自有服务提供。
我去,乔帮主把这个压箱底的秘籍都拿出来分享了! 比很多花钱报名学习的𝕏 增长的分享强太多了! 直接教你从100粉丝-到11万的干货内容,并且直接把分享的PPT分享出来。 这里大家可以这样开始进行数据分析: 第一步,打开你的个人主页-点击更多-然后下载你账号的数据,一般需要24小时给你。 第二步,下载完数据后,给Claude或者codex 进行分析。 第三步,结合乔帮主的这个内容可以让AI进行解析和解读,学习自己的增长路径。 第四步,等着𝕏 起飞! 麻蛋,我的𝕏 数据12G ,我已经麻了! 等我后续的分析结果! 不废话,👇🏻 这个是PDF版本的分享内容,自己下载吧! 地址:https://xiangyangqiaomu.feishu.cn/wiki/OLC6wjCepiP1JVkDfrSc4FdInMg
译乔帮主(@vista8)复盘三年X运营增长,从100粉丝做到11万,基于全量X帖子用Codex进行数据分析,并分享完整PPT。Berry Xia推荐操作步骤:先下载X账户数据(需24小时),再交给Claude或Codex分析,最后结合乔帮主的PPT解读增长路径。PPT下载链接已公开,供用户自行学习。
Sam Altman wants to be Elon Musk so badly.
译Sam Altman 非常想成为 Elon Musk。
http://x.com/i/article/2064329494736011265 # 揭秘苹果全新 Siri AI 背后模型:苹果如何将 200 亿参数的模型塞进手机里 苹果在 WWDC 2026 上发布了全新的 Apple Intelligence(苹果智能)和独立的 Siri AI。 本次更新背后,都是由它的第三代 Apple Foundation Models(苹果基础模型,下面简称 AFM 3)驱动。 Apple Foundation Models 是苹果给自家 Apple Intelligence 做的一整套自研基础模型,从能跑在手机上的小模型,到跑在云端的大模型都有。这次一口气来了五个。 本次最大的看点是,苹果把一个 200 亿参数的大模型真的塞进了你的手机里,用了一套挺巧的工程办法。 这篇文章一次讲清楚: - 五个模型分别是谁、各管什么 - 手机装不下大模型这个老难题,苹果这次怎么绕过去的 - 这些模型到底能让你用上哪些新功能 - 苹果公布的评测数据该怎么看 - 一个反常的点:最在意隐私和自研的苹果,这次最强的算力全靠 Google 和 NVIDIA ## 先看看本次 WWDC 都更新了什么 ## Siri AI 新在哪:它终于像个 AI 助手了 旧 Siri 的能力基本停在“听一句指令、做一件事”。这次的 Siri AI 由 Apple Intelligence 驱动,补上了过去几年最被人诟病的几块短板。 - 能正经对话。 可以开放式提问、帮你头脑风暴、来回多轮地聊,而不是说错一个词就得重来。 - 懂你的个人上下文。 翻几年前的某张照片、找埋在收件箱深处的某封邮件、调出之前随手记的某条笔记,一句话的事。 - 能在 App 里替你动手。 基于你当下在做的事,直接在 Messages、Music、Reminders 等 App 里操作:把刚发出去的消息改一下,把车里听到的歌加进健身歌单。 - 有了世界知识。 能联网查最新信息,问事实、问菜谱、问旅行建议都行。关键变化是:过去 Siri 答不上来就把你甩去网页搜索,现在它自己答,并标注信息来源。 - 有了独立的 Siri App。 所有对话集中一处,iPhone 上问一半、换 iPad 接着聊,常用对话还能 pin 住。这是苹果第一次把 Siri 做成一个像 ChatGPT 那样的“目的地 App”,而不只是个唤醒词。 - CarPlay 里也能用。 开车时直接问“朋友推荐的那个登山口在哪”,不用手离方向盘。 - 声音能自己调。 音高、语速、语气、口音都能调到顺耳为止。不过表现力声音这类完整体验,需要 iPhone 17 Pro、17 Pro Max 或 iPhone Air。 ## Visual Intelligence:看到什么就能问什么 过去只在 iPhone 上的视觉识别能力 Visual Intelligence,这次扩展到了 iPad、Mac 和 Apple Vision Pro。 - 相机里的 Siri 模式。 抬手一拍,就能问眼前这东西是什么、有什么营养。 - 新的智能操作。 吃完饭对着账单分账、查面前菜品的营养信息、把一张卡片导入 Apple Wallet,都能一步完成。 - 各设备的用法。 Mac 上截屏后直接搜索或操作;iPad 上截屏后用手指点、或用 Apple Pencil 圈出想问的东西;Apple Vision Pro 上看着某个真实物体就能问。 ## Apple Intelligence 这一轮还更新了什么 这批功能大多随秋季系统一起来,跟 Siri AI 本体的时间表不一样。 - 照片编辑更强:拍完之后还能用 Spatial Reframing 重新构图、用 Extend 把画面往外扩、用增强版 Clean Up 抹掉更大的物体。 - Image Playground 能出写实图了:支持照片级写实在内的几乎任何风格。配套的 Image Wand 能在备忘录里把草图直接变成图(已上线)。 - 随处可写、边写边校:Write with Siri 能在几乎任何输入框里从零起草或帮你改稿,在 Messages 和 Mail 里还会模仿你的文风、标点和语气;Proofread 则随时检查语法拼写。 - Safari 更聪明:标签页能按主题自动分组;Notify Me 帮你盯着某个页面的降价、补货,到点提醒;还能做扩展来自定义网页内容。 - 密码一键修:Passwords App 发现弱密码或已泄露的密码,能直接替你改掉。 - 描述一句就能办事:用大白话说需求,Shortcuts 自动把跨 App 的动作串成一条快捷指令;日历也能“把午餐会改成喝咖啡”这样直接改。 - 几个先出英文的功能:Messages/Mail 的快捷建议 Suggestions、打商户电话时自动递确认码的 Call Context、以及精度更高的听写 Dictation,都标注“先出英文”。 - 已经上线的部分:实时翻译 Live Translation(Messages、FaceTime 字幕、电话、AirPods 对话)现已可用;家庭 App 的 AI、健身搭子 Workout Buddy 等也有增强。 ## 再把五个模型说清楚 五个模型和 Google 合作定制开发,按跑在哪里分成两组。 端侧(直接在你设备上跑)两个: - AFM 3 Core:上一代那个 30 亿参数稠密模型的升级版,主要是质量更好了。 - AFM 3 Core Advanced:苹果最强的端侧模型,原生支持多模态。200 亿参数,属于 MoE(Mixture of Experts,混合专家模型),每次根据任务只激活其中 10 到 40 亿。 服务器(跑在苹果的 Private Cloud Compute 上)三个: - AFM 3 Cloud:服务端的主力,主打快和稳。 - ADM 3 Cloud(图像):专门做图像生成和编辑的模型,注意名字是 ADM 不是 AFM,单独一条线。 - AFM 3 Cloud Pro:最强的服务器模型,专门接 Agent 工具调用、复杂推理这种最吃性能的活。 一句话记住分工:日常的、轻的、要保护隐私的,尽量在手机上用 Core 系列解决;真正难的、重的,才送到云端的 Cloud 系列。 ## 核心看点:手机装不下大模型,苹果怎么解决 先说普通人能懂的痛点。你希望手机上的 Siri 又聪明又快,但有个硬约束:手机的内存(就是那块动不动 8GB、16GB 的 RAM,业内叫 DRAM)就那么大。模型越大、参数越多,占的内存就越多,一个真正大的模型,根本塞不进手机内存。 ## 先说为什么装不下:内存太小 手机里有两种存数据的地方,性格正好相反。 一种是内存(DRAM),读写极快,但容量小又贵,iPhone 上通常就几 GB,还得分给系统和所有 app。 另一种是闪存(NAND),就是平时存照片、装应用的那块,容量大得多也便宜得多,但读写慢,尤其往内存里搬数据时,那条通道的带宽远远不够快。 模型要跑起来,它的权重(也就是模型里那几百亿个数字)必须待在内存里,芯片才能随时取用。 传统大模型不管什么架构,都默认把全部权重一次性塞进内存。一个 200 亿参数的模型,光权重就要占十几 GB,手机内存根本放不下。这就是过去端侧模型普遍只做到二三十亿参数的原因,再大就溢出了。 这就像,想把一整座图书馆的书全摊在一张小书桌上,桌子太小,摊不开。 ## 业界省内存的常规思路,在手机上偏偏行不通 这个常规思路叫混合专家(Mixture-of-Experts,MoE)。它把一个大模型拆成很多个“专家”,可以理解成一堆各有所长的小网络;回答某个问题时只挑其中几个上场,其余的歇着。这样每次计算只动用一小部分参数,又快又省算力。 但 MoE 省的是“每次算多少”,没省“总共要放多少”。标准 MoE 仍然要求全部专家都待在内存里随时待命,因为它每生成一个字(token)就要重新挑一批专家。换得这么勤,专家就必须近在手边。这在数据中心的 GPU 上不是问题,显存大、专家又都连在一起;可搬到手机上就卡死了:要是专家存在慢速的闪存里,每吐一个字都得去闪存搬一批权重进内存,那条慢通道根本喂不动,模型会卡到没法用。 ## 苹果的解法:换个地方放,换个频率取 苹果的解法分两步。 第一步,把完整模型挪出内存,存到闪存里。 完整模型不放 DRAM 内存,而是存到闪存(NAND)里,就是平时存照片、存 App 的那块,空间大得多(一般 256GB 起步)。需要哪几个专家,再从闪存搬进 DRAM 来用,就像书放在图书馆的书架里,用哪本取哪本。 第二步,把路由决策从“按 Token”改成“按 Prompt”。 这步是整套设计的关键,它得先解决一个绕不开的硬约束:闪存到内存的搬运带宽,远远跟不上模型逐字生成的速度。要是照搬普通 MoE“每个 Token 换一批专家”的做法,光等专家从闪存搬进内存,就慢到没法用了。 为此苹果自研了一套 Instruction-Following Pruning(指令跟随剪枝,简称 IFP)技术,解决两件事:权重放在哪、以及多久换一次。 它是一个轻量的稠密小模块,在开始处理你这条问题时就一次性选定一批专家,整段生成里只周期性地再调整,而不是每个字都重选。专家搬运的次数因此被压到很低。落到画面上就是:你问一句话,模型先用极短的时间判断这题归哪几支专家管,把它们调进内存,接下来这一整段回答基本就靠这批专家了。 专家本身还分两类,进一步省搬运: - 共享专家(shared experts):不管什么任务都常驻在内存里; - 路由专家(routed experts):只在跟当前任务相关时才临时搬进来。 打个比方:一个手艺人有几千件工具,工作台(内存)小得只摆得下几件,于是他把全套工具锁进隔壁又大又慢的仓库(闪存),工作台上只留当前这单活真正要用的那几件。麻烦在于仓库远、取一趟慢,没法每拧一颗螺丝就跑一趟换工具,那样活儿没法干。他改了两条规矩,正对应苹果的两个设计: - 按整单活备料,不按每颗螺丝。 每接一单活(一次完整的 prompt),开工前先看一眼整张工单,一次性把这单大概率用得上的工具搬上工作台,干的过程中隔一阵再补一次。对应到模型,就是那个轻量模块在开始处理时一次性选定一组专家,生成过程中周期性重选,而不是像标准 MoE 那样每个字都重挑。 - 常用工具一直摆台上。 有些工具几乎每单活都用,干脆固定放在工作台不收回去,对应常驻内存的共享专家;少量按需调入的,才是路由专家。 合起来就是:完整的 200 亿参数躺在闪存里,当模型的“账面身家”;内存里任何时刻只装当前激活的那 10 到 40 亿参数。模型的规模可以做得很大,跑起来却只占一小块内存。 这套设计还白捡一个好处:按难度伸缩。 苹果把它叫推理时弹性(inference-time elasticity)。既然专家是按需调入的,那激活多少参数就也能随任务难度变:简单的问题少调几个专家、少激活参数,复杂的多调几个。前面说的 10 到 40 亿参数不是一个固定值,而是按每次请求的难度临时定的。于是同一个模型,既能轻快地应付日常小事,又能在难题上把参数顶上去,延迟还都压得住。在我看来,这才是这代端侧模型真正的工程突破,比 200 亿这个数字本身更重要。 ## 那它还解决不了什么? 端侧再巧,单次激活的规模终归有上限。真正复杂的推理、Agent 多步操作这类重活,还是得交给云端的 Cloud Pro 大模型来处理。 ## 那么 Google 到底参与了多少? 这是整件事的关键,也是外界误读最深的地方。 Subramanya(苹果 AI 副总裁)在发布会上称:上面四个为 Apple 芯片定制的模型,是用苹果自研数据训练,再“从 Google 的 Gemini 前沿模型蒸馏(distillation)精炼”而来。蒸馏的意思是,用一个更强的模型当老师,把它的能力压缩进自己更小的学生模型里,Gemini 只在训练环节出现,不进入成品。 Federighi(苹果软件工程高级副总裁)更直接:“我们用到的 Google Assistant 的量是零。” 具体拆开是三个“不用”: - 不用 Gemini App,用户交互时不碰任何 Google 客户端代码; - 不用 Google 部署给自家客户的那些模型,也不用它的部署基础设施; - 查询世界知识不用 Google 的搜索,用苹果自建多年的 World Knowledge Service。 唯一真正用到 Google 的,是 AFM 3 Cloud Pro 云端模型。这个模型为了上线,苹果联合 Google 和 NVIDIA,把私有云计算部署到了 Google 云里的 NVIDIA GPU 上。它的性能被描述为“与 Gemini 前沿模型相当”。 换句话说,被大家解读成“苹果的 Siri 大脑由 Gemini 驱动”的那些报道,落到产品上就是五个模型里的一个跑在 Google 的硬件上,其余四个从头到尾是苹果自己的。 ## 云端的两处架构升级 端侧那个模型的看点是怎么把大模型塞进小内存,云端的看点则是怎么把规模和质量做上去。三个云端模型里,主力 AFM 3 Cloud 和图像模型 ADM 3 Cloud 各做了一处升级。 AFM 3 Cloud:把去年的 PT-MoE 又拧紧了一圈。 AFM 3 Cloud 是云端主力,接的是端侧扛不动、要送上私有云的活。它的底子是苹果去年第二代就引入的一种服务端架构,叫并行轨道混合专家(Parallel-Track Mixture-of-Experts,PT-MoE)。大体上,它把一个大模型拆成几条并行的“轨道”,每条轨道是个更小的、自带专家路由的子模型,输入分别在各条轨道里走,轨道之间只在头尾必要的节点上同步一次。这样做的好处是同步等待大幅减少,专家可以铺得更多,质量上去了,延迟和成本却没跟着失控。 这一代不是换架构,而是在 PT-MoE 上做了几处关键调校,效果落在两点:训练更稳,规模拉大时不容易崩;以及在它的上下文窗口里,对信息的推理和准确召回更强。后面这点对服务端格外要紧,复杂的查询往往要模型在一大段上下文里翻找、对照、推断,记不住或记岔了,整个回答就废了。 ADM 3 Cloud:一个底模,挂一堆适配器。 先留意这个模型叫 ADM,不是 AFM,它是苹果这套体系里专门的图像模型,管生图、修图和 Genmoji。苹果给它定的两个目标是强可控性和参数效率:既要做到你说什么它画什么、改哪儿动哪儿,又不靠堆出一个臃肿的大模型来实现。它还能跨不同的画幅比例和分辨率工作,不挑尺寸,并且会借助更大的 AFM 家族来给创作和编辑当参谋。 它的搭法是另一个重点:基础模型本身原生就会生图、编辑、Genmoji 这些通用能力;而像照片里的 Spatial Reframing(空间重构)、用手指直接在图上涂改、Image Playground 里的个性化,这些更具体的功能不是各训一个模型,而是在同一个底模上挂不同的适配器(adapter)。适配器是一小块外接的、专门微调过的权重,按功能换上即可。一个底模配一组小适配器,比为每个功能各养一个大模型省得多,往后加一个新的图像玩法也更快。 ## 隐私:连苹果都看不到 三个云端模型都跑在 Private Cloud Compute 上。它的承诺是:用户数据从不被存储、从不被共享,连苹果自己都看不到,只在处理这一次请求时用一下。这个承诺不是口头的,第三方研究者可以持续验证。 即便是跑在 Google 云 NVIDIA GPU 上的 AFM 3 Cloud Pro,同样的隐私保证也不打折。Google 也在合作宣布当天确认,不会从这笔 Siri 交易里拿到苹果用户的数据。 训练这一层同样划了线:不使用用户的私人数据和交互数据,并尊重网站发布者退出训练的权利。 ## 训练怎么做的 - 预训练:在最新一代云端 TPU 上扩大规模训练。所有模型先共享同一个初始基座,再分化成各自的架构和用途,分别加上音频、图像理解、长上下文推理、视觉生成等能力。 - 后训练:监督微调(supervised fine-tuning)加多阶段强化学习。 - 压缩上线:用量化感知训练(Quantization Aware Training)大幅压缩模型,同时保住准确率。这也是 200 亿参数能在手机上跑起来的另一半原因。 ## 评测数字 苹果用人工评分给出了一组对比,挑几个有代表性的: - AFM 3 Core(端侧文本):在 45.6% 的提示上被偏好,上一代是 23.3%。 - AFM 3 Cloud(云端文本):在 64.7% 的提示上被偏好,对比 2025 年的服务器模型只有 8.7%,差出一整个代际。 - 语音(5 分制 MOS 评分):AFM 3 Core Advanced 拿到 4.15,现役系统 3.87;在对话场景下差距更大,4.24 对 3.82。苹果特别提到,MOS 评分涨 0.1 用户就能明显感知,0.28 和 0.42 的差是实打实的。 - 听写:整体质量上 AFM 3 Core Advanced 被偏好 44.7%,旧听写系统 17.6%。 需要说明的是,这些都是苹果自己的人工评测,不是第三方公开基准。苹果预告今年夏天稍晚会出技术报告,含更新的评测和基准,到时候才好横向比。 ## 写在最后 苹果这次确实把 Siri 该有的样子端出来了:能对话、有世界知识、有独立 App,第一次正面站到了 ChatGPT 和 Gemini 对面(哪怕这身本事有一半是 Gemini 教出来的)。 虽然还是被各种吐槽说Siri AI基本还是相当于去年的 ChatGPT 而已,甚至还不如豆包… 但是从这次底层模型来看,起码基础牢固了,苹果并没有直接去用Google的模型来全盘替代,还是坚持走自己的路线。 延续了苹果一贯的稳扎稳定(挤牙膏)的作风… 基本盘还是很稳的… 所以这依旧是很苹果的一次更新:不抢第一,慢,被骂挤牙膏,但每步都踩在自己能长期攥住的地方。 短期看,Siri 还得被拉去跟 ChatGPT、豆包比嘴皮子,未必讨好;长期看,基本盘反倒是这场牌局里最稳的几家之一。 官方介绍:https://machinelearning.apple.com/research/introducing-third-generation-of-apple-foundation-models
译苹果在WWDC 2026发布全新Siri AI,由第三代Apple Foundation Models(AFM 3)驱动,共五个模型:端侧AFM 3 Core(30亿)和AFM 3 Core Advanced(200亿MoE,每次激活10-40亿);服务器AFM 3 Cloud、ADM 3 Cloud(图像)、AFM 3 Cloud Pro(Agent/推理)。核心创新将200亿参数模型塞入手机:权重存闪存,自研Instruction-Following Pruning技术按Prompt路由专家而非逐Token,大幅降低搬运次数。最强算力依赖Google和NVIDIA。
🚀Introducing UniRL, an RL infra for unified multimodal models. Together with two new RL algorithms: DRPO and Flow-DPPO. One RL loop across diffusion/flow matching models, LLMs/VLMs, and unified multimodal models👇 Code: http://github.com/Tencent-Hunyuan/UniRL (yes — U(you)-ni-(need) RL 😉) 1、Most RL stacks are built for one modality. UniRL applies a single post-training loop — generate → score → advantage → update → sync — across model families. Model and algorithm are two independent axes, so your coverage is the model × algorithm product, not a fixed recipe menu. 2、One loop, every modality: text→image, text/image→video, vision-language, text-only LLM and VLM, the LLM→diffusion prompt-enhancer, and unified autoregressive+diffusion generation (Hunyuan-Image 3 and Bagel) — a model class no single-purpose RL repo can even express. 3、Built to scale: pluggable rollout engines (train-side / SGLang / vLLM-Omni) behind one typed contract, FSDP2 sharding, and three deployment modes from a single config knob. 4、Two team-original algorithms headline the release: FlowDPPO: Policy optimization for flow/diffusion models with trust-region masks based on exact divergence (See our paper: Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models https://github.com/Tencent-Hunyuan/UniRL/blob/main/FlowDPPO/HY_FlowDPPO.pdf) DRPO: LLM RL with a smooth, advantage-weighted quadratic regularizer (See our paper: Rethinking the Divergence Regularization in LLM RL [https://arxiv.org/abs/2606.09821])
译腾讯混元推出UniRL,一个支持统一多模态模型的强化学习基础设施,并发布两个新算法DRPO和Flow-DPPO。UniRL通过单个后训练循环(生成→评分→优势→更新→同步)覆盖扩散/流匹配模型、LLM/VLM及统一多模态模型(如Hunyuan-Image 3和Bagel)。模型与算法作为独立轴,可实现模型×算法的组合覆盖。框架支持可插拔rollout引擎(训练侧/SGLang/vLLM-Omni)、FSDP2分片和三种部署模式。FlowDPPO针对流/扩散模型引入基于精确散度的信任域策略优化;DRPO为LLM RL提供平滑的优势加权二次正则化方法。代码已开源。
Playing codex like an orchestra. One /goal at a time.
译像指挥管弦乐队一样使用 Codex。一次一个 /goal。
Do you use codex /goal occasionally or as your main way to get things done?
译你是偶尔使用 codex /goal,还是把它作为完成工作的主要方式?
卧槽!我还是太草率了! 前有饺子馆的Skills,今有瑞幸咖啡的CLI/Skills/MCP 服务一应俱全啊! 程序员的浪漫我是不懂啊,下个单都要搞这些有的没得? 自己给我付钱就行了,我负责免费喝。 安装地址:https://open.lkcoffee.com
译瑞幸咖啡(Luckin Coffee)近日开放CLI、Skills和MCP服务,用户可通过安装地址(open.lkcoffee.com)体验。此前“饺子馆的Skills”已引发关注,瑞幸紧随其后提供一整套开发者工具,支持命令行下单等操作。目前具体功能细节尚未完全披露。
把自己三年来的 X 运营增长做了复盘,做了线下分享。 如何从100做到11万关注,基于全量 X 帖子,用 Codex 做的数据分析。 有些结论,甚至自己都没有意识到。 果然分享才是最好的学习,完整的PPT见评论区。
译运营者 Vista 复盘自己三年间 X 账号从 100 关注增长至 11 万的全过程。基于全量 X 帖子,使用 Codex 进行数据分析,得出一些甚至自己都未意识到的结论。分享被视为最好的学习方式,完整 PPT 置于评论区。
已经入手了,嘿嘿。 很高兴和大佬们做朋友,先建联。 我还顺便做了个海报😄
译@vista8 在 X 上推荐两位好友的新书:宝玉老师(@dotey)和王树义老师(@wshuyi)的新书已在京东发售。Berry Xia 表示已入手,并制作海报,称很高兴与两位 AI 圈大佬建联交友。
再次来到这个书店咖啡馆,发现当今的大学生的高效学习的秘诀! 都在看“豆包高效学习”,果然AI Native 这一代和我们老登不一样啊……
译Berry Xia在书店咖啡馆观察到,约80%的大学生使用苹果电脑或iPad,其中一半人正在用AI工具学习或工作,少数人使用ChatGPT纯聊天模式,但无人使用Claude或Codex等更专业的AI工具。他指出“豆包高效学习”成为热门,但整体AI应用仍处于早期阶段。
Anyone writing nested loops yet?
译每月提醒:你不应再手动提示编码智能体了,而应设计循环来驱动它们。有人已经在写嵌套循环了吗?
设计一个真正的系统其实里面的工程太多了,每一环不可或缺,比如提示词工程、上下文工程,记忆模块、包括后面的skills 等等其实都无一例无的都成一个系统,都是环环相扣的。 这个Loop Engineering 讲的很清晰了!
译设计真正的AI系统涉及大量工程细节,提示词工程、上下文工程、记忆模块、skills等环节缺一不可,彼此环环相扣形成了一个完整系统。Berry Xia引用了一篇关于Loop Engineering的清晰阐述,强调这些组件的系统性整合才是关键。
http://x.com/i/article/2064208729172746240 # 帮大家总结了一下凌晨的苹果WWDC26。 就在凌晨,苹果的WWDC 2026结束了。 这是Tim Cook作为CEO最后一次站在WWDC的舞台上了,9月1号,他就会把位置交给硬件工程高级副总裁John Ternus,所以今年这场,多少带了点告别的意思。 但发布会本身,坦率的讲,还是那个苹果。 不惊不喜,稳稳当当。 整场下来最大的主题就一个,还是AI,比如跟Gemini的合作终于落地了,比如Siri终于有了个AI的后缀,比如各种IOS的APP,也都往AI化的方向一步步集成。 不过苹果还是那个苹果,动作慢的可怜,并且最难崩的依然是国区几乎都不支持。 原话是: 不过,这些功能的更新还是值得一看的,以及国内到底苹果会跟谁合作,还是一个意思的话题。 我也通宵给大家蹲完,然后整理完了。 希望对大家有用。 一. Apple Intelligence新架构 先说底层,因为后面所有AI相关的东西都建立在这套新架构上。 1. 跟Google Gemini的深度合作 这次苹果也终于官宣了。 Apple Foundation Models的新一代是跟Google合作,基于Gemini家族一起来做的,搞了5个模型,然后苹果把这些模型适配到了端侧运行和Private Cloud Compute服务器上运行。 Private Cloud Compute就是苹果专门为AI搭建的一套云计算基础设施,跑在苹果自研芯片上,用的是一个从iOS裁剪出来的专用操作系统。核心承诺是,你的数据端到端加密,只用于处理你的请求,处理完立刻删除,不存储、不留痕,连苹果自己的工程师也看不到你的数据。 再细节的参数啥的就没说了,反正就是苹果承认了自己在大模型基础能力上追不上第一梯队,选择花钱买他们认为对普通消费者来说最好的底座,然后在上面做自己擅长的系统集成和体验设计。 策略上说得通,面子上。。。 面子有啥用你说对吧。 2. 双端侧模型 苹果今年的端侧模型分了两档。所有支持Apple Intelligence的设备都有一个基础版端侧模型。但在能力强一点的的Apple设备上,比如iPhone 17 Pro、iPhone 17 Pro Max、iPhone Air、M4 及以上且至少 12GB 统一内存的 iPad、M3 及以上且至少 12GB 统一内存的 Mac,苹果额外部署了一个更强的第二版。这两个端侧模型分别是: AFM 3 Core,一个3B的小模型。AFM 3 Core Advanced,20B的MoE模型。这个更强的模型多出来的核心能力是语音和更高精度的听写等功能,它能听懂语音也能生成语音。所以像Siri更有表现力的新声音、更精准的全系统听写这些功能,都只有跑得动第二版模型的设备才能用。 3. 系统架构 有了模型之后,对模型的调度还是需要一些设计的。苹果做了一个叫系统编排器(System Orchestrator)的东西,它是整个Apple Intelligence的调度中心,负责协调四大系统级能。 上下文理解。你设备上所有的内容,照片、邮件、备忘录、消息,都通过Spotlight的语义索引被组织起来了。 广泛世界知识。比如你问世界杯赛程是什么,系统编排器会让Apple Intelligence联网去搜索,然后通过Private Cloud Compute来生成回答。 App Actions。这是让Siri能动手做事的关键。系统编排器知道你手机上每个App能做什么(通过App Intents框架),当你说发消息给某某的时候,它会调用Messages来执行。理论上,任何适配了App Intents的第三方App都能被Siri调用。 屏幕感知。系统编排器能看到你当前屏幕上显示的内容。比如你正在Safari里看一篇文章,这时候问Siri一个问题,它能结合你正在看的内容来给出更相关的回答。 这四个能力组合在一起,就是苹果所说的以你为中心的AI,也是硬件跟AI结合的一个比较完整的方案。 4. 隐私 他们的原话是: We believe privacy in AI is non-negotiable. 我们认为,AI中的隐私是不可谈判的。 苹果的态度是,很多AI厂商在嘴上说隐私,但默认情况下都在保留你的个人交互数据,把保护隐私的责任推给用户。 苹果的方案就是前面说的端侧处理+Private Cloud Compute,数据不存储、不可访问,只用于执行请求,外部专家可以随时审计。 二. Siri AI 今天真正的重头戏,也是苹果最大的发布了。 给新版Siri正式命名为Siri AI。 1. 核心能力升级 Siri AI基于整套新的Apple Intelligence架构,集成了上面提到的很多的新能力。 苹果的说法是,Siri现在是一个“有了质的飞跃”的助手。 然后基于这次的新Siri AI,他们做了一些演示。 演示一,问答+提醒+音乐。 问“旧金山的某位歌手演唱会什么时候”→ Siri给出答案(7月26号)→ 追问怎么买票 → Siri说要抽签 → “抽签开始的时候提醒我”→ 设好提醒 → “放一首她的新单曲” 演示二,屏幕感知+个人上下文+路线规划 看到一张照片问“这是哪”→ Siri识别出圣克鲁兹海岸的天然桥州立海滩 → “我朋友Jeff最近搬到附近了,他新家在哪”→ Siri从消息记录里找到Jeff发过的地址 → “给我导航到那个拱门,中间停一下Jeff家”→ Siri规划路线 演示三,照片筛选+共享 “给我看上周在沙斯塔山的照片”→ Siri搜索照片 → “只把有Bryce、Madison和Quinn的照片加到家庭共享相册”→ 完成 演示四,对话式体验 查世界杯开幕周末赛程 → “我想为巴西vs摩洛哥那场办个观赛派对,给我两个国家的经典菜”→ Siri给出菜品(还带图片)→ “Maria最近提到的那个甜点是什么”→ Siri搜索消息找到椰子饼干→ “把这些整合成一个菜单”→ Siri生成创意菜单 → “发消息给Gold Chasers群组问他们要不要来,附上菜单”→ 发送 演示五,Mac上的对话式Siri Siri也集成进了Spotlight。 在Spotlight里输入问题就能启动跟Siri的对话,窗口可以拖拽和调整大小。 演示了让Siri分析多个不同格式的文件比较三个棚子的报价,然后结合儿子之前发的消息里提到的电路问题来做推荐,最后让Siri直接起草一封邮件给选中的供应商。 大概就是这样。 我的感受是,怎么说呢。 2026年了,Siri AI的演示核心还是问答、搜索个人信息、发消息、设提醒这些事。对话式体验确实比以前强了不少,能连续聊、能带上下文了,但说实话,这些demo跟现在的ChatGPT、Claude比,谈不上什么惊喜。 最关键的是,没有看到真正的Agent能力。也没有看到Siri自主规划、自主执行多步任务、自主调用多个App完成一个复杂目标的场景。 苹果说了App Actions,但演示里最复杂的也就是搜索照片→筛选→加到共享相册这种程度。 这块确实是有一点失望。 2. 新语音体验 在支持第二个强端侧模型的设备上,Siri有了全新的语音。 更有表现力,语调变化更自然。 苹果还让你可以自定义Siri的语音风格,调表现力和语速,更亲切更好玩一点。 3. 全系统听写升级 同样需要第二档端侧模型,新的听写引擎在拼写、标点和大小写上都更精准了。 因为它是内建在系统键盘里的,所以不管你在哪个App里,只要调出键盘就能用。发布会上提到的场景是“在地铁上用语音发消息”和“边想边说地用日记App记录”,都是日常会用到的,这个我觉得还是比较刚需的,好评。 4. 视觉智能 iPhone上,Visual Intelligence(视觉智能)集成进了相机App,新增了一个Siri模式。 按快门键让Siri看到你看到的东西,然后给你有用的回应,可以下拉查看详细信息、问后续问题。 5. 写作工具 + Siri集成 写作工具现在更深度地跟Siri结合了,你可以在任何能打字的地方用自然语言描述让Siri从头生成文本。 在邮件和信息里,Siri还能根据你跟特定联系人的沟通风格来调整语气。 另外,Apple Intelligence现在全系统自动校对了,你在任何App里打字,它都会自动检查拼写和语法,不用你手动触发,大多数第三方App也支持。 6. Siri独立App + 跨平台 苹果给Siri做了一个独立的App,这是第一次。 现在有了独立App之后,你所有跟Siri的对话都会被保存在这里,可以随时回看。 最重要的是跨平台同步,你在iPhone上跟Siri聊了一个话题,打开iPad上的Siri App可以看到这段对话,继续往下聊,在Mac上也一样。 对话历史通过iCloud加密同步,苹果看不到你的对话内容。 Siri AI还扩展到了watchOS(手腕上直接问)和visionOS(3D可视化的Siri,放在你空间里的任何位置,看着它说话就行,不用说「hey Siri」)。 然后新版的Siri,目前只支持英语,后续会扩展其他的语言,欧盟和中国都目前不可用,可用时间未知。 三. APP智能化 反而是我今天觉得比较惊喜的部分。 让AI渗透进所有人的生活中,确实还是得从老的APP改造入口,是最能进日常场景的。 1. Safari 三个新功能。 智能标签页整理,Safari用Apple Intelligence分析你打开的每个页面,自动按主题分组。你浏览的时候,相关新标签页会自动归到对应主题下,可以一键关掉整个主题或者存为标签页组。 Notify Me,你可以用自然语言告诉Safari你在等什么变化(比如某个商品补货、某个报名开放),然后关掉那个标签页,Safari会自动监控,变化发生时推送通知。 这个功能太实用了,不知道执行效果怎么样,但思路是对的。 Describe an Extension,用自然语言描述你想要什么,Safari帮你生成一个自定义扩展来调整网页内容,比如在工具栏加一个按钮来保存和评分你试过的食谱。 还有一条,Safari所有智能功能都不追踪你的浏览数据,不跟任何人分享,包括苹果自己,然后稍微内涵了一下友商。。。 “不像某些浏览器”。 2. 密码App 密码App现在已经能提醒你弱密码和泄露密码了。 新功能是,它现在能自动帮你更新密码,背后是Apple Intelligence和Safari配合,自动导航到对应网站、登录、改密码。 一个“agentic”的动作,难得见到苹果用这个词。。。 3. 短信 Messages现在能理解对话上下文,提供一键建议。 比如有人提到某个事,Messages会建议你创建提醒或备忘录,有人问你要照片,Messages帮你根据关键词、地点和人名搜索最合适的照片。 4. 邮件 邮件也有了更智能的上下文建议,让你快速用喜欢的App(包括第三方App)采取行动。 5. 日历 可以用自然语言添加事件了。 你打字的时候,日历会自动识别联系人、地点,填上标题。 编辑也更智能,比如把“每周”改成“每两周”,日历自动调频率。 6. 电话 苹果把这个电话的功能叫Call Context。 这个是我的刚需。 打电话给商家的时候,电话App可以主动从你其他App里找相关信息。比如你打电话给航空公司改机票,它能自动从邮件里找到你的确认码。 而且全部端侧运行,看的是你打给谁。 但是咱就是说,新AI上国内的时候,咱能不能把那些恶心的营销电话也都用AI处理一下。。。 7. Home 家庭App可以支持用Apple Intelligence理解摄像头通知,把相关的通知合并成一个持续更新的活动通知。 还能分析录像片段,生成描述,支持用自然语言搜索录像内容(比如搜快递),支持4K分辨率回放。 8. 快捷指令 这个更新也挺好的,类似飞书的AI生成工作流。 快捷指令现在支持用自然语言描述你想要的自动化,Apple Intelligence帮你组装所有步骤。 演示里的例子是,“当我离开公司时,发消息告诉佩德罗我在路上,附上到家的预计时间”→ 快捷指令自动创建了一个自动化,检测离开公司地址 → 用地图计算到家时间 → 用信息App发送。 还能追加描述来调整,比如自动播放最爱的播客。 四. 创意与影像 这块苹果也用AI雕了一些有意思的花。 1. Image Playground大升级 Image Playground这次大幅升级了一下。 核心变化,支持写实风格了,之前只能生成那种卡通/插画风格,现在用Private Cloud Compute上的跟Gemini搞的新生成模型,可以做高质量的各种风格图片。 毕竟你都用Gemini了,生图再不迭代一下,那就真说不过去了。 你可以用照片库里的人来生成图片,用自然语言描述修改,用触摸手势圈选对象来移动/缩放/修改。 还能选择不同的画幅,生成联系人海报和锁屏壁纸。 同时,给开发者也开放了Image Playground API。 2. Photos AI编辑三件套 Cleanup升级,去除干扰物的效果更好了,复杂场景下的填充更真实。 Extend,扩展图片边界,给主体更多空间,或者调整画幅时不用裁掉重要内容。 Spatial Reframing(空间重构),这个是今年Photos里最酷的新功能。你可以在拍完之后重新调整照片的构图,就像你在拍照那个瞬间移动了相机一样。 它用的是端侧的空间模型做实时预览,然后用Private Cloud Compute上的生成模型来填充透视变化产生的新区域。只生成空白区域的内容,原始照片的部分保持不变。 演示效果确实不错,而且这个功能基于Apple Vision Pro积累的空间理解技术,对老照片和其他相机拍的照片也能用。 五. 开发者工具 1. Xcode 苹果说Xcode是做agentic coding最好的地方。。。 我一直不知道该从哪开始吐槽起。。。 反正这次也做了一些更新,也基本围绕的着AI。 比如它现在能一键把你的整个App本地化成其他语言,能跟模拟器里的虚拟设备直接交互(以前只能看代码),还支持自定义skills来扩展助手的能力。 然后呢Xcode的代码助手现在可以选择不同的AI模型了,包括Google的Gemini。。。 你还可以把它跟Figma和GitHub这样的外部工具连起来,让代码助手能够参考设计稿和代码仓库。测试方面,苹果推出了全新的Device Hub,把所有模拟设备和真实设备统一到一个界面里。 你可以在里面模拟多点触控操作,一键切换App的深色/浅色模式,还能动态调整App的窗口大小来测试不同屏幕尺寸下的表现。 2. Foundation Models Framework 开发者可以在App里用Apple的端侧模型,今年新增了图像输入(之前只有文本),支持自定义Skills扩展模型能力,还能用同一套Swift API调用服务器端的模型。 3. Core AI Framework 全新框架,可以在所有苹果平台上用Apple Silicon的全部算力来本地运行其他模型。这个对开发者来说可能是最实际的,意味着你可以把自己的模型或者第三方模型直接跑在设备上。 六. 体验升级 就是一些偏系统偏设计的了,跟AI关系不大了。 1. Liquid Glass优化 去年WWDC最爆的就是Liquid Glass这套全新设计语言。 好看是真好看,但争议也不小。 苹果今年也说去年太激进了,所以在IOS27上,底层优化了Liquid Glass的模糊算法,对复杂背景的弥散效果好多了。 也加了一个透明度滑块,现在,你可以自己调Liquid Glass的透明度。 macOS上还做了几个调整,工具栏更统一了,侧边栏延伸到窗口边缘,侧边栏图标恢复了彩色,所有窗口统一了更紧凑的圆角,App图标也迭代了一版,在图标内部加了多层Liquid Glass折射效果。 2. 性能提升 常规操作,比如iPhone和iPad上App启动速度快了30%,新拍的照片在图库里出现的速度快了70%,隔空投送传文件速度快了80%,iPad接外部硬盘浏览和传输文件速度快了5倍。 3. 搜索基础设施重建 苹果重建了聚焦搜索、照片和邮件背后的搜索索引,让它更稳定、更全面。 新内容几乎实时入索引,邮件搜索还加了全新的排名系统,置顶结果更准了。 4. 其他小更新 照片,iCloud共享相册终于支持Android和Windows用户加入了,还支持全分辨率共享。 AirPods,支持自定义EQ了。 Apple Vision Pro,全景照片可以变成有深度的空间场景。 地图,Flyover大幅升级,航拍影像+视觉智能模型,建筑细节和树木形态都清晰得多。 网络切换,iPhone更智能地判断什么时候该从Wi-Fi切回蜂窝(终于不用手动去控制中心关Wi-Fi了)。 信息App,低带宽环境下发大文件不会卡住对话了,会显示发送进度。 无障碍,苹果官网上列了不少Apple Intelligence在无障碍方面的集成。 VoiceOver现在能更丰富地描述周围环境和屏幕内容,Magnifier可以放大后直接问Siri,Voice Control更灵活了,可以用自然语言跟App交互。 这块发布会上没提,但确实是AI落地到实际场景里的好例子。 写在最后 今天WWDC算是平稳结束了。 这也是Cook最后主持的一届WWDC了。 苹果,这个伟大的企业,终于要交接到了下一棒人手中去。 最后,我想用我特别特别喜欢的乔布斯的一段词结尾: "向那些疯狂的家伙们致敬。 他们特立独行。 他们桀骜不驯。 他们惹事生非。 他们格格不入。 他们用与众不同的眼光看待事物。 他们不喜欢墨守成规。 他们也不安于现状。 你可以认同他们,反对他们, 颂扬或是诋毁他们。 但唯独不能漠视他们。 因为他们改变了寻常事物。 他们推动人类向前迈进。 或许他们是别人眼里的疯子, 但他们却是我们眼中的天才。 因为只有那些疯狂到以为自己能够改变世界的人, 才能真正改变世界。
译苹果WWDC 2026落幕,核心仍是AI。Apple Intelligence新架构:与Google Gemini合作开发5个模型;端侧分AFM 3 Core(3B)和AFM 3 Core Advanced(20B MoE)。新Siri正式命名Siri AI,基于系统编排器融合上下文理解、App Actions、屏幕感知等能力,支持连续对话、跨平台同步及独立App,但未展示自主Agent能力。视觉智能、全系统听写、写作工具等同步更新。目前仅支持英语,国区不可用,可用时间未知。
http://x.com/i/article/2057694226981257216 # Implications of Large-Scale Test-Time Compute tl;dr: As LLMs become more capable, benchmark performance is increasingly a function of test-time compute. In fact, we likely don't know what the capability ceiling is for modern LLMs because it's too expensive to measure. We should change LLM evaluations to account for that by measuring performance vs tokens, cost, or time. The day GPT-5.5 was released, the initial reaction was skepticism. The benchmark numbers were better, but not by much: However, within hours, once people had time to play around with the model, it became clear that it was a step-change compared to GPT-5.4. The classic "benchmark grid" clearly wasn't telling the full story. Why is that? The reason becomes clearer when we compare GPT-5.5 to 5.4 with tokens on the x-axis: GPT-5.5 wasn't being evaluated at the same token budget (or dollar budget) as 5.4. Once we control for test-time compute, 5.5 looks substantially stronger than 5.4. Frequently when I discuss this, people ask why we don't just evaluate with a harness that pushes test-time compute until performance plateaus. The problem is that, empirically, the plateau is very far out. Sometimes we may not observe a plateau at all within practical budgets. Here's @karpathy's autoresearch experiment, where the performance continues to improve even after hundreds of experiments: And here is the @AISecurityInst's cyber eval, where performance for Mythos and GPT-5.5 continue to improve rapidly even after 100M tokens: Notice that for the stronger models the performance improvement over time is stronger. It seems likely that as models become stronger they become more effective at operating over longer horizons. The point of plateau is pushed out, and may even disappear. For this reason, I believe the proper way to evaluate models is with a performance vs test-time compute plot, with either tokens, cost, or wall-clock time on the x-axis. A few benchmarks have already moved in this direction. For example, ARC-AGI measures score vs cost. Another reasonable option is to set an explicit token/time/cost budget and communicate it to the model. That mirrors how humans are evaluated in settings like the SAT or the International Mathematical Olympiad. Each x-axis has tradeoffs. Tokens are not directly comparable across models because tokenizers, speeds, and per-token costs differ. Dollars depend on implementation details such as batching and hardware utilization, so cost and latency can trade off. Finally, wall-clock time is an imperfect measurement because multi-agent techniques like best-of-N can scale test-time compute without significantly increasing latency. Still, any of these curves is more informative than a single scalar. ## Implications for AI Preparedness Before a frontier model is released, labs typically evaluate cyber, bio, and other misuse risks. If a model crosses a capability threshold, then release may be delayed until mitigations are in place. But if capability is a function of inference compute, then at what inference budget should safety evaluations be run? In practice, most safety evaluations for model releases do not consider the amount of inference that went into the model. The release of Gemini 3 Deep Think, and the resulting outcry, is a useful example. When Gemini 3 Deep Think was released, its benchmark scores were much higher than previous models. However, no model card evaluating its risks was released alongside it. This led to outrage from some in the AI safety community. In my opinion, the criticism of DeepMind's release missed the deeper issue: that AI labs and safety orgs don't consistently account for test-time compute when evaluating models for release. Deep Think appears likely to be a scaffold of other models that do have system cards. Anyone externally could likely reproduce such a scaffold. In other words, it seems likely that the capabilities of Deep Think were available anyway to anyone willing to pay for Deep Think amounts of inference, by scaffolding a bunch of model queries together. Deep Think just makes that more convenient for the casual user. In my opinion, the real outrage should have been that when Gemini 3 and other models were released, their system cards did not measure benchmark performance as a function of test-time compute. In my ideal world, model evaluations would look something like this: A dedicated state actor could apply more than $10 million of inference to a single task. But evaluating a model typically involves thousands if not millions of rollouts, so evaluating at such high compute budgets for every rollout would be impractical. Fortunately, performance seems to scale somewhat predictably with the amount of inference compute applied. For this reason, we could evaluate at relatively low inference budgets and then project (with uncertainty) what capabilities might be at much higher budgets. Long-horizon evaluations can introduce complexities that may not always be addressed with extrapolation from smaller budgets. For example, it may turn out that the only way to confidently evaluate misalignment in an AI agent at a 1-year horizon is to actually run the agent for a year. AI labs may soon find themselves in a strange position where the operating horizon of their agents exceeds the development cycle of new models. At that point, it may be impossible to finish evaluations of a model over its maximum operating lifetime ahead of release without delaying the release of the model. ## Specific Recommendations Concretely, I recommend the following to the AI community: 1. AI labs should publish benchmark performance of newly released models with tokens, cost, or time on an x-axis. At a minimum, labs should report the inference budget used to achieve a scalar benchmark result. 1. Benchmarks should track inference usage on leaderboards, or have an explicit token/cost/time budget. Many benchmarks have already shifted in this direction, but it is not yet standard practice. 1. Preparedness Frameworks and Responsible Scaling Policies should explicitly account for inference compute when determining whether a model crosses a safety threshold. Additionally, evaluations should estimate capabilities at multiple inference budgets, including projections from smaller-budget runs with stated uncertainty. If you've followed me for a while, this whole article might seem like nothing new. We've known since the o1 announcement in September 2024 that the performance of reasoning models scales with more inference compute. And yet, nearly two years later, frontier AI labs still commonly report single-number benchmark results for their new model releases; AI safety orgs are still surprised when a scaffold achieves better performance by using 100x the inference budget; and Preparedness Frameworks and RSPs still often ignore inference compute usage when determining whether a model reaches a critical capability level. The most recent models are able to leverage test-time compute better than ever, pushing the performance plateau even farther out. If this trend continues, which I fully expect, benchmark scores that don’t account for inference compute usage will become less informative each model release cycle. For this reason, it is time to treat inference budget as a first-class part of both capability measurement and safety policy.
译Noam Brown指出,LLM基准性能日益依赖测试时计算,当前标准评估因忽略推理预算而低估模型能力。以GPT-5.5与GPT-5.4为例:控制测试时计算后,5.5表现远超5.4。Karpathy的自动化实验和AISecurityInst的网络评估均显示,即使消耗超1亿token,强模型性能仍持续提升。Brown建议改用性能-测试时计算曲线评估,安全评估也应计入推理预算,如Gemini 3 Deep Think发布时未配套风险说明,关键在于业界未统一考虑测试时计算。
如果你遇到过这个问题,可以试试看! 刚刚使用 Claude 去登录账号,因为当时创建账号时使用的是 Apple ID 虚拟邮箱(一长串的邮箱),遇到了一些登录问题。 在手机端是可以正常显示订阅并使用的,但在电脑端登录时,无法直接选择苹果的虚拟邮箱进行登录。 经过“群友小耳朵 ”的分享,解决方法如下: 1. 在设置里把那个虚拟邮箱地址直接复制下来。 2. 在电脑端选择“使用邮件登录”,然后把这个邮箱地址粘贴进去。注意这个邮箱是根据你当时 Apple ID 的设置创建的,不能直接用原始邮箱。 3. 复制进去后,系统会向你当时的 Apple ID 邮箱发送一个登录链接(不是验证码)。 4. 在电脑上打开那个链接进行登录,就可以正常使用了。 今天把这个问题分享出来,希望对大家有用😄 如果你遇到和我一样的问题,可以试试,并且也说明可以使用这个方法创建claude账号😄
译Claude 用户 Berry Xia 分享了一则登录技巧:如果用 Apple ID 虚拟邮箱(一长串随机地址)创建过 Claude 账号,手机端可正常使用,但电脑端无法直接选择该邮箱登录。解决方法:在设置中复制虚拟邮箱地址,在电脑端选择“使用邮件登录”并粘贴该地址,系统会向原始 Apple ID 邮箱发送登录链接,点击链接即可完成登录。该方法也可用于注册 Claude 账号。
港版iPhone 更新iOS27后 还给我降级到最傻逼的Siri版本了 还不如之前呢,还能看看跑马灯 CTMD
译港版iPhone 更新iOS27后 还给我降级到最傻逼的Siri版本了 还不如之前呢,还能看看跑马灯 CTMD
实际上安装了我这个一系列的工具后 还可以让codex或者claude code帮你自动剪切视频 你看我让它翻译WWDC2026的视频 并按照视频内容进行片段裁切 它可以自动分析精准将视频裁切成多个独立片段
译安装一系列工具后,可让 Codex 或 Claude Code 自动剪切视频。例如,让 AI 翻译 WWDC2026 视频,并根据视频内容自动分析、精准裁切成多个独立片段,实现自动化视频处理。
STEVE JOB COMES BACK ALIVE TO ANNOUNCE HIS GREATEST PRODUCT YET
译史蒂夫·乔布斯复活,宣布他有史以来最伟大的产品。
马斯克新的大饼来了 这个饼,格外的大😂 涉及到行星移民、太空算力中心、AI卫星、太空能源... 让人类文明往上跳一个能量等级 用Starlink 现成的太阳能阵列造 AI 卫星,150千瓦峰值功率 / 120千瓦持续算力, 完全展开时翼展70米🥲 在月球本地造光伏和散热板,用电磁炮把 AI 卫星直接打进深空🤪 Terafab 太空算力工厂将占地约 1 亿平方英尺,是特斯拉 Giga Texas 工厂的 10 倍大小。 • Terafab 算力供应大约为:1TW/年 • 而当前美国年消耗量:0.5TW 首颗AI卫星: • 150千瓦峰值功率 / 120千瓦持续计算功率 • 采用SpaceX自主研发的太阳能技术 • 专为高性能AI工作负载设计的集中式AI计算载荷 • 完全展开时翼展70米 • 110平方米可展开液体散热器,用于在太空中移除废热 • 配备冗余冷却回路,集成微流星体防护 • 设计用于星舰发射,实现大规模太空计算所需的大量轨道运载能力 • 使用激光链路,同时避免了Starlink卫星所需的大多数复杂通信系统 视频完整文字内容: 开场:又是典型的一年 大家好,欢迎。今天把埃隆和伊恩,还有我们 Starlink 团队的人请来聊聊近况。 对 SpaceX 来说,这又是典型的一年:发射了一台全新的飞行器,收购了 xAI(现在归到 SpaceX 搞 AI),还宣布要建一座太瓦级芯片厂(terafab)。所以是啊,从来没有一刻闲着——典型的一年。 今天想把这些点串起来,看看它们怎么一起推动「让生命成为跨行星物种」,怎么开始往卡尔达肖夫等级上爬,顺便秀一点很酷的 AI 卫星。 卡尔达肖夫等级是什么 你怎么判断一个文明发展到了什么程度?这是最客观的衡量标准——任何外星物种来拜访我们,都会用它来给我们这个文明打分。而最客观的方式之一,就是看这个文明能驾驭多少能量。 有位俄国物理学家叫卡尔达肖夫,就想过这件事,我觉得他这个刻画方式很好: 一型文明:你能驾驭一颗行星上可用的能量。 二型文明:你能驾驭一颗恒星的能量。 三型文明:你能驾驭整个星系的能量。 这些都是非常客观、可测量的数字。 而现在,我们在卡尔达肖夫一型这个尺度上都低得可怜。如果问「我们驾驭了地球能量的多大比例」,那是个极其极其小的数字。至于恒星的能量,我们几乎一点都没碰到。 太阳到底有多大 太阳真的是个庞然大物,大到很难用语言形容。给你一个尺度感:太阳占了整个太阳系全部质量的约 99.86%。它几乎就是一切。剩下的 0.14% 里,大部分还是木星一颗行星。我们这些还是轻量级——整个地球的质量都落在那个「其它杂项」的小类别里。跟太阳比,地球就是一粒微尘。 从一型跳到二型,是一个巨大的难度台阶。三型我们甚至还不知道怎么搞——不过会到那一步的,AI 会搞定。 那太阳的能量有多少?落在地球横截面上的太阳能,大约只是太阳总输出功率的二十亿分之一。而这里面绝大部分我们还用不上——因为地球 70% 是水。严格说,我们这颗星球该叫「水球」才对。外星文明来了大概会纳闷:明明大部分是水,他们为啥管它叫「地球」?我们就是太阳系里那个名不副实、其实并不绿的「格陵兰」。 剩下 30% 是陆地,可里面一大堆是南极、西伯利亚、加拿大极北那种地方,人本来就不爱住,而且两极拿不到多少太阳能。所以真正能用来发电的陆地面积相当小。 想往上爬,就必须去太空 要想沿着卡尔达肖夫等级往上爬,或者说要驾驭太阳能量里任何有意义的比例,你就必须去太空。 打个比方:哪怕只想拿到太阳输出功率的百万分之一,你也得把人类驾驭的能量提高远不止一百万倍——因为我们现在用的能量,还不到太阳输出的一万亿分之一(一万亿 = 一百万乘一百万)。所以在卡尔达肖夫二型尺度上,我们基本上等于不存在,根本「上不了榜」。 我们在拿「百万分之一太阳功率」开玩笑——管它叫「一个 Microsoft」。能达到「一个 Microsoft」,相对我们现在的位置都是史诗级的成就,是个值得追求的目标。 有意思的是,这个目标同时是「相对现状极其大胆」和「作为太阳能量的占比又一点都不大胆」——百万分之一而已。要是哪个文明真能拿到太阳能量的 1%,那已经是个牛逼到家的文明了,会比我们强大得多。 但真要往那走,我们也不会傻乎乎地往太空扔一堆太阳能板去硬接阳光。得有真实需求,你上去是要干点有意义的事。在人类历史上到现在,其实一直没有这个需求——那是什么变了,让我们觉得现在是时候去争取那一两个百分点了? 为什么是现在:把数据中心送上天 要在卡尔达肖夫等级上有所进展,我们需要发射卫星绕地球运行、捕获太阳能。这样就不用在地面建巨型电厂、还要处理散热——而散热这件事,在太空里其实比在地球上容易得多,你直接往真空辐射就行。 我们想做的,是把卡尔达肖夫等级爬到一个「拿得出手的文明」的水平。这样万一哪天外星人终于愿意跟我们说话,我们好歹用上了「还算体面」的一部分太阳能量,而不是现在这种「彻底寒酸」的样子。 要把数据中心送上太空,有几个传统上几乎让这件事不可能的限制因素。要规模化,你需要三样东西: 巨大的入轨运力——这正是 Starship 能给我们的。最终你得往轨道乃至更远处运送数百万吨。 与之匹配的能量——如果你想往太空送 100 吉瓦乃至最终一太瓦,你迟早需要一太瓦的太阳能,外加配套散热。 海量芯片——最终需要一太瓦的 AI 芯片。 所以三样东西:入轨运力、大量太阳能(当然还有散热板),以及大量芯片。下面一项一项过。 Starship 与「可复用」这个根本突破 入轨运力靠 Starship。我们刚完成 V3 的首飞,太震撼了——这一刻等了很久。 Starship 会真正给航天带来革命。它是第一款能做到「完全且快速可复用」的火箭设计。可复用性,是让生命成为跨行星物种、以及攀登卡尔达肖夫等级所必需的根本突破。没有可复用的飞行器,你根本爬不上卡尔达肖夫等级,也没法把生命延伸到月球、火星和太阳系其余地方——成本会高到无法承受。除非能反复飞,否则你造不出足够多的火箭。 就像其它任何交通方式一样:要是每次坐完飞机就得把飞机扔掉,飞行会贵到没人坐,大家只能改开车。汽车、飞机、轮船、自行车,显然都是可复用的,否则根本撑不起一套交通系统。 火箭要做到可复用难得多,因为地球有很深的重力井和厚厚的大气层,这让火箭复用「勉强才有可能」。此前有过很多次造完全可复用火箭的尝试,大多半途而废,因为他们觉得自己成不了。要做到完全复用,每个环节都得做到极致:发动机、结构、航电、推进剂的选择。你得为减重走极端——所以我们让发射塔去「夹住」火箭,而不是装又重又笨的着陆腿,火箭直接被塔接住。 我们还没实现完全复用,但预计能做到,希望今年晚些时候在 Starship 上实现。再往前一步,是做到「快速复用」:火箭落下、被塔接住、放回发射台,不用任何翻修或繁琐检查就能再飞一次,像飞机一样。这极其困难,而这是史上头一回有一款火箭能做到这件事——这正是 Starship 之所以意义深远的地方。 它同时还是有史以来最大的飞行物、最重的飞行物、任何种类里最强劲的移动物体。Starship V3 的推力是土星五号登月火箭的两倍多;到 V4,差不多会是土星五号的三倍。而且我们预计,将来 Starship 能做到一小时飞不止一次。 顺便说个有意思的事:第 12 次飞行,是 SpaceX 迄今运过的最重载荷——而这还只是 V3 能力的一小部分。 入轨运力会变成什么量级 一旦我们能又快又多地飞,量级会比今天大好几个数量级。就算只算 Falcon 9 和 Falcon Heavy,SpaceX 现在就已经承担了全地球送入轨道质量的将近 90%——大概在 85% 到 90% 之间。剩下的大部分由中国发射,世界其它地方(包括美国其余部分)加起来大概只有 5% 到 7%。 有了 Starship,我们要把入轨量从现在每年约 2500 吨,提到每年数百万吨,而且要在相当短的时间内做到。我们觉得大概三年左右就能做到每年一百万吨入轨。Starship 会把「入轨运力」这个限制因素解决掉。 AI 卫星:其实比 Starlink 卫星更简单 接下来是发电和「太空里的数据中心」。很多人一听「太空数据中心」会卡壳——我们当然不是给一栋楼装上发动机飞上天,它长得其实很不一样。 很多人根本不知道数据中心里面长什么样,以为是个「互联网在云里」的神秘地方。有人想象成一堆电线,有人想象成一堆盒子,但说到底就是一组芯片。真正要送上太空的东西,看下来其实相当小。更有挑战的是:怎么给它供电?这正是我们能把 Starlink 现成的太阳能阵列技术用上的地方——用这份经验造一颗卫星,把数据中心的关键部件本身送进太空。 我们喜欢把它还原成「真正的工程问题是什么」:本质上就是把电送进去、再把废热和能量抽出来,扔进太空的真空里。 其实 AI 卫星比 Starlink 卫星简单得多。Starlink 卫星有巨大的相控阵天线、抛物面天线、一大堆激光链路,复杂得多。AI 卫星本质上就是一大片太阳能电池、一块散热板,再加一些激光链路,但没有 Starlink 上那些超复杂的天线。两者比起来,AI 卫星反而更好设计——就是个头大一点。 这颗卫星长什么样 这是我们的 AI 卫星一号(AI one)的草稿版本。 第一步得先做出一个有说服力的东西。我们觉得合适的起点是在 150 千瓦峰值功率这个量级。结合我们在 xAI 上跑负载的经验,我们看到它还能支撑约 120 千瓦的平均算力——峰值和平均是有区别的。所以这是 SpaceX AI 卫星的第一版:150 千瓦峰值功率、120 千瓦持续功率。 给你点尺度感:太阳能阵列按每平方米 250 瓦算,散热板按每平方米约 1400 瓦算。散热板是双面的,两面都在散热,刀刃边朝向太阳。1400 瓦每平方米是个很容易达到的目标,随时间推移,我们觉得太阳能板和散热板大概都能分别做到 250 瓦和 1400 瓦每平方米以上。 这基本就是这颗卫星的样子:一大片太阳能板、散热板,其余一切相比之下都很小。而且这些都是我们已经在 Starlink 星座里实际发射过的东西的演进版。对我来说最酷的一点是:我们用的太阳能技术,本来就要用在 V3 的 Starlink 飞行器上,所以我特别兴奋——直接拿过来,把它做大就行。 我们想传达的一点是:AI 卫星并不需要什么「目前还不存在的魔法」。正如伊恩说的,这里很多技术我们为 Starlink V3 卫星就已经做出来了。跟我们已经在做的事比,这并不是个超难的问题。 卫星上还会有大约一太比特(terabit)量级的激光链路连接能力。150 千瓦峰值功率,大致相当于一台英伟达 GB300 机架的水平:一台 GB300 带 72 颗 GPU,峰值功率大概 140 千瓦,但几乎不可能让它一直跑在峰值;更现实的工作区间是 120 千瓦左右的平均功率,峰值能冲到 150。所以你可以把它想成「太空里的一个算力机架」。 然后你可以把这些算力机架通过激光链路彼此相连,或者直接连到 Starlink 星座。接上 Starlink 之后,Starlink 就能用飞行器上现成的 Ka、Ku 频段天线把数据发回地面,它本身也有连到地面的激光链路。 这个延迟其实并不高。卫星大概在地面以上 600 到 800 公里,而光每毫秒走 300 公里,所以差不多就三毫秒的距离,并不远。别太担心延迟——总有人觉得会有很高的延迟,我说不会,光跑得挺快的。 还有个挺酷的点:散热板本身的尺寸,和 V3 飞行器现成的太阳能阵列差不多大,大概 70 米翼展,相当大了。我们要造很多颗、放上天。你常说「名字里就带着 space(太空)」——上面空间多的是,哪怕你说的是几千颗甚至上百万颗卫星,上面也有大把地方可以挪。太空真的很大,不存在「太空会变拥挤」这回事。卫星相对地球极其微小,凑近看它显得大,可一放到跟地球比的尺度上,卫星小到根本看不见。 我们现在在轨大约有一万颗 Starlink,已经很懂怎么安全地运营这么大规模的星座了——我们是唯一一家有这种量级经验的运营方。正因为有这个底子,我们知道卫星可以排得多密、还能安全地飞,而安全是我们看待整个星座时的头号目标。 在 Bastrop 建厂 我们会造很多卫星,就在德州的巴斯特罗普(Bastrop)这儿造。我们现在就坐在那栋楼里。这栋楼已经很大了——你绕过转角,透过树丛看见它,会「哇」一声。但我们正要让这栋楼相形见绌。 事实上,太阳能制造厂已经在建了。接下来很快会建 AI 卫星生产楼。我们预计到明年底,AI 卫星生产、太阳能生产这些都能以一个合理的产量运转起来。所以谁想做 AI 卫星,这里基本会成为它的中心。 就在我们背后,机器正在轰鸣——我们仍在这里制造 Starlink 的所有用户终端,这条线不会挪走。事实上我们还在为新型号开新的生产线。这些就是新的 Starlink 终端,产量比现在的终端高得多。我们觉得最终全世界大概会有几亿个 Starlink 终端。再加上 Starlink 直连手机(direct-to-cell)星座,会直接连到人们的手机上,让你的手机和太空之间实现高带宽通信。 第三样:芯片,以及为什么需要 terafab 三个限制因素已经搞定两个:入轨运力、太阳能;第三个是芯片。 至少一开始,我们当然可以直接把已经在量产的芯片发上去。我们目前的参考设计用的是英伟达 Rubin 芯片,也可以是 GB300 或 Rubin;我们还会有一套基于 TPU 的参考设计——本质上你可以把任何现成芯片送上轨道。 但当前整个行业,看起来大概会做到每年 100 吉瓦量级的 AI 算力。这并没有回答「你怎么走到一太瓦」这个问题。这就是为什么你需要 terafab。要迈上下一个数量级,你需要一座巨大的芯片厂。给你个尺度感:我们预计 terafab 大约会有一亿平方英尺,是特斯拉得州超级工厂的十倍。 除了大,它还有什么独特、跟地球上任何其它芯片制造不一样的地方?随时间推移,terafab 上会有很多技术演进,但归根结底是「规模」。哪怕没有任何根本性的技术突破,你只要把现有的芯片制造技术——非常吃力地——放大到每年一太瓦的芯片产出。 从逻辑裸片(logic die)的角度看,这相当于每年十亿颗、每颗一千瓦(按整光罩当量算)的芯片:十亿颗整光罩当量芯片、每颗一千瓦,然后你还需要配上海量的内存。 时间线:别想小了 今天很多人还觉得轨道数据中心是「十年以后的事」。我们想给大家一个时间框架的概念——至少是我们瞄准的时间框架。大家可以对此打点折扣,因为这只是我们的最佳猜测,不是承诺,是我们打算去试、并且觉得大概能做到的事: 明年底:把空间 AI 算力做到「年化一吉瓦/年」的速率。 然后争取每年提升一个数量级:约两年半时摸到年化 10 吉瓦/年,三年半时也许 100 吉瓦。 再往后,看全球芯片制造和 terafab 的进展,进一步放大到每年一太瓦——也就是一千吉瓦。 一太瓦是美国当前用电量的两倍。我觉得会有这个需求,但走着瞧。那是非常多的卫星。 下一步:月球质量驱动器 走完地球上所有限制因素、把地球能做的都顶到天花板之后,下一步是什么,才能真正往「成为卡尔达肖夫二型文明」再争取几个百分点?为什么要停在这?为什么要想得那么小?因为一太瓦其实非常小。 要再上三个数量级、从「每年一太瓦」再乘一千,我们目前能看到的唯一办法,是在月球上用「质量驱动器」(mass driver)。 具体说,就是在月球上本地生产光伏板和散热板,芯片也许从地球带去,也可以设想直接在月球上造。但大部分质量必须在月球本地制造,这样你就不用从地球往月球运。然后,因为月球没有大气、引力只有地球的六分之一,你可以不用火箭就把 AI 卫星加速送进深空——基本上就是用一台电磁炮,类似电磁轨道炮,把它们「打」进太空。可以把它理解成一台直线电机。 我想我们可以放个视频…… 谢谢大家。
译马斯克近日宣布SpaceX/xAI太空计算蓝图:首颗AI卫星采用Starlink太阳能技术,峰值功率150千瓦、持续算力120千瓦,翼展70米,配110平方米液体散热器,通过星舰发射,使用激光链路通信。计划建设Terafab太空算力工厂,占地约1亿平方英尺(特斯拉Giga Texas的10倍),算力供应达1TW/年,相当于当前美国年消耗量(0.5TW)的两倍。目标将数据中心送入太空捕获太阳能,实现卡尔达肖夫等级跃迁。该项目依赖星舰完全可复用技术,预计三年内将年入轨量从约2500吨提升至百万吨级。
Labs starting to pull up the ladders on the ability to diffuse AI was inevitable. Doing it without telling the user is m...
Claude 5 Fable tl;dr - It is state-of-the-art on nearly all tested benchmarks of AI capability, showing exceptional perf...
Mythos正式上线FrontierCode基准测试,旨在衡量AI生成可维护代码的能力。该基准包含超1000小时维护者验证的任务,并引入3000+评分标准防奖励攻击。最高难度FC Diamond上,Opus 4.8得分仅13.8%,且Opus 4.8与GPT 5.5均未随effort扩展提升。Mythos/Fable后训练将test time compute用于数小时级长任务。基准已在Devin上线,ACU成本仅1.4倍。FC Extended中最易的1/3任务在2025年末被快速攻克——Opus从41%升至74%,标志着AI编码进入“维护可读代码”新时代。
It's finally out!!! @METR_Evals found that more than half of SWEBench results is unmergeable slop. FrontierCode represen...
开源免费的 token 压缩工具 headroom 本周增速最快,已获 17k star。它专为所有 AI API 调用(输出、日志、文件、RAG 块)设计,压缩 60%-95% 的 token,将账单直接砍到原来的 1/5,且回答质量不变。无需修改一行现有代码,可作为库、代理或 MCP 服务器无缝对接所有大模型。开发者无需再绞尽脑汁凑提示词,一行配置即可大幅降低 API 成本。
作者首次录制口播脚本推荐书籍《被讨厌的勇气》,使用Pocket3相机与免费提词器teleprompter,脚本由自制的书籍口播解读Skill生成(计划稍后开源),剪辑用剪映添加片头片尾,调色采用LUT文件CELLULOID_01_FU_LOW.cube。
Introducing Searchmaxxing. The new discipline for being visible everywhere AI looks. Across all platforms. This is how b...
http://x.com/i/article/2057694226981257216
http://x.com/i/article/2059815427484655622
苹果Siri由自研基础模型驱动,但该模型通过Google Gemini蒸馏训练而来。Gemini本身不直接驱动Siri,仅在Apple iCloud上提供额外定制支持,且不接入Google搜索,世界知识由苹果自有服务提供。
http://x.com/i/article/2064329494736011265
乔帮主(@vista8)复盘三年X运营增长,从100粉丝做到11万,基于全量X帖子用Codex进行数据分析,并分享完整PPT。Berry Xia推荐操作步骤:先下载X账户数据(需24小时),再交给Claude或Codex分析,最后结合乔帮主的PPT解读增长路径。PPT下载链接已公开,供用户自行学习。
把自己三年来的 X 运营增长做了复盘,做了线下分享。 如何从100做到11万关注,基于全量 X 帖子,用 Codex 做的数据分析。 有些结论,甚至自己都没有意识到。 果然分享才是最好的学习,完整的PPT见评论区。
苹果在WWDC 2026发布全新Siri AI,由第三代Apple Foundation Models(AFM 3)驱动,共五个模型:端侧AFM 3 Core(30亿)和AFM 3 Core Advanced(200亿MoE,每次激活10-40亿);服务器AFM 3 Cloud、ADM 3 Cloud(图像)、AFM 3 Cloud Pro(Agent/推理)。核心创新将200亿参数模型塞入手机:权重存闪存,自研Instruction-Following Pruning技术按Prompt路由专家而非逐Token,大幅降低搬运次数。最强算力依赖Google和NVIDIA。
腾讯混元推出UniRL,一个支持统一多模态模型的强化学习基础设施,并发布两个新算法DRPO和Flow-DPPO。UniRL通过单个后训练循环(生成→评分→优势→更新→同步)覆盖扩散/流匹配模型、LLM/VLM及统一多模态模型(如Hunyuan-Image 3和Bagel)。模型与算法作为独立轴,可实现模型×算法的组合覆盖。框架支持可插拔rollout引擎(训练侧/SGLang/vLLM-Omni)、FSDP2分片和三种部署模式。FlowDPPO针对流/扩散模型引入基于精确散度的信任域策略优化;DRPO为LLM RL提供平滑的优势加权二次正则化方法。代码已开源。
关联讨论 1 条X:腾讯混元 (@TencentHunyuan)Since my last post, I reduced ty's retained memory by another 15% with Codex. We're now at a ~25% memory reduction overa...
瑞幸咖啡(Luckin Coffee)近日开放CLI、Skills和MCP服务,用户可通过安装地址(open.lkcoffee.com)体验。此前“饺子馆的Skills”已引发关注,瑞幸紧随其后提供一整套开发者工具,支持命令行下单等操作。目前具体功能细节尚未完全披露。
运营者 Vista 复盘自己三年间 X 账号从 100 关注增长至 11 万的全过程。基于全量 X 帖子,使用 Codex 进行数据分析,得出一些甚至自己都未意识到的结论。分享被视为最好的学习方式,完整 PPT 置于评论区。
X 上两个好友的新书,京东都有售卖,推荐! 宝玉老师 @dotey 王树义老师 @wshuyi 三年前因为AI开始在推特活跃,能快速到1w关注,主要靠 @HiTw93 和 宝玉老师的转帖分享。 近两年在天津时间多,有幸跟王树义和丁师傅 @d...
刚刚去书店呆了一会,喝了杯咖啡。 Vibe Coding了 一会,发了一会呆。 找了点灵感~ 转头看到这里面很多的大学生或者附近上班or OPC的人,80%的人使用的苹果电脑或者iPad ! 对一半的人在使用AI工具进行学习或者工作,有几个...
Here's your monthly reminder that you shouldn't be prompting coding agents anymore. You should be designing loops that p...
设计真正的AI系统涉及大量工程细节,提示词工程、上下文工程、记忆模块、skills等环节缺一不可,彼此环环相扣形成了一个完整系统。Berry Xia引用了一篇关于Loop Engineering的清晰阐述,强调这些组件的系统性整合才是关键。
http://x.com/i/article/2064143847765020672
苹果WWDC 2026落幕,核心仍是AI。Apple Intelligence新架构:与Google Gemini合作开发5个模型;端侧分AFM 3 Core(3B)和AFM 3 Core Advanced(20B MoE)。新Siri正式命名Siri AI,基于系统编排器融合上下文理解、App Actions、屏幕感知等能力,支持连续对话、跨平台同步及独立App,但未展示自主Agent能力。视觉智能、全系统听写、写作工具等同步更新。目前仅支持英语,国区不可用,可用时间未知。
Noam Brown指出,LLM基准性能日益依赖测试时计算,当前标准评估因忽略推理预算而低估模型能力。以GPT-5.5与GPT-5.4为例:控制测试时计算后,5.5表现远超5.4。Karpathy的自动化实验和AISecurityInst的网络评估均显示,即使消耗超1亿token,强模型性能仍持续提升。Brown建议改用性能-测试时计算曲线评估,安全评估也应计入推理预算,如Gemini 3 Deep Think发布时未配套风险说明,关键在于业界未统一考虑测试时计算。
Claude 用户 Berry Xia 分享了一则登录技巧:如果用 Apple ID 虚拟邮箱(一长串随机地址)创建过 Claude 账号,手机端可正常使用,但电脑端无法直接选择该邮箱登录。解决方法:在设置中复制虚拟邮箱地址,在电脑端选择“使用邮件登录”并粘贴该地址,系统会向原始 Apple ID 邮箱发送登录链接,点击链接即可完成登录。该方法也可用于注册 Claude 账号。
安装一系列工具后,可让 Codex 或 Claude Code 自动剪切视频。例如,让 AI 翻译 WWDC2026 视频,并根据视频内容自动分析、精准裁切成多个独立片段,实现自动化视频处理。
http://x.com/i/article/2063968924019163136
马斯克近日宣布SpaceX/xAI太空计算蓝图:首颗AI卫星采用Starlink太阳能技术,峰值功率150千瓦、持续算力120千瓦,翼展70米,配110平方米液体散热器,通过星舰发射,使用激光链路通信。计划建设Terafab太空算力工厂,占地约1亿平方英尺(特斯拉Giga Texas的10倍),算力供应达1TW/年,相当于当前美国年消耗量(0.5TW)的两倍。目标将数据中心送入太空捕获太阳能,实现卡尔达肖夫等级跃迁。该项目依赖星舰完全可复用技术,预计三年内将年入轨量从约2500吨提升至百万吨级。