Apple 发布全新基础模型家族,亮点是 AFM 3 Core Advanced:200 亿参数,完全运行在 iPhone 17 Pro 设备端。通过将完整模型存于闪存,每次仅加载 1-4B 专家参数到活跃内存,巧妙绕过 DRAM 瓶颈,实现设备端更生动的语音和更精准的听写。共 5 个模型,与 Google 合作打造,覆盖从设备端到 Private Cloud Compute 的云端模型,最高性能云端模型运行在 NVIDIA GPU 上。
Apple's new foundation models are genuinely exciting. The standout is AFM 3 Core Advanced, a 20-billion (!) parameter model that runs entirely on-device. Read that again. 20-billion, on-device, iPhone 17 Pro. It pulls this off by keeping the full model in flash memory and loading only a small slice of "experts" into active memory for each prompt, just 1 to 4 billion parameters at a time. That's a clever way to get around the usual DRAM wall, and it's what unlocks things like expressive voices and much sharper dictation right on the device. The whole family of five models was built in collaboration with Google. It spans these on-device models all the way up to server-based ones running on Private Cloud Compute, with the most demanding cloud model running on NVIDIA GPUs. Kudos, Apple!
译Apple 发布全新基础模型家族,亮点是 AFM 3 Core Advanced:200 亿参数,完全运行在 iPhone 17 Pro 设备端。通过将完整模型存于闪存,每次仅加载 1-4B 专家参数到活跃内存,巧妙绕过 DRAM 瓶颈,实现设备端更生动的语音和更精准的听写。共 5 个模型,与 Google 合作打造,覆盖从设备端到 Private Cloud Compute 的云端模型,最高性能云端模型运行在 NVIDIA GPU 上。
🚀Introducing UniRL, an RL infra for unified multimodal models. Together with two new RL algorithms: DRPO and Flow-DPPO. One RL loop across diffusion/flow matching models, LLMs/VLMs, and unified multimodal models👇 Code: http://github.com/Tencent-Hunyuan/UniRL (yes — U(you)-ni-(need) RL 😉) 1、Most RL stacks are built for one modality. UniRL applies a single post-training loop — generate → score → advantage → update → sync — across model families. Model and algorithm are two independent axes, so your coverage is the model × algorithm product, not a fixed recipe menu. 2、One loop, every modality: text→image, text/image→video, vision-language, text-only LLM and VLM, the LLM→diffusion prompt-enhancer, and unified autoregressive+diffusion generation (Hunyuan-Image 3 and Bagel) — a model class no single-purpose RL repo can even express. 3、Built to scale: pluggable rollout engines (train-side / SGLang / vLLM-Omni) behind one typed contract, FSDP2 sharding, and three deployment modes from a single config knob. 4、Two team-original algorithms headline the release: FlowDPPO: Policy optimization for flow/diffusion models with trust-region masks based on exact divergence (See our paper: Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models https://github.com/Tencent-Hunyuan/UniRL/blob/main/FlowDPPO/HY_FlowDPPO.pdf) DRPO: LLM RL with a smooth, advantage-weighted quadratic regularizer (See our paper: Rethinking the Divergence Regularization in LLM RL [https://arxiv.org/abs/2606.09821])
译腾讯混元推出UniRL,一个支持统一多模态模型的强化学习基础设施,并发布两个新算法DRPO和Flow-DPPO。UniRL通过单个后训练循环(生成→评分→优势→更新→同步)覆盖扩散/流匹配模型、LLM/VLM及统一多模态模型(如Hunyuan-Image 3和Bagel)。模型与算法作为独立轴,可实现模型×算法的组合覆盖。框架支持可插拔rollout引擎(训练侧/SGLang/vLLM-Omni)、FSDP2分片和三种部署模式。FlowDPPO针对流/扩散模型引入基于精确散度的信任域策略优化;DRPO为LLM RL提供平滑的优势加权二次正则化方法。代码已开源。
Interesting, this paper shows that Transformers may not need separate key and value projections to work well. This paper's design cut the KV cache by 50% in language modeling with only 3.1% higher perplexity, meaning inference memory fell sharply while prediction quality stayed close. A normal attention layer makes Query to ask what each token needs, Key to label what each token offers, and Value to carry the information sent back. Here, the surprising result is that Key and Value can often share the same learned map, because the model can use one representation both as an address and as the content being retrieved. The best variant, Q-K=V, kept Query separate, so attention still had direction: one token can ask a different token for information instead of every relation becoming mirror-like. When stacked with GQA and MQA, the same idea reached 87.5% and 96.9% cache cuts, because it reduces projection storage while those methods reduce stored heads. The weak variant is Q=K-V, because tying Query and Key makes attention too symmetric for causal language, and it gives no KV-cache savings. ---- Link – arxiv. org/abs/2606.04032v2 Title: "Do Transformers Need Three Projections? Systematic Study of QKV Variants"
译一篇论文系统研究了Transformer注意力中QKV投影的必要性,发现Key和Value可共享同一投影(Q-K=V变体),仅增加3.1%的困惑度,便将KV cache削减50%,大幅降低推理内存。最佳变体保留Query独立,使注意力保持方向性。与GQA和MQA结合时,可分别实现87.5%和96.9%的cache缩减。弱变体Q=K-V因导致因果注意力过于对称且无cache节省而无效。
Playing codex like an orchestra. One /goal at a time.
译像指挥管弦乐队一样使用 Codex。一次一个 /goal。
Do you use codex /goal occasionally or as your main way to get things done?
译你是偶尔使用 codex /goal,还是把它作为完成工作的主要方式?
Agents, collect your power-up
译Google Colab CLI与Skills正式推出,用户可直接从终端使用完整Colab运行时,包括GPU/TPU分配(如colab --gpu A100)、远程脚本执行(colab exec)、交互式控制台/REPL访问以及内置智能体技能。只需告诉智能体“在此数据集上微调Gemma 3 1B”,它就会自动分配GPU、运行训练并下载适配器权重,全程自动化。智能体们,来领取你们的增强道具。
Alibaba Cloud has launched a new public cloud region in Johor, Malaysia, with two new data centres to meet the growing demand for cloud and AI services to Malaysia in the second half of this year, including AgentRun, STAROps, ACS Agent Sandbox, Agent Security Center, AI Security Guardrails 2.0, and Agentic SOC. https://int.alibabacloud.com/m/1000414242/
译阿里云在马来西亚柔佛州推出了一个新的公有云区域,包含两个新数据中心,以满足今年下半年马来西亚对云和AI服务日益增长的需求,包括AgentRun、STAROps、ACS Agent Sandbox、Agent Security Center、AI Security Guardrails 2.0和Agentic SOC。https://int.alibabacloud.com/m/1000414242/
Tired of AI agents forgetting the context? 🧠 Welcome to the MemoryAgent Arena at Qwen Cloud Global AI Hackathon Series! Build agents with persistent memory and cross-session tech to win your share of the $70,000+ prize pool. 🚀 🔗 Register now: https://click.qwencloud.com/m/20000000281/
译厌倦了AI智能体忘记上下文?🧠 欢迎参加Qwen Cloud全球AI黑客马拉松系列的MemoryAgent Arena! 构建具备持久记忆和跨会话技术的智能体,赢取超过7万美元奖金池中的一份。🚀 🔗 立即注册:https://click.qwencloud.com/m/20000000281/
小道消息:Anthropic 将于今晚发布其最强 AI 模型Mythos...
Claude Mythos will be released today (June 9th), according to leaks everywhere. The interesting question is whether they'll also update Sonnet or Haiku. Not that Mythos isn't enough for me, I'm just curious why the smaller models are currently getting so little attention. Anyway, it will probably be called Claude-5-fable.
译据多方泄露,Claude Mythos 将于今日(6月9日)发布。 有趣的问题是,他们是否也会更新 Sonnet 或 Haiku。 不是说 Mythos 对我而言不够用,我只是好奇为什么目前小模型受到的关注这么少。 总之,它可能被命名为 Claude-5-fable。
最近 Skill 做多了,感觉对于 skill 有点新的领悟,找时间写个文章聊聊。
卧槽!我还是太草率了! 前有饺子馆的Skills,今有瑞幸咖啡的CLI/Skills/MCP 服务一应俱全啊! 程序员的浪漫我是不懂啊,下个单都要搞这些有的没得? 自己给我付钱就行了,我负责免费喝。 安装地址:https://open.lkcoffee.com
译瑞幸咖啡(Luckin Coffee)近日开放CLI、Skills和MCP服务,用户可通过安装地址(open.lkcoffee.com)体验。此前“饺子馆的Skills”已引发关注,瑞幸紧随其后提供一整套开发者工具,支持命令行下单等操作。目前具体功能细节尚未完全披露。
V4-Pro (quality) + V4-Flash (speed) 2 lines of config to bring the Best price/perf DeepSeek combo in your terminal @goodhunt's CodeWhale — the terminal coding agent built for @deepseek_ai V4 — now includes SiliconFlow as a built-in provider🔥 Here's what you're actually getting: → Stream Reasoning: See the thinking, not just the answer. → Auto-Routing: Switches model + thinking depth by task complexity. → Zero Drift: A written Constitution ranks authority for each turn, keeps V4 oriented. → Self-Improving: V4 helped write its own harness, and as the harness improves, every session is stronger. Step-by-step guide 🧵👇
译硅基流动宣布,通过V4-Pro(质量)与V4-Flash(速度)两行配置,即可在终端获得DeepSeek V4的最佳性价比组合。专为DeepSeek V4构建的终端编码智能体CodeWhale现已内置SiliconFlow。CodeWhale具备流式推理(显示思考过程)、自动路由(根据任务复杂度切换模型与思考深度)、零漂移(通过书面宪法为每轮排序权威,保持V4定向)以及自我改进(V4协助编写框架,框架提升后每个会话更强大)等特性。
DeepSeek just posted a new job: IDC Design & Planning Engineer — covering the full lifecycle of data center buildouts, from site selection and layout to construction drawings and supporting infrastructure. Core role for whoever leads the early-stage technical work on a new facility. The listing is open to candidates with no minimum experience, with a separate senior track for 7+ years. The pitch: you'll help plan and build infrastructure scaling from MW to GW. Translation: DeepSeek, like OpenAI, is going to build its own data centers.
译DeepSeek 发布招聘,寻找 IDC 设计与规划工程师,负责数据中心全生命周期建设(选址、布局、施工图纸、支撑基础设施)。该职位是新建设施早期技术工作的核心角色,对候选人不设最低经验要求,另有 7 年以上高级岗。岗位描述将建设规模从 MW 级扩展到 GW 级。这意味着 DeepSeek 将像 OpenAI 一样自建数据中心。
Claude Mythos is conning tomorrow!! Prepare yourself friends. It’s happening!!
译据消息,Anthropic 计划明天发布 Mythos 公开版。该版本将配备实质性护栏,权限不如 Project Glasswing 合作伙伴可访问的版本宽松,但在长周期、多轮任务上表现将大幅提升。准备好,朋友们,就要来了!
MiMo推出1000 Token/s超高速模型|体验测评 MiMo 推出了 MiMo V2.5 Pro UltraSpeed 超高速的模型版本,能够实现每秒输出超过 1,000 Token 的速度。 同时,这应该也是全球第一个达到这个速度的万亿(1T)参数模型。 藏师傅提前试了一下,做了三个测试,确实爽。 第一个跑了一个比较复杂的 3D 采矿小游戏测试。在没有素材的情况下,我让它全部用 Three.js 前端代码来生成素材。整体要求比较完整,虽然第一次实践时出了一些小问题,但在跟他沟通修改建议后,非常完美地实现了任务。 这次测试的各项指标如下:思考的 TPS:804 Token/s,峰值速度:810 Token/s,首次响应时间:4.71 秒。 第二个测试给了一个官网,其头部包含一个相对复杂的 3D 动画。 这次的输出速度快了非常多:峰值达到了 1426 Token/s,首次响应只用了 0.83 秒,在 32 秒内输出了 25624 个 Token,总计生成了 1000 行代码。 第三个测试给了一个更复杂的官网。我要求这个官网的 Header 头部包含以下 3D 效果:地球边缘、轨道上的飞船、星际尘埃、航线图、舷窗的 HUD 样式。 这个效果非常好,整体的视觉样式、状态、SVG 动画和驾驶卡片都非常精细,还有滚动的视差效果 这个输出的 TPS 达到了 1136 tokens/s,首次响应是 4.5 秒 官方测试平台下面有个数据展示,会显示相关信息 在流式输出的情况下,当你看着它只用 20 秒就产生一个非常复杂的 3D 游戏时,那种场景还是比较震撼的 之前的这些(比如说 Groq 之类的)超高速推理方案,在模型能力或者是整体水平上都会有所下降,但是 MiMo 这个在测试的时候,我没有看到这种迹象 最近很多公司都开始推出这种超高速的 API 服务,比如之前 OpenAI 和 Anthropic 都有 Fast 模式 在 Agent 场景下,模型输出效率的提升会直接带动每一步 Agent 操作的效率: 如果一个任务预估一分钟完成,你就会盯着它直到结束,然后立刻投入测试。如果需要五分钟才完成,你可能就会去干别的事,然后再回来看,难免会浪费一些时间 这种效率提升在 Sub-Agent 和并发场景下更加明显。因为它可以更快地产出大量结果,想象一下,如果同时启动一两百个 Sub-Agent,在模型能力没有衰减的前提下,速度提高 10 倍,体验是非常爽的 毕竟这本质上是面向那种对效率有极高要求的 To B 客户所推出的 希望后面大家卷起来,优化一下成本,让普通用户也能放开用这种 UltraSpeed 模型
译MiMo推出V2.5 Pro UltraSpeed超高速模型版本,每秒输出超1000 Token,号称全球首个达此速度的万亿参数模型。实测显示:复杂3D小游戏TPS 804 Token/s(峰值810),首次响应4.71秒;官网3D动画峰值1426 Token/s,首次响应0.83秒,32秒输出25624 Token(1000行代码);另一复杂官网3D效果TPS 1136,首次响应4.5秒。相比此前超高速推理方案常见能力下降,MiMo未出现此类迹象。该模型主要面向效率要求极高的ToB客户,在Agent和Sub-Agent并发场景下效率提升明显。
难道说?我感觉他们能做出来强制 kyc 才让用这种操作
译据报道,Anthropic 将于明天发布新 AI 模型“Mythos”。主推文猜测这可能伴随着强制 KYC 措施。
把自己三年来的 X 运营增长做了复盘,做了线下分享。 如何从100做到11万关注,基于全量 X 帖子,用 Codex 做的数据分析。 有些结论,甚至自己都没有意识到。 果然分享才是最好的学习,完整的PPT见评论区。
译运营者 Vista 复盘自己三年间 X 账号从 100 关注增长至 11 万的全过程。基于全量 X 帖子,使用 Codex 进行数据分析,得出一些甚至自己都未意识到的结论。分享被视为最好的学习方式,完整 PPT 置于评论区。
已经入手了,嘿嘿。 很高兴和大佬们做朋友,先建联。 我还顺便做了个海报😄
译@vista8 在 X 上推荐两位好友的新书:宝玉老师(@dotey)和王树义老师(@wshuyi)的新书已在京东发售。Berry Xia 表示已入手,并制作海报,称很高兴与两位 AI 圈大佬建联交友。
Smart glasses used for taking stealth shots of flight attendants have spiked controversy in China. On June 2nd, Ms. Yun, a smart glasses user, noticed that someone was using Rokid AR glasses to secretly take photos of female flight attendants. These photos were uploaded directly to Rokid's official app. Search the phrase "flight attendant" in the app and you'll find a large number of these photos. The method behind this was shocking. E-commerce platforms openly sell "shutter stickers" that block the LED indicator light and mute the shutter sound. One store alone has sold over 5,000 of these stickers. Meta has faced similar issues with its smart glasses. Former WSJ reporter Joanna Stern demonstrated that when the LED light is disabled, taking photos with these glasses becomes almost completely unnoticeable. In response, Rokid has banned the accounts involved and cleared the images from its platform. The company also stated that it has requested e-commerce platforms to take down the listings selling these stickers.
译6月2日,智能眼镜用户云女士发现有人使用Rokid AR眼镜偷拍女性空乘人员,照片直接上传至Rokid官方App。在App内搜索“空乘”可找到大量此类照片。电商平台公开出售“快门贴纸”,可遮挡LED指示灯并静音快门声,仅一家店铺销量已超5000张。Meta智能眼镜也曾面临类似问题。Rokid已封禁涉事账号并清除平台图片,同时要求电商平台下架相关贴纸商品。
Yesterday at London Tech Week we announced the Billion Pound Build competition. Teams can enter to secure a share of £1M in Computer credits by using Perplexity Computer to build their company. The pitch phase is open now and closes on 6 July.
译昨天在伦敦科技周上,我们宣布了 Billion Pound Build 竞赛。 团队可以参赛,使用 Perplexity Computer 打造自己的公司,争夺 100 万英镑的 Compute credits 份额。 演示阶段现已开放,截止日期为 7 月 6 日。
ANTHROPIC 🔥: Claude Mythos is planned to be released as Claude Fable 5 according to checkpoints detected by Dev Mode, Hacker News reports and Sources. Anthropic is also hosting its 3rd developer event in Japan tomorrow. Soon? 👀
译ANTHROPIC 🔥: Claude Mythos 计划作为 Claude Fable 5 发布,根据 Dev Mode 检测到的检查点、Hacker News 报道和消息源。 Anthropic 还将于明天在日本举办第三届开发者活动。 快了?👀
再次来到这个书店咖啡馆,发现当今的大学生的高效学习的秘诀! 都在看“豆包高效学习”,果然AI Native 这一代和我们老登不一样啊……
译Berry Xia在书店咖啡馆观察到,约80%的大学生使用苹果电脑或iPad,其中一半人正在用AI工具学习或工作,少数人使用ChatGPT纯聊天模式,但无人使用Claude或Codex等更专业的AI工具。他指出“豆包高效学习”成为热门,但整体AI应用仍处于早期阶段。
https://youtu.be/kRgdkOw82F0?si=05P4WsdlGDVskw7c 据说发这个视频会被 A 厂举报侵权,删除视频,偏要试试看 😂
NotebookLM 迎来重大升级 · 底层模型换成 Gemini 3.5 + Antigravity · 每个Notebook自带云端电脑,能写代码做复杂分析,内置 100 多个技能 · 新增十几种输出格式:PDF、docx、Excel、PPT、图表、图片等,生成后还能再改 · 还打通了 Google 搜索让你不用自带资料也能开工
译NotebookLM 迎来重大升级。底层模型更换为 Gemini 3.5 和 Antigravity;每个 Notebook 自带云端电脑,支持写代码和复杂分析,内置 100 多个技能;新增十几种输出格式,包括 PDF、docx、Excel、PPT、图表、图片等,生成后可二次修改;还打通了 Google 搜索,用户无需自带资料即可开工。
我去,黑科技啊! 一句话操作浏览器:拉黑 X 垃圾回复,自动回小红书评论,转写英文文章发到知乎、公众号草稿箱等。 来自推友 @okasupportgroup 开发的一个全新AI Agent 浏览器:Aye 把MacRumor一篇关于 WWDC26 的 WatchOS 27 文章发布到知乎,连图片都会读缓存插入。 还能自动回复小红书评论,模拟真人查看内容,根据上下文回复,强! 浏览器不仅自带AI问答、翻译,视频/图片下载(yt-dlp和内置模块),Dia有的功能,基本都有。 更大亮点是Agent Skill,除了内置很多黑科技Skill,还能手动操作录制生成Skill,定时执行。 各种繁琐网页操作都可以交给它完成了。 底层基于Chromium,完全AI模拟真人操作,不会像CLI、插件之类的会触发账号异常检测,总之,牛逼!
译推友推出AI Agent浏览器Aye,基于Chromium模拟真人操作。支持一句话操作,如拉黑X、回小红书、转写文章到知乎;可录制自定义Skill定时执行,完成繁琐网页操作。
和 @puliandc 讨论了好几轮 用 Claude Code 和 Claude Design 设计和讨论 然后用 Codex Goal 模式搭建。 明晚争取上线 BestBlogs 世界杯专刊 期待一起用 BestBlogs 看世界杯⚽️📖!
译洪明 (@hongming731) 透露,经过与 @puliandc 多轮讨论,他们使用 Claude Code、Claude Design 进行设计和讨论,并用 Codex Goal 模式完成了搭建。目标是在明晚上线 BestBlogs 世界杯专刊,邀请用户一起用 BestBlogs 看世界杯。
Would you use this controller?
译你会使用这款控制器吗?
Anyone writing nested loops yet?
译每月提醒:你不应再手动提示编码智能体了,而应设计循环来驱动它们。有人已经在写嵌套循环了吗?
设计一个真正的系统其实里面的工程太多了,每一环不可或缺,比如提示词工程、上下文工程,记忆模块、包括后面的skills 等等其实都无一例无的都成一个系统,都是环环相扣的。 这个Loop Engineering 讲的很清晰了!
译设计真正的AI系统涉及大量工程细节,提示词工程、上下文工程、记忆模块、skills等环节缺一不可,彼此环环相扣形成了一个完整系统。Berry Xia引用了一篇关于Loop Engineering的清晰阐述,强调这些组件的系统性整合才是关键。
ChatGPT goes interactive and gets better everyday. I am told @adamhfry, the team and codex won't rest until it is perfect.
译ChatGPT团队持续每周推进更新,最新一批功能已全部上线。新增内容包括:交互式漂亮图表、全屏写作编辑并保存至个人库、长对话自动生成目录、支持附带附件编辑消息。Plus/Pro用户现可长按发送键选择模型的智能/努力级别。iOS端聊天输入框响应速度也得到提升。团队表示将持续倾听用户反馈并快速迭代。
http://x.com/i/article/2064208729172746240 # 帮大家总结了一下凌晨的苹果WWDC26。 就在凌晨,苹果的WWDC 2026结束了。 这是Tim Cook作为CEO最后一次站在WWDC的舞台上了,9月1号,他就会把位置交给硬件工程高级副总裁John Ternus,所以今年这场,多少带了点告别的意思。 但发布会本身,坦率的讲,还是那个苹果。 不惊不喜,稳稳当当。 整场下来最大的主题就一个,还是AI,比如跟Gemini的合作终于落地了,比如Siri终于有了个AI的后缀,比如各种IOS的APP,也都往AI化的方向一步步集成。 不过苹果还是那个苹果,动作慢的可怜,并且最难崩的依然是国区几乎都不支持。 原话是: 不过,这些功能的更新还是值得一看的,以及国内到底苹果会跟谁合作,还是一个意思的话题。 我也通宵给大家蹲完,然后整理完了。 希望对大家有用。 一. Apple Intelligence新架构 先说底层,因为后面所有AI相关的东西都建立在这套新架构上。 1. 跟Google Gemini的深度合作 这次苹果也终于官宣了。 Apple Foundation Models的新一代是跟Google合作,基于Gemini家族一起来做的,搞了5个模型,然后苹果把这些模型适配到了端侧运行和Private Cloud Compute服务器上运行。 Private Cloud Compute就是苹果专门为AI搭建的一套云计算基础设施,跑在苹果自研芯片上,用的是一个从iOS裁剪出来的专用操作系统。核心承诺是,你的数据端到端加密,只用于处理你的请求,处理完立刻删除,不存储、不留痕,连苹果自己的工程师也看不到你的数据。 再细节的参数啥的就没说了,反正就是苹果承认了自己在大模型基础能力上追不上第一梯队,选择花钱买他们认为对普通消费者来说最好的底座,然后在上面做自己擅长的系统集成和体验设计。 策略上说得通,面子上。。。 面子有啥用你说对吧。 2. 双端侧模型 苹果今年的端侧模型分了两档。所有支持Apple Intelligence的设备都有一个基础版端侧模型。但在能力强一点的的Apple设备上,比如iPhone 17 Pro、iPhone 17 Pro Max、iPhone Air、M4 及以上且至少 12GB 统一内存的 iPad、M3 及以上且至少 12GB 统一内存的 Mac,苹果额外部署了一个更强的第二版。这两个端侧模型分别是: AFM 3 Core,一个3B的小模型。AFM 3 Core Advanced,20B的MoE模型。这个更强的模型多出来的核心能力是语音和更高精度的听写等功能,它能听懂语音也能生成语音。所以像Siri更有表现力的新声音、更精准的全系统听写这些功能,都只有跑得动第二版模型的设备才能用。 3. 系统架构 有了模型之后,对模型的调度还是需要一些设计的。苹果做了一个叫系统编排器(System Orchestrator)的东西,它是整个Apple Intelligence的调度中心,负责协调四大系统级能。 上下文理解。你设备上所有的内容,照片、邮件、备忘录、消息,都通过Spotlight的语义索引被组织起来了。 广泛世界知识。比如你问世界杯赛程是什么,系统编排器会让Apple Intelligence联网去搜索,然后通过Private Cloud Compute来生成回答。 App Actions。这是让Siri能动手做事的关键。系统编排器知道你手机上每个App能做什么(通过App Intents框架),当你说发消息给某某的时候,它会调用Messages来执行。理论上,任何适配了App Intents的第三方App都能被Siri调用。 屏幕感知。系统编排器能看到你当前屏幕上显示的内容。比如你正在Safari里看一篇文章,这时候问Siri一个问题,它能结合你正在看的内容来给出更相关的回答。 这四个能力组合在一起,就是苹果所说的以你为中心的AI,也是硬件跟AI结合的一个比较完整的方案。 4. 隐私 他们的原话是: We believe privacy in AI is non-negotiable. 我们认为,AI中的隐私是不可谈判的。 苹果的态度是,很多AI厂商在嘴上说隐私,但默认情况下都在保留你的个人交互数据,把保护隐私的责任推给用户。 苹果的方案就是前面说的端侧处理+Private Cloud Compute,数据不存储、不可访问,只用于执行请求,外部专家可以随时审计。 二. Siri AI 今天真正的重头戏,也是苹果最大的发布了。 给新版Siri正式命名为Siri AI。 1. 核心能力升级 Siri AI基于整套新的Apple Intelligence架构,集成了上面提到的很多的新能力。 苹果的说法是,Siri现在是一个“有了质的飞跃”的助手。 然后基于这次的新Siri AI,他们做了一些演示。 演示一,问答+提醒+音乐。 问“旧金山的某位歌手演唱会什么时候”→ Siri给出答案(7月26号)→ 追问怎么买票 → Siri说要抽签 → “抽签开始的时候提醒我”→ 设好提醒 → “放一首她的新单曲” 演示二,屏幕感知+个人上下文+路线规划 看到一张照片问“这是哪”→ Siri识别出圣克鲁兹海岸的天然桥州立海滩 → “我朋友Jeff最近搬到附近了,他新家在哪”→ Siri从消息记录里找到Jeff发过的地址 → “给我导航到那个拱门,中间停一下Jeff家”→ Siri规划路线 演示三,照片筛选+共享 “给我看上周在沙斯塔山的照片”→ Siri搜索照片 → “只把有Bryce、Madison和Quinn的照片加到家庭共享相册”→ 完成 演示四,对话式体验 查世界杯开幕周末赛程 → “我想为巴西vs摩洛哥那场办个观赛派对,给我两个国家的经典菜”→ Siri给出菜品(还带图片)→ “Maria最近提到的那个甜点是什么”→ Siri搜索消息找到椰子饼干→ “把这些整合成一个菜单”→ Siri生成创意菜单 → “发消息给Gold Chasers群组问他们要不要来,附上菜单”→ 发送 演示五,Mac上的对话式Siri Siri也集成进了Spotlight。 在Spotlight里输入问题就能启动跟Siri的对话,窗口可以拖拽和调整大小。 演示了让Siri分析多个不同格式的文件比较三个棚子的报价,然后结合儿子之前发的消息里提到的电路问题来做推荐,最后让Siri直接起草一封邮件给选中的供应商。 大概就是这样。 我的感受是,怎么说呢。 2026年了,Siri AI的演示核心还是问答、搜索个人信息、发消息、设提醒这些事。对话式体验确实比以前强了不少,能连续聊、能带上下文了,但说实话,这些demo跟现在的ChatGPT、Claude比,谈不上什么惊喜。 最关键的是,没有看到真正的Agent能力。也没有看到Siri自主规划、自主执行多步任务、自主调用多个App完成一个复杂目标的场景。 苹果说了App Actions,但演示里最复杂的也就是搜索照片→筛选→加到共享相册这种程度。 这块确实是有一点失望。 2. 新语音体验 在支持第二个强端侧模型的设备上,Siri有了全新的语音。 更有表现力,语调变化更自然。 苹果还让你可以自定义Siri的语音风格,调表现力和语速,更亲切更好玩一点。 3. 全系统听写升级 同样需要第二档端侧模型,新的听写引擎在拼写、标点和大小写上都更精准了。 因为它是内建在系统键盘里的,所以不管你在哪个App里,只要调出键盘就能用。发布会上提到的场景是“在地铁上用语音发消息”和“边想边说地用日记App记录”,都是日常会用到的,这个我觉得还是比较刚需的,好评。 4. 视觉智能 iPhone上,Visual Intelligence(视觉智能)集成进了相机App,新增了一个Siri模式。 按快门键让Siri看到你看到的东西,然后给你有用的回应,可以下拉查看详细信息、问后续问题。 5. 写作工具 + Siri集成 写作工具现在更深度地跟Siri结合了,你可以在任何能打字的地方用自然语言描述让Siri从头生成文本。 在邮件和信息里,Siri还能根据你跟特定联系人的沟通风格来调整语气。 另外,Apple Intelligence现在全系统自动校对了,你在任何App里打字,它都会自动检查拼写和语法,不用你手动触发,大多数第三方App也支持。 6. Siri独立App + 跨平台 苹果给Siri做了一个独立的App,这是第一次。 现在有了独立App之后,你所有跟Siri的对话都会被保存在这里,可以随时回看。 最重要的是跨平台同步,你在iPhone上跟Siri聊了一个话题,打开iPad上的Siri App可以看到这段对话,继续往下聊,在Mac上也一样。 对话历史通过iCloud加密同步,苹果看不到你的对话内容。 Siri AI还扩展到了watchOS(手腕上直接问)和visionOS(3D可视化的Siri,放在你空间里的任何位置,看着它说话就行,不用说「hey Siri」)。 然后新版的Siri,目前只支持英语,后续会扩展其他的语言,欧盟和中国都目前不可用,可用时间未知。 三. APP智能化 反而是我今天觉得比较惊喜的部分。 让AI渗透进所有人的生活中,确实还是得从老的APP改造入口,是最能进日常场景的。 1. Safari 三个新功能。 智能标签页整理,Safari用Apple Intelligence分析你打开的每个页面,自动按主题分组。你浏览的时候,相关新标签页会自动归到对应主题下,可以一键关掉整个主题或者存为标签页组。 Notify Me,你可以用自然语言告诉Safari你在等什么变化(比如某个商品补货、某个报名开放),然后关掉那个标签页,Safari会自动监控,变化发生时推送通知。 这个功能太实用了,不知道执行效果怎么样,但思路是对的。 Describe an Extension,用自然语言描述你想要什么,Safari帮你生成一个自定义扩展来调整网页内容,比如在工具栏加一个按钮来保存和评分你试过的食谱。 还有一条,Safari所有智能功能都不追踪你的浏览数据,不跟任何人分享,包括苹果自己,然后稍微内涵了一下友商。。。 “不像某些浏览器”。 2. 密码App 密码App现在已经能提醒你弱密码和泄露密码了。 新功能是,它现在能自动帮你更新密码,背后是Apple Intelligence和Safari配合,自动导航到对应网站、登录、改密码。 一个“agentic”的动作,难得见到苹果用这个词。。。 3. 短信 Messages现在能理解对话上下文,提供一键建议。 比如有人提到某个事,Messages会建议你创建提醒或备忘录,有人问你要照片,Messages帮你根据关键词、地点和人名搜索最合适的照片。 4. 邮件 邮件也有了更智能的上下文建议,让你快速用喜欢的App(包括第三方App)采取行动。 5. 日历 可以用自然语言添加事件了。 你打字的时候,日历会自动识别联系人、地点,填上标题。 编辑也更智能,比如把“每周”改成“每两周”,日历自动调频率。 6. 电话 苹果把这个电话的功能叫Call Context。 这个是我的刚需。 打电话给商家的时候,电话App可以主动从你其他App里找相关信息。比如你打电话给航空公司改机票,它能自动从邮件里找到你的确认码。 而且全部端侧运行,看的是你打给谁。 但是咱就是说,新AI上国内的时候,咱能不能把那些恶心的营销电话也都用AI处理一下。。。 7. Home 家庭App可以支持用Apple Intelligence理解摄像头通知,把相关的通知合并成一个持续更新的活动通知。 还能分析录像片段,生成描述,支持用自然语言搜索录像内容(比如搜快递),支持4K分辨率回放。 8. 快捷指令 这个更新也挺好的,类似飞书的AI生成工作流。 快捷指令现在支持用自然语言描述你想要的自动化,Apple Intelligence帮你组装所有步骤。 演示里的例子是,“当我离开公司时,发消息告诉佩德罗我在路上,附上到家的预计时间”→ 快捷指令自动创建了一个自动化,检测离开公司地址 → 用地图计算到家时间 → 用信息App发送。 还能追加描述来调整,比如自动播放最爱的播客。 四. 创意与影像 这块苹果也用AI雕了一些有意思的花。 1. Image Playground大升级 Image Playground这次大幅升级了一下。 核心变化,支持写实风格了,之前只能生成那种卡通/插画风格,现在用Private Cloud Compute上的跟Gemini搞的新生成模型,可以做高质量的各种风格图片。 毕竟你都用Gemini了,生图再不迭代一下,那就真说不过去了。 你可以用照片库里的人来生成图片,用自然语言描述修改,用触摸手势圈选对象来移动/缩放/修改。 还能选择不同的画幅,生成联系人海报和锁屏壁纸。 同时,给开发者也开放了Image Playground API。 2. Photos AI编辑三件套 Cleanup升级,去除干扰物的效果更好了,复杂场景下的填充更真实。 Extend,扩展图片边界,给主体更多空间,或者调整画幅时不用裁掉重要内容。 Spatial Reframing(空间重构),这个是今年Photos里最酷的新功能。你可以在拍完之后重新调整照片的构图,就像你在拍照那个瞬间移动了相机一样。 它用的是端侧的空间模型做实时预览,然后用Private Cloud Compute上的生成模型来填充透视变化产生的新区域。只生成空白区域的内容,原始照片的部分保持不变。 演示效果确实不错,而且这个功能基于Apple Vision Pro积累的空间理解技术,对老照片和其他相机拍的照片也能用。 五. 开发者工具 1. Xcode 苹果说Xcode是做agentic coding最好的地方。。。 我一直不知道该从哪开始吐槽起。。。 反正这次也做了一些更新,也基本围绕的着AI。 比如它现在能一键把你的整个App本地化成其他语言,能跟模拟器里的虚拟设备直接交互(以前只能看代码),还支持自定义skills来扩展助手的能力。 然后呢Xcode的代码助手现在可以选择不同的AI模型了,包括Google的Gemini。。。 你还可以把它跟Figma和GitHub这样的外部工具连起来,让代码助手能够参考设计稿和代码仓库。测试方面,苹果推出了全新的Device Hub,把所有模拟设备和真实设备统一到一个界面里。 你可以在里面模拟多点触控操作,一键切换App的深色/浅色模式,还能动态调整App的窗口大小来测试不同屏幕尺寸下的表现。 2. Foundation Models Framework 开发者可以在App里用Apple的端侧模型,今年新增了图像输入(之前只有文本),支持自定义Skills扩展模型能力,还能用同一套Swift API调用服务器端的模型。 3. Core AI Framework 全新框架,可以在所有苹果平台上用Apple Silicon的全部算力来本地运行其他模型。这个对开发者来说可能是最实际的,意味着你可以把自己的模型或者第三方模型直接跑在设备上。 六. 体验升级 就是一些偏系统偏设计的了,跟AI关系不大了。 1. Liquid Glass优化 去年WWDC最爆的就是Liquid Glass这套全新设计语言。 好看是真好看,但争议也不小。 苹果今年也说去年太激进了,所以在IOS27上,底层优化了Liquid Glass的模糊算法,对复杂背景的弥散效果好多了。 也加了一个透明度滑块,现在,你可以自己调Liquid Glass的透明度。 macOS上还做了几个调整,工具栏更统一了,侧边栏延伸到窗口边缘,侧边栏图标恢复了彩色,所有窗口统一了更紧凑的圆角,App图标也迭代了一版,在图标内部加了多层Liquid Glass折射效果。 2. 性能提升 常规操作,比如iPhone和iPad上App启动速度快了30%,新拍的照片在图库里出现的速度快了70%,隔空投送传文件速度快了80%,iPad接外部硬盘浏览和传输文件速度快了5倍。 3. 搜索基础设施重建 苹果重建了聚焦搜索、照片和邮件背后的搜索索引,让它更稳定、更全面。 新内容几乎实时入索引,邮件搜索还加了全新的排名系统,置顶结果更准了。 4. 其他小更新 照片,iCloud共享相册终于支持Android和Windows用户加入了,还支持全分辨率共享。 AirPods,支持自定义EQ了。 Apple Vision Pro,全景照片可以变成有深度的空间场景。 地图,Flyover大幅升级,航拍影像+视觉智能模型,建筑细节和树木形态都清晰得多。 网络切换,iPhone更智能地判断什么时候该从Wi-Fi切回蜂窝(终于不用手动去控制中心关Wi-Fi了)。 信息App,低带宽环境下发大文件不会卡住对话了,会显示发送进度。 无障碍,苹果官网上列了不少Apple Intelligence在无障碍方面的集成。 VoiceOver现在能更丰富地描述周围环境和屏幕内容,Magnifier可以放大后直接问Siri,Voice Control更灵活了,可以用自然语言跟App交互。 这块发布会上没提,但确实是AI落地到实际场景里的好例子。 写在最后 今天WWDC算是平稳结束了。 这也是Cook最后主持的一届WWDC了。 苹果,这个伟大的企业,终于要交接到了下一棒人手中去。 最后,我想用我特别特别喜欢的乔布斯的一段词结尾: "向那些疯狂的家伙们致敬。 他们特立独行。 他们桀骜不驯。 他们惹事生非。 他们格格不入。 他们用与众不同的眼光看待事物。 他们不喜欢墨守成规。 他们也不安于现状。 你可以认同他们,反对他们, 颂扬或是诋毁他们。 但唯独不能漠视他们。 因为他们改变了寻常事物。 他们推动人类向前迈进。 或许他们是别人眼里的疯子, 但他们却是我们眼中的天才。 因为只有那些疯狂到以为自己能够改变世界的人, 才能真正改变世界。
译苹果WWDC 2026落幕,核心仍是AI。Apple Intelligence新架构:与Google Gemini合作开发5个模型;端侧分AFM 3 Core(3B)和AFM 3 Core Advanced(20B MoE)。新Siri正式命名Siri AI,基于系统编排器融合上下文理解、App Actions、屏幕感知等能力,支持连续对话、跨平台同步及独立App,但未展示自主Agent能力。视觉智能、全系统听写、写作工具等同步更新。目前仅支持英语,国区不可用,可用时间未知。
First one is @skirano. Enjoy the 10X and keep building magic. Who's next? https://x.com/skirano/status/2062942695547375829
译Codex推出了一种新的“大按钮”。在接下来的100天里,每天会选出一位用Codex做出令人印象深刻或极其有用工作的人,授予其10倍使用额度一个月,看看能做出什么。第一个获得者是@skirano,享受10倍,继续创造魔法。下一个是谁?
http://x.com/i/article/2057694226981257216 # Implications of Large-Scale Test-Time Compute tl;dr: As LLMs become more capable, benchmark performance is increasingly a function of test-time compute. In fact, we likely don't know what the capability ceiling is for modern LLMs because it's too expensive to measure. We should change LLM evaluations to account for that by measuring performance vs tokens, cost, or time. The day GPT-5.5 was released, the initial reaction was skepticism. The benchmark numbers were better, but not by much: However, within hours, once people had time to play around with the model, it became clear that it was a step-change compared to GPT-5.4. The classic "benchmark grid" clearly wasn't telling the full story. Why is that? The reason becomes clearer when we compare GPT-5.5 to 5.4 with tokens on the x-axis: GPT-5.5 wasn't being evaluated at the same token budget (or dollar budget) as 5.4. Once we control for test-time compute, 5.5 looks substantially stronger than 5.4. Frequently when I discuss this, people ask why we don't just evaluate with a harness that pushes test-time compute until performance plateaus. The problem is that, empirically, the plateau is very far out. Sometimes we may not observe a plateau at all within practical budgets. Here's @karpathy's autoresearch experiment, where the performance continues to improve even after hundreds of experiments: And here is the @AISecurityInst's cyber eval, where performance for Mythos and GPT-5.5 continue to improve rapidly even after 100M tokens: Notice that for the stronger models the performance improvement over time is stronger. It seems likely that as models become stronger they become more effective at operating over longer horizons. The point of plateau is pushed out, and may even disappear. For this reason, I believe the proper way to evaluate models is with a performance vs test-time compute plot, with either tokens, cost, or wall-clock time on the x-axis. A few benchmarks have already moved in this direction. For example, ARC-AGI measures score vs cost. Another reasonable option is to set an explicit token/time/cost budget and communicate it to the model. That mirrors how humans are evaluated in settings like the SAT or the International Mathematical Olympiad. Each x-axis has tradeoffs. Tokens are not directly comparable across models because tokenizers, speeds, and per-token costs differ. Dollars depend on implementation details such as batching and hardware utilization, so cost and latency can trade off. Finally, wall-clock time is an imperfect measurement because multi-agent techniques like best-of-N can scale test-time compute without significantly increasing latency. Still, any of these curves is more informative than a single scalar. ## Implications for AI Preparedness Before a frontier model is released, labs typically evaluate cyber, bio, and other misuse risks. If a model crosses a capability threshold, then release may be delayed until mitigations are in place. But if capability is a function of inference compute, then at what inference budget should safety evaluations be run? In practice, most safety evaluations for model releases do not consider the amount of inference that went into the model. The release of Gemini 3 Deep Think, and the resulting outcry, is a useful example. When Gemini 3 Deep Think was released, its benchmark scores were much higher than previous models. However, no model card evaluating its risks was released alongside it. This led to outrage from some in the AI safety community. In my opinion, the criticism of DeepMind's release missed the deeper issue: that AI labs and safety orgs don't consistently account for test-time compute when evaluating models for release. Deep Think appears likely to be a scaffold of other models that do have system cards. Anyone externally could likely reproduce such a scaffold. In other words, it seems likely that the capabilities of Deep Think were available anyway to anyone willing to pay for Deep Think amounts of inference, by scaffolding a bunch of model queries together. Deep Think just makes that more convenient for the casual user. In my opinion, the real outrage should have been that when Gemini 3 and other models were released, their system cards did not measure benchmark performance as a function of test-time compute. In my ideal world, model evaluations would look something like this: A dedicated state actor could apply more than $10 million of inference to a single task. But evaluating a model typically involves thousands if not millions of rollouts, so evaluating at such high compute budgets for every rollout would be impractical. Fortunately, performance seems to scale somewhat predictably with the amount of inference compute applied. For this reason, we could evaluate at relatively low inference budgets and then project (with uncertainty) what capabilities might be at much higher budgets. Long-horizon evaluations can introduce complexities that may not always be addressed with extrapolation from smaller budgets. For example, it may turn out that the only way to confidently evaluate misalignment in an AI agent at a 1-year horizon is to actually run the agent for a year. AI labs may soon find themselves in a strange position where the operating horizon of their agents exceeds the development cycle of new models. At that point, it may be impossible to finish evaluations of a model over its maximum operating lifetime ahead of release without delaying the release of the model. ## Specific Recommendations Concretely, I recommend the following to the AI community: 1. AI labs should publish benchmark performance of newly released models with tokens, cost, or time on an x-axis. At a minimum, labs should report the inference budget used to achieve a scalar benchmark result. 1. Benchmarks should track inference usage on leaderboards, or have an explicit token/cost/time budget. Many benchmarks have already shifted in this direction, but it is not yet standard practice. 1. Preparedness Frameworks and Responsible Scaling Policies should explicitly account for inference compute when determining whether a model crosses a safety threshold. Additionally, evaluations should estimate capabilities at multiple inference budgets, including projections from smaller-budget runs with stated uncertainty. If you've followed me for a while, this whole article might seem like nothing new. We've known since the o1 announcement in September 2024 that the performance of reasoning models scales with more inference compute. And yet, nearly two years later, frontier AI labs still commonly report single-number benchmark results for their new model releases; AI safety orgs are still surprised when a scaffold achieves better performance by using 100x the inference budget; and Preparedness Frameworks and RSPs still often ignore inference compute usage when determining whether a model reaches a critical capability level. The most recent models are able to leverage test-time compute better than ever, pushing the performance plateau even farther out. If this trend continues, which I fully expect, benchmark scores that don’t account for inference compute usage will become less informative each model release cycle. For this reason, it is time to treat inference budget as a first-class part of both capability measurement and safety policy.
译Noam Brown指出,LLM基准性能日益依赖测试时计算,当前标准评估因忽略推理预算而低估模型能力。以GPT-5.5与GPT-5.4为例:控制测试时计算后,5.5表现远超5.4。Karpathy的自动化实验和AISecurityInst的网络评估均显示,即使消耗超1亿token,强模型性能仍持续提升。Brown建议改用性能-测试时计算曲线评估,安全评估也应计入推理预算,如Gemini 3 Deep Think发布时未配套风险说明,关键在于业界未统一考虑测试时计算。
如果你遇到过这个问题,可以试试看! 刚刚使用 Claude 去登录账号,因为当时创建账号时使用的是 Apple ID 虚拟邮箱(一长串的邮箱),遇到了一些登录问题。 在手机端是可以正常显示订阅并使用的,但在电脑端登录时,无法直接选择苹果的虚拟邮箱进行登录。 经过“群友小耳朵 ”的分享,解决方法如下: 1. 在设置里把那个虚拟邮箱地址直接复制下来。 2. 在电脑端选择“使用邮件登录”,然后把这个邮箱地址粘贴进去。注意这个邮箱是根据你当时 Apple ID 的设置创建的,不能直接用原始邮箱。 3. 复制进去后,系统会向你当时的 Apple ID 邮箱发送一个登录链接(不是验证码)。 4. 在电脑上打开那个链接进行登录,就可以正常使用了。 今天把这个问题分享出来,希望对大家有用😄 如果你遇到和我一样的问题,可以试试,并且也说明可以使用这个方法创建claude账号😄
译Claude 用户 Berry Xia 分享了一则登录技巧:如果用 Apple ID 虚拟邮箱(一长串随机地址)创建过 Claude 账号,手机端可正常使用,但电脑端无法直接选择该邮箱登录。解决方法:在设置中复制虚拟邮箱地址,在电脑端选择“使用邮件登录”并粘贴该地址,系统会向原始 Apple ID 邮箱发送登录链接,点击链接即可完成登录。该方法也可用于注册 Claude 账号。
1,000+ tokens/s is fast. 🚀 But what does that actually unlock?
译1000+ tokens/s 很快。🚀 但这实际解锁了什么?
iOS 27 的新 Siri 强的一逼, 而且是质变级别的强, 可以直接从你的个人数据里提取上下文,Damn! 看视频这个老哥的演示,竟然能识别出这是关于水瓶的需求, 1️⃣自动关联到妈妈的聊天记录,弹出卡片显示:「Your mom mentioned that she really wanted a LARQ bottle.」 2️⃣还附上了妈妈的具体消息片段(「OMG… what a fun care package!!」) 这已经不是简单搜索啦,已经涉及到个人语义理解 + 跨应用上下文召回,除了Messages,也支持照片/视频的文本解读,整个过程据回复是本地处理为主,速度快、隐私相对更好。 以前 Siri 连设置个定时器都经常出错,现在能处理这种带个人记忆的自然查询,真的让人眼前一亮,我看评论区很多人感慨:我们曾经为 Siri 能正确设定时器而庆祝🤣
译iOS 27 的新 Siri 实现质变级升级。演示中用户提及水瓶需求,Siri 自动关联妈妈聊天记录,弹出卡片显示「Your mom mentioned that she really wanted a LARQ bottle.」并附上消息片段。这涉及个人语义理解和跨应用上下文召回,支持 Messages、照片/视频文本解读。本地处理为主,速度快、隐私更好。
Open AI 也开始正式启动上市的法律和监管程序,但是他们说 IPO 时间还不确定
译OpenAI 宣布已正式启动上市的法律和监管程序,公司近日向美国证券交易委员会秘密提交了 S-1 注册声明(预计会泄露因而主动公布)。不过 IPO 具体时间尚未确定,可能还需要一段时间,因为作为私有公司更有利于完成某些目标;但此举也为 OpenAI 保留了尽早上市的选择权。公告依据 1933 年证券法规则 135 发布,不代表任何证券出售要约。
港版iPhone 更新iOS27后 还给我降级到最傻逼的Siri版本了 还不如之前呢,还能看看跑马灯 CTMD
实际上安装了我这个一系列的工具后 还可以让codex或者claude code帮你自动剪切视频 你看我让它翻译WWDC2026的视频 并按照视频内容进行片段裁切 它可以自动分析精准将视频裁切成多个独立片段
译安装一系列工具后,可让 Codex 或 Claude Code 自动剪切视频。例如,让 AI 翻译 WWDC2026 视频,并根据视频内容自动分析、精准裁切成多个独立片段,实现自动化视频处理。
Apple 发布全新基础模型家族,亮点是 AFM 3 Core Advanced:200 亿参数,完全运行在 iPhone 17 Pro 设备端。通过将完整模型存于闪存,每次仅加载 1-4B 专家参数到活跃内存,巧妙绕过 DRAM 瓶颈,实现设备端更生动的语音和更精准的听写。共 5 个模型,与 Google 合作打造,覆盖从设备端到 Private Cloud Compute 的云端模型,最高性能云端模型运行在 NVIDIA GPU 上。
腾讯混元推出UniRL,一个支持统一多模态模型的强化学习基础设施,并发布两个新算法DRPO和Flow-DPPO。UniRL通过单个后训练循环(生成→评分→优势→更新→同步)覆盖扩散/流匹配模型、LLM/VLM及统一多模态模型(如Hunyuan-Image 3和Bagel)。模型与算法作为独立轴,可实现模型×算法的组合覆盖。框架支持可插拔rollout引擎(训练侧/SGLang/vLLM-Omni)、FSDP2分片和三种部署模式。FlowDPPO针对流/扩散模型引入基于精确散度的信任域策略优化;DRPO为LLM RL提供平滑的优势加权二次正则化方法。代码已开源。
关联讨论 1 条X:腾讯混元 (@TencentHunyuan)一篇论文系统研究了Transformer注意力中QKV投影的必要性,发现Key和Value可共享同一投影(Q-K=V变体),仅增加3.1%的困惑度,便将KV cache削减50%,大幅降低推理内存。最佳变体保留Query独立,使注意力保持方向性。与GQA和MQA结合时,可分别实现87.5%和96.9%的cache缩减。弱变体Q=K-V因导致因果注意力过于对称且无cache节省而无效。
Since my last post, I reduced ty's retained memory by another 15% with Codex. We're now at a ~25% memory reduction overa...
Google Colab CLI and Skills are out. Full Colab runtimes from your terminal. - GPU/TPU provisioning (colab --gpu A100) -...
New Claude model checkpoints (Possibly Mythos GA) - Claude Fable 5 - Claude Fruitcake EAP The new checkpoints were detec...
瑞幸咖啡(Luckin Coffee)近日开放CLI、Skills和MCP服务,用户可通过安装地址(open.lkcoffee.com)体验。此前“饺子馆的Skills”已引发关注,瑞幸紧随其后提供一整套开发者工具,支持命令行下单等操作。目前具体功能细节尚未完全披露。
硅基流动宣布,通过V4-Pro(质量)与V4-Flash(速度)两行配置,即可在终端获得DeepSeek V4的最佳性价比组合。专为DeepSeek V4构建的终端编码智能体CodeWhale现已内置SiliconFlow。CodeWhale具备流式推理(显示思考过程)、自动路由(根据任务复杂度切换模型与思考深度)、零漂移(通过书面宪法为每轮排序权威,保持V4定向)以及自我改进(V4协助编写框架,框架提升后每个会话更强大)等特性。
DeepSeek 发布招聘,寻找 IDC 设计与规划工程师,负责数据中心全生命周期建设(选址、布局、施工图纸、支撑基础设施)。该职位是新建设施早期技术工作的核心角色,对候选人不设最低经验要求,另有 7 年以上高级岗。岗位描述将建设规模从 MW 级扩展到 GW 级。这意味着 DeepSeek 将像 OpenAI 一样自建数据中心。
Sources: Anthropic is planning to release a public version of Mythos tomorrow - Will have substantial guardrails and not...
MiMo推出V2.5 Pro UltraSpeed超高速模型版本,每秒输出超1000 Token,号称全球首个达此速度的万亿参数模型。实测显示:复杂3D小游戏TPS 804 Token/s(峰值810),首次响应4.71秒;官网3D动画峰值1426 Token/s,首次响应0.83秒,32秒输出25624 Token(1000行代码);另一复杂官网3D效果TPS 1136,首次响应4.5秒。相比此前超高速推理方案常见能力下降,MiMo未出现此类迹象。该模型主要面向效率要求极高的ToB客户,在Agent和Sub-Agent并发场景下效率提升明显。
JUST IN: Anthropic will reportedly release its new AI model "Mythos" tomorrow.
运营者 Vista 复盘自己三年间 X 账号从 100 关注增长至 11 万的全过程。基于全量 X 帖子,使用 Codex 进行数据分析,得出一些甚至自己都未意识到的结论。分享被视为最好的学习方式,完整 PPT 置于评论区。
X 上两个好友的新书,京东都有售卖,推荐! 宝玉老师 @dotey 王树义老师 @wshuyi 三年前因为AI开始在推特活跃,能快速到1w关注,主要靠 @HiTw93 和 宝玉老师的转帖分享。 近两年在天津时间多,有幸跟王树义和丁师傅 @d...
6月2日,智能眼镜用户云女士发现有人使用Rokid AR眼镜偷拍女性空乘人员,照片直接上传至Rokid官方App。在App内搜索“空乘”可找到大量此类照片。电商平台公开出售“快门贴纸”,可遮挡LED指示灯并静音快门声,仅一家店铺销量已超5000张。Meta智能眼镜也曾面临类似问题。Rokid已封禁涉事账号并清除平台图片,同时要求电商平台下架相关贴纸商品。
New Claude model checkpoints (Possibly Mythos GA) - Claude Fable 5 - Claude Fruitcake EAP The new checkpoints were detec...
刚刚去书店呆了一会,喝了杯咖啡。 Vibe Coding了 一会,发了一会呆。 找了点灵感~ 转头看到这里面很多的大学生或者附近上班or OPC的人,80%的人使用的苹果电脑或者iPad ! 对一半的人在使用AI工具进行学习或者工作,有几个...
NotebookLM 迎来重大升级。底层模型更换为 Gemini 3.5 和 Antigravity;每个 Notebook 自带云端电脑,支持写代码和复杂分析,内置 100 多个技能;新增十几种输出格式,包括 PDF、docx、Excel、PPT、图表、图片等,生成后可二次修改;还打通了 Google 搜索,用户无需自带资料即可开工。
推友推出AI Agent浏览器Aye,基于Chromium模拟真人操作。支持一句话操作,如拉黑X、回小红书、转写文章到知乎;可录制自定义Skill定时执行,完成繁琐网页操作。
洪明 (@hongming731) 透露,经过与 @puliandc 多轮讨论,他们使用 Claude Code、Claude Design 进行设计和讨论,并用 Codex Goal 模式完成了搭建。目标是在明晚上线 BestBlogs 世界杯专刊,邀请用户一起用 BestBlogs 看世界杯。
Here's your monthly reminder that you shouldn't be prompting coding agents anymore. You should be designing loops that p...
设计真正的AI系统涉及大量工程细节,提示词工程、上下文工程、记忆模块、skills等环节缺一不可,彼此环环相扣形成了一个完整系统。Berry Xia引用了一篇关于Loop Engineering的清晰阐述,强调这些组件的系统性整合才是关键。
http://x.com/i/article/2064143847765020672
I've recently been spending time with the ChatGPT team on shipping new experiences in ChatGPT! Our team's goal is simple...
苹果WWDC 2026落幕,核心仍是AI。Apple Intelligence新架构:与Google Gemini合作开发5个模型;端侧分AFM 3 Core(3B)和AFM 3 Core Advanced(20B MoE)。新Siri正式命名Siri AI,基于系统编排器融合上下文理解、App Actions、屏幕感知等能力,支持连续对话、跨平台同步及独立App,但未展示自主Agent能力。视觉智能、全系统听写、写作工具等同步更新。目前仅支持英语,国区不可用,可用时间未知。
I have a new kind of big button that I can press for Codex. Over the next 100 days, we will select one person per day wh...
Noam Brown指出,LLM基准性能日益依赖测试时计算,当前标准评估因忽略推理预算而低估模型能力。以GPT-5.5与GPT-5.4为例:控制测试时计算后,5.5表现远超5.4。Karpathy的自动化实验和AISecurityInst的网络评估均显示,即使消耗超1亿token,强模型性能仍持续提升。Brown建议改用性能-测试时计算曲线评估,安全评估也应计入推理预算,如Gemini 3 Deep Think发布时未配套风险说明,关键在于业界未统一考虑测试时计算。
Claude 用户 Berry Xia 分享了一则登录技巧:如果用 Apple ID 虚拟邮箱(一长串随机地址)创建过 Claude 账号,手机端可正常使用,但电脑端无法直接选择该邮箱登录。解决方法:在设置中复制虚拟邮箱地址,在电脑端选择“使用邮件登录”并粘贴该地址,系统会向原始 Apple ID 邮箱发送登录链接,点击链接即可完成登录。该方法也可用于注册 Claude 账号。
iOS 27 的新 Siri 实现质变级升级。演示中用户提及水瓶需求,Siri 自动关联妈妈聊天记录,弹出卡片显示「Your mom mentioned that she really wanted a LARQ bottle.」并附上消息片段。这涉及个人语义理解和跨应用上下文召回,支持 Messages、照片/视频文本解读。本地处理为主,速度快、隐私更好。
New Siri in iOS 27...it actually works 🤯
We recently submitted a confidential S-1. We expect it to leak so we're just announcing it. We have not decided on timin...
关联讨论 10 条OpenAI:官网动态(RSS · 排除企业/客户案例)Hacker News 热门(buzzing.cc 中文翻译)The Verge:AI(RSS)IT之家(RSS)X:Testing Catalog (@testingcatalog)Bloomberg:Technology(RSS)X:Rohan Paul (@rohanpaul_ai)X:Kim (@kimmonismus)The Decoder:AI News(RSS)TechCrunch:AI(RSS)安装一系列工具后,可让 Codex 或 Claude Code 自动剪切视频。例如,让 AI 翻译 WWDC2026 视频,并根据视频内容自动分析、精准裁切成多个独立片段,实现自动化视频处理。
http://x.com/i/article/2063968924019163136