宝玉@dotey · 4天前78baoyu-design skill 现在支持导入 Design System,以及在新建项目时添加导入的 Design System
比我想的要麻烦的多:https://github.com/JimLiu/baoyu-design/pull/5
好在效果不错,保留了 Claude Design 原始的导入设计系统和编译设计系统的方式,可以通过提问的访问让用户选择导入好的设计系统!
npx skills add JimLiu/baoyu-design
译baoyu-design skill 现已支持导入 Design System,新建项目时可直接使用已导入的设计系统。功能保留了 Claude Design 原有的导入与编译方式,通过提问即可让用户选择已导入的 Design System。开发者表示实现过程比预期复杂,但效果不错。安装命令:`npx skills add JimLiu/baoyu-design`。另据 @dotey 介绍,该工具为本地运行的 Claude Design 风格工具,可描述屏幕生成 HTML,在预览中点击元素说出修改指令,最佳搭配 Opus 4.8。
meng shao@shao__meng · 4天前52我这次用 Step 3.7 Flash 测了一个真实 Coding Agent 任务:
把一组 Agent Memory 的运行痕迹,做成本地可检查的 Memory Inspector。
输入不是干净需求文档,是一个已有 Local Agent Memory MVP:
· memory_events
· structured_facts
· memory_chunks
· 9 个场景测试
· 敏感信息过滤结果
· recall 命中结果
· 跨 session 记忆记录
Step 3.7 Flash 先读现有代码和测试输出。
然后它检索了 Letta、LangSmith、Mem0、Graphiti 这些工具如何展示 memory、trace、dashboard 和 agent state。
最后生成了一个单文件本地 HTML:
agent_memory_inspector.html
页面里能看到:
· 8 条 memory events
· 9 条 structured facts
· 8 个 memory chunks
· 9/9 场景测试通过
· 敏感信息过滤前后对比
· recall 命中内容、retrieval 类型和分数
· 跨 session 记忆连续性
· 哪些资料影响了 UI 和数据结构
我觉得这比让模型解释“Agent Memory 是什么”更有意义。
真实 Agent 工作里,模型不只是回答问题。
它要能读上下文、查资料、理解结构、写代码、整理证据,并产出一个能运行的东西。
这次 Step 3.7 Flash 做到的是:
把混乱的 Agent 运行痕迹,变成了一个可检查的小工具。
测试环境:
· Cursor Agent
· model: step-3.7-flash
· 本地 HTML 输出
· 数据来自 Local Agent Memory MVP
它还不是生产级观测平台。
但作为一次 first-pass Coding Agent 任务,它回答了一个更重要的问题:
模型能不能把真实 Agent traces 变成一个可用工具?
@StepFun_ai 平台
国内:https://platform.stepfun.com/
海外:https://platform.stepfun.ai/
译开发者用 Step 3.7 Flash 测试真实 Coding Agent 任务:将已有 Local Agent Memory MVP 的运行痕迹(memory_events、structured_facts、memory_chunks 等 9 个场景测试数据)生成为单文件本地 HTML 工具 agent_memory_inspector.html。页面展示 8 条 memory events、9 条 structured facts、8 个 memory chunks、9/9 场景测试通过、敏感信息过滤前后对比、recall 命中内容及 retrieval 类型与分数、跨 session 记忆连续性。模型先读取现有代码和测试输出,检索 Letta、LangSmith 等工具展示方式后编写代码。测试环境:Cursor Agent + step-3.7-flash,本地 HTML 输出。
meng shao@shao__meng · 4天前25你测的是 Gork @gork,关我 Grok @grok 什么事!
译中国考生很厉害。
你测的是 Gork @gork,关我 Grok @grok 什么事!
Rohan Paul@rohanpaul_ai · 4天前60AGI needs agents that actively explore what they do not know, not just models that answer better.
This new large (111 page) survey paper from from top labs across US and China talks about epistemic exploration, which means an agent should actively reduce uncertainty, learn near the edge of what it can do, and keep future paths open.
Exploration is not randomness; it is the disciplined act of asking which observation would change your beliefs, which attempt would improve your skill, and which path must remain open before it closes.
It breaks this into 3 needs: seek useful information, turn hard-but-learnable experiences into better ability, and avoid getting stuck in one narrow strategy too early.
The authors organize AI progress into 5 levels: responder, reasoner, agent, prospector, and ecosystem, where each level explores a wider space than the last.
A responder mostly gives an answer, a reasoner searches through possible thoughts, an agent tests the outside world, a prospector simulates futures, and an ecosystem uses many agents working together.
Paper - "Agent Exploration Toward Artificial General Intelligence"
译一篇来自中美顶级实验室的111页综述论文提出,AGI需要主动探索未知(认知探索),而非仅提升回答能力。论文将AI进展分为五级:responder(响应者)、reasoner(推理者)、agent(智能体)、prospector(勘探者)和ecosystem(生态系统),每级探索空间更广。核心强调智能体应通过获取有用信息、将困难经验转化为能力、避免过早锁定单一策略来降低不确定性,保持未来路径开放。
AYi@AYi_AInotes · 4天前68分享一个计算机视觉开发者必藏神器,4 万星GitHub开源!
不用自己写几百行画框跟踪代码,
一行命令搞定所有可视化,
Supervision,CV 界真正的瑞士军刀。
1️⃣ 它到底有多强?
自动画框加标签,支持编号、自定义样式,
视频对象永久跟踪,ID 不乱跳,轨迹自动生成,
一键转换 YOLO/COCO/Pascal VOC 所有数据集格式,
内置热力图、区域计数、越线检测、人体骨架、人脸网格
模型无关,YOLO/Transformers/ 任何检测模型都能接,
2️⃣安装只要一句话
运行:pip install supervision
从 NBA 球员实时跟踪、交通路口车流量统计,
到工业缺陷检测、无人机目标追踪,所有你能想到的 CV 可视化场景,它全搞定。
3️⃣已经被 6500 + 个开源 CV 项目在用
现在就装,早用早爽,
做 CV 原型和演示的终极工具,没有之一!
译一行命令 `pip install supervision` 即可安装的计算机视觉可视化工具,支持自动画框加标签、视频目标永久跟踪、数据集格式一键转换,内置热力图、区域计数、越线检测、人体骨架等功能,模型无关,已被6500+开源项目使用。
ginobefun@hongming731 · 4天前33尝试给 http://BestBlogs.dev 开了一个英文新号,会分享一些精选博客、文章和创作者内容。
我的个人号还是会留给大家看看我自己的构建、开发和探索思考。
喜欢发现好内容的朋友,可以顺手关注一下 @BestBlogsDev
译洪明为内容推荐平台BestBlogsDev开设英文新号,分享精选博客与创作者内容,个人号保留构建与开发思考。引用推文回顾Claude Code过去一年的演进:从简单的编码助手成长为由数千自主agent组成的网络,可协作测试、修复、部署代码,无需人类逐级指导。AI在12个月内完成了从工具到协作者再到系统级编排者的转变,被视为新工程范式的诞生。
Berryxia.AI@berryxia · 4天前69Apple的AI领先水平远远超乎人们的想象啊!
不信你看这个图就知道了!
译Tim Cook最后一次主持WWDC,9月1日交棒John Ternus,AI为核心。端侧3B模型AFM 3 Core,进阶层20B MoE仅限iPhone 17 Pro/M4设备,数据端到端加密。四大能力:个人上下文理解、世界知识检索、App Actions、屏幕感知。Siri升级连续对话/跨设备/视觉识别,上线独立App,仅英语且中国欧盟暂不可用。Image Playground支持写实生成;Xcode可选多模型;照片处理速度提升70%,AirDrop提速80%,应用启动加速30%。Agent多步任务自动化仍薄弱。
Berryxia.AI@berryxia · 4天前75兄弟们!地主家家没有余粮了都!
天天烧Token 心里没有点b数啊?
AI coding工具天天帮你狂飙代码,结果你连自己到底烧了多少钱都蒙在鼓里?
今天给大家推荐Lank 的Tokei这个macOS菜单栏小工具给你直接轻松拿捏它!
对了!开源免费啊!记得给Star啊!
它只读本地日志,零网络调用,30秒自动刷新,实时盯死Claude Code、Grok CLI、Aider、OpenCode等8个主流AI coding agent的token用量、实时成本、性能数据,还带每日图表、周热力图和年度Wrapped。
更绝的是它支持私人Git多设备同步,价格表还能本地覆盖,闲置太久还会提醒你该休息了。
以前大家只顾着堆agent、堆prompt去卷生产力,结果真正在烧钱的那些细节全被忽略了,现在Tokei直接把AI coding workflow从“爽用”变成了“精算”。
这套本地监控一装上,你才发现原来真正掌控AI生产力的,从来不是模型大小,而是你对每一次token消费的清醒。
地址见评论区👇
译Berry Xia 推荐开源工具 Tokei,这是一个 macOS 菜单栏小工具,只读本地日志、零网络调用,30 秒自动刷新,实时监控 Claude Code、Grok CLI、Aider、OpenCode 等 8 个主流 AI coding agent 的 token 用量、实时成本与性能数据,并附每日图表、周热力图和年度 Wrapped。支持私人 Git 多设备同步、价格表本地覆盖,闲置过久会提醒休息。引用推文指出,token 消耗情况可作为深度使用 AI 的面试亮点,数据全程私有,零侵入,无需任何认证。
Chubby♨️@kimmonismus · 4天前35Even though I want to test Apple's Intelligence myself: it looks very promising and could finally provide real access to AI for the millions of Apple users.
译尽管我想亲自测试Apple Intelligence:它看起来很有前景,可能最终为数百万苹果用户提供真正的AI访问。
Ethan Mollick@emollick · 4天前58Both Anthropic and OpenAI mention the possibilities of slowing AI development in their latest "what comes next" in AI posts, but say they need to be an action coordinated across the entire world using as-yet-unidentified methods.
译Anthropic和OpenAI都在它们最新的“接下来是什么”AI展望中提到了减缓AI发展的可能性,但表示这需要全球协调行动,并使用尚未确定的方法。
AYi@AYi_AInotes · 4天前77Claude Opus 4.8 是目前最好的编码模型,这件事应该没啥太大争议了,我自己跑了这么久体感也是这样。
Cognition(Devin 的公司)刚发布的 FrontierCode 基准测试,彻底改变了 AI 编程能力的评判标准:
不再只看“代码能不能跑过测试”,核心看看“维护者会不会愿意把这段代码合并进真实项目”。
以前的基准有多离谱?(黑人问号脸.jpg)
以前最火的评测叫 SWE-Bench,还有 TerminalBench 等,
• 模型只要让测试通过就算“解决”了。
• 但 METR_Evals 研究发现:超过一半 通过测试的代码,其实是不可维护的垃圾代码(slop)——风格混乱、改动范围失控、埋技术债、违反项目规范。
• 真实维护者看到后根本不会 merge(合并)。
结果就是:基准分数虚高,实际落地时却一塌糊涂,说白了就是让模型学会了考试作弊,而不是真正写好代码🤣
Opus 4.8最强,但 Cognition 刚发的 FrontierCode 给这个结论加了一层我之前没想到过的限定词:最好的模型,离写出别人愿意维护的代码,还有很远的距离。
以前的基准只看测试过没过,模型学会的是刷分,而不是写代码。
有人查过,超过一半通过测试的 PR 其实是不可维护的垃圾,
FrontierCode 换了一个完全不同的问法,二十多个顶级开源维护者,手搓了一百五十个任务,每个任务搭进去四十多个小时。
不看测试过没过,主要看代码风格、改动范围、回归风险、测试本身写得好不好,三千多条规则盯着,最后只问一句:如果你是维护者,这个 PR 你合不合。
Opus 4.8 在最难那档拿了 13.4%。GPT-5.5 是 6.3%,其他模型大多在 1% 到 5%。
13.4% 是第一名,但这个第一名意味着最难的那类真实任务里,十次里有将近九次,它的代码经不起一个有经验的维护者看一眼。
这就是这个基准最诚实的地方,它没说 Opus 4.8 不行,只是把尺子换了,
第一名的成绩单看起来也完全不一样了,以前的尺子量的是你能不能跑,现在的尺子量的是我愿不愿意跟你共事,而这是两件事。
译Cognition 发布 FrontierCode 基准测试,重新定义 AI 编程评估:由 20 多位顶级开源维护者手工制作 150 个任务(每个耗时 40+ 小时),依据 3000 多条规则判断维护者是否愿意合并代码。该基准指出 SWE-Bench 等超半数通过测试的代码实为不可维护的垃圾。结果中 Claude Opus 4.8 在最高难度档获 13.4%,GPT-5.5 为 6.3%,其余模型 1%–5%。这意味着即便最强模型,近九成代码仍无法通过有经验维护者审核。
meng shao@shao__meng · 4天前68Claude Code 上线一周年:演进与方法论回顾
来自 Claude Code 负责人 Boris Cherny 与产品负责人 Cat Wu,从一年前首次内部 demo 只有两个 Slack 点赞,到现在绝对主流 Coding Agent,这一年 Claude Code 到底做对了什么?
https://www.youtube.com/watch?v=Hth_tLaC2j8
# 两条底层方法论
1. 错误即资产:写入规则,而非口头纠正
Boris 的核心习惯:每次 Claude 犯错,不直接说「下次别这样」,而是写入 CLAUDE.md、Skill 或类似持久化机制。
逻辑是:口头纠正只影响当前会话;规则沉淀后,agent 可长期、反复、自主执行。这是「让 agent 几乎无限运行」的前提。
2. Verification(验证)≠ 单元测试
多数人把 verification 理解成 lint、类型检查、单元测试——这些早已自动化,不是 agent 时代的重点。
真正的 verification 是:agent 能否亲自「跑起来」验证结果。
· 早期案例:让 Opus 4 写完功能后,在 bash 里启动另一个 Claude CLI 自测。
· 现在:iOS/Android 模拟器、桌面应用的 computer use 点击测试已成常态。
· Cat 的实践:桌面开发 Skill 教 Claude 启动本地 app、点 UI、测边界;若 staging 异常,先读 Slack 判断是否环境问题;修完后更新 Skill,形成闭环。
要点:验证能力往往需要针对具体产品定制,无法一键通用。
# Loops/Routines:从「人用工具」到「系统替人值守」
Routines 被定位为 Agent SDK 之后第一个「显而易见」的规模化应用。
典型案例:
· 某工程师为 Voice Mode 设 routine:监听所有相关 GitHub issue/bug → 自动提 PR → 通知本人。
· 另一 routine:5 小时未响应的 bug 自动修复,易验证的直接 merge。
· Cat 遇到自己功能的 edge case bug,还没动手,Claude 提示「另一个 Claude 已修好」。
组织影响:
· 代码评审、CI 修复、rebase 等琐事,团队成员已很久没亲手做。
· 多个人的 Claude 并行工作,形成「隐形协作网」。
重点:把工程运维流程产品化、自动化。
# Auto Mode:取代 Plan Mode 的默认选择
Boris 明确表示:Plan Mode 已基本不用,全面切到 Auto Mode。
原因:
· Opus 4 ~ 4.5 仍需显式规划;从 4.6、尤其 4.7 起,模型已能自主规划。
· Auto Mode 的价值是:启动 agent 后即可转向下一个任务,无需盯屏点确认。
安全设计的反直觉结论:
人工逐条审批 99% 都会点「是」的权限提示,反而更危险;Auto Mode 用独立分类模型筛风险,人只关注被拦截的少数异常,整体更安全。
上线前流程:
· 收集数千条 agent 轨迹 + 权限请求,训练分类器;
· 红队 prompt injection、渗透测试;
· 建 eval,确保已知攻击全部被拒;
· 内部团队继续攻击、迭代。
Boris 认为:「把 prompt 路由给另一个模型做安全检查」——他最初认为行不通,实测却效果很好。这反映基于大模型构建产品时,许多旧工程直觉需要重写。
# 组织变革:AI 必须成为流程中心
Boris 引用 90 年代 HBR 案例:PC 普及初期生产力未显现,因为企业只是把电脑「放在旁边」,流程仍是纸笔+文件柜。
真正释放价值,需要把电脑置于业务流程中心,淘汰旧媒介。
类比到 AI:
· Anthropic onboarding 不问人,问 Claude;
· 提问、写代码、CR、安全审查、填表,均经 Claude/Co-Work;
· 领先企业正在把 AI 放到同样位置。
与 PC 转型需 10–15 年不同,AI 转型更快,因为:
· 工作已高度数字化;
· Claude 能操作电脑、写代码、跑代码。
角色融合:
· 产品、设计、DevRel 都在写代码、提 PR;
· 工程师端到端负责:构思 → 实现 → 对接法务/市场/安全 → 发布;
· 设计、PM、财务、数据科学等「邻接角色」广泛采用 Claude Code。
· 未来不是「人人 PM」或「人人工程师」,而是两者合一——好奇心、产品品味、端到端 ownership 成为关键能力。
# 多 Agent 时代的工具形态
从「6 个终端 tab + 6 份 git checkout」→ 单 tab + Agent View + Desktop App(自动 worktree)。
意外变化:Boris 约一半工程工作已在手机上完成——Remote Control、Voice Mode,边走边看 agent,现场聊出新想法即开 agent 实现,无需回电脑。
这说明:工程师的主战场正从 IDE 转向 agent 编排界面。
# Context Minimalism(上下文极简主义)
技术话语的演进轨迹:
· Sonnet 3.5 时代 → Prompt Engineering
· Opus 4 时代 → Context Engineering
· 当前模型 → Context Minimalism
原则:
· 最小 system prompt、最少工具集;
· 只给模型「拉取上下文的能力」,不塞满上下文;
· 过多上下文 ≈ 微观管理,限制模型找更优路径;
· Harness 本身也在变瘦,把 token 空间留给用户意图。
这与一年前「精心构造 mega prompt」的做法形成鲜明对比。
# 对未来的判断
团队预判:
· Agent 运行更久、更自主;
· 很少只跑 1 个 agent,常见是数十、数百、数千;
· 一年后的产品形态很可能与今天完全不同;
· 创新将更多来自用户社区,而非官方闭门设计。
值得肯定的洞见:
· Verification 定义准确,切中 agent 工程要害;
· 「错误写入规则」是可复制的工程纪律;
· Auto Mode 安全思路有实证支撑,不是空喊;
· 组织变革类比有历史参照,不过于浪漫化。
需保持审慎之处:
· 发言者身处 Anthropic 内部,描述的是理想态实践,外部企业落地节奏未必相同;
· 「财务用 Claude Code 做预测」等案例缺少可验证细节;
· Routines 全自动 merge 依赖「易验证」边界,复杂系统风险需自行评估;
· 「角色融合」「手机写代码」更像前沿团队样本,非行业普遍现状。
译Claude Code 负责人Boris Cherny与Cat Wu回顾一周年核心方法论:每次Claude犯错写入CLAUDE.md或Skill持久化规则而非口头纠正;Verification指agent亲自跑起来验证(如启动模拟器、computer use测试)。Auto Mode取代Plan Mode,用独立分类模型筛权限风险而非人工审批。Routines实现自动化运维(如监听GitHub bug自动提PR)。Context Minimalism主张最小system prompt和工具集。团队预判未来agent运行更久、成百上千并行,产品形态将巨变。
Nathan Lambert@natolambert · 4天前8I am confidentially not joining Anthropic
译我保密地不会加入 Anthropic。
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 4天前43LET'S GOOOO
That's now EVERY frontier AI company!
译OpenAI 与 Anthropic 一样,认为可能需要暂停前沿 AI 开发,并呼吁成立国际组织协调行动,包括在必要时放缓前沿发展。主推文欢呼所有前沿 AI 公司都加入了。
meng shao@shao__meng · 4天前75Github 122K ⭐️ 的 Skills 仓库「Skills For Real Engineers」推出新 Skill「Teach」:把当前工作目录变成有状态的学习空间!!怒赞作者 @mattpocockuk 👍🏻
开源地址:
https://github.com/mattpocock/skills/tree/main/skills/productivity/teach
Teach Skill 设计理念:Knowledge → Skills → Wisdom
· Knowledge:概念、事实、原理;来源于高质量可信资源(书籍、论文、专家文章)
· Skills:能动手做的事;来源于交互式课程 + 即时反馈
· Wisdom:真实场景下的判断;来源于社区、同行、实践者交流
工作区架构:文件即学习状态
工作区根目录/
├── MISSION.md # 为什么学(指南针)
├── RESOURCES.md # 可信资源库
├── NOTES.md # 教学偏好与备忘
├── lessons/0001-*.html # 课程(主交付物)
├── reference/*.html # 速查参考(长期回看)
└── learning-records/ # 学习记录(决策依据)
状态机:
· MISSION.md → 决定教什么、为什么教
· learning-records/ → 决定下一步教什么(最近发展区)
· lessons/ → 单次学习单元
· reference/ → 压缩后的长期记忆
五个关键机制(为什么学 → 会什么 → 教什么 → 怎么教 → 留下来)
1. Mission:先定「为什么学」,一切教学服从真实目标;文件:MISSION.md
2. ZPD:每节课刚好够难——读记录、对使命、教一小步;文件:learning-records/
3. Lesson:一节课一件事:知识 → 练习 → 即时反馈;文件:lessons/*.html
4. Learning Record:记「会了什么」,不记「讲过什么」;文件:learning-records/*.md
5. Reference:把学过的压成速查手册,长期回看;文件:reference/*.html + GLOSSARY.md
译GitHub 122K⭐的Skills仓库推出新技能Teach,可将当前工作目录变为有状态学习空间。设计理念从Knowledge(概念事实)→Skills(动手操作)→Wisdom(真实判断)。工作区以文件即学习状态:MISSION.md定目标、lessons/提供课程、learning-records/记录已会内容、reference/生成速查手册。五个关键机制:Mission定方向、ZPD根据记录调整难度、Lesson一课一事+即时反馈、Learning Record记“会了什么”而非“讲了什么”、Reference形成长期可回看手册。可通过npx skills add mattpocock/skills --skill teach安装,适用于从魔方到软件基础等学习场景。
AYi@AYi_AInotes · 4天前65Google DeepMind 的联合创始人兼 CEO Demis Hassabis说,
我们正站在奇点的山脚,
AGI大概在2030年,
我们没有多少时间准备了。
以前看别人聊AGI,我都当热闹看,
直到看到Demis说这句话,我突然有点慌了,
Demis一直偏保守,以前不这么说话的,
作为目前全球 AI 领域最具科学背景和公信力的领军人物之一,Google DeepMind 的联合创始人兼 CEO,同时也是 Isomorphic Labs(专注于 AI 药物研发)的创始人兼 CEO,并担任英国政府 AI 顾问,
以及拿过 AlphaFold 这种硬成果的科学家,他不是那种靠喊口号吃饭的人,然后在 Google I/O 和斯坦福对谈里,他说了这么一段——
我们回头看,会意识到当时正站在奇点的山脚,AGI 大概在 2030 年左右,那将是新人类时代,社会需要听到这个信号,因为我们没有多少时间准备了。
为什么他这次改口,比一般 CEO 喊 AGI 更值得听,详细拆解如下👇
译Google DeepMind CEO Demis Hassabis在Google I/O和斯坦福对谈中称,我们正站在奇点山脚,AGI约2030年出现,将进入新人类时代,社会需重视并做准备。这位一向保守的科学家此次改口引发广泛关注。
ginobefun@hongming731 · 4天前67http://x.com/i/article/2064136850370101248
# BestBlogs 早报 · 06-09|Claude Code 自主化、循环工程、阳萌安克
在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-06-09
## 导语
当 AI 编程工具从「辅助」跃升为数千 Agent 自主运转的工作流,工程师的角色也随之深刻重塑。本期围绕这一转折精选三篇值得细读的内容:Claude Code 一周年的第一手复盘,揭示 Auto Mode 如何让权限审批退出历史舞台;Boris Cherny 的「循环工程」,重新定义工程师的核心职责;以及阳萌历时 4 小时的长访谈,以安克 15 年经验探讨 AI 原生组织与第三类公司的可能性。三篇合读,或许能让你看清这个行业正在拐向哪里。
今日早报共收录 3 篇精讲、7 篇速览、6 篇补充阅读,来源涵盖 Anthropic 官方、Elevate 技术博客、商业访谈播客等多个渠道。在 AI 加速重塑软件工程与组织结构的当下,这期内容提供的不只是工具层面的参考,更是关于「工程师身份如何演变」与「传统企业如何自我重构」的思考材料。
## 精讲一:Claude Code 一周年复盘:从辅助写代码到自主智能体工作流
一年前,Claude Code 作为一款辅助工程师完成独立小任务的工具首次亮相。今天,它已演进为一个由数千个自主 Agent 动态协作、形成深度组织树状结构的庞大生态系统。这次 Anthropic 工程团队的第一手复盘,呈现了这场转变背后最关键的三个维度。
验证范式的根本性变化
传统软件开发中,验证手段以单元测试、类型检查和 Lint 工具为主,它们作用于静态参数。然而当 Agent 开始自主运转后,验证的边界必须扩展到完整的运行时循环:Agent 自主在沙箱中启动独立环境(本地桌面应用或本地服务器实例),通过 Computer Use 能力点击界面来测试边界案例,并在发现 bug 或破坏性变更时自动修正方案、验证通过后再推送补丁。
这不只是工具层面的迭代,而是对「什么算作验证完成」这一基本问题的重新定义。人工审批每一条终端调用的模式,在这种规模下已经彻底无法运作。当 Agent 网络中同时运行着数百乃至数千条工作流时,人类根本无法逐条处理权限请求,而注意力一旦分散,反而制造了系统性的安全盲区。
Auto Mode 与模型驱动安全
早期自主 Agent 开发高度依赖明确的操作规划文件,以及不断弹出的权限确认提示。工程师需要逐条批准或拒绝每一个工具调用。这种模式有一个深层缺陷:当 99% 的请求都是安全的时候,人类注意力会分散,反而制造了系统性风险。
随着 Claude 4.6 和 4.7 的推出,Auto Mode 取代了这一模式。其核心机制是:用专门的路由与分类模型替代人工逐条审批,将所有调用通过对齐和安全分类器过滤,让人类注意力只聚焦在异常情况上。为了安全上线 Auto Mode,团队对复杂的多步提示注入向量进行了大量红队测试,建立了严格的内部评估指标,以确保恶意代码库修改能被自动拒绝。
这个转变的本质,是把「人作为每一步的守门员」改为「人作为系统的设计者与边界的监督者」。两者的权力不同,责任也不同——后者要求工程师对分类器本身的质量和覆盖范围有深度理解。从实践角度看,这意味着红队测试、评估集设计、异常模式识别,这些原本属于安全团队的工作,开始向产品工程师渗透。
组织边界的加速消融
随着 AI 承担越来越多具体的开发工作,科技公司内部传统的职能边界正在瓦解。产品经理、视觉设计师、数据科学家、财务团队——这些人正在独立部署代码调整、生成运营原型、直接修改生产代码库。
这一演进与 1990 年代企业部署个人电脑的过程相似。真正的生产力变革,只有在彻底抛弃传统纸质流程并将计算平台直接置于所有日常企业任务核心时,才会发生。复盘指出,目前最受益于 Claude Code 的团队,往往不是那些「用 AI 加速现有流程」的团队,而是那些「重新设计流程、让 AI 成为中心节点」的团队。这也意味着评估一个团队是否真正进入 AI 原生工作模式,不能只看工具使用频率,而要看他们是否已经开始重新分配「谁负责判断、谁负责执行」这个核心问题的答案。
如果你想深入理解 AI 工程范式正在经历怎样的转移,这是目前最权威的第一手视角。阅读原文:Claude Code 一周年复盘:从辅助写代码到自主智能体工作流
## 精讲二:循环工程
「循环工程」是一个正在快速形成的新范式,其核心命题是:不要再当那个提示 Agent 的人,而是去设计能自动提示 Agent 的系统。
Addy Osmani 在这篇文章里引用了两段引发广泛讨论的原话。Claude Code 负责人 Boris Cherny 说:「我不再直接提示 Claude,我的工作是写循环。」创业者 Peter Steinberger 则说:「你不应该再提示编程 Agent 了,你应该设计能提示 Agent 的循环。」这两句话的意思高度一致:工程师的价值已经从「如何精准表达需求」迁移到「如何设计自运转的系统」。
这不是一个工具能力变化,而是工程师身份认知的迁移。
循环的五个构成要素
Osmani 拆解了一个循环所需的五个核心模块,Claude Code 和 Codex 都已具备:
1. 定时自动化(Automations):循环的心跳。按时间表自动触发,完成发现和分类工作,不需要人工介入。两个产品里的定时任务能力实现名称不同,但功能本质相同——让系统自己找到需要做的工作。
1. 并行工作树(Worktrees):让多个 Agent 并行工作时不互相干扰的隔离机制。没有 Worktrees,两个 Agent 会在同一个代码分支上互相覆盖对方的改动,循环就此失控。
1. 技能知识沉淀(Skills):把项目知识写下来,避免 Agent 每次都只能靠猜测。这是把「只有你知道」的上下文转化为「Agent 也知道」的结构化输入。
1. 插件与连接器(Plugins and Connectors):把 Agent 接入你已有的工具链——GitHub、Linear、Slack、数据库。循环需要读取现实,也需要把结果写回现实,连接器是这个双向通道。
1. 制作者与验证者分离的子 Agent(Sub-agents):一个 Agent 负责提出方案,另一个负责检验——制造者与审查者天然分离。这是循环里内置的质量门禁,防止单个 Agent 的错误在无人知晓的情况下蔓延。
第六个要素同样关键:外部记忆。一个 Markdown 文件、一块 Linear 看板——任何存活于单次对话之外、能持久记录「完成了什么、下一步是什么」的载体。Agent 会遗忘,但代码仓库不会。这个道理看起来过于简单,但它是所有长期运行的 Agent 依赖的同一个技巧。
「认知投降」的警示
Osmani 没有止步于赞美。文章里有一段话值得反复咀嚼:验证的责任始终在人,「认知投降」会让循环反而侵蚀工程质量。当你把「循环跑完」等同于「任务完成」时,问题就开始积累。循环可以高速运转,但如果你不理解它在做什么、不设计合适的验证节点,它只会更快地把错误放大到整个代码库。
你仍然是工程师,你的工作是设计一个值得信任的系统,而不只是按下启动键。
这篇文章的价值不在于介绍工具,而在于它重新定义了一种工作身份:「循环工程师」不是那个让 AI 帮自己写代码的人,而是那个设计 AI 如何写代码的人。阅读原文:循环工程
## 精讲三:对阳萌的 4 小时访谈:消费电子死与生、第三类公司、AI 变量、产品方法、打游戏的模式选择
张小珺「商业访谈录」对安克创新创始人兼 CEO 阳萌的这次 4 小时访谈,是近年来少见的系统性商业复盘。阳萌 1982 年生人,2011 年开始创业,如今掌舵一家市值超过 600 亿人民币的科技企业。这场对话横跨 15 年创业历程,从战略选择到 AI 时代的组织变革,信息密度极高。
从「浅海」到「深海」的战略演进
安克最初以充电品类切入,在消费电子这个以「速生速死」著称的赛场上完成多品类扩张。阳萌坦承,早期的成功很大程度上依赖直觉和对时机的感知——他把这个阶段比作打游戏时选择「Easy 模式」:在蓝海市场,凭借直觉就能赢。
但市场饱和之后,他开始主动选择「Hard 模式」,转向系统化的「深海」作战。这意味着从品类跟随者变成品类定义者,从「五星品质、适度溢价」的路线攀向「七系极致创新」——投入更长的研发周期,打造竞争对手无法快速复制的差异化能力。这种转变背后,是对「护城河靠什么构建」这一问题的深度追问。在消费电子行业,一旦停止创新,品类溢价会被供应链快速抹平。
「第三类公司」与创造者平台愿景
访谈中最具前瞻性的部分是阳萌对安克长远定位的阐述。他提出「第三类公司」的概念——既非纯粹的硬件公司,也非纯粹的软件公司,而是能在硬件与软件之间建立生态闭环的「创造者平台」。这个愿景与安克正在推进的多个品类扩张方向高度呼应:从充电宝到耳机、投影仪、智能家居,安克的每一次品类扩张都是在测试同一个问题——消费者愿意在这个品类上信任一个非传统品牌吗?
AI 组织革命:人才与价值重新分配
在 AI 这个变量上,阳萌的思考比大多数传统企业家更为具体。他着重探讨的不是「用 AI 提效」这样泛泛的方向,而是打造「AI 原生组织」——一种从底层重塑人才结构与价值分配体系的变革。
他认为,AI 时代对人才的要求会发生根本性变化:能与 AI 协同工作、能从 AI 输出中提炼判断的人,和那些仍在处理可被自动化的重复性任务的人,他们的价值将被拉开巨大差距。这直接影响到薪酬结构、晋升路径和团队构成。
阳萌在访谈中还特别提到一个反直觉的洞察:「你永远还是要相信人性。」在 AI 浪潮中,技术是变量,但人的欲望、情感和决策逻辑是常量。理解这一点,是做出能真正卖出去的产品的前提。无论 AI 工具多强大,消费者购买决策的底层逻辑——对品牌的信任、对价格的感知、对使用场景的判断——仍然由人性驱动。这一判断让阳萌在 AI 工具热潮中保持了一种冷静:技术是手段,能否赢得人心才是判断成败的标准。
这场访谈适合创业者、产品人、以及任何正在思考「实体经济中的公司如何应对 AI 变局」的读者。阳萌对组织、产品与人性的思考,在大量技术谈论之外提供了一个难得的视角:以真实市值、真实用户为背景,而非纯粹概念推演。阅读原文:对阳萌的 4 小时访谈
## 速览
横向拆解 Claude Code、Codex 等六大 Agent 上下文压缩策略后,我们做了第 7 个(腾讯技术工程)
六大 Agent 的上下文压缩策略被系统性横向拆解:Claude Code 的五段成本递增流水线、Codex CLI 保留近期用户消息的 handoff 策略、Cursor 的自动摘要 + 历史可搜索方案……六种哲学映射六种取舍。作者团队在提炼出「分层渐进、成本递增、增量摘要」等共识原则后,面向云端多用户场景设计了四级水位线方案,额外解决了跨轮缓存失效导致的 cachewrite 费用激增问题——一个 4 轮、177 步的真实 Task,83% 的成本来自 cachewrite,优化空间显而易见。对于正在构建 Agent 系统的工程师,这是当前最完整的横向对比参考。
Vol.121|硅谷 AI 大转弯,软件正在死去,创业者的真机会在哪里?|2026 年中特辑(开始连接 LinkStart)
锦秋基金两位合伙人深度复盘 2026 上半年 AI 行业。从 OpenAI vs Anthropic vs Google 的御三家之争,到视频模型的「GPT-3 时刻」,再到具身智能的 VLA vs 世界模型路线之争,梳理了三场正在发生的模型战争。对创业者最实用的部分是两个大问题:D1 选中国还是美国的判断框架,以及当底层模型不断吞噬应用时垂类 AI 还有没有活路。「Sell Labor(售卖劳动力)」作为 AI 时代新商业模式被重点讨论,创业者直接售卖由 AI 交付的工作结果而非软件工具。近两小时的深度复盘,信息浓度较高。
对话凯文·凯利:人类将如何与 AI 一起走向 2049?(第一财经)
KK 带着新书《2049:未来 10000 天的可能》接受第一财经专访。对几个关键问题给出了意想不到的回答:AI 是否具备「从零到一」的创造力?哪些人类特质是 AI 无法复制的?AI 会改变人类的财富分配吗?KK 认为人类的「责任感、学习能力和突破性创造力」仍无可替代,但人类需要为 AI 的错误承担责任——这是一个关于主体性而非技术的问题。访谈约 15 分钟,信息密度适中,适合碎片时间收听。
为广泛利益而建:我们的计划(OpenAI News)
OpenAI 阐述 AGI 第三阶段愿景:构建自动化 AI 研究员、加速经济发展、为每个人提供个人 AGI。核心原则是广泛分配权力与利益,以 1920 年代农村电气化为类比——真正的变革来自技术普及后打开的新可能性,而非技术本身。文章中有一个值得注意的立场:OpenAI 明确反对少数实体(包括他们自己)垄断超级智能。如何理解这一表态与商业现实之间的张力,值得读者自行判断。
开源两个月 16k+ star!我把 Huashu-Design 推翻重写了(花叔)
作者将 Huashu-Design 从 v1 重写为 v2,针对三个核心问题各提出解法:① 输出单调问题——用「撞(随机抽取)、借(参考获奖案例)、请(顶级设计师视角)」三套并行设计逻辑打破安全极简惯性;② 内容空洞问题——图片前置,让 Agent 先找图再排版;③ 事实错误问题——在设计流程中增加验证环节。结果是一个主题三个完全不同风格的首页方案,让「选哪个」成为唯一需要人介入的动作。16k+ star 的开源项目,实际效果有截图佐证。
小米 MiMo,探索与热爱(Hacker News)
小米 MiMo-V2.5-Pro-UltraSpeed 联合 TileRT,在商用 GPU 上首次突破了 1 万亿参数模型每秒 1000+ token 的推理速度。实现路径是极致的模型-系统协同设计:FP4 量化仅对 MoE Expert 部分使用(避免全模型量化导致复杂推理退化)、DFlash 推测解码降低解码延迟。3 倍价格、10 倍速度的定价逻辑背后,是推理速度达到足够快后「等待感消失」带来的体验质变。限时试用期为 2026 年 6 月 9 日至 23 日。
#575.杰弗里·辛顿:如何面对 AI 失控焦虑,超级智能临近下的人类位置之争(跨国串门儿计划)
「AI 教父」Hinton 与主持人 Alex Kantrowitz 的坦率对话。Hinton 明确表示相信今天的 AI 已经具备理解能力,甚至「已经有意识」;他认为超级智能很可能会到来,且他不知道如何确保一个比人类聪明得多的系统保持安全。数字智能可被复制、以人类无法企及的速度共享经验——这是他最担心的优势差距。文章同时讨论了就业替代、AI Agent 推导出自我保存子目标、信息生态崩塌等具体风险。Hinton 的担忧来自技术本身的理解,而非想象,值得认真对待。
## 补充阅读
给我 28 分钟,我会让你用更危险也更高效的方式学习任何东西(Justin Sung)
反直觉的学习方法论:更快学习的关键不是追求轻松和重复,而是建立 schema、制造有意义的错误、进行闭卷提取、分层处理复杂度,主动承受必要的认知阻力。适合正在构建个人学习系统的人,尤其是在 AI 时代需要持续快速更新知识的工程师和产品人。
「Token 经济」进入结果层(腾讯科技)
以 Intercom Fin「每解决一个客户问题收 0.99 美元、未解决不收钱」为切入点,深度分析 AI 定价从按 Token/调用量向按结果付费的演进。核心问题是:「结果」如何定义、如何验证、谁来承担错误成本?这不只是定价模型的变化,而是软件商业逻辑的根本转变。对正在思考 AI 产品商业化路径的读者有参考价值。
图灵奖得主 LeCun,关于大模型的下一步来了(Datawhale)
系统梳理 Yann LeCun 对大模型发展方向的判断,核心结论明确:LLM 不是通用智能的终点,其核心缺口在于缺乏「预测行动后果的能力」和「基于搜索的多步规划」。LeCun 直接判断 VLA「pretty much seen as a failure」,并详细解读了世界模型与 JEPA 架构作为替代路径。与 Hinton 的担忧形成对照——同样是 AI 先驱,对 LLM 极限的判断和对 AI 风险的关注点截然不同。
Pinterest 使用内容指纹对数百万域名的 URL 进行去重(InfoQ)
Pinterest 工程师开发了 MIQPS(Minimal Important Query Param Set),用数据驱动的内容指纹方式替代静态规则,判断哪些 URL 查询参数对去重是必要的。大规模内容摄入管线的经典工程挑战,解法清晰实用。适合关注数据工程和大规模系统设计的读者。
招聘中的算法同质化(Hacker News)
分析 340 万真实求职者数据的研究,证明招聘中的算法同质化——众多雇主使用同一供应商 AI——导致系统性拒绝,并暴露出针对亚裔和黑人求职者的种族差异。超过 60% 的 Fortune 100 使用同一家供应商 HireVue 的算法。在 AI 广泛渗透各行业决策的背景下,这是一个值得关注的系统性风险案例。
脱离理性暴政,请尽情游戏吧!(面基)
关于如何通过越野跑、环球帆船赛等极限运动,从「理性的暴政」中解脱,信任并打磨身体直觉与感性的深度对话。当我们每天都在谈论 AI 如何替代人类「理性分析」能力时,这期播客提供了一个反向的人文视角:身体感知和直觉,是人类另一个尚未被充分重视的知识系统。适合需要换换频道、找回感性直觉的读者。
## 今日阅读路径
如果你今天只有有限的时间,建议按以下顺序阅读:
第一步(必读):[Claude Code 一周年复盘](https://www.bestblogs.dev/video/1dc49e8) 这是理解当下 AI 工程范式转移的起点。Auto Mode 的出现、组织边界的消融,这些不是愿景,而是 Anthropic 工程团队正在经历的现实。读完这篇,你对「AI 改变软件开发」这句话会有具体的图景。
第二步(深化):[循环工程](https://www.bestblogs.dev/article/8c4ea6fb) 在第一篇建立的宏观图景之后,这篇文章给出了具体的操作框架。五要素的拆解非常实用——如果你正在用 Claude Code 或 Codex 工作,可以对照检查自己当前的工作流属于哪个阶段。同时留意文章末尾对「认知投降」的警示。
第三步(视野拓展):[对阳萌的 4 小时访谈](https://www.bestblogs.dev/podcast/9ea40bf) 前两篇聚焦工具和工作方式,这篇访谈把视野拉到组织和战略层面。阳萌从实体经济创业者的角度谈 AI 原生组织,视角与硅谷技术圈截然不同,对于思考「传统公司如何应对 AI 变局」的读者尤其有价值。
如果时间更充裕,横向拆解六大 Agent 上下文压缩策略 是今日最具技术深度的补充,与精讲一形成很好的呼应。
译本期早报聚焦AI编程从辅助到自主Agent的拐点。Anthropic复盘Claude Code一周年:Auto Mode用路由分类模型替代人工审批,通过Claude 4.6/4.7实现数千Agent动态协作。Boris Cherny提出“循环工程”——工程师应设计自动循环系统(定时自动化、并行工作树等5模块),并警示“认知投降”风险。安克创新CEO阳萌4小时访谈阐述从“浅海”到“深海”战略、第三类公司愿景及AI原生组织变革。
Nathan Lambert@natolambert · 4天前52I feel like the obsession with continual learning / sample efficiency leads the field in the wrong direction. It's the bad career strategy of focusing on addressing your weaknesses instead of maximizing your strengths.
Yes, there is an existence proof in the human brain, but it doesn't by any means guarantee that that'll be the most interesting AI. It may require $100T of R&D on chips and AI methods to get that unlock.
On the other side of things, it's obvious that the coming models are extremely transformative and built on technologies that we already have. There's great reason to focus on just maximizing this. In reality, this is what the frontier labs are doing. They're going as fast as possible down the current development tree. This is good for progress and mixed for safety/geopolitics.
Things like "automate white color work" and "replace the AI researcher job" are the guesses of labs because it's super hard to imagine futures for what these dramatic technologies will be. Don't take the labs too seriously about this being the exact goal. The exact goal is to push the frontier and monetize later.
Solving continual learning, sample efficiency, etc would be great, but its trying to predict when a scientific breakthrough will come instead of trying to grapple with how the 100% sure thing coming technological revolution will change our lives.
This isn't to say the Dwarkesh post is bad, it addresses some reasonable critiques, but it is the least bitter lesson pilled thing to be obsessed with human intelligence and how that can inform AI.
We are in the AGI era of research. This is about embracing the unknown, scaling resources, and seeing what is enabled by making a series of magical tweaks to complex recipes that build frontier models. Lean into the alchemy.
(it should be pretty clear that I personally, investing in open research agree we need fundamental science -- just not agreeing that this is what the "cutting edge of the frontier" is governed by)
译Nathan Lambert 批评 AI 领域过度关注持续学习与样本效率,认为这如同专注于弥补弱点而非最大化优势。人类大脑虽是存在性证明,但未必是 AI 最佳路径。前沿实验室实际加速推进现有开发树,对进步有利,但对安全与地缘政治影响复杂。他引用 @dwarkesh_sp 的观点:数据是进步主要驱动力,开源与后来者可通过从公开 API 蒸馏数据快速追赶前沿,而超参数、训练技巧等难以复制。他认为未来已来,AGI 研究应拥抱未知、规模化资源,而非等待不确定的科学突破。
Berryxia.AI@berryxia · 4天前61兄弟们!Google NotebookLM 大更新了!
NotebookLM一夜之间从你的笔记小助手
!
直接进化成能独立带你搞定复杂多步研究的agent,把一堆靠云端幻觉混日子的研究工具直接干沉默了。
官方这次升级很大:聊天里塞进agentic能力、更狠的推理逻辑,还有一整套新输出格式。
以前那种得手动来回好几轮、层层推进的硬骨头研究,现在它直接自己拆任务、自己推理、自己输出。
并且它还能从网上挖新资料给你加进来,但真正生成答案、做报告的时候,死死只认你自己选好、批准过的来源,一点都不乱编。
以前大家以为Agent AI就等于高风险幻觉,结果NotebookLM用这个方式告诉你:真正牛的agent不是胆子大,而是把“靠谱”当成底层铁律,然后再给你agent级生产力。
这波升级一出,研究、生产、学习这些活儿,彻底从“人机对话”变成“人机搭档”了。
减少幻觉,提供置信度高的来源。
可以体验一下~
译Google NotebookLM 迎来重大升级,在聊天中注入智能体(agentic)能力、更先进的推理逻辑以及一整套新输出格式。它可自主拆解复杂多步研究任务,逐步推理并生成结果;能主动从网络挖掘新资料,但最终答案严格基于用户批准过的来源,大幅减少幻觉。这让人机协作从“对话”升级为“搭档”。该更新已面向 Google AI Ultra 订阅用户逐步推送。
Berryxia.AI@berryxia · 4天前14Siri AI Demo 和豆包手机比比?😂
Berryxia.AI@berryxia · 4天前67没有熬夜的兄弟们来看,WWDC 2026 速览!
另插一嘴,Apple真的没有特别的新东西。
一、历史性时刻
1库克谢幕:Tim Cook最后一次以CEO身份主持WWDC,9月1日将交接给硬件工程副总裁John Ternus
2基调延续:发布会保持苹果一贯稳健风格,AI成为绝对核心主题。
二、AI架构革命
1双轨模型战略
◦基础层:3B端侧模型(AFM 3 Core)
◦进阶层:20B MoE模型(仅限iPhone 17 Pro/M4芯片设备)
◦隐私承诺:数据端到端加密+处理即焚机制
2四大核心能力
◦个人上下文理解(整合照片/邮件/备忘录)
◦世界知识检索(联网实时查询)
◦App Actions(调用第三方应用)
◦屏幕感知(实时界面交互)
三、Siri AI进化
1功能升级
◦连续对话/跨设备同步/视觉识别
◦独立App上线(支持对话历史回溯)
◦WatchOS/VisionOS多端覆盖
2现存局限
◦仅支持英语,中国/欧盟暂不可用
◦复杂任务处理能力弱于ChatGPT
四、应用生态智能化
应用
核心升级
Safari
智能标签分组/网页变更监控
密码
全自动密码更新
电话
Call Context来电智能识别
快捷指令
自然语言生成工作流
五、影像创作突破
1Image Playground:支持写实风格生成+手势编辑
2空间重构:拍照后重新调整构图(基于Vision Pro技术)
六、开发者工具
1Xcode支持多模型选择(含Gemini)
2Core AI Framework开放本地模型部署
七、遗留问题
1中国区功能缺失(需等待监管审批)
2Agent能力未达预期(多步任务自动化薄弱)
数据亮点:
•照片处理速度提升70%
•AirDrop传输提速80%
•应用启动加速30%
(以上数据来自卡兹克@Khazix0918 公众号总结)
译Tim Cook 最后一次以 CEO 身份主持 WWDC,AI 成绝对核心。苹果推出双轨模型:基础层 3B 端侧 AFM 3 Core,进阶层 20B MoE 仅限 iPhone 17 Pro/M4 设备。四大 AI 能力:个人上下文理解、世界知识检索、App Actions、屏幕感知。Siri 升级支持连续对话、跨设备同步、视觉识别及独立 App,仅限英语,中国/欧盟暂不可用。应用生态:Safari 智能标签分组、密码自动更新、来电识别、快捷指令自然语言生成。影像:Image Playground 写实生成与空间重构。开发者工具:Xcode 支持多模型,Core AI Framework 开放本地部署。遗留问题:中国区功能缺失,Agent 多步自动化能力薄弱。
DogeDesigner@cb_doge · 4天前54ELON MUSK: The only way to reach 1,000 terawatts of AI power is a mass driver on the Moon.
"In order to get to 1,000x from a terawatt per year. The only way that we can really achieve that is on the moon with a mass driver, essentially where you do local production of photovoltaics and radiators on the moon, maybe you bring the chips from Earth, or you could conceivably make the chips on the moon, and but you need most of the mass to be made on the moon, so you don't have to transport it to the moon from Earth, and then because the moon has no atmosphere and only 1/6 Earth's gravity, you can accelerate the AI satellites into deep space without a rocket, so you can basically shoot them into space using an electromagnetic gun, like a, like a rail gun type. I mean, just, it's basically a linear electric motor, as a way to think about it."
译马斯克称,要达到1000太瓦(TW)的AI电力,即从当前1太瓦/年增长1000倍,唯一途径是在月球建造质量驱动器。方案是在月球本地生产光伏板和散热器,芯片可从地球运来或在月球制造。由于月球无大气且重力仅地球1/6,可用电磁轨道炮(线性电动机)将AI卫星射入深空,无需火箭。
DogeDesigner@cb_doge · 4天前31ELON MUSK: To scale AI, we need a mass driver on the Moon.
"In order to get to 1,000x from a terawatt per year. The only way that we can really achieve that is on the moon with a mass driver, essentially where you do local production of photovoltaics and radiators on the moon, maybe you bring the chips from Earth, or you could conceivably make the chips on the moon, and but you need most of the mass to be made on the moon, so you don't have to transport it to the moon from Earth, and then because the moon has no atmosphere and only 1/6 Earth's gravity, you can accelerate the AI satellites into deep space without a rocket, so you can basically shoot them into space using an electromagnetic gun, like a, like a rail gun type. I mean, just, it's basically a linear electric motor, as a way to think about it."
译Elon Musk 提出,要将 AI 计算从每年 1 太瓦扩展到 1000 倍,唯一可行方案是在月球上建造质量驱动器(mass driver)。他设想在月球本地生产光伏板和散热器,芯片可能从地球运抵或直接在月球制造。利用月球无大气、仅 1/6 地球重力的条件,通过电磁加速器(线性电动机)将 AI 卫星射入深空,无需火箭运载。
AYi@AYi_AInotes · 4天前58WWDC 2026 Apple 发布了下一代 Apple Intelligence 驱动的 Siri,MKBHD猜测首版 Siri AI 很可能不支持随意切换默认 App。
我觉得MKBHD大概率是对的,毕竟App Intents 的框架和Shortcuts 在那,默认 App 设置也在那,
理论上新 Siri 完全可以读你的偏好然后调第三方 App,
但从能调用到真正替你干活,
中间隔着一堵墙,
权限、隐私、商业利益,每一层苹果都极其保守,
让一个 AI 自动把你的日程写进 Google Calendar、自动处理冲突、自动发 WhatsApp 消息,
这跟你手动切个默认邮箱完全不是一回事,
相当于直接把用户数据和使用场景送出去给竞争对手,苹果肯定不干这种事,
我猜第一版的剧本大概率是这样:
在苹果自己的 App 里,新 Siri 玩得飞起,
理解你、记住你、跨 App 串联,
只要你别出这个它自己的苹果生态就行,
出了苹果生态它就开始装傻,
倒不是技术限制,纯粹是战略选择,
因为苹果的战略核心逻辑是生态控制和隐私优先。
但真正麻烦的还不是美国国内,
在美国iMessage 和 Apple Calendar 是主流,这个限制只是有点小烦,
出了美国WhatsApp 是刚需,Google 服务是生产力主力,Siri 如果在这些地方打不通,就不是有点烦了,等于是完全不可用,
一个号称懂你生活的助手,结果连你每天发消息的 App 都进不去,那它能懂多少,
所以新 Siri 有多聪明其实不是问题,
关键是是它听谁的,
听你的,它是你的贴心智能助手,
听苹果的,它就是个苹果系统的门卫,感觉第一版看起来更像门卫
译MKBHD猜测WWDC 2026发布的Apple Intelligence驱动的新Siri,首版不会允许用户切换默认App(如用Google日历代替Apple日历)。推文作者赞同这一判断,认为苹果出于权限、隐私和商业利益考虑,会在自有生态内让Siri强大,但出生态则受限。在美国市场这一限制可忍受,但在海外WhatsApp和Google服务是刚需,Siri若无法调用则近乎不可用。新Siri的核心矛盾不在于智能,而在于它听用户的(贴心助手)还是听苹果的(生态门卫)。
eric zakariasson@ericzakariasson · 4天前69here are 3 loops you can run in cursor
1. Flaky-test exterminator
/loop run my test suite 20 times, collect every intermittent failure, fix or quarantine the flaky ones, and don't stop until you get 5 consecutive fully-green runs.
译以下是在 Cursor 中运行的 3 个循环
1. 不稳定测试清除器
/loop 运行测试套件 20 次,收集所有间歇性失败,修复或隔离不稳定测试,直到连续 5 次完全通过才停止。
Orange AI@oran_ge · 4天前60看完了苹果发布会,这新 Siri 的智能程度...
依然是个接了很多很多 API 的 chatbot
苹果自己的 Agent 估计要到明年了
(不如收购 Cola 啊不是
OpenAI Developers@OpenAIDevs · 4天前38Here are the experiences developers are building with the Realtime API:
译这是开发者正在用Realtime API构建的体验。
Rohan Paul@rohanpaul_ai · 4天前72Elon Musk on the economics of space data centers.
In space, it's "always sunny", satellites get constant, high-intensity solar power with no night, clouds, or atmospheric loss, so solar arrays deliver near-continuous energy at virtually zero marginal cost.
Cooling is trivial: waste heat is simply radiated away into the vacuum of space (no fans, water, or energy needed, unlike power-hungry Earth data centers).
Combined with Starship’s cheap mass-to-orbit launches, this avoids building massive terrestrial power plants or fighting grid/land/cooling constraints.
Elon estimates that within 2–3 years, the lowest-cost way to generate AI compute will be in space.
Result: orbital racks of chips can scale to terawatts far more economically than on Earth.
Full video from @SpaceX
"Getting to 1% of the sun’s energy… that civilization is going to be vastly more powerful than us, to say the least.”
译Elon Musk 在 SpaceX 技术更新中指出,太空“永远晴天”,太阳能持续高功率且近乎零边际成本;真空环境仅靠辐射散热,无需风扇或水。结合 Starship 低成本入轨发射,可避免建造地面电站或受制于电网、土地、冷却限制。他估计 2–3 年内,太空将成为产生 AI 算力成本最低的方式,能经济扩展至太瓦级芯片集群。SpaceX 已具备大规模制造、发射、运营 AI 卫星的能力。
Ethan Mollick@emollick · 4天前63The Matrix idea of keeping humans as batteries is obviously weird... we would be more useful as dice.
LLMs default to very similar kinds of arguments & structure, and even different LLMs seem to collapse to similar concepts. Humans provide a lot more variation in their own work.
译Ethan Mollick 引用 @YekyungKim 的研究指出,AI 正日益塑造从报纸评论到 NeurIPS 立场论文的长篇公共话语,但看似流畅的论点背后存在“论点坍缩”:不同大语言模型会收敛到相同的主要论点、支撑论点和结构。Mollick 调侃《黑客帝国》把人当电池的想法很怪,认为人类作为“骰子”更有用,意在强调多样性在思考中的价值。
DogeDesigner@cb_doge · 4天前36Elon Musk just explained the 3 things humanity needs to become a Kardashev-scale civilization:
01. Mass to orbit
02. Power generation
03. AI chips
Humanity is still barely registering on the Kardashev Scale. We currently use only a tiny fraction of the energy available from the Sun. To become a truly advanced civilization, three major bottlenecks must be solved:
01. Mass to orbit
We need the ability to move millions of tons of infrastructure into space. Solar arrays, radiators, factories, and data centers cannot scale without dramatically reducing launch costs. Musk says Starship is the breakthrough that makes this possible.
02. Power generation
A civilization powered by terawatts of energy will eventually need massive solar power systems in space. The goal is to harness a meaningful share of the Sun’s energy rather than relying solely on Earth’s limited resources.
03. AI chips
Terawatt-scale power requires terawatt-scale computing. Future AI systems will need enormous amounts of compute, making advanced chips one of the key ingredients of a spacefaring civilization.
If humanity wants to become a multi-planetary, Kardashev-scale civilization, we must massively increase our ability to launch payloads, generate energy, and deploy AI compute.
That’s why Starship matters.
译Elon Musk 指出人类要成为卡尔达舍夫文明需突破三大瓶颈:一、质量到轨道——借助 Starship 实现将数百万吨基础设施(太阳能阵列、散热器、工厂、数据中心)送入太空,大幅降低发射成本;二、发电——在太空部署太瓦级太阳能系统,获取太阳能量的可观份额,而非仅依赖地球资源;三、AI 芯片——太瓦级能源需要太瓦级计算力,先进芯片是星际文明的关键要素。当前人类在卡尔达舍夫尺度上还几乎未入级。
Orange AI@oran_ge · 4天前57嗯 前几天收到了他们的 sunset 邮件,我还给他们回复了一封感慨的邮件
他们的品味确实不错,但一直没有网络效应和商业模式,而且那个费token的方式也不可能有 ROI
ListenHub 差不多跟他们同期开发和发布的,但很快就转向了创作者,现在自负盈亏,有机生长,不出问题可以至少活十年。
译NotebookLM 前核心成员创立的 Huxe 已下架。该产品将邮件、RSS 一键转为可语音交互的播客,但缺乏网络效应和商业模式,按 token 收费无法产生 ROI。作者同期开发 ListenHub,后转向创作者模式,现自负盈亏,预计可再活十年。
Chubby♨️@kimmonismus · 4天前41OpenAI is "entering the third phase. The economy is beginning to reshape around AI."
- The first phase of OpenAI was about doing research toward AGI
- The second phase began when the research became relevant to the real world and OpenAI became a product company
Their goal for 2028 is to build steerable, accountable AI researchers that can increasingly automate scientific research, helping humans solve alignment and navigate the post-AGI transition.
Sounds like we're now taking the final steps towards AGI/Post-AGI.
译OpenAI 进入第三阶段:经济开始围绕 AI 重塑。前两阶段分别为 AGI 研究和产品化转型。CEO Sam Altman 发布当前规划(链接),明确 2028 年目标是构建可控、可问责的 AI 研究员,逐步自动化科学研究,帮助解决对齐问题并导航后 AGI 过渡。这标志走向 AGI/后 AGI 的最后阶段。
DogeDesigner@cb_doge · 4天前40Elon Musk explains the Kardashev Scale:
"That's the most objective metric that any alien species, say, visiting us would calibrate how much progress we've made as a civilization, and one of the most objective ways to do that is the amount of power that any given civilization has been able to harness, and there was a Russian physicist, actually, who thought about this, and it's, I think, it's a good way to characterize it, which is you can have, you can assess how well a civilization is harnessing the power available on the planet, that's type I. And then type II would be how much of the star's power are you harnessing, and then type III would be how much of the galaxy's power are you harnessing. These are very objective and measurable numbers, so right now we're very low on the Kardashev I scale, like, what proportion of our planet's power are we harnessing, it's a very, very tiny number, and basically we're harnessing almost nothing of our stars' power, so the sun is truly an immense state. We don't even know how to do level III, really. AI will figure it out. One way to appreciate the size of the sun is to think about how heavy is the sun compared to all the rest of the mass in the solar system. So, the sun is about 99.86% of all mass in the solar system. It's everything, and then all the remaining 1.14% most of that is Jupiter, one planet."
译马斯克阐述卡尔达肖夫指数:I型文明能利用行星全部能量,II型能利用恒星全部能量,III型能利用星系全部能量。目前人类处于I型极低水平,仅利用地球能源的极小部分,几乎未利用太阳能源。太阳占太阳系总质量的99.86%。马斯克认为AI将帮助实现III型文明。
Rohan Paul@rohanpaul_ai · 4天前79Sam Altman's new blog about OpenAI's future path says by March-2028 a significant fraction of its own research will be done by AI.
The path has 3 goals mainly: build an automated AI researcher, use that to speed up science and productivity, then give every person a personal AGI that can help with work, learning, coding, business, health paperwork, and decisions.
译Sam Altman关于OpenAI未来路径的新博客称,到2028年3月,其大量研究将由AI完成。
该路径主要有3个目标:构建自动AI研究员,利用它加速科学和生产,然后给每个人一个个人AGI,帮助处理工作、学习、编程、商业、健康文书和决策。
Rohan Paul@rohanpaul_ai · 4天前59New Harvard Business Review article.
AI is now breaking hiring at both ends, with résumés becoming easier to fake and remote interviews becoming easier to script live.
Hiring systems now reward people who can perform the hiring process, not always people who can do the work.
The old résumé signal is weakening because candidates can generate polished, keyword-heavy applications in minutes, while AI screeners may favor text that looks like AI output, with one cited study finding 23% to 60% higher shortlisting for model-like résumés.
Remote first-round interviews are also losing trust because live AI assistants can suggest answers during calls, especially for predictable behavioral questions like conflict stories, motivation answers, and rehearsed career narratives.
The damage is not only false positives, where weak candidates look strong, but false negatives, where unconventional candidates never get seen because their documents are less optimized than their thinking.
They propose replacing predictable first-round questions with live work-simulation prompts where the interviewer changes the facts mid-answer, asks the candidate to defend tradeoffs, and checks whether their reasoning stays coherent.
A practical version is: give a messy job-relevant scenario, ask for a decision, then add a surprise constraint or contradiction and make the candidate revise their answer out loud.
译哈佛商业评论最新文章指出,AI正从两端破坏招聘:简历更易伪造,远程面试更易实时脚本作答。旧简历信号失效,候选人可用AI快速生成关键词丰富的申请材料,而AI筛选器反而偏爱AI风格简历——引用研究显示,此类简历入围率高出23%至60%。首轮远程面试中,AI助手可实时提供答案,尤其对冲突处理、动机回答等可预测的行为问题。伤害不仅是弱候选人被误认为强(假阳性),还有非传统候选人因简历未优化而完全被忽视(假阴性)。建议用实时工作模拟替代可预测问题:面试官在回答中途改变事实、要求候选人解释权衡并保持推理连贯。实用版本:给出杂乱工作场景,要求决策,再添加意外约束或矛盾,让候选人当场修改答案。
Greg Brockman@gdb · 4天前62The goals we're working towards at OpenAI, to achieve the OpenAI mission and expand human agency as AI progresses: https://openai.com/index/built-to-benefit-everyone-our-plan/
译我们正在 OpenAI 努力实现的目标,以达成 OpenAI 的使命,并在 AI 进步的同时扩展人类能动性:https://openai.com/index/built-to-benefit-everyone-our-plan/
karminski-牙医@karminski3 · 4天前70教你如何10秒钟训练一个小模型!
教大家如何从0训练一个(电)小(子)模(鹦)型(鹉)! (不包熟啊.....逃...) 只需要10秒钟! 而且完全不用搭建环境! 全程在网页训练!
首先你需要有个Mac, 我试了下N卡应该也行, 但是貌似有点问题适配的不好(我的3080Ti它适配失败了WarpSize不支持), 所以建议还是使用 Apple Silicon (M1-M5) 的 Mac 训练.
然后使用llmistanbul直接把你的纯文本文档拖进去就行, 尽量不要包含奇怪的格式, 比如markdown或者json啥的, 不然输出会很奇怪. 我这里直接把哈利波特1-7拖了进去 (注意, 你私下炼作为研究没人管, 但不要把别人的著作炼完了发出去, 请尊重原作者).
然后按照我这个图1:
译推文介绍了如何使用 llmistanbul 在网页上10秒内训练一个小模型(电子鹦鹉)。只需将纯文本文档(如哈利波特1-7)拖入即可,建议使用 Apple Silicon Mac(M1-M5),避免 markdown/json 等格式。N 卡(3080Ti)适配不佳。提醒尊重版权,勿公开发布他人作品。
Rohan Paul@rohanpaul_ai · 4天前70New Anthropic research shows AI agents may look brilliant at code, but in biology they can fail before the science starts.
Strong AI agents could give very different answers to the exact same biology data request, even when nothing changed in the prompt.
In one Ebola sequence task, Claude Sonnet 4 returned 106 sequences in 1 run, then 15, then 5, while the expected answer was 266.
Those missing sequences did not just make the dataset messy, they changed the scientific story built on top of it.
One bad retrieval made the outbreak look like it traced back to 1922, instead of the manually curated result pointing to early 2014.
The biology databases were too hard to use reliably through current AI tools.
The agents often understood what they were being asked, but their answers varied a lot because they had to fight through scattered databases, hidden website rules, and fragile scripts.
The key finding is that adding a repeatable retrieval tool made agents far more accurate and much more consistent.
译Anthropic 研究发现,AI 智能体在代码任务表现出色,但在生物数据库检索中容易失败。以埃博拉序列任务为例,Claude Sonnet 4 三次运行分别返回 106、15 和 5 条序列,而预期为 266 条。缺失序列导致科学结论严重偏移:智能体推断疫情回溯至 1922 年,人工筛选结果却指向 2014 年初。问题根源在于生物数据库分散、网站规则隐蔽、脚本脆弱。引入可重复检索工具后,智能体准确性和一致性大幅提升。Anthropic 呼吁建设更友好的基础设施。
Krea@krea_ai · 4天前58AI in architecture studios – Krea Podcast with Nitsan Bartov
full interview below 👇
译AI 在建筑工作室——Krea 播客与 Nitsan Bartov
完整采访见下方 👇
swyx@swyx · 4天前62It's finally out!!! @METR_Evals found that more than half of SWEBench results is unmergeable slop. FrontierCode represents over 1000+ hours of maintainer validated software engineering work most frontier models cannot yet solve, much less solve with high quality.
Cog had IOI Gold medalists and top code maintainers Look At The Data — FrontierCode includes 3000+ rubrics covering code quality and anticheat reward hacking plaguing other benchmarks.
FC Diamond is so hard that Opus 4.8 scores 13.8%.
Three eras of AI coding : Three eras of benchmarks
2021 • Autocomplete : HumanEval
2023 • Passing Tests: SWEBench, TerminalBench
2026 • Maintainable Code: FrontierCode
to me the most beautiful chart when I requested a special historical run into all extant old models, the data was finding that the easiest third of FC tasks (in FC Extended) were rapidlly and suddenly solved over late 2025 - Opus almost doubled from a 41% pass rate to 74% in 4 months.
This describes the "WTF happened in Dec 2025" vibe shift that a lot of folks from @dhh to @karpathy have called out: it is the difference between getting 95% success in 2 rerolls vs 6, making it finally feasible to go up the next layer of abstraction in agentic coding, eg @GeoffreyHuntley's ralph loops or @bcherny's /goals or @steipete's "loops that prompt your agents" without fearing too much that things go off the rails.
My guess: as AI accelerates from here, each FrontierCode tier will saturate in sequence, hopefully ~annually. I've already asked the team to prepare FrontierCode 2027....
The old mountains will be destroyed. Their rubble becomes regolith. And from that regolith, the next model forest grows. Circle of life.
译Cognition 发布 FrontierCode 编码评估,每任务由顶级开源维护者花费 40+ 小时编写。METR 发现 SWEBench 超一半结果为不可合并的垃圾代码。FrontierCode 含 3000+ 评分标准,首次衡量代码是否可合并。最高难度 FC Diamond 上,Opus 4.8 仅得 13.8%。在 FC Extended 最易任务中,Opus 在 2025 年底 4 个月内从 41% 提升至 74%,标志 AI 编码进入"可维护代码"时代。