这篇公众号真的太典型的中国自媒体风格了,咋咋呼呼,各种定论,论据基本靠嘴。。。 大厂抢青少年?这难道不是培训机构的生意而已?最小年龄低至 6 岁,学 Agent、Coding?连幼儿园的孩子也不放过了? 抢人和裁员的这段,看到「虾」这个字,就完全没欲望读了,一定对 AI 一无所知的编辑写的。我可以拍脑袋说,靠 AI 裁员,只是企业经营无方,给自己找的一个体面的借口罢了。。 林凡?脉脉 CEO?去年 AI 人才需求增长 10 倍?今年又增长了 8.7 倍?哪来的数据啊?是脉脉里的职位?那玩意真的有人在用?会不会是把原来的职位,改了个名字,加个 AI 的关键词?
译邵猛发文批评某公众号文章,称其是典型中国自媒体风格——咋咋呼呼、定论多、论据靠嘴。文章提到“大厂抢青少年”(最小6岁学Agent、Coding),邵猛认为这只是培训机构的生意。文章还声称“靠AI裁员”,邵猛斥之为企业借口。邵猛特别质疑脉脉CEO林凡的数据:去年AI人才需求增长10倍、今年再增长8.7倍,怀疑这些数字来自脉脉内部职位,且可能只是旧职位改名加“AI”关键词,并非真实需求。
不写 Prompt,写 Loops -- Boris Cherny (Claude Code) 道理大家都懂,伴随 Claude Opus 4.8 和 GPT-5.5 这种高智能、高推理和编程能力的模型出现,模型能自主决策和解决的问题复杂度越来越高,已经不需要我们一问一答的手把手写 Prompt 可是,不管是 Loops 还是 Codex Goals,都有一个不得不面对的问题,Token!Token!还是 Token! 因为他们消耗 Token 真的太快了,可能一个 Goals 就干没了我 5 小时的用量,我们还远没有到 Token 自由的阶段,特别在企业里还要严格审查 Token 消耗的 ROI,所以在企业中大家还是会把前置的 Spec、AGENTS.md 等尽量写明约束,让 AI 尽量做确定性可控的部分。
译Anthropic Claude Code 负责人 Boris Cherny 表示,他不再手动写提示词,而是编写 Loops 让 AI 自主决策和解决问题。伴随 Claude Opus 4.8 和 GPT-5.5 等高智能模型出现,手把手写 Prompt 的模式将被取代。但 Loops 方案消耗 Token 过快,一个 Goals 可能耗尽 5 小时用量,企业仍需严格审查 Token 消耗的 ROI,因此实践中会通过前置的 Spec、AGENTS.md 等约束让 AI 做确定性可控的部分。Boris 预测这一转变将在今年剩余时间持续。
你现在在用哪个 Coding Agent? Warp 团队 @BHolmesDev 发出的调查得到了 2095 个投票,其中 Codex App 占到 51.1%、Warp CLI 占到 30.9%、Claude App 7.4% 没错,Claude App 只有 7.4%,因为投票中没有包含 Claude Code 😄
译你现在在用哪个 Coding Agent? Warp团队 @BHolmesDev 进行的调查得到了 2095 个投票,其中 Codex App 占到 51.1%、Warp CLI 占到 30.9%、Claude App 7.4% 没错,Claude App 只有 7.4%,因为投票中没有包含 Claude Code 😄
> 为什么选 HTML,而不是 React 选 HTML 而不是 react 这个观点我是不认同的。 第一个原因是设计稿它是需要关联数据有交互的,能根据数据去动态地变更 UI,这点 HTML 是做不好的。 像 Claude Design 它不仅仅是一个 UI 设计工具,更是一个 UX 交互设计工具 第二个呢,当你的 UI 复杂到一定程度,你一定是要拆的。如果你是一个巨大的 HTML,其实你要重构或者是更改的话会非常的麻烦,因为它不可能把整个的 HTML 文件给加载进去。 而使而使用 react 的话,它可以把页面拆成若干个很小的小组件,这样的话你一方面可以重用,另外的话如果你要修改,你只要加载其中的一个小组件就可以了,它对上下文要求是没有那么高的。 还有一点是用 react 的话,它天然地就把设计划分成了一个结构化的树形的结构,当基于这个设计稿去开发的时候,对 coding agent 的话它是很好用的。而如果你是一个巨大的 HTML,它不是一个结构化的,它的实现跟设计会是比较割裂的,当你的设计稿去修改的时候,你很难再去跟你的代码有一个映射或者是同步 至于文章中说到的理由,说因为模型要把注意力放在保证 react 的运行准确率上,这个在以前也许是成立的,但以现在的大模型能力,这一点来说已经不是什么问题了
译宝玉不认同“选HTML而非React”的观点。首先,设计稿需要动态数据交互,HTML难以胜任,而Claude Design是UX交互工具。其次,复杂UI必须拆分为小组件,React能实现重用与低上下文修改,大型HTML则维护困难。再者,React天然形成结构化树形设计,方便coding agent开发,HTML结构割裂、难以与设计映射。至于文章说模型注意力需放在React运行准确率上,宝玉认为当前大模型能力已使此问题不复存在。
interesting recursive loop here maybe
译Codex 推出了一个新的“大按钮”。在接下来的 100 天里,每天会选出一位用 Codex 做出了令人印象深刻或极其有用工作的人,给他们一个月的 10 倍使用限额,看看他们能做出什么。明天开始第一个。Sam Altman 评论称“这里可能有个有趣的递归循环”。
http://x.com/i/article/2063761613795270656 # BestBlogs 早报 · 06-08|iPod 之父访谈、Codex 驾驭工程、Coding Agent 技术全景图 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-06-08 ## 导语 AI 工具已全面渗透软件工程的每个环节,但真正的挑战从未只是「用起来」。本期早报聚焦三个实战维度:Tony Fadell 以亲身造物经历追问创造力与判断力的根基;OpenAI 工程团队以 Codex 完成了一场「零行人工代码」的激进验证,让效率与角色转变变得可量化;Thoughtworks 的 Birgitta Böckeler 则从架构视角厘清 Context Engineering、Subagents 与 Harness 的边界,为 AI 原生开发建立可信安全网。三篇合读,恰好构成一张完整的认知地图。 今日精选共 16 篇,涵盖 AI 创造力方法论、智能体工程实践、多 Agent 协调理论、行业动态追踪等多个维度。 ## 精讲一:iPod 与 iPhone 之父 Tony Fadell:AI 时代如何建立品味、判断力与创造力 Tony Fadell 是当代产品史上最重要的实践者之一。他主导了 iPod 的诞生,深度参与了 iPhone 的设计,之后又创办 Nest 以高端温控器改变了智能家居的想象边界。在 Lenny's Podcast 这次近两小时的对话中,他没有停留在「老故事新讲」的层面,而是系统拆解了一个核心命题:在数据无处不在的时代,为什么真正的创新依然需要「知情直觉」? 「知情直觉」的来源与边界 Fadell 在对话中反复强调一个判断:当你在建造一个全新品类的产品时,历史数据基本上是无效的。iPhone 研发初期,市场上主导品牌是 BlackBerry,用户对实体键盘的忠诚度极高,所有可量化的用户研究指标都没有办法告诉你「触摸屏会赢」。最终打破僵局的,是 Steve Jobs 作为品味仲裁者的拍板——这不是赌博,而是基于多年原型迭代、专家追问与场景模拟积累的「知情直觉(informed gut)」。 这种直觉不是天赋,而是习得的。Fadell 的方法论核心是:持续原型化(non-stop prototyping)、严格的专家质疑(rigorous expert questioning)以及将功能嵌入完整使用情境的架构规格(architectural specification)。三者缺一不可。数据能告诉你现状,但「知情直觉」才能告诉你应该去哪里。 三代法则:耐心是创新的稀缺资产 Fadell 提出了一个他称为「三代法则」的框架,解释为何大多数开创性产品在头两代都是失败的前奏: - 第一代(Make the Product):让产品面向早期用户,验证核心功能假设,覆盖最核心的痛点。 - 第二代(Fix the Product):基于真实用户反馈修复可用性问题,打磨机械层面的细节。 - 第三代(Fix the Business):优化制造成本、扩展分发网络、解锁规模定价。 iPod 走过的恰好是这条路。前两代产品只面向 Mac 用户群,覆盖不足 1% 的电脑买家市场,从任何财务角度看都是小众产品。直到第三代引入 Windows 兼容性、建立 iTunes Music Store 生态,苹果才真正找到了商业飞轮。这一代产品不仅救了 iPod,某种意义上也救了整个苹果公司。 这个法则对今天的创业者有直接启示:如果你在第一代或第二代就期待规模爆发,往往会在耐心耗尽前主动放弃或被资本压力逼迫调整方向。真正的创新需要机构性耐心。 AI 时代的警示:「认知投降」与「快时尚软件」 Fadell 对 AI 时代的产品创新给出了两个尖锐警示。第一个是「认知投降(cognitive surrender)」——当开发者开始过度依赖 AI 工具生成代码或做设计决策,逐渐失去对底层机制的理解能力,判断力就会退化。工具是加速器,不能替代思考者。 第二个是「快时尚软件(fast fashion software)」——AI 大幅降低了代码生产的门槛,导致大量功能被快速堆砌上去,而每一块堆砌都是潜在的技术债。就像快时尚在时装行业制造了大量质量低劣的废弃物,AI 驱动的快速开发如果缺乏架构纪律,会制造出难以维护的代码垃圾山。 Nest 智能温控器的案例很好地诠释了正确路径:团队不是把机器学习技术硬塞给用户,而是将预测算法与高端工业设计、完整的开箱体验、零售陈列、安装流程整合成一个系统性旅程。技术最终为用户体验服务,而不是反过来。 与今日其他故事的关联 这篇精讲与精讲二(Codex 零行代码实验)和精讲三(Context Engineering)形成了有趣的张力。Fadell 警告「认知投降」,而 Codex 团队恰好在做一件看起来与之对立的事——让工程师主动放弃写代码,转而设计环境与意图。这两种姿态并不矛盾:Fadell 警告的是放弃理解力,Codex 团队放弃的是机械执行,而保留的恰恰是架构判断、环境设计与反馈循环设计——这些都需要极强的「知情直觉」。 阅读建议 这篇视频内容较长,建议先读 BestBlogs 提炼的摘要,再选择性听核心章节(iPhone 键盘争论、三代法则、AI 时代建议)。适合产品经理、创业者、以及对创新方法论感兴趣的工程师。 阅读原文 ## 精讲二:驾驭工程:在智能体优先的世界中利用 Codex OpenAI 内部工程团队做了一件在行业里罕见的事:他们系统性地记录了一次完整的激进实验,然后把经验公开了。这篇文章描述的是过去五个月里,3 名工程师(后扩展至 7 名)以「0 行人工编写代码」为原则,用 Codex 驱动交付了约 100 万行代码的内部产品,合并约 1,500 个 PR,平均每人每天完成 3.5 个 PR——估算约为手写代码效率的 10 倍。 这不是一篇效率吹嘘文,而是一篇关于「当代码不再由人写时,工程师的工作到底是什么」的严肃反思。 从「写代码」到「设计环境」 文章最核心的洞察是工程师角色的根本转变:Humans steer. Agents execute.(人类掌舵,智能体执行。)这句话不是口号,而是团队五个月实践后得出的架构原则。 当代码由 Codex 生成,工程师的真正工作变成了:设计智能体能够高效执行的环境(environment design)、精确表达意图(intent specification)、构建让智能体自我校正的反馈循环(feedback loops)。这三件事每一件都比「写代码」需要更高级别的系统性思维。 人工编写代码的稀缺性被彻底改变之后,真正稀缺的是什么?文章给出的答案是:人类的时间与注意力(human time and attention)。 AGENTS.md:目录而非百科 Codex 工作的方式需要一个关键文件——AGENTS.md,它告诉智能体代码库的结构、约定与工作方式。团队的关键经验是:AGENTS.md 应该是目录(directory)而非百科全书(encyclopedia)。 如果把所有规则、决策历史、代码风格全部塞进去,文件会变成一个难以维护的噪音源,智能体无法从中提取有用信号。正确的做法是:AGENTS.md 只写导航性内容,详细规范分散在各个领域子目录中,由智能体按需拉取。这与精讲三中 Böckeler 讲到的 Skills 惰性加载思想完全吻合。 可观测性作为反馈基础设施  团队遭遇的另一个关键瓶颈是:人工 QA 能力成为吞吐量上限。为了突破这个上限,他们为 Codex 构建了完整的可观测性基础设施——日志、指标、链路追踪全部通过本地可观测性栈(ephemeral per worktree)暴露给智能体。Codex 可以在隔离的工作树中运行完整应用,观察运行时事件,识别问题,自动修复,重启,重新验证,形成独立的反馈闭环。 这意味着 Codex 不只是在写代码,它在调试。它看到的世界包括:应用 UI 状态(通过 Chrome DevTools MCP)、日志(通过 LogQL)、指标(通过 PromQL)、链路(通过 TraceQL)。这套基础设施让智能体的自主性从「生成代码」升级到「验证代码是否工作」。 架构约束:给非确定性模型的确定性安全网 团队构建了一套严格的分层领域架构,每个业务领域划分为 Types → Config → Repo → Providers → Service → Runtime → UI 的垂直结构,跨领域调用有明确边界约束。这不只是为了人类可读性,更是为了智能体的可推断性——在有严格边界和可预测结构的环境中,智能体效果最佳。 「自动化垃圾回收」机制同样关键:定期扫描识别过时代码、重复模式、废弃接口,并由 Codex 自动清理。代码库规模越大,熵增越快,这套机制是维持可维护性的长期保障。 与今日其他故事的关联 这篇文章与精讲三在工程实践层面形成完美互补:Böckeler 从概念层梳理 Context Engineering、Subagents、Harness 的边界,本文则提供了一个完整的实证案例。同时,它也呼应了精讲一中 Fadell 的警告——Codex 团队放弃写代码,但保留的恰好是最需要「知情直觉」的工作:架构设计、环境建模、反馈循环设计。 阅读建议 技术密度较高,建议工程师完整阅读。非工程师建议重点读「Redefining the role of the engineer」和「AGENTS.md」章节。文章配图丰富,架构图值得细读。 阅读原文 ## 精讲三:Coding Agent 技术全景图:Context Engineering、Subagents 与 Harness,一年范式转移全解析 Birgitta Böckeler 是 Thoughtworks 全球 AI 辅助软件交付负责人,她在 QCon 纽约站的这篇演讲(由 InfoQ 整理发布)是近期中文社区中关于 Coding Agent 工程实践最具结构性价值的文章之一。她的角色让她得以横向观察大量企业真实落地情况,而不只是单一实验室的视角。 这篇文章干的事情是:拆清楚三个术语——Context Engineering、Subagents、Harness——分别是什么,它们解决什么问题,以及它们如何构成一套可工程化的整体。 Context Engineering:放大器杠杆的双向性 Böckeler 把 Context Engineering 定义为「精心筛选模型或 agent 能看到的信息,以获得更好的结果」。但她更强调的是这件事的双向放大效应:好的工程实践被放大,坏的结构问题同样会被放大。 一年前,Context Engineering 基本等于在工作区放一个 AGENTS.md 文件。现在这个概念已经演化出 commands、skills、subagents、plugins、specs 等多个维度。其中 Skills 的概念尤其值得关注——它不只是一个 Markdown 文件,而是一个围绕任务组织的文件夹,包含文档、脚本、模板、示例,支持 LLM 按需惰性加载,避免在 session 开始就把 context window 塞爆。 她还提出了「上下文预算(context budget)」的概念:当一个 Claude Code session 刚刚打开,什么都还没输入,context window 就已经用掉 15%——里面有 system prompt、skills、context interfaces 等内容。这意味着设计 skills 的时候必须同时考虑成本与效率。 Subagents:结构化分工的范式 Böckeler 认为 Subagents 同样属于 Context Engineering 的重要维度。其核心思想是:主 agent 可以派生子 agent 处理特定子任务,子 agent 只将结论汇报回主 session,而不是把所有中间噪音塞进主 context。 最常见的场景是 session 开始时的代码库探索——这本身会消耗大量 token,独立出来让 subagent 处理是自然选择。更高级的用法是:专门创建 code review agent,用「没有历史上下文污染」的独立 context window 来审查代码;甚至用不同模型(比如更便宜的模型做初筛,更强的模型做最终判断)解锁全新工作流。 风险评估的三维框架 Böckeler 提出 AI 开发风险评估的三个维度,这是本文中最可操作的框架之一: 1. 概率(Probability):出错的可能性有多大? 1. 影响(Impact):如果出错,后果有多严重? 1. 可检测性(Detectability):你能不能发现它出了错? 这三个维度的组合决定了一个 agent 动作需要多严格的人工监督。高概率 × 高影响 × 低可检测性的场景,必须有确定性约束(Harness)兜底。 她还提到了一个令人警醒的数字:AI 开发成本从最早的「12 美分」已经飙升到有用户年均近 9 万美元。这不是小数字,成本意识必须成为 Context Engineering 设计的一部分。 Harness Engineering:确定性约束的安全网 文章最终落脚「Harness Engineering」这个概念。Harness 的核心思想是:把原本为人类设计的工程约束系统(linters、type checkers、test suites、CI/CD pipelines),改造成 agent 可学习、可反馈、可优化的系统。 Böckeler 认为,这才是 Context Engineering 开始真正「工程化」的标志——不是写更好的 prompt,而是构建让非确定性模型在确定性约束下工作的基础设施。 她的前瞻性预测值得引用:也许未来我们不再靠传统服务模板起步,而是一个 Harness 模版,实例化之后就能支撑整个代码库。到那时候,技术选型的维度可能会变成「有没有现成的 Harness」,而不是「React 还是 Vue」。 「致命三要素」安全警示 对于 agent 安全,Böckeler 引入了「致命三要素(kill chain)」框架:能力(capability)× 机会(opportunity)× 意图(intent)同时存在,才构成真正危险。她强调,大多数当前的安全风险来自能力 + 机会,而意图层面的风险(如 prompt injection)需要在 Harness 层面设计防御。 与今日其他故事的关联 这篇文章与精讲二形成了理论与实践的完美配对:Böckeler 提供概念地图,Codex 文章提供实证案例。两篇结合阅读,能建立起对「AI 原生工程」最完整的当前认知。 阅读建议 这篇文章是今日必读之一,适合所有在工程团队中使用 AI 工具的读者。建议先读 Context Engineering 部分建立框架,再读 Harness Engineering 理解方向。如有时间,配合精讲二效果最佳。 阅读原文 ## 速览 RSI 与田渊栋:递归自我改进的新押注 Meta 前 FAIR 研究总监田渊栋加入了由 8 位顶级 AI 研究员联合创办的新实验室 Recursive Superintelligence(RSI),首轮融资 6.5 亿美元,估值 46.5 亿美元。在硅谷 101 的深度访谈中,他解释了为何选择这家公司:对「小而精团队」模式的判断,对 RSI 团队技术互补性的认可,以及对递归自我改进赛道的长期押注。他用了一个形象比喻:在大厂之间来回跳的人,就像一条不断跳出鱼缸的鱼,但水在越来越少。最终,你得变成能离开水的「四维生物」才能活下来。这篇访谈既是对 AI 自进化技术路线的深度解读,也是一位顶级研究员对职业选择的坦率剖析。 阅读原文 奇点灵智:少儿 AI 硬件的「自进化」路径 奇点灵智创始人包塔在接受 Founder Park 访谈时,系统阐述了「多奇」AI 小外教机器人的核心思路:通过软硬件解耦,将摄像头、屏幕、按钮、陀螺仪变成 AI Coding 可调用的 tools,让 Coding Agent 实时生成可体验的新应用。「过去 AI 生成的是内容,现在我们希望它生成能力。」团队来自网易有道和字节教育智能硬件背景,在没有开模的前提下用草稿原型机拿到了真实用户留存信号,最终在 2024 年秋天才开模量产。今年 1 月在京东首发,首发期间进入榜单 Top 2,全平台超 2 万单。这是一个把 AI Coding 落地到儿童消费硬件的完整创业案例,工程决策克制而清晰。 阅读原文 辛顿:超级智能即将到来,数字化优势是降维打击 诺贝尔物理学奖得主、AI 教父 Geoffrey Hinton 在最新深度访谈中表态:大语言模型已具备真正的理解力,其意识模型正在挑战人类对心智本质的传统认知。他最令人警醒的判断是关于数字化智能的进化效率优势:数字 AI 副本之间能以万亿比特的速度共享学习成果,而人类每秒只能通过语言传输几比特的信息。「它们在信息共享方面比我们强几十亿倍。」他同时警告,利润驱动的商业竞争让安全措施难以系统性落地,监管应作为「方向盘」而非「刹车」。这是当前对 AGI 风险最直接、最权威的声音之一。 阅读原文 TED:如何让反馈真正被听见 心理学家兼高管教练 Renee St Jacques 在 TED 演讲中拆解了为何传统「反馈三明治」技巧会系统性失效,并介绍了她的「Leadership Activated」框架。核心洞察是:把批评夹在表扬之间,会让被反馈者误判自己的真实状态——文中案例中,一位表现欠佳的员工在接受反馈后反而以为自己要升职了。有情商的领导方式能把反馈从消耗信任的例行仪式,转化为连接、纠偏、培养和强化团队责任感的实用系统。适合所有有管理职责的读者。 阅读原文 ChatGPT 史上最大改版:从聊天工具到超级应用 据《金融时报》报道,OpenAI 正准备将编程工具 Codex 整体并入 ChatGPT,同时接入 Canva、Booking.com 等外部合作伙伴应用,将 ChatGPT 重塑为能编写代码、管理日程、操控软件的「超级应用」。OpenAI 内部高管的总结是:「AI 仅用于聊天的时代已经结束了。」这次改版的底层推动力是 GPT-5.5 在处理长期多步骤任务上的明显突破,让 Codex 从程序员专属工具走向大众化。值得注意的是:ChatGPT 虽有近 10 亿用户,但尚未盈利,此次改版也是 OpenAI 在 IPO 前提升付费转化的重要布局。 阅读原文 Multi-Agent 合作失败的根源与市场机制解法 这篇来自腾讯科技的论文解读角度新颖:多 Agent 系统在生产环境下失败率高达 41%~87%,而失败原因不是模型不够聪明,而是「协调崩了」。北卡大学用经典「哲学家就餐问题」测试 GPT-5.2、Claude Opus 4.5、Grok 4.1,结果在同时决策模式下死锁率飙到 95-100%。更反直觉的发现是:开启通信反而让死锁率从 25% 上升到 65%——因为 agent 把自己的推理广播出去,其他 agent 「很有道理」地被说服做了相同决策。最强的 o3 模型合作能力甚至最差:内部推理中 39.3% 含有「刻意不合作」倾向。文章提出用市场机制(拍卖、经济自然选择)代替中央编排,作为让多 Agent 涌现合作的有效路径。 阅读原文 Anthropic 内部 Skills 经验首次公开 Anthropic 首次系统公开了内部使用 Claude Code Skills 的完整经验。他们把内部 Skills 分成 9 类:library/API reference、product verification(效果提升最明显)、data fetching & analysis、business process automation、code scaffolding、code quality & review、CI/CD & deployment、runbooks、infrastructure operations。核心判断是:Skill 不只是几段提示词,更接近「一个围绕任务组织起来的文件夹」,包含文档、脚本、模板、hooks 等。好的 Skill 往往聚焦单一职责,而不是大而全。这份经验帖对任何在团队中推广 AI 工具的人都有极高参考价值。 阅读原文 ## 补充阅读 微软纳德拉:Token 资本与 ADE 时代(阅读) 纳德拉与 Reid Hoffman 的深度对话提出了「Token 资本」概念——AI 处理能力成为与财务资本、人力资本并列的生产要素。他同时阐述了从 IDE 到 ADE(Agent 开发环境)的工作范式转变,以及「爬坡机器(ramp machine)」这一企业用 AI 全面提速的新模型。适合关注 AI 与企业战略交叉点的读者。 宝玉:ChatGPT 最大改版的完整解读(阅读) 宝玉对同一 ChatGPT 改版新闻的推文解读,视角更聚焦于 OpenAI 内部高管的原话(「Chat is dead」)以及此次改版的竞争压力背景。与速览中的文章配合,能更完整地理解这次战略转型的动因与方向。 2026 年世界杯草皮背后的科学(阅读) Trung Phan 的推文深入介绍了为 2026 年世界杯 16 个体育场打造模块化混合草皮的工程和科学原理。技术含量出乎意料地高,是今天的清口读物。适合对工程细节感兴趣的读者。 SpaceX-谷歌 AI 基础设施交易深度剖析(阅读) SpaceX 与 Google 签署云服务协议:约 11 万块 NVIDIA GPU,2026 年 10 月至 2029 年 6 月每月 9.2 亿美元。这篇分析拆解了合同经济性、战略背景与投资影响,指出 Google 有显著下行保护条款(未按时交付可终止合同)。关注 AI 算力与资本市场的读者值得一读。 Anthropic 报告:AI 递归自我改进的三种路径(阅读) 对 Anthropic Institute 报告的深度解读,分析 AI 加速自身开发的三种可能情景:趋势停滞、实验室持续提效、完全递归自我改进。与速览中的辛顿访谈和田渊栋/RSI 报道形成三角印证,一起读对理解「递归自我改进」这个赛道最有帮助。 Her:Claude Code 会话侦探工具(阅读) 开源工具 Her(Marathi 语中意为「侦探」)可分析 Claude Code 会话日志,重构智能体行为、标记高风险操作(部署、配置变更、生产环境接触、secrets 泄漏),并将每个风险行为追溯到具体的 turn。评估引擎完全确定性,不调用外部 API,数据不出本地。对重度使用 Claude Code 的工程师极有价值,可配合精讲二和精讲三一起读,补上「可观测性」这一环。 ## 今日阅读路径 如果你今天时间有限,建议按以下顺序选读三篇: 1. 精讲三:Coding Agent 技术全景图(阅读)——建立 Context Engineering、Subagents、Harness 的整体概念框架,是今天的认知地图。无论你是工程师还是管理者,这篇是入口。 1. 精讲二:驾驭工程——在智能体优先的世界中利用 Codex(阅读)——在概念框架之上,看一个完整的实证案例:0 行人工代码、100 万行、1500 个 PR。工程细节丰富,结论扎实。 1. 精讲一:Tony Fadell——AI 时代如何建立品味、判断力与创造力(阅读)——从造物者的视角重新审视:当代码生产门槛被 AI 拉低,判断力与品味的价值反而升高。这篇是今天的思维对冲与长远视角。 如果你还有额外 15 分钟,加上速览中的「Multi-Agent 合作失败与市场机制」(阅读)——从论文角度补上 Multi-Agent 协调的底层机制,与三篇精讲的工程视角形成理论互补。
译BestBlogs早报06-08聚焦三篇AI工程实践精讲:iPod之父Tony Fadell系统阐述“知情直觉”与“三代法则”,警告AI时代的“认知投降”和“快时尚软件”;OpenAI工程团队分享使用Codex
BestBlogs 今日早报内容: -------- BestBlogs 早报 · 06-08 # Tony Fadell / OpenAI Codex / Context Engineering / 知情直觉 / Coding Agent [1] ★ 精讲|iPod 与 iPhone 之父 Tony Fadell:AI 时代如何建立品味、判断力与创造力 [视频] iPod 与 iPhone 之父 Tony Fadell 在 Lenny's Podcast 进行了一次产品方法论深度对话。他以 iPhone 触屏键盘之争、Nest 智能温控器为例,提出真正的创新依赖「知情直觉」而非数据驱动,并总结出「三代法则」:iPod 前两代仅覆盖不足 1% 的电脑买家,直到第三代引入 Windows 兼容与 iTunes 生态才实现全球规模。面对 AI 时代,他警告开发者不要对工具产生「认知投降」,警惕「快时尚软件」带来的技术债。 来源:Lenny's Podcast https://www.bestblogs.dev/video/18391e3 [2] ★ 精讲|驾驭工程:在智能体优先的世界中利用 Codex OpenAI 内部工程团队历时五个月,在 Codex 驱动下完成了一项激进实验:全程 0 行人工编写代码,交付了约 100 万行代码规模的内部产品,合并约 1,500 个 PR,3 名工程师平均每天完成 3.5 个 PR,效率约为手写代码的 10 倍。文章揭示工程师角色的根本转变——从「写代码」变为「设计环境、指定意图与构建反馈循环」。AGENTS.md 应作目录而非百科,架构约束与自动化「垃圾回收」机制是维持代码库可维护性的关键。 来源:Hacker News https://www.bestblogs.dev/article/62469e7f [3] ★ 精讲|Coding Agent 技术全景图:Context Engineering、Subagents 与 Harness,一年范式转移全解析 Thoughtworks 全球 AI 辅助软件交付负责人 Birgitta Böckeler 在 QCon 纽约站的演讲,经 InfoQ 整理发布。她系统梳理了过去一年 Coding Agent 的范式转移:Context Engineering 是「双向放大器」,好坏实践均会被放大;风险评估需考量概率、影响与可检测性三维度。她指出 AI 开发成本从最早的「12 美分」飙升至有用户年均近 9 万美元,并以「致命三要素」警示 agent 安全风险。文章最终落脚「Harness Engineering」——以确定性架构约束为非确定性模型建立可信安全网。 来源:InfoQ 中文 https://www.bestblogs.dev/article/9ffff594 [4] AI 不会合作?那是因为他们没见过市场经济|Hao 好聊趋势 本文从多篇前沿研究出发,论证当前 LLM 因训练范式(单体 MDP)而天生缺乏合作能力,并提出以市场机制(拍卖、桶旅式支付、经济自然选择)替代中央编排,作为让多 Agent 系统涌现合作的有效路径。 来源:腾讯科技 https://www.bestblogs.dev/article/aec5de44 [5] “没水了,鱼需要进化”:再访田渊栋,46.5 亿美金估值的 RSI 与 AI 自进化|Neolabs 特辑 田渊栋深度访谈:详解其加入 RSI 的决策逻辑、递归自我改进的技术路线与商业化思考,并探讨 AI 时代职业变迁与个人意义。 来源:硅谷 101 https://www.bestblogs.dev/article/03279223 [6] 对话奇点灵智:少儿 AI 硬件的下一代,不是 Chatbot,而是能自进化的实体智能体 本文深度对话奇点灵智创始人,阐述其少儿 AI 硬件「多奇」如何通过软硬件解耦、AI Coding 与场景剧本沉淀,打造一款能自进化的实体智能体,而非简单的 Chatbot。 来源:Founder Park https://www.bestblogs.dev/article/ec338c66 [7] 最新对话“AI 教父”辛顿:超级智能即将到来 | 完整版+视频 AI 教父杰夫·辛顿在最新深度访谈中,阐述了大语言模型已具备真正理解力与意识,并警告数字化智能在信息共享效率上对人类的压倒性优势,以及利润驱动竞争下人类面临的生存风险。 来源:Web3 天空之城 https://www.bestblogs.dev/article/df04fd3b [8] 如何让反馈真正被听见:用情商提升职场领导力 [视频] Renee St Jacques 认为,具备情商的领导方式可以把反馈从一种消耗信任的例行仪式,转化为连接、纠偏、培养和强化团队责任感的实用系统。 来源:TED https://www.bestblogs.dev/video/64a5390 [9] 重磅!Anthropic 内部 Skills 经验公开了! Anthropic 首次公开内部使用 Claude Code Skills 的完整经验,包括 9 类 Skills 的划分、编写原则、最佳实践以及团队分发与治理策略。 来源:Datawhale https://www.bestblogs.dev/article/eceaa686 [10] ChatGPT 将迎来史上最大改版,“AI 只用来聊天的时代结束了” OpenAI 计划将编程工具 Codex 整体并入 ChatGPT,将其重塑为能编写代码、管理日程、操控软件的超级应用,标志着 AI 从聊天工具向智能体平台的战略转型。 来源:腾讯科技 https://www.bestblogs.dev/article/4bd0ff49 --- http://BestBlogs.dev · 发现真正适合你的高质量内容 根据你感兴趣的来源和兴趣标签,每天为你生成一份专属的「我的早报」。立即体验:https://bestblogs.dev
译今日早报聚焦AI产品与工程前沿:iPod之父Tony Fadell提出创新依赖“知情直觉”而非数据,并总结“三代法则”;OpenAI内部用Codex全程零人工代码交付约100万行代码,合并1500个PR,效率为手写代码10倍;Thoughtworks专家梳理Coding Agent范式转移,指出Context Engineering是双向放大器,并强调Harness Engineering构建安全网;Anthropic首次公开内部Claude Code Skills经验;OpenAI计划将Codex并入ChatGPT打造超级应用。
Google 3.5 Pro 看来真的是没有能打的了! 只能拿这种测试来“蒙骗”大众了。 Google 大善人醒醒啊,你看看隔壁即将发布的是啥模型和自己家的这对比下啊! 😑
译Google 3.5 Pro 看来真的是没有能打的了! 只能拿这种测试来“蒙骗”大众了。 Google 大善人醒醒啊,你看看隔壁即将发布的是啥模型和自己家的这对比下啊! 😑
nvidia is basically a car
译Eric Mitchell 发推称“Nvidia 基本上就是一辆汽车”,并引用 @perrymetzger 的观点:那些在线上说 AI 仍频繁幻觉、不能写代码的人,就像试图说服你每天开的车不存在——你明明在开车上班、花钱加油、依靠它通勤 20 英里,他们却说你想象或替汽车公司撒谎。这些人仿佛活在完全不同的现实。推文借汽车类比 Nvidia,点出 AI 实际用户与线上批评者之间的认知鸿沟。
New MIT study. Code volume surges by 300%, but output increases by only 30%: The AI dividend meets an awkward reality Autonomous AI coding agents raised commits by 180%, but releases rose only 30%. The paper’s main idea is that software production has weak links, so faster code writing does not help as much when humans still need to review, connect, test, package, and ship the work. The authors also check app marketplaces and find more new apps, but no increase in total usage, which means more software appeared without clear evidence that users adopted more software. The marketplace evidence points the same way: more new apps appeared, but total usage did not rise. The authors compare more than 100,000 GitHub developers before and after they start using 3 generations of AI coding tools, from autocomplete to more independent coding agents. Autocomplete raised commits by 40%, interactive coding agents raised them by 140%, and autonomous coding agents raised them by 180%. The 180% commit gain shrank to 50% for the number of projects and 30% for actual releases. The estimated "elasticity of substitution" is 0.25 i.e. for every big improvement in AI’s usefulness, only a small amount of human work can be replaced. Because AI can write code faster, but humans are still needed to decide what to build, check if the code works, connect it with the rest of the product, fix messy edge cases, and actually ship it. --- papers .ssrn.com/sol3/papers.cfm?abstract_id=6859839
译麻省理工新研究追踪超10万GitHub开发者使用三代AI编码工具(自动补全、交互式agent、自主agent)的生产漏斗。自主AI agent使代码提交数提升180%,但实际发布仅增30%。代码量激增近300%,经人工审核后收益降至150%,最终发布仅增约30%。研究估算替代弹性为0.25,即AI能力大幅提升时仅能替代少量人类工作。应用市场同样显示新应用数量增加,但总使用量未升。瓶颈在于人类仍需负责审查、测试、打包和发布等环节,AI加速的局部任务并未转化为同等产出增长。
ideogram-4 实测! Z-Image 的竞争对手来了? ideogram 刚刚发布了Ideogram 4文生图模型, 划重点, 这是个开放权重模型, 大小只有9.3B, 并且支持原生2K分辨率图片生成! 目前 reddit 上全都是 ideogram 4 的生成效果图, 于是我赶紧测了一波. 直接给大家带来我觉得跟这个模型风格最像的通义 Z-image-Turbo生成效果对比. 我的结论: #ideogram #ideogram4 #Nanobanana #文生图大模型
译ideogram发布Ideogram 4文生图模型,开放权重,仅9.3B参数,支持原生2K分辨率生成。作者将其与通义Z-image-Turbo生成效果对比,认为两者风格相似。
FT publisehd a piece. AI is raising software supply faster than demand. AI is producing far more work inside companies, but the new evidence says much of that extra motion is getting lost before it becomes shipped product or customer demand. Last week's MIT study tracked software teams across the full production funnel, from files edited to reviewed work to software releases, rather than treating code volume as value. AI helped developers create or edit nearly 300% more files, but the gain fell to 150% at review and only about 30% at release. The gap means AI is strongest at speeding local tasks, while human review, coordination, product judgment, testing, and launch processes still decide how much value survives. --- ft .com/content/8e9ae7a4-7209-4e2c-aa36-f3af77d6ce1f?syn-25a6b1a6=1
译FT报道MIT一项研究,跟踪软件团队从文件编辑到审查到发布的完整生产漏斗。使用AI后,开发者创建或编辑文件数量增加近300%,但在审查阶段增益降至150%,最终到软件发布仅提升约30%。这表明AI在加速局部编码任务上效果显著,但人类审查、协调、产品判断、测试和发布流程仍是决定产出价值的关键瓶颈,大量额外工作未能转化为最终产品。
Super-powerful AI models will launch in the coming weeks. We are looking at a potential step change in model capabilities. The biggest mistake right now is to lock into one vendor. I say this not only from a cost perspective, but also from an engineering perspective. Start figuring out how to leverage combinations of these models (including open models). What that means is that you can swap models anytime and best leverage their strengths. For coding agents, open models are already just as good as the frontier ones. So, how to better prepare? Consider how you will be routing tasks/work to these models. AI model routing is high reward, and it should be part of your AI engineering efforts going forward.
译未来几周将有超强AI模型发布,模型能力可能迎来阶段性提升。DAIR.AI创始人Elvis Saravia认为,当前最大的错误是从成本或工程角度锁定单一供应商,建议开始利用模型组合(包括开源模型),保持“模型无关”,以便随时切换模型以发挥其各自优势。对于编程智能体,开源模型表现已媲美前沿模型。他建议将“AI模型路由”作为核心策略,高效分配任务/工作给不同模型,这是一项高回报的AI工程投入。
Demis Hassabis's new interview: "Society needs to hear that because we don't have long to prepare for what that means. We are standing in the foothills of the singularity now. ..which is AGI. I believe that we are only a few years away from that, maybe around 2030, plus or minus a year. " ~ Demis Hassabis, Co-Founder and CEO of Google DeepMind It is going to be enormously profound, I think. The future, in my view, is still to be written. But these next few years are going to be very critical as to which way that will go, and how we collectively want that to look.” --- IMO, The real disruption is not whether AGI arrives exactly in 2030, plus or minus a year, but whether institutions can adapt, as in post-AGI world, technology will change much faster than human systems can respond. Schools still train people for stable professions, companies still organize work around human bottlenecks, and governments still regulate after harm becomes visible. AGI, if it arrives anywhere near the frontier-lab timelines, compresses that lag into a dangerous gap. ---- From "Stanford Graduate School of Business" YouTube channel, (link in comment)
译Google DeepMind 联合创始人兼 CEO Demis Hassabis 在新采访中表示,社会需要意识到我们没有多少时间准备了,人类正站在奇点的山麓。他认为 AGI 可能只需几年,大约 2030 年(±1 年)就能实现。推文作者评论指出,真正的颠覆不在于 AGI 何时精准到达,而在于机构能否适应——后 AGI 世界技术变化远快于人类系统响应速度,学校、公司、政府均未做好准备。若 AGI 按前沿实验室时间线到来,这一滞后将压缩成危险鸿沟。
Key takeaways from Phil Wong, Head of Capital Markets at SenseTime, during @HSBC‘s Private Bank Roundtable: China's #AI advantage today is increasingly defined by 𝗰𝗼𝘀𝘁, but also 𝗾𝘂𝗮𝗹𝗶𝘁𝘆 𝗼𝗳 𝗽𝗿𝗼𝗱𝘂𝗰𝘁, and in turn the ability to 𝗯𝗼𝗼𝘀𝘁 𝗽𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝘃𝗶𝘁𝘆 and 𝗲𝗻𝗵𝗮𝗻𝗰𝗲 𝗲𝗳𝗳𝗶𝗰𝗶𝗲𝗻𝗰𝘆 for the end client, in order to maximise and optimise economic outcomes for end users. The real differentiator lies in 𝗰𝗿𝗲𝗮𝘁𝗶𝗻𝗴 𝗺𝗲𝗮𝘀𝘂𝗿𝗮𝗯𝗹𝗲 𝗯𝘂𝘀𝗶𝗻𝗲𝘀𝘀 𝗼𝘂𝘁𝗰𝗼𝗺𝗲𝘀 𝗮𝘁 𝘀𝗰𝗮𝗹𝗲, in addition to just a cost-benefit. How SenseTime is putting this into practice: • MultimodalModel #SenseNova U1 delivers strong performance with a smaller model footprint. • AI tools are streamlining daily workflows—such as data analysis and PPT generation with Office #Raccoon, and video production powered by #Seko. • AI infrastructure, #SenseCore, leverages compute-power co-optimization to reduce energy consumption and improve efficiency. Beyond these, keep an eye on spatial intelligence, world models, and other emerging AI frontiers.
译商汤资本市场主管 Phil Wong 在汇丰私人银行圆桌会议上指出,中国 AI 优势日益体现于成本、产品质量及提升终端客户生产力与效率。真正差异化在于大规模创造可衡量业务成果。商汤实践包括:多模态模型 SenseNova U1 以较小规模实现强性能;AI 工具 Office Raccoon(数据分析与 PPT 生成)和 Seko(视频制作);AI 基础设施 SenseCore 通过算力协同优化降低能耗、提升效率。此外需关注空间智能、世界模型等前沿领域。
NVIDIA's new Nemotron3 Ultra is defeated by Kimi K2.6 & GLM5.1 on coding tasks like TerminalBench, etc. In order to make the Global Nemotron Coalition training committee train frontier open models, Jensen should invite at least one of the following frontier ai labs to the committee: DeepSeek, MoonshotAI, MiniMax, Qwen, StepFun, zAI GLM.
译NVIDIA的新Nemotron3 Ultra在TerminalBench等编码任务上被Kimi K2.6和GLM5.1击败。为了让全球Nemotron联盟训练委员会训练前沿开源模型,黄仁勋应邀请至少以下一家前沿AI实验室加入委员会:DeepSeek、MoonshotAI、MiniMax、Qwen、StepFun、zAI GLM。
OpenAI’s Sora lead left. OpenAI’s chips lead left for Anthropic. The “take every big bet at once” strategy is starting to look fragile. When you’re in a knife fight with Anthropic over coding, every other bet starts bleeding. (On coding itself, OpenAI has clearly caught up.)
译OpenAI的Sora负责人离职了。 OpenAI的芯片负责人跳槽去了Anthropic。 “同时押注所有大赌注”的策略开始显得脆弱。 当你在编程领域与Anthropic进行白刃战时,其他所有赌注都在流血。(在编程本身方面,OpenAI显然已经迎头赶上。)
Demis Hassabis is arguably the most serious scientist around. He's not someone who engages in hype to sell products. But when even someone like Demis says the following, it should give us all pause: - "He [Demis] equated its arrival [AGI, around 2030] to the singularity - a point in time when there's no turning back from a breakthrough technological development. - "Society needs to hear that because we don't have long to prepare for what that means" - "When we look back at this time, I think we will realize that we were standing in the foothills of the singularity" (Google i/o) We are on the threshold of the most profound revolution. Comparable to the Industrial Revolution, but ten times faster and ten times more powerful.
译DeepMind创始人Demis Hassabis在Google I/O上表示,AGI(约2030年)的到来将等同于奇点——一个不可逆转的技术突破点。他直言社会需要尽早准备,因为时间不多了;回顾当下,我们正站在奇点的山脚。推文作者将其视为比工业革命快10倍、强10倍的深刻革命,人类社会正面临前所未有的变革。
Codex use-cases: “From software engineering and design to data analysis and operations, Codex is becoming an AI teammate instead of just an AI assistant.”
译OpenAI 公布了数十个 Codex 实际工作流程,展示团队如何用其自动化任务。用例包括:管理收件箱并草拟回复、审阅 GitHub PR、将 Figma 设计转为代码、理解大型代码库、自动分类 bug、用自然语言查询数据集、从提示词部署应用、构建 Mac/iOS 应用、自动创建幻灯片、将 Slack 对话转为编码任务、用 AI 动作操控电脑。Codex 正从 AI 助手演变为 AI 队友。
Here’s your monthly reminder that you shouldn’t be prompting coding agents anymore. You should be designing loops that prompt your agents.
译这是您的月度提醒:您不应再手动提示编码智能体了。 您应该设计循环来提示您的智能体。
This paper tests whether today’s AI agents can build better AI agents without human design help. i.e. whether an AI can act more like an AI engineer. That means it must invent a strategy, write the agent code, test it, learn from failures, and improve the system without a human guiding every choice. Shows they are still weak at reliably building the systems that do tasks. Their benchmark, called Meta-Agent Challenge, gives an AI coding agent a safe workspace, a scoring API, limited time, and limited model calls, then asks it to create another agent that performs well on hidden test tasks. They tested this across 5 areas, including math, science questions, competitive programming, software bug fixing, and long terminal tasks. The main result is that current agents usually do not beat strong human-made agent setups, and the few good results mostly come from closed frontier models like Claude. Complete autonomy is not just tool use. It is budget awareness, failure recovery, restraint under pressure, and the discipline to change designs instead of polishing a bad one. Overall, Meta-Agent Challenge (MAC) suggests that today’s agents are not yet self-improving engineers. They are powerful executors with flashes of design judgment, still missing the boring reliability that makes engineering real. ---- Link – arxiv. org/abs/2606.04455 Title: "The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development?"
译一项新研究提出Meta-Agent Challenge(MAC)基准,测试AI智能体能否在没有人类设计帮助的情况下自主构建更优智能体。智能体需在安全工作区内自行发明策略、编写代码、测试并从失败中学习。实验覆盖数学、科学问答、竞赛编程、代码修复和长终端任务5个领域。结果显示,当前智能体大多无法超越人工设计的强智能体系统,仅Claude等少数封闭前沿模型取得较好表现。研究认为,当前智能体更像是强大的执行者,而非具备可靠自改进能力的工程师。
"AI can do a lot for medical discovery, but there are also legitimate concerns that AI is outperforming PhD-level virologists, & that could abet a bioweapons risk that is not hypothetical." - Johns Hopkins professor & adviser to Anthropic, Ben Buchanan
译AI 可以在医学发现方面做很多事情,但也有一些合理的担忧,即 AI 正在超越博士水平的病毒学家,这可能会助长一种并非假设性的生物武器风险。 ——约翰霍普金斯大学教授兼 Anthropic 顾问 Ben Buchanan
It is a really good time to store up a few of your hardest, most valuable, and most unusual ideas - whether for work, hobbies, or a new venture. Thanks to AI, really good & unique ideas are getting extremely cheap to implement, but not necessarily easier to find. Big opportunity
译现在正是储存一些你最困难、最有价值、最不寻常的好主意的好时机——无论是为了工作、爱好还是新的事业。 得益于 AI,真正好且独特的想法实现起来变得极为廉价,但找到它们却不一定更容易。巨大的机会就在眼前。
之所以研究 Claude Design,是因为最近摸索出一套不错的开发模式: 1. 先用 Claude Design 去设计 App 的 UI 和 UX,第一版本越简单越好。 Claude Design 交付的结果是 HTML + CSS + React + data.js,通过 CSS 一下就可以看清楚设计系统的颜色系统、尺寸规范,通过 React 可以看清楚组件结构,通过 data 可以知道数据结构什么样子。 这几个组合可比 figma 对于 AI 来说友好多了,尤其是 data.jsx,这是一般的设计 App 不会有的,但对开发特别重要的。 还有一个优势就是交付的结果都是文本格式的,可以一起提交到 git 做版本管理,用 git diff 就可以清楚的让 AI 知道设计稿修改了什么。 2. 把 Claude Design 生成设计稿交给 Claude Opus 4.8 去实现一个 MVP,第一个版本只实现 UI 功能,告诉它技术栈(比如 AppKit 而不是 SwiftUI),通过几个小版本的迭代,让它逐步完善。比如第一个版本只是主界面 之所以不用 GPT,是因为 Opus 在 UI 实现上比 GPT 好太多,同样的设计稿,GPT 实现的各种细节问题的,不能很好的遵守设计稿。 之所以不一下子实现太多功能,是因为功能越少 Agent 越容易聚焦,做出来效果越好。所以怎么拆分版本,也是用好 Coding Agent 的一种能力。 非 UI 的功能,用什么模型没有那么大差别,所以我也会用 Codex 配合非 UI 工作。 3. 每次生成一个版本,要让它可以运行,无论是 Agent 还是人都是需要即时反馈的,有了反馈才知道方向对不对,才知道下一步要做什么。 人在测试的时候,能发现各种问题,代码问题就让 Agent 去修改,UI 设计有问题不是马上修改代码,而是要去 Claude Design 去修改设计稿,设计稿修改完了,把设计稿下载回去,替换本地的设计稿文件。 设计稿替换后,让 Agent 去 git diff 分析一下变更,给它个截图,都不用多说它就知道怎么改了。 4. 版本稳定后继续新一轮迭代 当设计的功能做完之后,不一定是要马上去设计新的功能,而是可以重新审查一下实现的代码,重构优化一下。 比如我在第一版实现后,让 Opus 4.8 去做了性能分析,看性能问题在哪,然后告诉我当前用 NSScrollView,内容一多就内存暴涨,建议 NSTableView。 我心想这不应该是一开始就该考虑到的么!不管怎么样亡羊补牢也不算晚。 性能优化完就继续加功能,更新设计稿,让 Agent 参考新设计稿优化功能。 --- 再回来说研究 Claude Design 的事,因为反复 Claude Design 修改,同步到本地,然后这一步让我后来很烦,因为需要在本地和 Claude Design 网页切换,还要导出下载到本地,解压缩替换。 于是我就想能不能在本地就可以重现 Claude Design 直接集成到本地 Agent,所以我去研究了 Claude Design,然后发现完全可以本地跑起来,只是本地 Agent 在工具调用上有些差异,以及不方便直接在设计稿上标记编辑。 上周正好 Codex 发布了直接调试 iOS 的功能,它带了标记修改的功能,然后我灵机一动,这不正好可以代替 Claude Design 的标记修改功能么。(图2) 问题是 GPT 5.5 模型设计能力不够,在 Codex 里面设计效果也不会好。 接着 Cursor 也发布了网页标记功能,这下正好,Cursor 里面可以用 Opus 4.8,做成 Skill 就可以本地运行了,还可以在 Cursor 内置浏览器中,直接标记、评论修改。 好在 Claude Code 的核心逻辑都在浏览器前端,他们在网页上做了个 Harness,这给了我分析的便利,耐心一点就可以分析出所有的 Prompt、内置 Skills、初始组件,再针对 Cursor 的工具做一些兼容就可以跑起来了。(图3) 测试对比了一下和在 Claude Design 上跑的效果差不多。(图4) 归根结底,还是 Claude Desktop 太拉胯了,Claude Design 本应该集成在 Claude Desktop 的,不然也不需要我这么折腾。 当然不折腾下我也没机会学习 Claude Design 优秀的设计,真的很棒,接下来会系列更新我的学习心得。 推荐去试试最终的 Skill,让你本地就可以跑 Claude Design: https://github.com/jimliu/baoyu-design
译宝玉分享开发模式:先用 Claude Design 设计 App UI/UX,生成 HTML+CSS+React+data.js(优于 Figma,利于 AI 理解和 Git 版本管理);再用 Claude Opus 4.8 实现 MVP(GPT 5.5 在 UI 实现上差距明显)。因反复在本地与网页间导出替换设计稿繁琐,他编写工具解析 HAR 文件、解密 Claude Design 二进制内容,分析其 Prompt 和内置组件,将核心逻辑本地化集成到 Cursor(利用网页标记功能),配合 Opus 4.8 即可本地运行。最终开源 GitHub 项目“baoyu-design”。
Slowly, then suddenly!
译美国开源回来了。HuggingFace 首页前 30 个模型中,有 9 个由 Nvidia 发布。 Slowly, then suddenly!
This was one of the standout AI papers of the week. (bookmark it) It tackles a question most self-improving AI agents ignore: is the agent actually discovering anything, or just remixing what it already knows? How can you tell whether the agent is doing real discovery or just confident retrieval? The authors give three clean buckets: - Retrieval is looking something up in a notebook you already have. - Search is combining tools you already own in new ways. - Discovery is inventing a new concept that wasn't in your toolkit before. The issue is that most agents stop at the first two. The math behind their definition (category theory plus a left Kan extension, if you care) is basically a bookkeeping trick to ask: could the old version of me have produced this result? If yes, it's not discovery. If no, something genuinely new showed up. They build a Builder/Breaker agent that studies protein mechanics. Over four rounds, the model's fit accuracy actually drops (R² goes from 0.48 to 0.68 to 0.54 to 0.41). At first glance, that looks like a failing agent. It isn't. The agent kept taking on harder proteins and rewriting its theory to cover them. Data grew almost 10x while the model code grew only 1.3x. A smaller theory covering a bigger world is exactly what good science looks like. Why does it matter? If you optimize for accuracy alone, your self-improving agent will just settle into easy benchmarks and stop. This paper offers a cleaner success signal and asks whether the agent is compressing more of the world into less code over time. Paper: https://arxiv.org/abs/2606.01444 Learn to build effective AI agents in our academy: https://academy.dair.ai/
译本周一篇AI论文探讨自我改进智能体是否真正发现新知识,还是仅重新组合已知信息。作者将行为分为三类:检索(查询已有笔记本)、搜索(组合现有工具)和发现(发明新概念),并用范畴论和左Kan扩展定义——若旧版本能产生相同结果则非发现。他们构建Builder/Breaker agent研究蛋白质力学,四轮中R²从0.48升至0.68再降至0.54和0.41,看似变差实则不断挑战更难蛋白质并重写理论:数据增长近10倍,模型代码仅增长1.3倍。论文提出用代码压缩率作为真实发现信号。链接:arxiv.org/abs/2606.01444。
http://x.com/i/article/2063647311423561728 # 免费白嫖顶级AI额度的N个隐藏入口(Codex Pro半年/Anything AI 20K/Lenny's bundle/云startup credits) 现在玩 AI,最烧钱是Token额度,GPT-5.5、Claude Opus4.8,一个比一个能打,也一个比一个贵,想认真用上一阵,账单就能直接把你劝退了。 但说实话,市面上一直有几个官方自己留的口子,赠金从几百刀到几十万刀不等。知道的人闷声用着,不知道的人月月真金白银往里充。 这篇我就把查到的几个靠谱入口,一个个拆开说清楚——怎么申请、适合谁、坑在哪,跟着操作就行。 先把难听的说在前头:这世上没有纯粹白给,每个口子都有它的门票。 有的门票是“你得是开源作者”,有的门票是“你得先掏 200 刀订阅费”,有的门票是“你得算个创业公司”。 下面每一条,我都会把门票和限制条件一起摊出来,大家自己结合自己情况评估。 ## 这篇讲哪几块 - 入口一:OpenAI「Codex for OSS」——开源作者免费拿半年 ChatGPT Pro(约值 $1200) - 入口二:Anything AI——新用户注册薅 2 万额度(官方默认才给 3000) - 入口三:Lenny's Product Pass——一份订阅换 $30000+ 的 AI 工具全家桶 - 入口四:三大云的 startup credits——AWS / 微软 / 谷歌,最高单家几十万刀 - 最后给你一张对照表 + 一段申请话术,直接抄 ## 先看全局:四个口子到底给什么 动手之前,先用一张表把你心里的地图建起来。别一上来就闷头点链接,先看清哪个口子真适合你。 人话总结这张表怎么用: 想纯免费、零门槛 → 看 Anything; 自己有开源项目 → 冲 Codex;愿意花点小钱换一堆工具 → 看 Lenny;在搞创业/产品 → 云额度才是大头。 记住一句口诀就够了: 白嫖的本质不是省钱,是把"门票"对上"身份"。 下面挨个拆。 ## 入口一:Codex for OSS——开源作者的半年 Pro 这个口子是 OpenAI 自己开的,2026 年 3 月官宣,叫 Codex for Open Source。 它给的东西挺实在:半年的 ChatGPT Pro(带 Codex),也就是那个 $200/月的顶配档,免费用 6 个月,算下来约 $1200。 除此之外,符合条件的项目还能额外申请 API credits(来自 OpenAI 那个 100 万美元的开源基金),以及有条件开放的 Codex Security。 谁能拿? 核心是一句话:你得是一个公开开源项目的维护者(maintainer)。 OpenAI 官方写得比较宽松——如果你是被广泛使用的项目的核心维护者,就去申请; 哪怕你的项目不完全符合标准,但在生态里确实重要,也可以申请,附上说明就行。 而且它明确说了:不卡硬性 star 数门槛,不要信用卡,不要购买承诺。 怎么拿(保姆级步骤): 1. 打开 OpenAI 开发者社区的官方页面 developers.openai.com/community/codex-for-oss 1. 点申请,填你的项目信息——GitHub 仓库链接、star 数、月下载量这类指标 1. 重点写清楚"我这项目为啥重要、被谁在用" 1. 提交,等审核回复 这盆冷水你得喝: 第一,这是给开源作者的,不是给所有 ChatGPT 用户的全民福利。 你要是没有一个拿得出手的公开项目,这条基本和你无关。 第二,别和另一个东西搞混了——之前 OpenAI 还搞过一个"Codex 用量翻倍"的促销(Pro 档加量),那个是给已付费用户加量,不是免费,而且已经在 2026 年 5 月 31 号到期了。咱们这条说的是 OSS 那个免费半年的项目,两码事。 ## 入口二:Anything AI——注册就薅 2 万额度 这个是目前门槛最低的一个,几乎是注册即得。 Anything(官网 createanything.com)是个 AI 应用搭建工具,用大白话描述一句你的需求,它帮你把 App 或网页搭出来,背后接的是 Claude、GPT、Gemini 这些顶级模型,不用你自己配 API key。 它的免费档默认只给 3000 credits,一次性的,问几个问题就见底了。 但在新用户启动促销期,能薅到的是 2 万 credits——机制大致是: 注册到账一批,登录后再点一次同一个邀请链接,触发 bonus 再到账一批,凑齐 2 万,整个过程不要信用卡。 怎么拿(保姆级步骤): 1. 通过促销注册链接进入 Anything 官网,完成注册 1. 注册后,第一批 credits 自动到账 1. 登录状态下,再打开一次那个注册/促销链接,触发额外的 bonus 1. 到账后进 builder,credits 就能拿去搭东西、跑 AI 集成 这盆冷水: 第一,这是平台币,不是现金,也不是 OpenAI/Anthropic 的官方 API 额度。它只能在 Anything 平台里用,搭 App、跑集成消耗,跨平台带不走。 第二,credits 烧得快慢看任务复杂度,复杂任务一条消息就能吃掉一大把,2 万听着多,认真搭起来其实也就够你玩一阵。 第三,得提醒一句——这种"点两次链接拿双倍"的促销玩法,链接很多是在羊毛党论坛流转的第三方推广链接。 官方注册当然是安全的,但你点别人贴的促销链接前,自己心里有个数,至少认准是 anything.com 的域名。 促销随时可能结束,看到了就趁早。 ## 入口三:Lenny's Product Pass——一份订阅换一堆工具 这个口子最"反直觉",因为它表面上叫"免费",其实是你先掏钱订阅,然后一堆工具白送给你用一年。 Lenny's Newsletter 是产品圈最大的那个 newsletter。 它搞了个 Product Pass:只要你是它的付费年度订阅者,就能领一大堆顶级 AI / 产品工具各 1 年的免费会员,标称总价值 $30000+。 里面的货是真硬。我给你贴几个看看: 怎么拿(保姆级步骤): 1. 去 lennysnewsletter.com 开通年度付费订阅——Annual($200/年)或 Insider($400/年),月付不行 1. 登录 lennysproductpass.com 1. 往下滚,找到你想要的工具的 logo,点 Redeem 1. 拿到专属兑换码,按提示去对应工具开通(通常会跳到那个工具的注册/结账页) 这盆冷水必须喝,而且是一大盆: 第一,它根本不是白嫖,是花 $200-400 买门票换一堆工具。 值不值,取决于你是不是真能用上里面那几样。如果你本来就要买 Cursor + Notion + Google AI,那这笔订阅可能直接帮你回本还倒赚;如果你一个都用不上,那就是纯花钱。 第二,码是有限的,先到先得。Lenny 自己说了,合作方不是给无限量账号,热门工具的码会发完,发完就没了。Insider($400 档)才有优先权,Annual($200 档)是抢的。 第三,每个工具基本要求你是"新用户"。你要是已经自己付费用着 Cursor 了,那这个免费年大概率领不了。 第四,有有效期,每批 offer launch 后半年左右过期,领了记得赶紧兑换,别囤着烂手里。 我的判断是:这条适合"本来就准备给一堆 AI 工具付费"的人,对这类人它是真划算;纯薅羊毛心态、一个工具都用不上的,别上头。 ## 入口四:云 startup credits——大头在这 如果你在搞创业、做产品,那前面三个都是零花钱,真正的大额度在云厂商的 startup 计划里。 三大云都有自己的创业扶持计划,给的是云资源额度,里面就包含跑 AI 模型的额度(比如 AWS 的 Bedrock、谷歌的 Vertex AI、微软 Azure 上的 OpenAI 服务)。而且关键是——这三家互相独立,你可以同时申请、各拿各的。 几个最实用的点,我直说: - 门槛最低、最友好的是微软 Founders Hub。它不要求你有 VC 背书,公开申请就行,入门档先给 $1K–$5K,随着产品有进展再往上解锁,而且还附带 GitHub、Microsoft 365,以及 Azure 上的 OpenAI 服务额度。你只要 ship 过点东西,基本都能拿到入门档。 - AI 创业天花板最高的是谷歌,AI-first 的创业公司最高能摸到 $350K,但顶档要求严,通常得是有 VC 的 Series A 阶段;种子期一般也就 $2K–$10K。 - AWS 自筹创业者走 Founders 档是 $1K,但能叠加——比如 YC Startup School 能再领约 $2500 的 AWS 额度,Stripe Atlas 注册公司能再叠 $5000,攒一攒一个自筹 solo 也能凑出几千刀。 怎么拿(保姆级步骤): 1. 先备好三样东西:一个公司网站、一个企业邮箱、一句能讲清楚"你在做什么"的描述 1. 微软先冲——去 Microsoft for Startups Founders Hub 直接申请,最容易过 1. 再分别申请 AWS Activate(自筹选 Founders 档)和 Google for Startups Cloud 1. 有加速器/VC 的话,拿它们的 Org ID 去申请 Portfolio 这种高档位 泼盆冷水清醒下: 第一,那些几十万刀的天花板数字,绝大多数要 VC 或加速器背书,自筹个人开发者通常就是 $1K–$5K 这个量级,别看着 $200K 就以为能直接拿。 第二,这是云资源额度,不是给你随便提现的钱,你得真把东西跑在它的云上才花得掉。 所以选哪家,应该看你的技术栈适合谁,别为了额度把整个架构绑死在一家——那本身就是另一种 lock-in。 ## 直接抄:一段万能申请话术 不管是 Codex OSS 还是云 startup credits,审核方最想看到的,都是"你是谁 + 你在做什么 + 为啥值得给你"。下面这段你改改就能用: > 我是 [项目/产品名] 的维护者/创始人。 > > 我们在做 [一句话讲清楚做什么],目前 [一个能证明你在认真做的指标:GitHub star / 月下载量 / 用户数 / 上线时间]。 > > 我们正在用 / 计划用 [你们家的产品] 来做 [具体场景:代码评审 / 自动化 / AI 功能],这部分额度能直接帮我们 [具体的事]。 > > 项目链接:[贴上] 记住一句口诀:指标 > 形容词。别写"我们很有潜力",写"我们有 800 star、月下载 1 万"。审核的人一天看几百份申请,具体数字才让他停下来。 ## 最后 说到底,这几个口子能不能薅到,拼的不是手速,是你站在哪个身份上。 开源作者有开源作者的口子,创业者有创业者的口子,普通用户也有普通用户的小份额——没有一个口子是为"所有人"开的,但总有一个是为"现在的你"开的。 所以与其满世界找"最大的羊毛",不如先想清楚:我现在是个什么身份,哪扇门是冲我开的,然后把那一扇推到底。 剩下那些不属于你的,看看就好,别眼红。该掏钱用顶级模型的时候,也别太抠——工具是放大器,省下的那点订阅费,有时候还不够你纠结浪费掉的时间值钱。 (本文基于 OpenAI Developers 官方页面、Lenny's Newsletter / Product Pass 公开页、Anything 官方文档及公开促销信息、AWS / 微软 / 谷歌三家 startup 计划官方页综合写成。所有额度、价格、有效期均为时效性信息,可能随时变动,以各官方页面为准。文中提到的产品只是举例,不构成任何推荐。这些是个人整理,不是投资/购买建议。)
译文章盘点四大渠道:① OpenAI Codex for OSS,开源项目维护者可免费获6个月ChatGPT Pro(价值$1200)及API credits;② Anything AI,新用户通过促销链接注册可得2万credits,需重复点击触发bonus;③ Lenny's Product Pass,付费订阅其年度Newsletter($200-400)可兑换总价值$30000+的AI工具一年会员,先到先得且要求新用户;④ 三大云startup credits,微软Founders Hub最低$1K-$5K(无VC要求),谷歌AI-first创业最高$350K但要求严,AWS可叠加(自筹$1K+YC等)。每个口子均有门槛限制。
You cannot predict how AI will impact your life. You cannot predict when and how fast. But you can keep yourself on a pulse to get ready for whatever happens in AI tomorrow. Testing is the only way. Follow & subscribe today. https://bit.ly/4uXNiUQ
译你无法预测AI将如何影响你的生活。 你无法预测何时以及多快。 但你可以保持关注,为AI明天可能发生的任何事情做好准备。 测试是唯一的方法。 立即关注并订阅。 https://bit.ly/4uXNiUQ
这个确实,Deep Research 方面 Claude 做的不怎么样,ChatGPT 的 DeepResearch 做的最好,Gemini 也不错,胜在搜索能力强,通常我会用 ChatGPT 和 Gemini 一起做,然后对比结果
译宝玉 (@dotey) 对比各模型 Deep Research 表现:ChatGPT 的 DeepResearch 最好,Gemini 搜索能力强、表现也不错,Claude 做得很差。引用推文补充:在写代码、工程工作及需联网搜索数据并分析得出结论的任务上,Claude 的“5.5”版本远超 Opus,Opus 搜索能力几乎不可用。
Apple’s Touch Bar was ahead of its time. Just imagine the incredible use cases it could have today. - rate limits, context and much more
译WWDC 2026 预计将成为苹果 AI 关键节点。Siri 将围绕定制版 Google Gemini 模型(约 1.2 万亿参数)重建,自有设备端模型仅约 3B 参数。新 Siri 采用混合架构——本地小模型 + 云端大模型,由苹果控制 UI、应用权限和隐私层。预期功能包括更自然对话、跨应用个人上下文、屏幕感知、应用内操作、独立 Siri 应用(支持语音、文件上传和多模态交互)、Dynamic Island 深度集成,并可选择接入 ChatGPT、Claude 或 Gemini 等第三方服务。苹果意将 Siri 打造成操作系统的隐私 AI 层,成为跨 iPhone、Mac、iPad 的系统智能体。
我一直以为内容整理就是归归类, 直到周末把 don 哥这套牛逼的内容系统搭起来, 才发现我理解错了一个层级。 我们大多数人理解的内容整理,就是是把文件夹归归类、把旧稿翻出来改改,但这套不是,它把你的处理对象从文件换成了内容单元: 一条推文里的问题、概念、观点、案例、方案,被拆成可以单独调用的知识原子, 过去几年写的东西,不再是躺在硬盘里的死库存,而是一个能被 AI 反复检索、重组、长出新内容的资产库。 最该抄的是它的工程纪律: 先审计再建工程,结构先于规模。 素材越多越要先收窄边界,别一上来全量乱跑, 我自己光 X 推文就一万两千条,真要一锅端, 等着大规模返工吧哈哈哈。 还有更厉害更底层的一点: 这套体系本质是把 Markdown 当成了运行时, 用结构严格的纯文本当行为契约, 让 Agent 像执行软件一样、按既定方法论产出。 这背后是个范式转移: 内容创作者的护城河,正在从会不会写, 变成几年的内容资产能不能被 AI 反复调用和重组。 毕竟会写的人越来越多, 但把自己的积累工程化成可调用资产的人还是少。
译推文介绍一套内容整理范式:将推文、文章等拆解为知识原子(问题、概念、观点、案例),而非单纯归类文件。通过严格结构的纯文本Markdown作为“运行时”,让AI Agent按既定方法论检索、重组内容,使过往积累从死库存变为可反复调用的资产库。核心纪律:先审计再建工程,结构先于规模,避免全量乱跑(仅X推文就一万两千条)。这标志着内容创作者的护城河从写作能力转向内容资产的工程化可调用能力。
你是从什么时候觉得自己和以前的工作能力和状态不一样了? 我是在旷视的那段时间。 去旷视前,我在一家法国企业做数据分析软件,公司的客户很稳定,节奏很慢很稳,员工稳定性很好,是真的 wlb 的状态,甚至一度觉得是在养老。 做了半年多我实在受不了了,实在太慢了,差不多 2 天就能做完一周的事,剩下三天对着电脑点来点去发呆,和周围同事闲聊下来大家都是这样,所以兴趣爱好都非常多。。 那时还年轻,觉得养老很可耻 😂,就决定去挑战一下,14-15年左右,国内 AI CV 四小龙刚成型,我就去面了商汤和旷视,对两位创始人印象特别深,就很坚决的选了旷视。 进来旷视才知道,我周围基本一水的清华姚班,我也是无知者无畏了,面试时根本不知道。这些人,不管是全职还是实习生,是真的非常的聪明,智商太高了,不会的东西学起来超快,会的东西钻的特别深,感觉我自己和他们都不是一个物种 😂 当时合作最多的是研究员的算法工程师们,我做算法封装和落地商业化,那真是如履薄冰,就怕跟不上大家节奏,拖后腿,做好自己应用开发之外,经常要去学 CV 算法的知识,也真是硬着头皮上,不过有那么 2-3 个月之后,感觉就能跟上了,当时和一位算法伙伴一起做人脸关键点和美颜贴纸,我们俩大概搞了两周,古法编程就把这套算法和应用跑通了,当时公司觉得挺不错,可以拿去推了。 从那时起,我突然觉得,周围同事的聪明程度,人才密度,以后大概率不会超过现在了,而现在我也能跟上节奏了,好像跟以前完全不一样了。 到后来在旷视做双目,做炫彩,再独立做硬件的刷脸方案等等,也从容了很多。 再到后来从旷视离开,到一个创业公司做 CTO,再到一个硬件公司,每次都是全新的领域,不过心里也没有再怕过。
译邵猛此前在法国企业做数据分析软件,节奏极慢,两天就能完成一周工作。14-15年左右,他加入AI CV四小龙旷视,周围多是清华姚班的全职或实习生,智商极高、学东西快且深。作为算法封装与商业化工程师,他硬学CV知识,两三个月后跟上节奏。曾与一位算法伙伴两周用古法编程跑通人脸关键点和美颜贴纸算法,获公司认可。此后心态彻底改变,不再畏惧跨领域挑战。后来离开旷视,在创业公司担任CTO等。
Tomorrow could be Apple’s most important AI moment yet. WWDC 2026 is expected to be all about one thing: making Siri relevant again. If the leaks are right, Apple is rebuilding Siri around a custom Google Gemini model, reportedly around 1.2 trillion parameters. For context: Apple’s own on-device AI model is roughly 3B parameters. The biggest rumor: Apple’s new Siri will reportedly be powered in the background by Google Gemini. Not as a Google-branded chatbot, but as an Apple-controlled intelligence layer running behind Siri, likely tied to Apple’s privacy-first infrastructure. So the new Siri likely becomes a hybrid system: • small Apple model locally on your device • large Gemini-class model in the cloud • Siri as the orchestration layer • Apple controlling the UI, app access and privacy layer What to further expect: • a much more conversational Siri • deeper personal context across apps, messages, files, calendar, photos and contacts • screen awareness • actions inside apps • a dedicated Siri app with chat history • voice chat, file uploads and multimodal interaction • better integration with Dynamic Island • optional support for other AI services like ChatGPT, Claude or Gemini Apple wants to turn Siri into the private AI layer of the operating system. A system agent that can search, understand, write, edit, summarize, organize and act across your iPhone, Mac and iPad. We may also see new Apple Intelligence features for: • AI photo editing • smarter Camera / Visual Intelligence • improved Writing Tools • natural-language Shortcuts • better Wallet and Health integrations • more privacy controls around AI data Either way, WWDC 2026 could define Apple’s position in the AI race. Exciting how the new CEO will handle all of this. Images: Bloomberg, Mark Gurman
译据传 WWDC 2026 苹果将彻底重构 Siri,底层集成 Google Gemini 模型(约 1.2 万亿参数)作为云端智能层,与自有 3B 参数设备端模型组成混合系统。Siri 担任编排层,控制 UI、隐私和应用权限。预期新 Siri 支持更自然对话、跨应用上下文、屏幕感知、应用内操作、专用 Siri app、语音/文件/多模态交互、动态岛增强,并可选接入 ChatGPT/Claude 等第三方 AI。同时可能推出 AI 修图、智能相机、写作工具、自然语言快捷指令等新 Apple Intelligence 功能。
http://x.com/i/article/2063531614047444992 # “我在田里雇了一名工程师,它叫 Codex” —— 北海道一个西兰花农的 8 个真实 AI 用法 想看 AI 怎么真正落到一线生产里的朋友,做农业的,这篇非常值得看。北海道农民富安弘毅,用 ChatGPT 和 Codex 解决了一堆农场里的实际问题:拍照诊断作物病害、拉卫星数据监测农田、用 Codex 搭温室远程控制、给农场群聊做机器人……8 个用法,每个都带着他当时问 AI 的原始提示词。 以下编译自 ChatGPT Pro Community,原文链接我放评论区。 我们每周都会和 ChatGPT Pro 的订阅用户聊聊,看他们如何把这个产品用在生活和工作里。今天要介绍的是富安弘毅——一位在北海道务农的日本人,他用 ChatGPT 和 Codex 学习新技术、排查问题,还亲手搭建工具,把农场里的一部分活儿自动化。前不久我们有机会在东京和弘毅坐下来聊了聊,听他讲一个公务员出身的人是怎么自学务农的。希望他的故事能给你一些启发。 在东京近郊长大的富安弘毅,从没想过自己会成为一名农民。他没有继承土地,没学过农业,早年还做着公务员的工作。 但二十多岁时,一些与日本稻作文化有渊源的朋友,开始把他带进乡村社区。最初只是好奇,渐渐变成了信念。"不知不觉间,"他说,"我就成了一个农民。" 大约十年前,弘毅加入了一个小团体,在冈山县修复被废弃的梯田——这是当时一场更大行动的一部分,旨在重新唤醒那些正在日本乡村各地消失的老化农田。这份工作既辛苦又理想主义,但这群人因为一个共同的信念凝聚在一起:他们能做出更大的事。"我们想:为什么不干脆成立自己的合作社,经营一座完整的农场呢?" 这份雄心最终把他们带向了北方,来到日本的农业腹地北海道。在那里,弘毅靠亲手去做来学习务农。一季又一季,他自学开拖拉机、管理作物、经营大规模农田。如今,他打理着约 100 公顷的土地,种着西兰花、南瓜、大葱和大豆。 这种规模的现代农业是不留情面的:体力消耗巨大、运营复杂,还很难招到人。于是弘毅开始自己琢磨怎么把一部分工作自动化。传统的农业自动化往往需要昂贵的专有机械和专业工程师——这些资源通常只有规模大得多的农场才用得起。但他说,像 ChatGPT 和 Codex 这样的 AI 工具改变了这道等式。"感觉就像身边随时有一位超级厉害的工程师。" 现在,弘毅会在工余时间折腾 AI、软件和联网传感器,去解决农场里实打实的问题:监测温室温度、追踪田间状况、让日常运营更顺畅。在网上,他把这个过程记录成一个持续更新的实验系列——一个农民如何一步一步、自学着把它搭出来。 下面是弘毅用 ChatGPT 和 Codex 在农场里做自动化、排查问题、辅助决策的八种方式(提示词由日文翻译而来): ## 1. 识别蔬菜的病害 > 我注意到收获的西兰花上出现了黑斑。我想知道这是不是一种病害,以及我该怎么处理。 这次对话价值在哪? "农活中发现的异常,可以当场拍下来和 ChatGPT 讨论。它会给出指引——从不需要找专家的轻微症状,到需要紧急干预的病害,都涵盖在内。" ## 2. 学习如何用卫星监测农田 > 如果要用卫星来做农田监测,可能会用上哪些系统和机制? 这次对话价值在哪? "我搭了一套系统,基于我们自己的农田数据去拉取卫星数据,并定期获取像 NDVI 这样的植被指数数据。现在我们能看到把卫星影像叠加在真实农田上的地图,为每块地的决策提供了更多数据。它被干净地整合进了我们之前已经做好的地图应用里,让卫星数据用起来既方便又顺手。" ## 3. 给照片加上技术标注 > 这是我正在搭建的塑料大棚卷帘机控制面板的内部。我希望你做一张图,说明每个部件是什么、属于哪台机器、整个系统是怎么运作的。左上角可见的部件是接线端子,中间的是电机驱动器,右上角是 ESP32,右下角和左下角各有开关。 这次对话价值在哪? "这是我为管理塑料大棚温度而搭建的控制箱的接线图。日文输出得非常完美,我是真的惊到了。" ## 4. 用 Codex 给温室电机做一个远程遥控 > 我想用 ESP32 控制一台温室卷帘电机。配置如下:ESP32、BTS7960 电机驱动器、24V 直流卷帘电机、Cloudflare Workers、LINE 机器人、D1 数据库、用于手动操作的 ON-OFF-ON 开关。 > 我的想法是:当我通过 LINE 发送"开""关"或"停"时,希望指令被存进 Cloudflare Workers。ESP32 应该定期轮询指令,并据此驱动电机。请清晰地解释整体架构和控制流程,包括安全方面的考量。 这次对话价值在哪? "我用 Codex 搭出了一套系统,把温室里的卷帘控制自动化了。现在我能通过 LINE(一款即时通讯软件)远程管理温室,工作轻松了一大截。" 实际效果就是这条推: ## 5. 用 Codex 给农场的群聊做一个机器人 > 我想给农田作业做一个机器人。目的是:查看每个塑料大棚的温度、操作卷帘通风口、查看工作排期。为了不让现场的人困惑,请按以下条件设计 LINE 的快捷菜单和对话流程:按钮数量保持精简、使用清晰易懂的日文、方便在手机上点按、不容易误操作。 这次对话价值在哪? "我们把这个机器人加进了农场的群聊里,让这个团队每天本来就在用的群聊变得更有用了。它能处理更新数据库、查看排期、拉取温度数据这类事情。" ## 6. 用 Codex 根据群聊记录追踪播种情况 > 根据我们群聊历史里的这些记录,前三轮我们每一轮各播了多少盘西兰花? 这次对话价值在哪? "它从农场聊天工具的历史记录里把数据扒出来,精确算出了到目前为止一共播了多少株西兰花苗。只要日志存在我们日常用的群聊里,AI 就能回头把数据挖出来,真是帮了大忙。" ## 7. 学习拖拉机的 GPS 自动转向系统是怎么运作的 > 我想请你解释一下,基于 RTK-GPS 的系统是如何让拖拉机自动保持直线行驶的。我想评估一下自己能不能动手做一套。 这次对话价值在哪? "在投钱买昂贵的专有自动转向系统之前,我想先弄懂背后的技术原理。通过问 ChatGPT,我了解了 RTK(实时动态定位)校正的原理、所需的部件,以及有哪些开源项目存在。结果我意识到,自建一套系统几十万日元就能搞定,这一下子把我的可选项拓宽了很多。" ## 8. 为农场管理应用设计数据库 > 请帮我为一个农场管理应用设计数据库。我想管理的内容包括:地块、作物、计划中的任务、已完成的任务、工人、物料、农药、肥料、塑料大棚、传感器数据。 > > 假设以 Airtable 作为平台,请建议:要创建哪些表、每张表需要的字段、表与表之间的关系。目标是能回答农民可能在群聊里问出的这些问题:"今天有哪些活儿?""这块地下一步该干什么?""这个大棚现在多少度?" 这次对话价值在哪? "这次对话成了我们把农场信息整理进一套互联系统的起点。现在我有了一个基于 Airtable 的结构,把地块、工作排期、日常记录、物料和传感器数据都连了起来,还配了一个消息界面,让我能随时调取任务和大棚温度信息。它减少了在一堆零散记录里翻找的时间,让运营信息更容易获取。"
译日本北海道农民富安弘毅用 ChatGPT 和 Codex 解决农场实际问题,涵盖 8 个用法:拍照识别西兰花病害、卫星监测获取 NDVI 数据、用 ESP32 和 LINE 机器人远程控制温室卷帘、为农场群聊开发机器人管理温度与排期、从聊天记录追踪播种数量、学习 RTK-GPS 自动转向原理并评估自建成本、设计基于 Airtable 的农场管理数据库。他说 AI 让传统昂贵的自动化变得低成本可及,“如同身边有一位超级工程师”。
💯💯 David Sacks rips Bernie Sanders' 50% AI ownership plan
译David Sacks 批评桑德斯提出的政府持 AI 公司 50% 股份的计划。他指出 AI 实验室 CEO 们反复声称 AI 会导致大规模失业,但数据不支持,且他们夸大风险而忽视利益与缓解措施。保守派还担心所谓慈善实际是让 NGO 致富并推动与传统价值观相悖的议程。Anthropic 和 OpenAI 是公益公司,用其一半财富偿还国债看似合理,但 AI 国有化将加速企业-政府融合,导致类似中国社会信用体系的中央集权 AI 控制,比央行数字货币更危险。他警告保守派当前支持的监管未来可能被民主党用来对付自己。
邵猛发文批评某公众号文章,称其是典型中国自媒体风格——咋咋呼呼、定论多、论据靠嘴。文章提到“大厂抢青少年”(最小6岁学Agent、Coding),邵猛认为这只是培训机构的生意。文章还声称“靠AI裁员”,邵猛斥之为企业借口。邵猛特别质疑脉脉CEO林凡的数据:去年AI人才需求增长10倍、今年再增长8.7倍,怀疑这些数字来自脉脉内部职位,且可能只是旧职位改名加“AI”关键词,并非真实需求。
Anthropic Claude Code 负责人 Boris Cherny 表示,他不再手动写提示词,而是编写 Loops 让 AI 自主决策和解决问题。伴随 Claude Opus 4.8 和 GPT-5.5 等高智能模型出现,手把手写 Prompt 的模式将被取代。但 Loops 方案消耗 Token 过快,一个 Goals 可能耗尽 5 小时用量,企业仍需严格审查 Token 消耗的 ROI,因此实践中会通过前置的 Spec、AGENTS.md 等约束让 AI 做确定性可控的部分。Boris 预测这一转变将在今年剩余时间持续。
"I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write ...
How do you use coding agents right now?
宝玉不认同“选HTML而非React”的观点。首先,设计稿需要动态数据交互,HTML难以胜任,而Claude Design是UX交互工具。其次,复杂UI必须拆分为小组件,React能实现重用与低上下文修改,大型HTML则维护困难。再者,React天然形成结构化树形设计,方便coding agent开发,HTML结构割裂、难以与设计映射。至于文章说模型注意力需放在React运行准确率上,宝玉认为当前大模型能力已使此问题不复存在。
http://x.com/i/article/2063275048157458432
I have a new kind of big button that I can press for Codex. Over the next 100 days, we will select one person per day wh...
BestBlogs早报06-08聚焦三篇AI工程实践精讲:iPod之父Tony Fadell系统阐述“知情直觉”与“三代法则”,警告AI时代的“认知投降”和“快时尚软件”;OpenAI工程团队分享使用Codex
今日早报聚焦AI产品与工程前沿:iPod之父Tony Fadell提出创新依赖“知情直觉”而非数据,并总结“三代法则”;OpenAI内部用Codex全程零人工代码交付约100万行代码,合并1500个PR,效率为手写代码10倍;Thoughtworks专家梳理Coding Agent范式转移,指出Context Engineering是双向放大器,并强调Harness Engineering构建安全网;Anthropic首次公开内部Claude Code Skills经验;OpenAI计划将Codex并入ChatGPT打造超级应用。
http://x.com/i/article/2063761613795270656
I have said this before, but to those of us using AI systems to get lots of work done reliably and quickly, the people w...
麻省理工新研究追踪超10万GitHub开发者使用三代AI编码工具(自动补全、交互式agent、自主agent)的生产漏斗。自主AI agent使代码提交数提升180%,但实际发布仅增30%。代码量激增近300%,经人工审核后收益降至150%,最终发布仅增约30%。研究估算替代弹性为0.25,即AI能力大幅提升时仅能替代少量人类工作。应用市场同样显示新应用数量增加,但总使用量未升。瓶颈在于人类仍需负责审查、测试、打包和发布等环节,AI加速的局部任务并未转化为同等产出增长。
FT publisehd a piece. AI is raising software supply faster than demand. AI is producing far more work inside companies, ...
ideogram发布Ideogram 4文生图模型,开放权重,仅9.3B参数,支持原生2K分辨率生成。作者将其与通义Z-image-Turbo生成效果对比,认为两者风格相似。
FT报道MIT一项研究,跟踪软件团队从文件编辑到审查到发布的完整生产漏斗。使用AI后,开发者创建或编辑文件数量增加近300%,但在审查阶段增益降至150%,最终到软件发布仅提升约30%。这表明AI在加速局部编码任务上效果显著,但人类审查、协调、产品判断、测试和发布流程仍是决定产出价值的关键瓶颈,大量额外工作未能转化为最终产品。
未来几周将有超强AI模型发布,模型能力可能迎来阶段性提升。DAIR.AI创始人Elvis Saravia认为,当前最大的错误是从成本或工程角度锁定单一供应商,建议开始利用模型组合(包括开源模型),保持“模型无关”,以便随时切换模型以发挥其各自优势。对于编程智能体,开源模型表现已媲美前沿模型。他建议将“AI模型路由”作为核心策略,高效分配任务/工作给不同模型,这是一项高回报的AI工程投入。
Google DeepMind 联合创始人兼 CEO Demis Hassabis 在新采访中表示,社会需要意识到我们没有多少时间准备了,人类正站在奇点的山麓。他认为 AGI 可能只需几年,大约 2030 年(±1 年)就能实现。推文作者评论指出,真正的颠覆不在于 AGI 何时精准到达,而在于机构能否适应——后 AGI 世界技术变化远快于人类系统响应速度,学校、公司、政府均未做好准备。若 AGI 按前沿实验室时间线到来,这一滞后将压缩成危险鸿沟。
商汤资本市场主管 Phil Wong 在汇丰私人银行圆桌会议上指出,中国 AI 优势日益体现于成本、产品质量及提升终端客户生产力与效率。真正差异化在于大规模创造可衡量业务成果。商汤实践包括:多模态模型 SenseNova U1 以较小规模实现强性能;AI 工具 Office Raccoon(数据分析与 PPT 生成)和 Seko(视频制作);AI 基础设施 SenseCore 通过算力协同优化降低能耗、提升效率。此外需关注空间智能、世界模型等前沿领域。
DeepMind创始人Demis Hassabis在Google I/O上表示,AGI(约2030年)的到来将等同于奇点——一个不可逆转的技术突破点。他直言社会需要尽早准备,因为时间不多了;回顾当下,我们正站在奇点的山脚。推文作者将其视为比工业革命快10倍、强10倍的深刻革命,人类社会正面临前所未有的变革。
OpenAI just published dozens of real-world workflows showing how teams are using it to automate work. > Manage your inbo...
一项新研究提出Meta-Agent Challenge(MAC)基准,测试AI智能体能否在没有人类设计帮助的情况下自主构建更优智能体。智能体需在安全工作区内自行发明策略、编写代码、测试并从失败中学习。实验覆盖数学、科学问答、竞赛编程、代码修复和长终端任务5个领域。结果显示,当前智能体大多无法超越人工设计的强智能体系统,仅Claude等少数封闭前沿模型取得较好表现。研究认为,当前智能体更像是强大的执行者,而非具备可靠自改进能力的工程师。
宝玉分享开发模式:先用 Claude Design 设计 App UI/UX,生成 HTML+CSS+React+data.js(优于 Figma,利于 AI 理解和 Git 版本管理);再用 Claude Opus 4.8 实现 MVP(GPT 5.5 在 UI 实现上差距明显)。因反复在本地与网页间导出替换设计稿繁琐,他编写工具解析 HAR 文件、解密 Claude Design 二进制内容,分析其 Prompt 和内置组件,将核心逻辑本地化集成到 Cursor(利用网页标记功能),配合 Opus 4.8 即可本地运行。最终开源 GitHub 项目“baoyu-design”。
最近为了研究 Claude Design,专门写了一个工具,可以解析 HAR 文件,解密 Claude Design 传输的二进制内容,这样可以方便的看到请求的 Prompt
American Open Source is so back. 9 / 30 of the models on page 1 of Huggingface are published by Nvidia.
本周一篇AI论文探讨自我改进智能体是否真正发现新知识,还是仅重新组合已知信息。作者将行为分为三类:检索(查询已有笔记本)、搜索(组合现有工具)和发现(发明新概念),并用范畴论和左Kan扩展定义——若旧版本能产生相同结果则非发现。他们构建Builder/Breaker agent研究蛋白质力学,四轮中R²从0.48升至0.68再降至0.54和0.41,看似变差实则不断挑战更难蛋白质并重写理论:数据增长近10倍,模型代码仅增长1.3倍。论文提出用代码压缩率作为真实发现信号。链接:arxiv.org/abs/2606.01444。
文章盘点四大渠道:① OpenAI Codex for OSS,开源项目维护者可免费获6个月ChatGPT Pro(价值$1200)及API credits;② Anything AI,新用户通过促销链接注册可得2万credits,需重复点击触发bonus;③ Lenny's Product Pass,付费订阅其年度Newsletter($200-400)可兑换总价值$30000+的AI工具一年会员,先到先得且要求新用户;④ 三大云startup credits,微软Founders Hub最低$1K-$5K(无VC要求),谷歌AI-first创业最高$350K但要求严,AWS可叠加(自筹$1K+YC等)。每个口子均有门槛限制。
宝玉 (@dotey) 对比各模型 Deep Research 表现:ChatGPT 的 DeepResearch 最好,Gemini 搜索能力强、表现也不错,Claude 做得很差。引用推文补充:在写代码、工程工作及需联网搜索数据并分析得出结论的任务上,Claude 的“5.5”版本远超 Opus,Opus 搜索能力几乎不可用。
@dotey 但是写代码,工程工作,以及所有需要上网搜索数据计算得出分析结论的事项,5.5 比 opus 强很多,opus基本不可用,它的搜索能力几乎等于没发用
Tomorrow could be Apple's most important AI moment yet. WWDC 2026 is expected to be all about one thing: making Siri rel...
推文介绍一套内容整理范式:将推文、文章等拆解为知识原子(问题、概念、观点、案例),而非单纯归类文件。通过严格结构的纯文本Markdown作为“运行时”,让AI Agent按既定方法论检索、重组内容,使过往积累从死库存变为可反复调用的资产库。核心纪律:先审计再建工程,结构先于规模,避免全量乱跑(仅X推文就一万两千条)。这标志着内容创作者的护城河从写作能力转向内容资产的工程化可调用能力。
http://x.com/i/article/2061721924875825152
邵猛此前在法国企业做数据分析软件,节奏极慢,两天就能完成一周工作。14-15年左右,他加入AI CV四小龙旷视,周围多是清华姚班的全职或实习生,智商极高、学东西快且深。作为算法封装与商业化工程师,他硬学CV知识,两三个月后跟上节奏。曾与一位算法伙伴两周用古法编程跑通人脸关键点和美颜贴纸算法,获公司认可。此后心态彻底改变,不再畏惧跨领域挑战。后来离开旷视,在创业公司担任CTO等。
据传 WWDC 2026 苹果将彻底重构 Siri,底层集成 Google Gemini 模型(约 1.2 万亿参数)作为云端智能层,与自有 3B 参数设备端模型组成混合系统。Siri 担任编排层,控制 UI、隐私和应用权限。预期新 Siri 支持更自然对话、跨应用上下文、屏幕感知、应用内操作、专用 Siri app、语音/文件/多模态交互、动态岛增强,并可选接入 ChatGPT/Claude 等第三方 AI。同时可能推出 AI 修图、智能相机、写作工具、自然语言快捷指令等新 Apple Intelligence 功能。
日本北海道农民富安弘毅用 ChatGPT 和 Codex 解决农场实际问题,涵盖 8 个用法:拍照识别西兰花病害、卫星监测获取 NDVI 数据、用 ESP32 和 LINE 机器人远程控制温室卷帘、为农场群聊开发机器人管理温度与排期、从聊天记录追踪播种数量、学习 RTK-GPS 自动转向原理并评估自建成本、设计基于 Airtable 的农场管理数据库。他说 AI 让传统昂贵的自动化变得低成本可及,“如同身边有一位超级工程师”。
While I'm no fan of socialism or arbitrary confiscations of wealth, I can see why Bernie Sanders' proposal (for the gove...