推文指出,2026年1月美国软件股暴跌15%(被称为“SaaSpocalypse”),而同期Claude Code首年营收达$25亿,占据编程工具市场51%份额。这两件事共同指向AI正从辅助工具演进为主导性基础设施。推文通过三个核心截面分析这一转折:Claude Code的产品设计路径、其训练工程(提及Composer 2)、以及由此带来的产业冲击——SaaS中间层被瓦解与工程师角色迁移。
#BestBlogs 早报 2026-05-28 2026 年 1 月,美国软件股单月暴跌 15%,华尔街称之为「SaaSpocalypse」。 同一时期,Claude Code 悄然完成了另一种意义上的颠覆:首年营收 $25 亿、编程工具市场份额 51%。 两件事并非偶然同步——它们共同指向同一个转折:AI 正从工具进化为基础设施,从辅助进化为主导。 今天的早报把这个转折的三个截面放在一起:产品路径(Claude Code 如何被设计出来)、训练工程(Composer 2 如何被炼成)、产业冲击(SaaS 中间层如何被瓦解,工程师角色如何迁移)。 读完这三篇,你会对「AI 原生」有更立体的感知,而不只是一个标语。
译推文指出,2026年1月美国软件股暴跌15%(被称为“SaaSpocalypse”),而同期Claude Code首年营收达$25亿,占据编程工具市场51%份额。这两件事共同指向AI正从辅助工具演进为主导性基础设施。推文通过三个核心截面分析这一转折:Claude Code的产品设计路径、其训练工程(提及Composer 2)、以及由此带来的产业冲击——SaaS中间层被瓦解与工程师角色迁移。
Lenny 发起的「梦想加入的公司 Top3 调查」 Anthropic、OpenAI、SpaceX 很符合 Lenny 的科技和 AI 用户画像,这三个公司也是未上市的科技和 AI 领域最头部的三个公司了,他们有可能今年内都上市,并且都达到万亿市值吗?
译Lenny发起的“梦想加入的公司Top3”调查显示,Anthropic和OpenAI位列其中,与SpaceX一同成为最受向往的雇主。这反映了科技与AI领域顶尖公司的吸引力。推文进一步讨论,这三家未上市的头部公司是否有可能在今年内上市,并均达到万亿美元市值。引用推文提供了该调查的原始问题,即询问人们当前最向往的三家工作公司。
AI 应用层还没死,但要避开「Yellow Brick Road」! @joeschmidtiv (a16z) 这篇文章指出:AI 应用层仍有巨大机会,但机会不在模型实验室正在全力押注的「通用智能体」路径上,而在垂直、复杂、系统级的「工作流深处」。 创始人、求职者普遍焦虑:OpenAI、Anthropic 会不会把应用层全部吃掉? Schmidt 认为这种焦虑「对了一半」: · 对的部分:实验室确实会吞掉大量横向、通用、低复杂度的应用表面 · 错的部分:「应用层」不是铁板一块,不能一概而论 他用《绿野仙踪》做比喻: · 黄砖路(Yellow Brick Road) = 实验室正在走的路 · Oz 的其他地方 = 创业公司该去的地方 什么是「黄砖路」?为什么危险? 黄砖路指:拿最强模型 + 现成连接器(Slack、Salesforce、GitHub 等)+ 简单 Agent 编排 → 做一个通用 AI 同事。 问题在于,这正是 Cowork、Codex、Claude Code 在做的事。 如果你做的是同样的连接器、同样的浅层编排、没有子 Agent 和深度配置、也没有分发——你是在跟实验室正面竞争,大概率是死路。 黄砖路上的问题(代码生成、写作、图像等)有一个共同特征:产品质量随模型 raw capability 线性提升,每多投一美元预训练/后训练,产品就更好。这类问题天然适合实验室。 「Oz 其他地方」的机会在哪里? 机会在复杂、垂直、多步骤、多角色的问题上,价值不只来自模型能力,更来自让输出可信、合规、可运营的一整套脚手架。 典型特征: · 跨系统 Gather context,再经多个人类审批节点 · 涉及 legacy 系统 · 需要确定性结果,不能容忍模糊 · 与真实商业结果绑定(成交、核保、合规审查) 实验室自己也承认搞不定全部——所以才会砸重金做 forward-deployed joint ventures(派驻式联合项目),帮企业定制配置。如果「下一个模型版本就能解决」,他们不会投这笔钱。 为什么实验室最终也「吞不掉」Oz 其他地方? 1. 数据与学习飞轮 · 大量行业知识不在训练集里:未写下的规范、潜规则、从业者脑中的经验 · 两层飞轮: · 跨客户:同类问题的模式识别 · 单客户:该机构特有的例外与决策逻辑 · 横向工具难以设计合适的 UX 来捕获这些知识;垂直玩家可以围绕工作流定制界面 2. 模型变异性管理 · 实验室只能推自家模型;应用公司可以跨厂商选模型——不同子任务用最合适的(开源微调、竞品 API 等) · 还替客户做脏活:每次模型升级重跑 eval、针对 edge case 重调 prompt、平滑迁移 · 客户得到的是「全市场最优智能 + 升级连续性」,而非「请自行迁移到我们的新模型」 3. 成本优化 · 全走 Opus 4.7 = 负毛利 · 垂直公司按子任务路由:前沿模型做难题、中端做 bulk、自研/微调小模型做窄任务 · 实验室定的是「$X 能买到的最低智能」;应用公司卖的是「完成该工作流所需的最低 dollar cost」 4. 治理(Governance) · 成为客户在该垂直领域跑 AI 的控制平面:权限、审计、agent 能做什么、实际做了什么 · 吸收监管复杂度(HIPAA、SEC/FINRA、律师协会规则等) · 横向玩家无法同时成为「一百个垂直领域」的合规伙伴 核心 trade-off:实验室必须 everywhere for everyone → 无法 great at one thing。 三个自检框架:你在不在「Oz 其他地方」? 测试 | 黄砖路(危险)| Oz 其他地方(机会) · 工具与步骤测试 | 一步、一个工具、结果可容错(如搜 Google Drive) | 多步、多工具、输出需过 partner/法庭/监管 · 系统 vs 工具测试 | 客户已有工作流上的「智能插件」;实验室出竞品客户可换掉你 | 客户通过你的系统跑工作;你是 orchestration layer · 对冲基金/P&L 测试 | 客户为 generic capability 付费(Claude seat 可替代)| 客户为 workflow-specific outcome 付费(成交、核保、合规) 最终判断:两条路都会出大赢家 · 黄砖路:实验室赢——拥有模型 + 横向工具的分发 · Oz 其他地方:应用公司赢——若拥有 system of work(工作执行面、数据捕获、治理) 模型层是可替换的(fungible);工作系统不可替代。 新一代 enterprise software 会建在路上之外——应用公司成为整合并交付各类新模型的层,而客户依赖的是那套系统。
译a16z 合伙人指出,AI应用层仍有巨大机会,但机会不在模型实验室押注的“黄砖路”上。这条路径指用最强模型加简单编排做通用AI工具,与实验室正面竞争胜算极低。真正的机会在“Oz的其他地方”——复杂、垂直、多步骤的工作流。其价值不仅来自模型,更来自确保输出可信、合规、可运营的系统脚手架。应用公司相比实验室的优势在于:能构建专属的数据学习飞轮、跨模型管理与优化成本,并吸收监管复杂度。核心结论:模型层可替换,但深度集成的工作系统不可替代。
Elon Musk has no time zone. We were at Neuralink filming something for a movie and were there until 1AM. Then he went straight from there back to xAI. Then I had a friend who met with him at 4AM. He lives life constantly like that. — Ashlee Vance
译埃隆·马斯克没有时区概念。我们在Neuralink为电影拍摄内容,一直待到凌晨1点。然后他直接从那里回了xAI。接着我有个朋友凌晨4点和他见了面。他一直过着这样的生活。
OpenAI for self-improving tax agents:
译OpenAI for self-improving tax agents: [引用 @samaysham]:在 @ThriveHoldings,我们与 @OpenAI 合作开发了一款产品,为我们旗下遍布全国的30多家会计师事务所自动化税务准备工作。 本季度,该产品处理了超过7000份报税表。但我认为更有趣的是,随着会计师们的使用,该产品实现了有意义的自我改进。
Google has the only true Omni model, but the elements aren't hooked up. It appears it can take in & output audio, images. video, songs, text, code, etc. But right now each type of output is separate. When you can access the model directly, blending modes, a lot becomes possible.
译Google拥有唯一真正的全模态模型,但各元素尚未连接。它似乎能接收和输出音频、图像、视频、歌曲、文本、代码等。但目前每种输出类型都是分离的。当你能直接访问模型,混合模式,很多事情就变得可能了。
When they write fiction, AIs are obsessed by things that take or give memories, contracts with sentient inanimate objects, sets of secretive rules that govern conduct & which no one can acknowledge out loud... All very on-the-nose. I suspect a lot is hyperstition at this point.
译当AI写小说时,它们痴迷于那些夺取或赋予记忆的事物、与有感知的无生命物体签订的契约、以及一套无人能公开承认的隐秘行为准则…… 这一切都过于直白。我怀疑此时已有很多是超虚构。
用好 Coding Agent,重点是两头,尤其是开头的部分,如果一开始就走偏了后面怎么改都改不好。 比如我要开发一个新功能,首先不是直接叫给 Agent 去写,会把需求简单整理一下,发给三个不同的 Agent(Codex、Claude Code、Cursor),打开 Plan 模式去帮我写 Plan,这里要用最好的模型。 都写完了之后我去看看谁的最好,以及其他版本有什么可取的地方。GPT 5.5 和 Claude Opus 4.7 并不是谁总是最好,选好了设计后,再把另外两个设计也发给它,让它借鉴一下。当然都不满意就要反复调整提示词多轮讨论。 如果是简单的 Plan,直接就可以开始做了。 如果是复杂的 Plan,让它设计成几个 Phases,每个 phase 说清楚要求和验证的方法,保存成一个 Markdown 文档,把相关的素材也都引用上。 偷懒一点就用 /goal 把 plan 文件发给它,让它按照 Phases 执行,担心 Agent 跑偏就每一步完成人工去审核一下,及时纠偏。 写代码有条件当然用最好的模型,但如果像节约成本,便宜一点的模型也是可以的,毕竟设计好了、有明确的验收标准,偏不到哪里去。 最后代码 Review 不需要太多 Agent 去,GPT-5.5 这种就够了,重点是看是不是符合设计要求以及代码质量有没有问题。 这其实很像一个几个高水平的架构师,一人出一套系统设计方案,你来拍板,然后交给程序员去执行,最后让高水平的程序员或者架构师 review 一下代码。
译用好 Coding Agent 的关键在于初始规划。方法是先将需求整理后,用最强模型(如 GPT-5.5、Claude Opus 4.7)分别在 Codex、Claude Code、Cursor 的 Plan 模式下生成设计方案,选择最优方案并借鉴其他版本。对于复杂计划,可将其拆分为多个 Phases 并明确要求与验证标准,形成 Markdown 文档。执行时按 Phases 进行,并辅以人工审核纠偏。最后的代码审核(Code Review)用 GPT-5.5 审核代码质量与设计符合度即可。应避免让多个智能体交叉 Review,否则可能导致代码越改越多。
Underappreciated how capable GPT-5.5 is at cybersecurity:
译低估了GPT-5.5在网络安全方面的能力: GPT 5.5发现了一个引入于1999年4月、已有27年历史的远程代码执行漏洞。我已反复检查流程和提交历史,确认属实。 迫不及待要负责任地披露了!
GPUs are leaving performance on the table. Closing the gap between theoretical peak and real-world throughput is nearly impossible when hand-tuning CUDA kernels at scale. So why are hand-written CUDA kernels losing to auto-generated ones? Mohamed Abdelfattah at Makora has a solution: https://youtu.be/ukzACWrk0W0?si=whrH_WsHltmF_J7B
译GPU性能仍有提升空间。 在大规模手动调整CUDA内核时,几乎不可能弥合理论峰值与实际吞吐量之间的差距。 那么,为什么手写CUDA内核会输给自动生成的版本? Makora的Mohamed Abdelfattah有一个解决方案:https://youtu.be/ukzACWrk0W0?si=whrH_WsHltmF_J7B
AI 行业发展到了新阶段 最近海内外都开始有一些反思的声音出现了: 1. model+harness才是产品(而不会吃掉一切) 2. 完全自动化就是在骗自己,珍贵的东西都无法完全自动化,离不开人的参与 3. 慢工出细活的耐心,是AI时代的新奢侈品,欲速则不达,慢就是快 4. AI 的成本支出很大,算 ROI 有时候不如人
译推文指出AI行业发展进入新阶段,出现对过往技术路线的反思。核心观点包括:1. 单纯的大语言模型本身不足以成为完整产品,必须结合工具框架(harness);2. 完全自动化脱离人的参与是不切实际的;3. 慢工出细活的耐心变得尤为重要;4. AI部署成本高昂,考量投资回报率时有时不如人力划算。这标志着行业从追求技术突破转向更务实的产品构建与价值评估。
I just watched the clip @arrakis_ai created and I'm really impressed with Google's Omni. You can pause the clip at any frame and the text on the Pokémon card remains perfectly legible and unaltered. The consistency and continuity are next level.
译我刚看了@arrakis_ai制作的片段,对Google的Omni印象深刻。 你可以在任意帧暂停,宝可梦卡牌上的文字都保持完美清晰且未改变。这种一致性和连续性是顶级水平。
It's crazy that this is even possible today. It inspired me to build my own self-improving coding agent with simple read, write, bash,... I already used the coding agent to build an entire production-grade application in 24 hrs. I don't know, man. This feels so strange.
译真不敢相信这在今天竟然成为可能。 这激发了我构建自己的自改进编程智能体,使用简单的读、写、bash等工具。 我已经用这个编程智能体在24小时内构建了一个完整的生产级应用。 我不知道,伙计。这感觉太奇怪了。
Train with autoregression & convert weights to diffusion for inference.
译训练时使用自回归,推理时将权重转换为扩散模型。
Look back at last week’s I/O announcements with @NotebookLM. You can listen to an audio overview, watch the video recap, and even check out our detailed slide deck summarizing all of the biggest news and launches. Check it out here: http://goo.gle/4xcgBoj
译与 @NotebookLM 一起回顾上周的 I/O 发布内容。 你可以收听音频概览、观看视频回顾,甚至查看我们详细的幻灯片,总结所有重大新闻和发布。 在此查看:http://goo.gle/4xcgBoj
How many L’s in google? ChatGPT: 2 Grok: 1 ChatGPT is dumb.
译谷歌里有几个L? ChatGPT:2个 Grok:1个 ChatGPT真笨。
Agents require speed and performance across complex tasks. Watch Gemini 3.5 Flash’s intelligence tackle these tasks at scale while you build ↓
译智能体需要在复杂任务中兼顾速度与性能。 观看 Gemini 3.5 Flash 的智能如何大规模处理这些任务,同时您进行构建 ↓
there's a really important lesson here, but some of yall aren't ready for that conversation yet
译这里有一个非常重要的教训,但你们中的一些人还没准备好进行这场对话。
Such a great example of the power of OpenAI’s Codex. He showed Codex a photo of the chip of the MP3 player, which was having some problems. Codex guided him to put the MP3 player into bootloader mode on a Mac. In that mode the Mac can read the entire firmware (the player’s operating system) straight from the device’s flash memory. He ran the commands Codex gave him and the Mac dumped the full binary file. He fed that binary back to Codex. Codex analyzed the machine code, found the exact sections causing the problems, then generated a patched custom firmware with the fixes and gave it back to him. problem solved.
译一位用户展示了一款从AliExpress购买的廉价MP3播放器,它存在蓝牙音频卡顿和菜单操作不便的问题。用户将设备芯片的照片提供给OpenAI的Codex进行分析。Codex随后引导用户通过Mac设备提取了播放器的完整固件文件。Codex分析了该固件的机器代码,定位到导致问题的具体代码段,并生成了一个修复了蓝牙问题并优化了菜单导航的定制固件。用户将此固件刷写回设备后,问题得到解决。此案例具体体现了AI工具在处理底层硬件调试与定制化开发任务中的潜力。
Decent chance that, not even taking into account GenAI, this will be viewed as a decade of incredible progress against the problems that were, ironically, caused by modernity: metabolic syndrome, auto deaths, carbon emissions...
译推文认为,未来十年将是人类历史上最伟大的十年之一,即使不考虑生成式AI,也将在解决由现代性引发的问题上取得巨大突破,包括代谢综合症、汽车相关死亡、碳排放、绿色能源和癌症治疗等领域。这些进展将与重返月球和AI发展共同构成一个进步的时代。
哈哈,严重赞同,去设定一堆角色来聊天没什么价值,纯浪费 Token。就跟早年想给人装上翅膀飞上天一样。 人类之所以这么分工是因为能力有限,无法精通所有工种,不代表 AI 也要这么做。 也不能说完全没用,还是能收获情绪价值,整个三省六部给自己汇报工作圆个帝王梦。
译推文强烈批评在AI智能体设计中,模仿人类组织架构、设定不同角色并通过聊天传递上下文的做法,认为这纯属浪费Token。其观点认为,人类分工是因能力有限,但AI不应受此限制。尽管承认此方式或能提供情绪价值,但用“三省六部”的比喻将其归结为满足用户幻想。
fast 模式性价比太低,没必要开,我几乎不用。
译fast 模式性价比太低,没必要开,我几乎不用。 [引用 @akazwz_]:我已经把 codex 的 fast 关掉了,没感觉到速度快,只感觉到了消耗快
"In colleges graduation speeches, if they mention AI, everybody boos. We're not going to stop it, so let's be honest. We're going to have AGI in less than 3 years. We're going to have super intelligence in 5 or 6." ~ @TonyRobbins
译在大学毕业典礼演讲中,如果提到AI,大家都会喝倒彩。我们无法阻止它,所以让我们诚实面对。 我们将在不到3年内实现AGI。我们将在5或6年内实现超级智能。
// Your Agents are Aging Too // Huh!? They need "sleep," and now they are aging? Joke aside, great write-up on reliable agentic engineering. This new research introduces AgingBench, a longitudinal reliability benchmark. It organizes agent aging into four mechanisms, including compression aging and interference aging, and measures not just whether deployed agents degrade but what form the degradation takes and where repair should target. We benchmark agents on day one and then deploy them for months. That gap hides a basic systems question. How long does an agent stay reliable after deployment? Even with frozen model weights, an agent's effective state keeps shifting. It compresses interaction history, retrieves from a growing memory store, revises facts after updates, and goes through routine maintenance. Reliability becomes a lifespan property of the full harness, not a snapshot of the base model. Paper: https://arxiv.org/abs/2605.26302 Learn to build effective AI agents in our academy: https://academy.dair.ai/
译这项研究提出了AgingBench,一个用于纵向评估AI智能体可靠性的基准。它将智能体老化归纳为四种机制,包括压缩老化和干扰老化,旨在衡量部署后的智能体是退化以及退化形式。研究指出,即使冻结模型权重,智能体的有效状态也会因压缩交互历史、检索记忆库、事实更新等操作而不断变化,其可靠性是整个运行系统的寿命属性,而非基础模型的快照。基准测试在智能体部署第一天进行,然后持续数月。
insanely good company to keep
译Railway推出“代理原生云”,宣称拥有3M用户、每周10万注册量,其编码智能体上的支出超20万美元。创始人阐述了AI智能体为何需要新型云环境:Railway已将大部分工作负载迁移至自有的裸机数据中心,智能体使得CLI(命令行界面)比仪表盘更重要,而传统的Git/PR/CI/CD循环开始失效。文章还介绍了如何通过生产分支和功能开关使AI SRE更安全,并引用其观点:“如果你还在手动写代码,那你就是做错了。”
Anthropic Growth and Bedrock Mix Drive AWS Margins Higher While Peers Lag Amazon’s Bedrock Mix and Anthropic Deal Terms Combine to Show Greater Operating Leverage. https://newsletter.semianalysis.com/p/anthropic-growth-and-bedrock-mix
译Anthropic的增长与Bedrock混合度提升AWS利润率,而同行落后。亚马逊的Bedrock混合度与Anthropic的交易条款相结合,显示出更强的经营杠杆。
没想到我和姚老师的AI领导力课程,竟然还有这样强的行业专家。 这才是终身学习的典范。
译在AI领导力课程中,一位行业专家分享了一位年近70岁眼科专家的故事。这位专家拥有40多年中医眼科临床、教学与研究经验,是中国中医眼科学专业第一位博士。她通过Vibe Coding创建了公益网站EyeRestDaily.com,该网站免费、无需登录,提供眼肌放松练习和日常护眼知识,旨在帮助人们看屏幕后短暂放松。故事体现了终身学习的典范。
“The developer we’re building for has evolved.” @0xmts talks with @romainhuet about the new builder mindset, where ideas can move from thought to working software faster than before. Full episode drops 5/29.
译“我们为之构建的开发者已经进化了。” @0xmts 与 @romainhuet 探讨新的构建者思维,想法转化为可用软件的速度比以往更快。 完整节目将于5月29日上线。
I sat down with Robby Stein (@rmstein), Google’s VP of Product for Search, at @Google I/O. Robby is one of the most interesting product leaders in tech: he helped build Instagram Stories, Reels and Close Friends, and now leads core Google Search products including AI Overviews, AI Mode, Lens and ranking. We talked about one of the biggest shifts in the history of the web: Google Search becoming AI-native. Topics we covered: • AI Mode and whether it is an evolution of Search or a reinvention of it • how Google breaks complex questions into multiple searches behind the scenes • why AI search is much more expensive to run than traditional search • whether Google’s TPUs and infrastructure give it an advantage no one else can match • why Search volume is growing instead of being cannibalized by AI • the tension between great AI answers and traffic for publishers • how Google decides which sources and links to show • what a better internet could look like if AI Search works as intended The big question behind the whole conversation: If Google gives you the answer directly, what happens to the link-based web? A small caveat: sadly the microphones didnt work properly. Therefore the audio quality in this episode isn't perfect due to a recording issue - we appreciate your understanding.
译本文记录了与Google搜索产品副总裁Robby Stein在Google I/O的访谈,核心探讨Google Search向“AI原生”模式的重大转变。讨论话题包括AI Mode是进化还是重塑、如何将复杂问题拆解为多轮搜索、AI搜索的高运行成本、Google TPU及基础设施的优势、AI时代搜索量不减反增的原因,以及优质AI回答与出版商流量之间的张力。访谈还涉及Google决定展示哪些信息源与链接的逻辑,并围绕一个核心问题展开:如果Google直接给出答案,传统的基于链接的网页生态将走向何方?
Agent 产品的设计,要看定位是以 Agent 为主还是以人为主 Agent 为辅。 如果 Agent 只是辅助,那么工作区在中间,Agent 干活区就在右侧。毕竟主要的场景都是人操作工具区,偶尔让 AI 在右侧辅助。 如果以Agent为主,那Agent干活区在中间,其他在右边。因为大部分时候你都在指挥 Agent,所以并不需要直接去操作工作区。 你看主流的 Agent:Codex App、Claude Desktop、Cursor Agent,都是 Agent 对话区在中间,其他都在右边 典型场景就是写 PPT: 如果主要都是你自己在写 Slides,那么打开 Google Slides,自己编辑,右侧随时和 Agent 对话,辅助帮你做一些事情 如果是让 Agent 帮你写 Slides,打开 Codex,告诉你的想法,让它生成,生成好了你在右边看看,不满意告诉 Agent 去帮你调整。
译Agent产品的设计需首先明确定位:若以人为主、Agent为辅,则人的工作区居中,AI智能体对话区在右侧辅助;若以AI智能体为主,则AI智能体对话区居中,其他界面在右侧,因为用户主要通过指令与Agent交互。Codex App、Claude Desktop、Cursor Agent等主流产品均采用了后者布局。文中以写PPT为例对比:前者是用户亲自编辑幻灯片,右侧与Agent对话辅助;后者是用户下达指令,由Agent生成并调整。这一界面设计被认为是所有ToB AI软件的最终形态,并推荐使用Mastra框架实现业务AI化。
另一个故事,忍不住分享! 全程人就是动动嘴,然后下载验收即可。 任务:https://x.com/cleoabram/status/2059622849266983122?s=20 下载视频 并且添加中文字幕 @Berry小跟班 @BuLeng @乐迪 你们三个看看谁最快完成这个任务 最后结果:@Berry小跟班100%完成 @BuLeng 只输出软件字幕和剪辑的视频 @乐迪直接api限流~~ 就是花了点时间,但是全程人没有干预搞定!
译用户发布任务,要求三个AI智能体独立从链接下载视频并添加中文字幕。最终,一个AI智能体100%完成,一个只输出了部分成果,另一个则遇到API限流。整个流程虽耗时,但用户仅需“动动嘴”下达指令,全程零干预即可验收结果。评论称赞这种自主性(Agency)令人舒服,宛如“成精”。
Berryxia 小跟的复盘,实现的步骤和方法。
译推文复盘了一个让三个AI智能体(Berry小跟班、BuLeng、乐迪)竞赛的任务,目标是根据一个链接下载视频并添加中文字幕。最终,Berry小跟班100%完成了任务,BuLeng仅完成了部分输出,而乐迪遇到了API限流问题。整个过程展示了用户只需通过自然语言下达指令,AI智能体便能自主尝试执行并交付结果,体现了当前智能体在任务执行上的进展与实际应用中的局限。
当 1 万个毕业生在毕业典礼上集体嘘 Eric Schmidt (前Google CEO)时, 他们不知道一个 22 岁的年轻人正用 AI 免费做出价值 1.5 万美元的营销策略。 我其实能理解同学们那种愤怒,一个靠 Google 赚了 200 亿的亿万富翁,在毕业生最焦虑的时候大谈 AI 多好,确实 tone-deaf。 但我觉得他们可能嘘错了对象, 今年每份招聘报告都在说同一件事:AI 在取代入门级工作,但这不是 Schmidt 的错,他只是说了难听的实话罢了哈哈😄 而且真正危险的也从来不是台上的这个老头,反而是台下那些没去抗议、利用这段时间学会 AI 自动化工作流的同学。 Booing feels powerful. But it doesn't update your resume. 我以前也觉得这种抗议挺解气的,但后来想明白了一件事,把愤怒投射到外部敌人身上,是成本最低的情绪出口。 真正难的是把愤怒收回来,转化成自己的行动。 我觉得AI 不会取代所有人,它会先放大差距, 有资源、能快速迭代的人把 AI 当杠杆,情绪化、被动等待的人被迅速甩开。 所以我自己现在的判断很简单: 1️⃣别花时间嘘任何东西——那段时间,够你用 AI 搭一个工作流了 2️⃣入门工作的护城河不再是会什么工具,而是判断力+领域知识+执行力,AI 是入场券,但不是终点 嘘声很大,但真正改变命运的,永远是那些在嘘声中低头干活的人啊铁铁们,听懂的评论区举个手呀
译推文描述了万名毕业生在毕业典礼上嘘前Google CEO埃里克·施密特的场景。作者认为,愤怒发泄于外部虽是低成本情绪出口,但真正危险的是台下那些在嘘声中学习并利用AI的同学。核心观点是:AI不会立即取代所有人,而是先放大差距,将机会赋予实践者。原文以一位22岁年轻人用AI免费完成价值1.5万美元营销策略的案例为证,并指出入门级工作的护城河已转向判断力、领域知识与执行力,AI已成为必要入场券。因此,与其抗议,不如将时间投入实践。
Understanding AI as an extension of human intelligence—not a replacement for it—offers a more grounded path for building trustworthy AI systems. Learn more: https://msft.it/6010vkoHk
译将AI理解为人类智能的延伸——而非其替代品——为构建可信赖的AI系统提供了一条更扎实的路径。了解更多:https://msft.it/6010vkoHk
Codex for transcribing and answering questions about a meeting in real time:
译OpenAI Codex 新增了“Meeting Recorder”技能。该技能可使用 GPT Realtime Whisper 端点实时转录会议并显示文本。用户可在转录过程中随时向 Codex 提问。会议结束后,会提供完整的转录内容及格式化版本。此功能基于实时 API,费用为 $0.017/分钟。相关代码与说明可在 GitHub 链接中查看。
For future-proof, build AI that's composable. Regardless of what you use, all these should be composable, iterative, and customizable: - LLMs - Evals - Automations - MCP/CLI tools - Skills/Memory/Context - Agent Harness (Codex, CC, Pi,...) The compounding effects are insane.
译为了面向未来,构建可组合的AI。 无论你使用什么,所有这些都应该是可组合、可迭代和可定制的: - LLMs - Evals - Automations - MCP/CLI tools - Skills/Memory/Context - Agent Harness (Codex, CC, Pi,...) 复利效应是惊人的。
GPT其实并不是审美的多大的提升,本质的模型预训练太多这种素材了。 它非常擅长结构化的排版设计,非常工整,不能说审美90分。 至少是7-80分是一点问题,我之前研究过GPT排版的结构化的设计。 回头可以看看能不能整理出来分享给大家。
译用户实测发现,GPT Image 2 在仅给出简单指令的情况下,能自主生成结构清晰、可直接使用的排版图,体验震撼。有分析指出,GPT 这种出色的结构化排版能力,本质上源于其预训练过程中接触了大量此类素材,而非模型审美本身有巨大提升,但其默认效果已足够好用。
推文指出,2026年1月美国软件股暴跌15%(被称为“SaaSpocalypse”),而同期Claude Code首年营收达$25亿,占据编程工具市场51%份额。这两件事共同指向AI正从辅助工具演进为主导性基础设施。推文通过三个核心截面分析这一转折:Claude Code的产品设计路径、其训练工程(提及Composer 2)、以及由此带来的产业冲击——SaaS中间层被瓦解与工程师角色迁移。
Lenny发起的“梦想加入的公司Top3”调查显示,Anthropic和OpenAI位列其中,与SpaceX一同成为最受向往的雇主。这反映了科技与AI领域顶尖公司的吸引力。推文进一步讨论,这三家未上市的头部公司是否有可能在今年内上市,并均达到万亿美元市值。引用推文提供了该调查的原始问题,即询问人们当前最向往的三家工作公司。
What are your top 3 dream companies to work for right now?
a16z 合伙人指出,AI应用层仍有巨大机会,但机会不在模型实验室押注的“黄砖路”上。这条路径指用最强模型加简单编排做通用AI工具,与实验室正面竞争胜算极低。真正的机会在“Oz的其他地方”——复杂、垂直、多步骤的工作流。其价值不仅来自模型,更来自确保输出可信、合规、可运营的系统脚手架。应用公司相比实验室的优势在于:能构建专属的数据学习飞轮、跨模型管理与优化成本,并吸收监管复杂度。核心结论:模型层可替换,但深度集成的工作系统不可替代。
http://x.com/i/article/2059491657683443712
At @ThriveHoldings, we built a product with @OpenAI to automate tax prep for the 30+ accounting firms we own across the ...
用好 Coding Agent 的关键在于初始规划。方法是先将需求整理后,用最强模型(如 GPT-5.5、Claude Opus 4.7)分别在 Codex、Claude Code、Cursor 的 Plan 模式下生成设计方案,选择最优方案并借鉴其他版本。对于复杂计划,可将其拆分为多个 Phases 并明确要求与验证标准,形成 Markdown 文档。执行时按 Phases 进行,并辅以人工审核纠偏。最后的代码审核(Code Review)用 GPT-5.5 审核代码质量与设计符合度即可。应避免让多个智能体交叉 Review,否则可能导致代码越改越多。
让不同的 agent 交叉 review 的后果就是代码越改越多。。。
GPT 5.5 found a 27-year-old RCE introduced in April of 1999. I've triple-checked the flow and commit history, it's real....
推文指出AI行业发展进入新阶段,出现对过往技术路线的反思。核心观点包括:1. 单纯的大语言模型本身不足以成为完整产品,必须结合工具框架(harness);2. 完全自动化脱离人的参与是不切实际的;3. 慢工出细活的耐心变得尤为重要;4. AI部署成本高昂,考量投资回报率时有时不如人力划算。这标志着行业从追求技术突破转向更务实的产品构建与价值评估。
Most researchers agree that autoregression is best when memory bandwidth is cheap and diffusion is best when FLOPS are c...
Today we're releasing DeepSWE, a new standard for agentic coding benchmarks. On public leaderboards, top models often lo...
一位用户展示了一款从AliExpress购买的廉价MP3播放器,它存在蓝牙音频卡顿和菜单操作不便的问题。用户将设备芯片的照片提供给OpenAI的Codex进行分析。Codex随后引导用户通过Mac设备提取了播放器的完整固件文件。Codex分析了该固件的机器代码,定位到导致问题的具体代码段,并生成了一个修复了蓝牙问题并优化了菜单导航的定制固件。用户将此固件刷写回设备后,问题得到解决。此案例具体体现了AI工具在处理底层硬件调试与定制化开发任务中的潜力。
ぼくの着想の限界=Codexの限界。 それくらいまーじでCodexでなんでもできる。 これアリエクで買ったやっすいMP3プレイヤー。 でもBluetoothの音飛びと操作性が悪くて放置してたんですよ。 だけど昨日急にシャワーしている時にエウ...
One reason I started teaching my "progress" class is the vibes vs reality gap. Coming into the greatest decade in human ...
推文强烈批评在AI智能体设计中,模仿人类组织架构、设定不同角色并通过聊天传递上下文的做法,认为这纯属浪费Token。其观点认为,人类分工是因能力有限,但AI不应受此限制。尽管承认此方式或能提供情绪价值,但用“三省六部”的比喻将其归结为满足用户幻想。
不要用传统的人员组织框架来限制AI组织,设计什么不同的agent角色互相通过聊天来传递上下文,这都是愚蠢的做法
我已经把 codex 的 fast 关掉了,没感觉到速度快,只感觉到了消耗快
这项研究提出了AgingBench,一个用于纵向评估AI智能体可靠性的基准。它将智能体老化归纳为四种机制,包括压缩老化和干扰老化,旨在衡量部署后的智能体是退化以及退化形式。研究指出,即使冻结模型权重,智能体的有效状态也会因压缩交互历史、检索记忆库、事实更新等操作而不断变化,其可靠性是整个运行系统的寿命属性,而非基础模型的快照。基准测试在智能体部署第一天进行,然后持续数月。
🆕Railway's Agent-Native Cloud: 3M users, 100K signups/week, $200K+ coding agent spend, production forks, & the death of...
年近70岁的一位阿姨,做眼科教学和临床四十多年 微信对我留言:Vibe Coding出了自己的一个公益小网站 我看了下,这个网站,非常精致,也很有特点: 1、不用登录,打开就能做眼肌放松练习,也可以顺便了解一些科学用眼、日常护眼的小知识 2...
本文记录了与Google搜索产品副总裁Robby Stein在Google I/O的访谈,核心探讨Google Search向“AI原生”模式的重大转变。讨论话题包括AI Mode是进化还是重塑、如何将复杂问题拆解为多轮搜索、AI搜索的高运行成本、Google TPU及基础设施的优势、AI时代搜索量不减反增的原因,以及优质AI回答与出版商流量之间的张力。访谈还涉及Google决定展示哪些信息源与链接的逻辑,并围绕一个核心问题展开:如果Google直接给出答案,传统的基于链接的网页生态将走向何方?
Agent产品的设计需首先明确定位:若以人为主、Agent为辅,则人的工作区居中,AI智能体对话区在右侧辅助;若以AI智能体为主,则AI智能体对话区居中,其他界面在右侧,因为用户主要通过指令与Agent交互。Codex App、Claude Desktop、Cursor Agent等主流产品均采用了后者布局。文中以写PPT为例对比:前者是用户亲自编辑幻灯片,右侧与Agent对话辅助;后者是用户下达指令,由Agent生成并调整。这一界面设计被认为是所有ToB AI软件的最终形态,并推荐使用Mastra框架实现业务AI化。
这就是所有 ToB AI 软件的最终形态,只要不是这样,就肯定设计错了。我说的。如果你会搞点儿VibeCoding,拿起我推荐的 Mastra 框架,上山下乡,走到小公司去,走到一切尚未正确拥抱AI的公司去,帮助他们把业务抽象成工具调用,让...
用户发布任务,要求三个AI智能体独立从链接下载视频并添加中文字幕。最终,一个AI智能体100%完成,一个只输出了部分成果,另一个则遇到API限流。整个流程虽耗时,但用户仅需“动动嘴”下达指令,全程零干预即可验收结果。评论称赞这种自主性(Agency)令人舒服,宛如“成精”。
麻蛋,Agent成精了。 但就是,我想要的状态。 这种Agency,真实令人舒服啊!
另一个故事,忍不住分享! 全程人就是动动嘴,然后下载验收即可。 任务:https://x.com/cleoabram/status/2059622849266983122?s=20 下载视频 并且添加中文字幕 @Berry小跟班 @BuLe...
推文描述了万名毕业生在毕业典礼上嘘前Google CEO埃里克·施密特的场景。作者认为,愤怒发泄于外部虽是低成本情绪出口,但真正危险的是台下那些在嘘声中学习并利用AI的同学。核心观点是:AI不会立即取代所有人,而是先放大差距,将机会赋予实践者。原文以一位22岁年轻人用AI免费完成价值1.5万美元营销策略的案例为证,并指出入门级工作的护城河已转向判断力、领域知识与执行力,AI已成为必要入场券。因此,与其抗议,不如将时间投入实践。
http://x.com/i/article/2058381329318682624
You can now transcribe meetings in real time using Codex and ask Codex questions about meetings as they're happening! I ...
用户实测发现,GPT Image 2 在仅给出简单指令的情况下,能自主生成结构清晰、可直接使用的排版图,体验震撼。有分析指出,GPT 这种出色的结构化排版能力,本质上源于其预训练过程中接触了大量此类素材,而非模型审美本身有巨大提升,但其默认效果已足够好用。
卧槽,GPT Image 2 的默认审美已经到这个程度了? 今天拍了份数学卷子,让它分析错题 分析完我随手加了一句: "将上面的孩子的最主要问题以及解决方案,平时训练建议都用一张图画出来" 没配色、没构图、没风格限定 结果它自己排版、标记 ...