Obsidian 加上 Codex,再配合合适的 API、MCP 和 Skills,基本上能替代目前 90% 以上的 AI Agent 产品。 这是我将笔记从 Notion 迁移到 Obsidian 一个月之后的感受。
Codex+Obsidian 是个非常好的 agent 组合, 现在唯一的缺陷是文档太多了,每次打开 Obsidian 都卡几秒, 大家有啥解决方案吗👀
译用户认为 Codex 与 Obsidian 搭配是非常优秀的 AI Agent 组合,但存在 Obsidian 文档过多导致每次打开卡顿几秒的问题,寻求解决方案。引用推文指出,Obsidian 加上 Codex,配合合适的 API、MCP 和 Skills,基本能替代目前 90% 以上的 AI Agent 产品,这是从 Notion 迁移到 Obsidian 一个月后的感受。
Just a quick reminder: already in February, we had the first models that were "instrumental in creating themselves." RSI is a progression that has been ongoing for some time.
译OpenAI 官方声明称已在当前系统中观察到递归自我改进(RSI)的早期迹象——AI 开发正被 AI 自身加速。预计这将加剧开发者与国家间的竞争压力,并带来现有机构无法应对的治理挑战。作者 Kim 补充指出,早在二月份已有首个“自我创造”的模型问世,RSI 进程并非新事,而是已持续一段时间。
这个点子好,在朋友或者是父母的电脑上装个 codex。 然后开启远程控制,你就能帮他们修电脑了,而且也可以帮用 computer use 去控制他们的电脑。
译推荐在父母或朋友的电脑上安装 codex,开启远程控制后就能利用 computer use 功能直接操控对方电脑,从而远程解决各种故障。引用推文也表达了类似思路:在父母电脑装 codex 以便远程修复问题。
一觉醒来收到这一期老马的工资了, 依旧大超预期, 另外实现了一个冷知识,原来x的创作者收益结算是周二啊, 我一直以为是周五呢🤣
译X平台创作者收到本期收益,金额大幅超出预期。作者还发现一个冷知识:X创作者收益的结算日为周二(此前以为是周五)。此前作者曾表示已研究平台算法一段时间,基本掌握收益算法逻辑,准备制作一个X创作者收益预测平台,并计划在收集用户数据打磨模型后开源,供他人分析自己的数据。
卧槽! 思路直接被打开了! 从此Claude 和 Codex。 联姻成功了…
译@lxfater 分享了一种 Vibe Coding 方法:在 Codex 的侧边栏终端输入 Claude,即可同时使用 Claude Code 进行项目规划、Codex 执行具体编码任务。两者结合实现了“鱼和熊掌兼得”,让 Claude Code 的规划能力与 Codex 的执行效率互补,无需切换工具即可完成从设计到编码的完整流程。
Elon Musk explains Moon advantages for scaling AI infra: electromagnetic accelerators can use Moon materials for solar panels/radiators and compute, while vacuum/low gravity of Moon will let mass drivers launch AI data centers deep space, rocket-free.
译Elon Musk 解释月球用于扩展 AI 基础设施的优势:电磁加速器可以利用月球材料制造太阳能板/散热器和计算设备,而月球的真空/低重力将使质量驱动器将 AI 数据中心发射到深空,无需火箭。
This is useful stubbornness. Recovery is a first-class robotics skill. The floor is the eval.
译这是有用的固执。 恢复是头等机器人技能。 地板就是评估。
《图解Skill》需要复制粘贴的内容基本都在 GitHub Repo,包括一些我之前没开源的自己用的 Skills,比如从播客文字稿生成访谈稿的 Skill,理论上来说你不买书也可以的。 Repo地址: https://github.com/JimLiu/Illustrated-Agent-Skills 电子书版本已经发布了,购买链接:https://www.ituring.com.cn/book/3616
译宝玉的新书《图解Skill》已出版,配套 GitHub Repo 开源了书中涉及的所有可复制粘贴的 Skills,包括之前未公开的播客文字稿转访谈稿 Skill。读者理论上可以不买书直接使用 Repo 内容。电子书版本同步上线,方便读者复制粘贴。
http://x.com/i/article/2062833714787397632 # Who Pays for AI? How America and China Are Monetizing AI Differently When ByteDance announced subscription tiers for Doubao (68 yuan, 200 yuan, or 500 yuan per month), the response in China was swift and largely hostile. “I’ll delete the app.” “More expensive than ChatGPT.” The backlash trended on Weibo for days. Stop and think about that for a second. ChatGPT Plus has been charging $20 a month since 2023. Claude Pro costs $20. Google AI Pro costs $20. Nobody in the US wrote think pieces about whether AI chatbots deserve to charge. The question was never really contested. So why does Doubao charging roughly $10 a month feel like a provocation in China while the same price point in America is just... Tuesday? The easy answer is “Chinese users are used to free internet.” That’s true, but it’s also incomplete. The more revealing answer comes down to one distinction, one that cuts through almost all the noise about models, benchmarks, and market share: American AI companies have found a way to monetize through enterprises. Chinese AI companies have been competing through consumers. Those are two completely different statements. One is about where the revenue comes from. The other is about what the competition looks like. And the gap between them explains not just why 68 yuan caused a Weibo storm, but why the entire AI industry on each side of the Pacific looks so structurally different. ## Two Different Scoreboards There’s a framing that gets thrown around a lot: American AI is more “B2B” while Chinese AI is more “B2C.” It sounds intuitive. It’s also wrong, or at least it misses the point. OpenAI has hundreds of millions of monthly active users. ChatGPT is arguably the most successful consumer AI product ever built. That doesn’t sound very B2B. Doubao has 345 million monthly active users in China, a number that any American consumer tech company would kill for. That doesn’t sound very B2C either, if B2C implies actually charging consumers. The real distinction shows up in what each industry chooses to measure. In the US, the coverage that moves markets is about annual recurring revenue, enterprise customer counts, and API revenue growth. Anthropic recently disclosed that approximately 80% of its revenue comes from business and API customers, serving over 300,000 companies. More than 1,000 of those now spend over $1 million annually. When Anthropic’s annualized revenue crossed $30 billion in April 2026, the story wasn’t user growth. It was the speed of enterprise adoption. In China, Bytedance’s Doubao, Kimi, and Alibaba’s Qwen compete on a completely different scoreboard. The metrics that matter are downloads, DAU, and MAU. In early 2026, Chinese media breathlessly covered Doubao crossing 100 million daily active users. Nobody was asking about ARR. Two different scoreboards. Two different industries. ## The Real Reason: It’s Not Just SaaS History The standard explanation for this divergence points to commercial history: the US has a mature enterprise software culture (Microsoft 365, Salesforce, Snowflake), while China’s internet giants built their empires on advertising, e-commerce, and gaming. Not SaaS. That’s true. But it’s background, not root cause. The deeper reason is what each country’s AI products actually do for the people paying for them. American AI products (ChatGPT, Claude, Cursor, Claude Code) have penetrated labor markets. A law firm deploys Claude to accelerate document review. A software team uses Claude Code to ship features faster. A consulting firm runs ChatGPT Enterprise to cut research time. In each case, the value is concrete and quantifiable: hours saved, headcount avoided, output increased. The ROI calculation is straightforward enough that a CFO can sign off on it. American AI companies are monetizing labor. Chinese AI companies are monetizing attention. That distinction is not really about what the products can do. Chinese AI products (ByteDance’s Doubao, Alibaba’s Qwen, Kimi, Tencent’s Yuanbao) are often used for the same tasks as their American counterparts — writing, research, image generation, and answering questions. The difference is who pays and why. In the United States, the users converting into paying customers tend to have a measurable ROI calculation. A lawyer bills more hours. A developer ships code faster. A consultant spends less time on research. The value is tied directly to output — which is what makes a $20 monthly subscription feel like a business expense, and a six-figure enterprise contract defensible in a procurement meeting. American AI companies are not simply selling intelligence; they are selling productivity gains that enterprises can measure and justify. In China, the value is often real but harder to quantify. AI makes daily life more convenient, more efficient, and more enjoyable, but not necessarily in ways that fit neatly into a procurement budget or a subscription calculation. As a result, Chinese AI companies have largely competed for consumer attention first — maximizing reach, engagement, and user scale before figuring out how to monetize them. That is why China’s leading AI companies are increasingly looking beyond subscriptions and toward commerce. The bet is that if users are reluctant to pay directly for intelligence, merchants may pay for transactions generated through it. The Qwen–Taobao integration and the Doubao–Douyin commerce loop are not simply product features. They are attempts to convert attention into transactions — and transactions into revenue. To be fair, this doesn’t mean Chinese AI companies ignore enterprises. Alibaba, Baidu, ByteDance, and Tencent are all investing heavily in enterprise AI. But the details matter. Zhipu (GLM), which went public in Hong Kong in January 2026, derives 85% of its revenue from enterprise clients. Yet much of that business comes from government agencies, state-owned enterprises, and financial institutions purchasing private deployments — a model structurally different from the broad-based commercial demand driving companies like Anthropic. MiniMax tells the opposite story. Roughly 71% of its revenue comes from consumer applications, primarily its AI companion app Talkie and video generator Hailuo. DeepSeek sits somewhere in between. Despite becoming China’s most internationally recognized AI lab, it has barely begun monetizing. Its aggressive API price cuts look more like a land-grab strategy than a mature revenue model. The broader point remains: while Chinese AI companies are pursuing enterprise customers, none has yet demonstrated the kind of large-scale, recurring enterprise demand that now sits at the center of Anthropic’s business. ## Why China Is Betting on Commerce The revenue models that worked for Chinese internet companies (advertising, e-commerce commissions, gaming) don’t map cleanly onto AI chatbots. You can’t put banner ads in a conversation. You can’t run a flash sale in a reasoning engine. So the question becomes: what monetization model does China actually know how to scale? The answer the industry has converged on is commerce. The reason becomes clear when you look at what these companies actually are at their core. ByteDance built its empire on short-video and social commerce through Douyin. Alibaba’s foundation is e-commerce: Taobao, Tmall, and payments through Alipay. Their AI chatbots, Doubao and Qwen respectively, were never going to be standalone products. They’re new entry points into existing transaction ecosystems. Tencent’s Yuanbao is being positioned the same way, as a gateway into WeChat’s social and payment infrastructure. This explains the AI commerce arms race that has defined 2025 and 2026. Doubao integrated with Douyin Commerce and completed a full in-app transaction loop by April 2026. Qwen fully connected with Taobao in May 2026, giving users access to 4 billion products and enabling purchase completion without leaving the app. The revenue model in both cases is CPS (cost per sale), where the platform takes a commission on transactions flowing through the AI interface. The bet is coherent: if you can’t charge users for the intelligence, charge merchants for the transaction. Commerce may be the only monetization model China already knows how to scale. Continue Reading
译字节豆包推出68/200/500元月费订阅引发中国用户抵制,而ChatGPT Plus 20美元/月在美国无人质疑。根本原因在于中美AI变现路径不同:美国AI公司通过企业客户变现劳动力——Anthropic约80%营收来自企业和API,服务超30万家公司,千余家年支出超100万美元,2026年4月年化收入达300亿美元;中国AI公司则在消费者市场争夺注意力,豆包、Kimi、Qwen竞争下载量、DAU和MAU(豆包月活3.45亿、日活超1亿),而非ARR。美国AI直接提升劳动效率,中国AI仍依赖免费模式获客。
今天刷到Google裁掉整个工程教育团队的消息,心里咯噔了一下 不只是裁几个人,整个负责10万+工程师培训的部门连根拔了 最戳我的是评论区有人提了一句, 以后Google厕所的隔间里 再也不会有那张印着最佳实践的小纸片了😭 老程序员应该都懂 那个叫"Testing on the Toilet"的东西 曾经是Google工程文化的图腾 从2006年坚持到现在 一张A4纸,写清楚一个代码坑 全世界的工程师都跟着学 现在 连教你怎么写好代码的人 都被AI替代了, 其实这件事最可怕的地方 不是Google裁了一个团队 它还释放了一个信号 连全世界最重视工程文化的公司 都觉得 培养人这件事 不如AI划算 那以后是不是真的不会有公司 花几年时间慢慢培养一个新人了 不会有人 把自己踩过的坑整理成手册教给你了 再也不会有那种 "师傅带徒弟"式的成长了 以后的职场规则可能会变成 你进来就得会干活 不会就自己问AI 干不好就走人 没人有义务教你 这是最好的时代 也是最坏的时代 会用AI武装自己的人 会自己萃取知识 会自己建知识库的人 会跑得比谁都快 等着公司给你铺好路 等着别人喂你吃饭的人 会被甩得连尾灯都看不见
译近日 Google 裁掉整个工程教育团队,该团队曾负责 10 万+工程师的培训。标志性的“Testing on the Toilet”项目(自 2006 年起在厕所隔间张贴最佳实践纸片)随之消失。推文指出,此举释放信号:连最重视工程文化的 Google 也认为培养人不如 AI 划算,未来可能不再有公司花几年时间培养新人,“师傅带徒弟”式的成长或成历史。@GergelyOrosz 确认全员被裁。
说个可能要挨骂的判断:随着AI时代的到来,创造财富的游戏规则已经变了, 未来五年,稳定高薪会变成最大的陷阱,月薪 5 万但没有任何股权 /IP / 系统的人,抗风险能力可能还不如一个月薪 1 万但拥有一个自动运转 Agent赚钱 的个体创业者, 2024年加入Anthropic的人, 一年拿50万美元股权, 现在可能已经值几千万美元了, 其中最多的可能已经摸到2.5亿美元了。 按 2024 年 $18.4B 估值到 2026 年 $965B,52.4 倍,数学上看起来没毛病, 问题是真到手的时候,这钱大概率连三分之一都到不了, 2024 到 2026 年,Anthropic 从 $61.5B 融到 $183B、$380B、再到 $965B, 每融一轮,早期员工手里的比例就被切一刀。 实际倍数更接近 15 到 25 倍,而不是 52 倍。 而且 pre-IPO 根本卖不掉,IPO 后还有锁定期,再加上联邦资本利得税一刀, 那个 $125M就是算给外行看的,但即便是几百万到几千万美元,依然是普通人一辈子够不到的数字了。 不过真正让我感兴趣的,不是他们赚了多少钱,而是这件事意味着什么, AI 时代,财富创造的半衰期被大幅缩短了。互联网时代要十年磨一剑的亿万富翁,现在两年就能冒出来,窗口期非常短,但同时财富杠杆极大, 这就像你早期入股了一家社区火锅店,占 10%, 后来老板疯狂拉投资开连锁,你的股份被稀释到 2%, 但门店从 1 家变成了 500 家, 你的 2% 比原来的 10% 值钱得多, 但绝不是按原比例乘倍数那么简单, 因为稀释本身就是信号——市场愿意为未来支付极高溢价,哪怕它还没盈利, 对大多数普通人来说,与其羡慕 Anthropic 员工一夜暴富, 不如早点看清一个事实:游戏规则已经变了, 过去十年,进大厂、拿高薪、攒期权是标准路径, 但 AI 正在把所有权的杠杆放大到史无前例的程度。 不是所有人都会暴富,但早期 + 正确赛道 + 拥有股权 / IP / 系统」的模式,正在取代稳定高薪 + 按部就班的模式, 你不需要去 Anthropic,你可以用 Cursor + Claude + Codex,构建自己的 Agent 产品、内容 IP、垂直工具,这本身就是一种被民主化的指数杠杆, 以前造一辆汽车需要一整座工厂,现在一个人用 AI,相当于在自家车库就能攒出一台能跑的引擎, 远见从来不稀缺,酒桌上每个人事后回顾都会有当初该押注 AI的感慨, 稀缺的是认准之后,肯花两年时间,把自己从卖时间的人浇筑成拥有系统的人, 你现在构建的东西,能在未来 1 到 3 年给你非线性回报吗?这个问题,比任何股权 grant 都重要,值得我们每个人思考。
译@rohitdotmittal 指出,2024年拿50万美元/年股权的Anthropic员工现账面值1.25亿美元,但多轮融资稀释(从$61.5B到$965B)后实际倍数仅15-25倍,且pre-IPO难出售、锁定期加税后到手远低于账面。核心判断:AI时代财富半衰期缩短,窗口短但杠杆大。普通人与其羡慕,不如用Cursor+Claude+Codex构建Agent产品、内容IP或垂直工具,从卖时间转为拥有系统。
Grok will be able to create cinema-level movies, and that day is coming sooner than many expect.
译Grok 将能够创作电影级别的影片,这一天将比许多人预期的更早到来。
我比你还惨,给几家 AI 公司做牛做马 既怕 Token 不够用,又怕 Token 没用完!
译用户吐槽为OpenAI等AI公司“做牛做马”,陷入Token消耗的两难:既怕额度不够用,又怕余量没用完浪费。引用推文自嘲是“OpenAI的驴”,每天起床先看余量Token,有就开始消耗,生动反映当前按量计费模式下用户的消费心理。
a smarter alternative to "always use plan mode": always frame your task as a question, so that the model is invited to push back and rate the quality of the idea/suggest alternatives, rather than blindly execute what you SAID to do (which is often not precisely what you MEANT) literally just appending "?" to the end of your prompt often does it
译比“始终使用计划模式”更聪明的替代方案: 始终将你的任务表述为一个问题,这样模型会被邀请提出异议,评估想法质量或建议替代方案,而不是盲目执行你所说的话(这往往不是你实际意思的)。 基本上,只需在提示词末尾加个问号就能达到效果。
This chart from Anthropic is useful, since Agent Teams and Workflows are both very new and very powerful (and token hungry). On the other hand, maybe it doesn't matter as a lot of the decisions about which approach to use is from the AI itself & it often uses them in combination
译Anthropic的这张图很有用,因为Agent团队和工作流都非常新且强大(而且消耗大量token)。 另一方面,也许这并不重要,因为关于使用哪种方法的许多决策来自AI本身,并且它经常组合使用它们。
>npx --yes was-gpt-here@latest >yes
译如果你仓库里没有至少20个这个函数的副本,你就不是tokenmaxxing。
@makora_ai 's sequential Monte Carlo speculative decoding keeps multiple draft tokens alive in parallel instead of rewinding failed matches
译@makora_ai 的顺序蒙特卡洛推测解码将多个草案 token 并行保持存活,而不是回退失败的匹配。
Google’s newly released open weights model, Gemma 4 12B, supports transcription but is far from the frontier, scoring 8.8% on AA-WER (#58) Gemma 4 12B is the latest release from @GoogleDeepMind in the Gemma 4 family. With a score of 8.8% on AA-WER, it is able to capture a reasonable amount of conversation context, but underperforms compared to transcription-focused open weights models like Voxtral Mini Transcribe 2 (3.6% WER, with 4B parameters) and slightly larger open weights language models like Voxtral Small (2.8% WER, with 12B parameters). The new model launched alongside their local dictation app, Eloquent, available on MacOS and iOS. Gemma 4 12B is the largest in the Gemma 4 family to support transcription, alongside Gemma 4 E4B and Gemma 4 E2B, with Gemma 4 31B and Gemma 4 26B A4B supporting text, image and video input only. These models are available on a variety of platforms including Hugging Face, Ollama and LMStudio. We are currently running Gemma 4 12B through the full Artificial Analysis Intelligence Index and will share results soon.
译Google DeepMind 发布开源权重模型 Gemma 4 12B,支持语音转录,在 AA-WER 基准上得分为 8.8%(排名第 58),远低于专注转录的开源模型 Voxtral Mini Transcribe 2(4B 参数,WER 3.6%)和 Voxtral Small(12B 参数,WER 2.8%)。该模型是 Gemma 4 系列中支持转录的最大型号(另有 E4B、E2B),而 31B 和 26B A4B 仅支持文本、图片和视频输入。Google 同步推出本地听写应用 Eloquent(MacOS/iOS)。模型已在 Hugging Face、Ollama 和 LMStudio 上架。
"Data showed us that if you're a unicorn ($1B), the odds of you one day becoming a decacorn ($10B) are about 8%. If you're a decacorn, the odds of you becoming a $100B company is around 8% to 13%. But if you're a centacorn ($100B), the odds change significantly - you now have a 31% chance of having had a 10x i.e. to $1 Tn valuation." Thomas Laffont is explaining the massive AI-driven IPO wave coming in this year. OpenAI, Anthropic, and SpaceX each potentially crossing trillion dollar valuation. Thomas Laffont is the co-founder of Coatue Management, a major technology-focused investment firm (hedge fund + venture/private equity) with roughly $70 billion in assets under management. "And if we look at how quickly these companies are creating value, this is a chart that I added at the last minute because the data is so fresh. But you can see that it typically takes multiple years to go from $500 billion to $1 trillion in market cap. Well, something happened very recently in the public market, which is that not only did we have three companies do it in the same year, but we had two companies do it in a matter of weeks." ---- From "All-In Podcast and Coatue Management" YouTube channel, (link in comment)
译Coatue Management联合创始人Thomas Laffont在All-In Podcast中引用数据:独角兽($10亿)成长为十角兽($100亿)概率约8%;十角兽到百角兽($1000亿)概率8%-13%;百角兽有31%概率实现10倍增长至万亿美元。他预测OpenAI、Anthropic和SpaceX今年可能达到万亿估值。Laffont还指出,近期公共市场罕见出现三家公司同年从$5000亿跃升至$1万亿,其中两家仅用数周。
误会,都是误会! OpenAI 发现了一个误封账号的 issue,如果你的 ChatGPT 账号前两天被误封了,可以看看是不是恢复了,如果还没有,可以去申诉。 虚惊一场,还好 OpenAI 没有像 A 厂一样成为封号狂魔,不然中国开发者也过于艰难了。。。
译误会,都是误会! OpenAI 发现了一个误封账号的 issue,如果你的 ChatGPT 账号前两天被误封了,可以看看是不是恢复了,如果还没有,可以去申诉。 虚惊一场,还好 OpenAI 没有像 A 厂一样成为封号狂魔,不然中国开发者也过于艰难了。。。
I still stand by this despite the recent Anthropic post. There are still serious bottlenecks in building the model that the agents don’t address (organizational, compute, data access, etc). It’ll take time to push through them and we will see "linear" gains for years to come.
译尽管最近 Anthropic 发了帖子,我仍然坚持这个观点。构建模型仍然存在严重的瓶颈(组织、计算、数据访问等)。 突破这些瓶颈需要时间,未来几年我们将看到“线性”的进步。
Cursor (and coding agents generally) still blows my mind daily. Just today: 1. I shipped a new landing page. I gave a 10min voice note to Cursor, left to go eat dinner, and came back to a 90% finished version. Made some small design and copy tweaks and merged. 2. Had Cursor dig through Search Console and Semrush with computer use, researched places we could improve SEO, and then merged 3 PRs with fixes. 3. Used the Supabase MCP to pull thousands of emails from the Compile waitlist, had it research them with web search based on ideal fit for the event, and got back a CSV with the top people to invite and why. 4. Updated an internal app I built for doing company-wide surveys (think Typeform but Cursor branded) in a few hours before our All Hands. 5. Had a few agents researching furniture I'm hoping to buy. They searched the web for a bunch of variants and then made a custom shopping cart (just an HTML page) with images, prices, links, and tons of details. Super helpful. I don't do this every day, of course, but it's still wild to me this is the new normal for what someone with a computer and AI can do. Most of these were running in the cloud as I was between meetings, just humming away in the background. I could check the app (🔜) to see progress and merge PRs. What a time to be alive. (P.S. if you extrapolated my usage today, I'd still be on the $200/mo plan)
译Lee Robinson 展示 Cursor 编码智能体今天的五个任务:1)10 分钟语音笔记生成 90% 完成的着陆页并合并;2)Cursor 用 computer use 分析 Search Console 和 Semrush 后合并 3 个 SEO 优化 PR;3)通过 Supabase MCP 提取数千封邮件,结合网络搜索筛选参会者并生成 CSV;4)几小时内更新内部全员调查应用;5)多个智能体研究家具并生成含图片、价格、链接的定制购物车 HTML 页面。这些任务在云后台静默运行,可实时查看进度和合并 PR。作者表示仍使用 $200/月 计划。
http://x.com/i/article/2063037236174802944 # BestBlogs 早报 · 06-06|腾讯 AI、Agent 沙箱、中美算力 > 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-06-06 腾讯首席 AI 科学家姚顺雨首次公开亮相,直言「下半场才刚开始」,从方法论成熟到寻找好问题的转变值得深思。与此同时,Agent 基础设施的安全边界正在被重新定义——硬件虚拟化的 microVM 与中美算力格局的最新一手观察,同样是今日不容错过的读点。 ## 导语 今天是 2026 年 6 月 6 日,BestBlogs 从过去 24 小时收录的内容中精选出今日早报。 今日三大精讲涵盖三个相互呼应的维度:人(腾讯首席 AI 科学家姚顺雨的战略判断)、基础设施(Agent 安全沙箱的工程实现)、生态(中美 AI 算力格局的第一手观察)。三篇文章合在一起,勾勒出当前 AI 工业化落地的完整图景——从战略逻辑,到工程实现,再到全球竞争格局的实地素描。 速览部分包含 7 篇精选内容:从编写 AI Skill 的实战经验手册,到一位非技术背景销售员用 Claude Code 重建工作流的亲历记,再到微软 Build 大会「智能体工程取代编程」的现场观察、腾讯混元 Stem 稀疏注意力算法的技术突破、多智能体小模型经济模拟的实验报告、Google DeepMind 的 Text Diffusion 低延迟架构探索,以及 Anthropic 关于 AI 递归自我改进的深度长文。 补充阅读涵盖强化学习环境质量、Google Gemma 4 12B 发布、AI 行业综合周报,以及 Claude Code 评测与工程实践的两篇深度工程文,还有 Skills 渐进式披露的设计模式。今天的内容聚焦于一个共同命题:AI 工业化的下半场,决胜点在哪里? ## 精讲一:汤道生姚顺雨对谈:腾讯 AI 的下半场 来源:腾讯科技 · 评分 92 · [阅读全文](https://www.bestblogs.dev/article/1fa6207b) 姚顺雨:第一次公开亮相,直指战略核心 6 月 5 日,腾讯云 AI 产业应用大会上,腾讯集团高级执行副总裁汤道生与首席 AI 科学家姚顺雨同台对谈,这是姚顺雨加入腾讯后第一次在公司公开活动中正式亮相。 姚顺雨的履历颇为显赫:他是 ReAct 智能体范式的提出者,也是 OpenAI 旗下 Operator 和 Deep Research 两个 Agent 产品的核心贡献者。2025 年 12 月正式出任腾讯「首席 AI 科学家」,直接向总裁刘炽平汇报,同时兼任 AI Infra 部与大语言模型部负责人。他到任的第一个重要动作,是从 2026 年 2 月起主导重建混元团队的预训练与强化学习基础设施。 这场名为《腾讯 AI 的下半场》的约 45 分钟对谈,实际上是一次罕见的战略公开陈述——一位掌握腾讯模型方向决策权的人,第一次系统性地解释他的判断框架。 核心判断:从「怎么训练」转向「找好问题」 对谈的第一个核心判断,是关于 AI 范式转移的时间节点。 姚顺雨早在 2025 年 4 月就在个人博客发表过《The Second Half》,提出 AI 正站在中场分界线上的判断。八个月后,加入腾讯的决定本身,就是对这个判断的实践注脚。 他的逻辑是:过去十年,AI 领域的核心挑战是「怎么训练」——从 AlphaGo 到预训练大模型,每一项突破都是方法论层面的创新。但预训练与后训练体系建立之后,AI 相当于拥有了一把「万能锤」,可以砸向任何钉子。在这种情况下,方法论的稀缺性退场,好问题的稀缺性成为新的核心矛盾。 这意味着,AI 竞争的核心不再是谁能造出更强的模型,而是谁能定义什么问题值得解决,以及谁拥有解决这些问题所必须的数据与场景生态。 对腾讯而言,这个转变是战略性利好。他指出三个关键词:问题(腾讯有元宝、ima、CodeBuddy、WorkBuddy 等丰富产品场景)、环境(Agent 需要工具和接口才能行动,腾讯的产品矩阵提供了天然的工具生态)、context(最终的竞争壁垒来自谁掌握最原始的用户上下文数据,腾讯有企业与个人两端的海量积累)。他明确表示,context 是 Agent 时代最重要的差异化因素,因为「模型越来越擅长把一个非常复杂的输入变成一个输出,你的竞争壁垒就来自于你知不知道这个人他到底在干什么」。 Hy3 Preview:495 步 Agent 工作流的背后 对谈同时披露了 Hy3 preview 的具体数据。这款参数规模为 295B 总参数、21B 激活参数的混合专家模型,在 CodeBuddy 与 WorkBuddy 上首 token 延迟降低了 54%,并且能够稳定驱动最长 495 步的复杂 Agent 工作流。上线 OpenRouter 后,一度拿下周榜调用量与市场份额双第一。 值得注意的是,Hy3 preview 版本明确定位为「以实用性为导向」,不是为了刷榜,而是为了收集真实世界反馈,修复榜单无法发现的底线问题。姚顺雨对此的解释颇为务实:benchmark 有价值,但容易 saturate(饱和);真实世界的 prompt distribution 更复杂、更模糊、多轮,这些是 benchmark 无法覆盖的训练信号来源。 Co-Design:模型与产品如何深度协同 汤道生提出的「Co-Design」概念,是整场对谈的另一条主线。他以「产品老兵」的视角,描述了 AI 时代做产品与 PC、移动互联网时代的本质不同:过去的产品像「预制菜」,通过功能菜单满足需求;AI 产品则面对完全开放式的用户输入,产品方甚至无法预知用户会问什么,必须依赖模型能力来理解并响应。 这种变化倒逼组织形态向小团队化、实验驱动靠拢。工程师的角色从「写功能」变为「驱动多个 coding agent 的产品 leader」。 姚顺雨对 Co-Design 的拆解分三点:其一,预训练是相对 product-agnostic 的,做得扎实可以为多个下游产品提供可泛化的基础;其二,后训练的关键是设立正确的 eval——以元宝为例,真实对话中用户的问题比 benchmark 更模糊、更多轮,这些真实反馈可以发现 benchmark 发现不了的底线问题;其三,LLM 时代与过去 AI 最本质的区别是泛化性——即使目标是 Coding Agent,也需要聊天、搜索、指令遵循、推理等多维度能力,这意味着有多元产品矩阵的公司,数据之间可以相互泛化,形成网络效应。 对谈结尾,汤道生宣布腾讯将发布一套「效率智能体工具集」,背后整合了场景连接、Harness 工程体系与混元模型 Co-Design 三重能力。 为什么这篇值得精读 这篇对谈兼具战略高度与技术细节,且两者并非并列关系——战略判断有工程实现的支撑,工程细节有方法论框架的解释。姚顺雨以 ReAct 提出者和 OpenAI Agent 产品实践者的身份,直接给出了他对「下半场」的第一性原理拆解,而不是泛泛的愿景陈述。 外界质疑腾讯「慢了」,姚顺雨的回答是:如果 AI 是一场长期游戏,下半场才刚刚开始,那现在并非晚了;ChatGPT 和 Claude 不会是唯一的超级应用,coding agent 之外还有大量新的产品范式等待探索。这个判断背后的逻辑链——方法论成熟、好问题稀缺、context 是壁垒——值得每位 AI 从业者认真推敲。 ## 精讲二:给你的 AI 智能体一台专属电脑 来源:LangChain Blog · 评分 91 · [阅读全文](https://www.bestblogs.dev/article/dc9482cb) 从「让 Agent 跑起来」到「让 Agent 安全地跑起来」 Agent 能力提升的速度,远远超过了 Agent 安全基础设施建设的速度。LangChain 的这篇文章,正面回应了一个越来越迫切的工程命题:当 Agent 需要执行代码、访问文件系统、安装依赖、持久化状态时,应该给它一台什么样的「电脑」? Satya Nadella 在 Microsoft Build 大会上的判断被引为文章开篇:「Every agent needs a computer.」这不是比喻,而是字面意义上的基础设施需求。Cursor、Claude Code、ChatGPT 的代码解释器之所以强大,正是因为它们拥有了一个可以运行代码、看到错误、修复再跑的反馈闭环——这个反馈闭环,是区分演示 Agent 与生产 Agent 的关键分界线。 为什么容器不够用:两个真实案例 许多团队在早期原型阶段选择 Docker 容器来隔离 Agent 执行环境。文章以两个具体案例指出,这种方案在生产环境中遭遇两道硬墙。 第一道:Agent 本质上执行不可信代码。 Agent 运行的代码可能来自模型生成、用户提示词、克隆的仓库,或者安装的第三方包。没有任何一条路径是完全可信的。2025 年 9 月,npm 生态出现了自我复制蠕虫 Shai-Hulud,在 preinstall 阶段感染了超过 500 个包,第二波在 11 月进一步波及 796 个包和 25,000 多个 GitHub 仓库,且感染发生在任何验证逻辑执行之前。一个会安装 npm 包的 Agent,天然暴露在这类供应链攻击面前。 第二道:容器共享宿主内核,不是真正的隔离边界。 CVE-2026-31431(Copy Fail)是一个 732 字节的 Python 脚本,利用 Linux 内核 crypto API 漏洞,可以提权至宿主机 root,覆盖从 2017 年到现在几乎所有主流 Linux 发行版。文章点出了一个令人不安的细节:AI 工具链发现这个漏洞大约用了一小时。 这两个案例放在一起,说明了一个清晰的工程结论:对于模型生成或用户可控代码,容器隔离是不够的,需要硬件级别的隔离边界。 LangSmith Sandboxes:microVM 的设计哲学 LangSmith Sandboxes 给出的答案是基于硬件虚拟化的 microVM。与容器不同,microVM 拥有独立内核,每个沙箱实例之间不共享任何内核级别的资源,内核漏洞无法跨越边界影响宿主机或其他沙箱。 这个方案的工程特性覆盖了 Agent 执行场景的主要需求: - Serverless 启动速度:微秒级冷启动,而非传统 VM 的秒级。对于需要按需弹起、用完即毁的 Agent 沙箱场景,这是关键。 - 完整机器持久状态:沙箱拥有完整的文件系统、进程空间和网络栈,Agent 可以在同一沙箱内持续工作数小时,维护跨步骤的状态,而不是每次调用都重置环境。 - 快照与分叉:可以对沙箱状态打快照,并从同一快照分叉出多个并行实例。这对 RL 训练(需要在同一环境状态下并行运行多个 episode)和批量评测场景极为重要。 - 蓝图预热:预先配置好的沙箱环境可以池化复用,避免重复安装依赖的冷启动延迟,在大批量任务场景下降低端到端延迟。 文章中还描述了一组典型的 Agent 使用场景,帮助读者理解「为什么 Agent 需要一台真正的电脑」:一个 coding assistant 不只是建议修复方案,而是应用修复方案、运行测试套件、确认没有破坏已有功能;一个 CI agent 可以克隆仓库、安装依赖、跑完整测试、开 PR;一个 RL 评测 harness 需要从零到数千个沙箱的弹性扩缩容。这些场景的共同前提:Agent 需要一个有状态的、持续的、安全的工作空间。 关联今日主题:精讲一与精讲二的互文 这篇文章与精讲一(腾讯 Hy3 驱动 495 步 Agent 工作流)构成有趣的互文:一篇讨论 Agent 能做什么,另一篇讨论 Agent 在什么样的基础设施上才能安全地做。Hy3 preview 能够稳定驱动数百步复杂 Agent 工作流,恰恰需要精讲二所描述的基础设施作为前提。Agent 能力越强,对安全执行环境的要求越高,两者是正向绑定的关系。 从整个 AI 行业的视角来看,「给每个 Agent 一台专属电脑」正在成为基础设施的新标配。这不是某一家公司的产品决策,而是 Agent 工作负载对基础设施提出的客观需求。对于正在构建 Agent 代码执行系统的工程师,这篇文章是当日最具工程价值的必读材料:它不只解释了「为什么」,也给出了「怎么做」的工程参考框架。 ## 精讲三:科技爱好者周刊(第 399 期):中国 AI 大厂访问记 来源:阮一峰的网络日志 · 评分 92 · [阅读全文](https://www.bestblogs.dev/article/6933ad74) 第一手观察:打破中美 AI 认知的信息茧房 2026 年 5 月上旬,一个由多位美国科技分析师组成的访问团赴华,走访了 14 家 AI 与机器人公司,包括 DeepSeek、月之暗面、MiniMax、智谱、字节跳动、阿里、蚂蚁、小米、零一万物、宇树、魔搭社区等头部机构。访问结束后,Kevin Xu、Azeem Azhar、Nathan Lambert 等多位成员独立撰文分享观感,阮一峰在本期周刊中将关键摘录系统整理,配以简洁导读。 这是少见的中美 AI 生态直接对比一手材料。不是二手数据引用,不是媒体转述,而是身处硅谷的分析师在中国实地观察后形成的第一手认知。这类材料的价值,在于它能够绕过两边各自的叙事框架,提供一个相对中立的外部视角。 算力:差距是真实的,但效率弥补了大半 访问团的最核心发现,围绕算力展开,且得出了两组看似矛盾实则互补的结论。 差距的量级:中国 AI 公司普遍反映算力不足,根本原因是美国的芯片出口管制。英伟达最新款 GB300 NVL72 系统在实时推理速度上比三年前的 H100 集群快 30 倍,每颗芯片内存容量高出 3.6 倍,每次推理能耗降低 25 倍,美国公司正在大量订购,而中国公司无法获取。访问团估计,2025 年底美国 AI 算力约为中国的 8 倍,中国目前的总算力大致相当于美国 2023 年的规模。华为 Ascend 950PR 性能大致相当于 2022 年的 H100,且出货量仅为英伟达同期的十分之一左右。 效率的弥补:然而,「算力少一个数量级」并不等于「模型能力落后两年」。访问团的关键发现是,芯片管制反而逼出了计算效率创新——中国公司的单位算力支持的 AI 智能是简单扩展下的 4-7 倍。分析师们向中国研究人员透露了 OpenAI 内部每位研究人员拥有的 GPU 数量,对方「简直惊呆了」,然而西方 AI 公司的研究人员仍然普遍抱怨算力不够。这个细节揭示了两种截然不同的稀缺性适应策略。 此外,中国的算力分配结构与美国不同:美国的大部分算力用于模型训练,中国的算力同时要服务数亿消费者和快速增长的企业用户,这进一步压缩了可用于训练的资源池,也是促进效率创新的另一个驱动因素。 组织与文化:年轻、流动、产学一体 访问团的另一组引人注目的观察聚焦在人。中国 AI 公司的员工平均年龄二十五六岁,大多数仍是博士在读,实习期长达 1-2 年,享有与全职员工相同的权限和待遇,可以自由提出想法、开展工作实验。 这与西方顶级 AI 公司形成鲜明对比:OpenAI、Anthropic、Cursor 等公司根本不提供实习,其他公司(如谷歌)的实习机会也不会涉及核心模型工作。 背后有结构性原因:中国顶尖高校的计算资源根本无法满足优秀博士生的研究需求,而业界公司拥有更丰富的算力。双方的利益在「合作发论文、提供算力与全权限」这个模型下找到了交汇点。结果是一种产学高度交融的人才生态:年轻、灵活、边界感弱,新想法的涌入速度快。 开源分歧、竞争格局与 AI 安全态度 访问团还记录了若干有意思的切面。 开源分歧:一条越来越清晰的界线正在形成——参数规模达到一万亿。部分公司认为开源万亿参数模型是资源浪费,因为没人能在本地运行如此庞大的模型,更好的方式是云端 API;另一些公司则将开源视为信仰和入场券。 竞争格局:访问团观察到字节跳动 Seed 部门被全行业敬畏——因为豆包几乎垄断了 AI 用户流量,且他们的模型可以快速推广到海量用户,这是其他公司无法匹敌的渠道优势。DeepSeek 则是最受业界尊重的公司,越来越多地承担基础架构层工作:架构、效率、推理优化,以及华为协议栈适配。 AI 安全态度:访问团与年轻中国研究人员讨论 AGI,得到了几乎相同的答案:「AGI 就是 AI 可以取代我!」对方不只是不害怕,而是对「机器是否真的能超越其制造者」充满好奇。这与西方同行形成鲜明对比——西方许多研究人员深度关注 AI 安全及其社会影响,而中国研究人员更多把安全监管的责任交给政府。 为什么这篇值得通读 这篇文章的价值不在于任何单一数字,而在于跨越信息不对称的整体视角。中美双方对彼此 AI 生态的认知,经常被媒体叙事和地缘政治情绪扭曲,信息质量参差不齐。这次由技术分析师构成的访问团,提供了一份尽可能接近事实的直接观察。 将这篇文章与精讲一(腾讯对 context 数据与问题寻找的战略判断)连读,可以得到更完整的中国 AI 发展图景:一篇是内部视角的战略逻辑,一篇是外部视角的生态素描,两者互补,共同描绘了一幅比任何单一来源都更立体的画面。 ## 速览 如何写好 Skill:一份终极实战经验手册 腾讯技术工程 · 评分 92 · [阅读全文](https://www.bestblogs.dev/article/b7742f5e) 腾讯工程师 jackjchou 整理的 Skill 编写完整方法论,从基础概念、结构设计,到高级技巧、安全规范与工程化评估,覆盖「从没写过 Skill」到「负责团队规范」的完整阅读路径。核心洞察:Skill 本质上是结构化的 Prompt Engineering,它把分散在人脑中的领域知识与流程经验,转化为 AI 可执行的指令集。文章详解 Anthropic 的三层渐进式加载机制(元数据常驻、SKILL.md 触发加载、附件按需引用),指出编写时的常见反模式,以及团队 Skill 规范化管理的要点。正在或计划用 Claude Code、CodeBuddy 等工具提升团队工程效率的读者,这份手册值得当作参考文档收藏。 从客户经理到产品经理:Anthropic 销售员如何用 Claude Code 重建团队工作流 Claude Blog · 评分 90 · [阅读全文](https://www.bestblogs.dev/article/8af798c7) Anthropic 客户经理 Jared Sires 没有任何编程背景,却用 Claude Code 从零构建了 CLAFTS(Claude Drafts)——一个嵌入 Gmail 的邮件起草工具。他每天要处理 10-15 个客户电话,加上大量外发邮件,经常工作到晚上 9-10 点。CLAFTS 最终每周为他节省 10-15 小时,分享到内部 Slack 后,24 小时内整个销售团队开始使用。这个案例最有价值的地方,不只是「非技术人员也能用 AI 编程」,而是它展示了 AI 原生工具如何重塑角色定义——Jared 随后转型为 GTM 产品经理,专门识别销售组织的流程问题并构建 AI 解决方案,将自身对业务流程的理解与 Claude Code 的执行能力结合成新的职业路径。 Microsoft Build 主题演讲:智能体工程取代了编程 Cory House(@housecor) · 评分 90 · [阅读全文](https://www.bestblogs.dev/status/2061953686847557962) Cory House 在 X 上的一条观察引发广泛共鸣:微软长达 3.5 小时的 Build 主题演讲,全程没有提及 C#、.NET 或 TypeScript。这三个词曾长期是微软开发者大会的标配符号。这不是偶然的遗漏,而是一个关于技术叙事重心转移的清晰信号:编程语言让位于智能体工程,底层工具让位于能力与流程的整合。结合今日精讲一(姚顺雨对 AI 下半场范式转变的判断)和精讲二(Agent 执行基础设施的演进),这条推文的简短观察有了更丰富的诠释背景。 首字延迟降低 3.6 倍,腾讯混元提出 Stem 稀疏注意力算法,长文推理加速新 SOTA 腾讯混元 · 评分 90 · [阅读全文](https://www.bestblogs.dev/article/c1e21993) 腾讯混元发布 ICML 2026 收录论文 Stem,提出两个核心创新:Token 位置衰减(TPD)和输出感知度量(OAM)。TPD 的洞察来自因果注意力架构的递归特性——初始位置的 token 被所有后续层依赖,不应被稀疏化;OAM 则在传统注意力分数之外,引入 Value 向量携带的信息量作为 token 选择依据。两项创新组合,在仅用 25% 算力的条件下逼近稠密注意力的精度,配合 HPC 算子实现 128K 上下文首字延迟降低 3.7 倍,已开源。这个成果对 Agent 工作流场景尤为重要——长上下文推理是 Agent 的高频场景,首字延迟直接影响系统响应体验。配合今日精讲一中 Hy3 的 495 步工作流能力,构成腾讯 AI 基础设施层面的完整技术布局。 千符森林:在 3B 模型上运行一个多智能体经济系统 Hugging Face - Blog · 评分 90 · [阅读全文](https://www.bestblogs.dev/article/d15e5749) Build Small Hackathon 的一份工程实验报告:五个运行在 Qwen2.5-3B 上的林地生物 Agent,在微型经济中以石子为货币相互交易、闲聊、囤积与恐慌,最终涌现出价格泡沫、崩溃与财富分化。作者的核心结论:3B 参数级别的模型是可靠的格式生成器,但是不可靠的推理器——它可以稳定输出 JSON、遵循格式约束,但在真正需要策略推理的场景表现不稳定。另一个值得记录的洞察:「涌现出的戏剧性需要人为设计的稀缺性」——没有刻意设计的约束,多 Agent 经济系统不会自发产生有趣的动态。对于正在探索小模型多 Agent 场景的工程师,这份实地报告比理论分析更直观。 Google DeepMind 的 Text Diffusion:面向低延迟语言生成的新一代架构 AI Engineer · 评分 90 · [阅读全文](https://www.bestblogs.dev/video/93a33f8) Google DeepMind 研究员 Brendon Dillon 解释了 Text Diffusion 作为自回归 LLM 生成替代方向的工作原理与权衡。Text Diffusion 放弃因果约束,改用全双向注意力块,允许从噪声中并行解码整个序列,而非逐 token 生成。代价是单次前向计算量更大,但在特定延迟场景下有优势。Dillon 指出这项技术在批量吞吐上的代价,以及在实时、端侧和交互式产品中的应用潜力。这是值得长期追踪的架构方向,尤其适合对推理延迟有严格要求的工程师和研究者。 Anthropic: 当 AI 开始构建自己 AINLP · 评分 89 · [阅读全文](https://www.bestblogs.dev/article/c965ab9b) Anthropic Institute 递归自我改进进展报告的中文完整翻译,援引了一组内部数据:截至 2026 年 5 月,Anthropic 工程师合并进代码库的代码中超过 80% 由 Claude 编写,每位工程师每季度交付的代码量是 2021-2025 年期间的 8 倍。报告梳理了从「聊天机器人」到「自主智能体」的阶段演变,并讨论了三种关于递归自我改进的未来场景:巨大的科学与医疗收益、人类监督的重要性提升,以及潜在的失控风险。Anthropic 坦诚地公开了内部数据并直视这种趋势的潜在风险,这种做法本身就值得关注。适合对 AI 发展趋势有系统性思考需求的读者。 ## 补充阅读 [如何避免交付低质量的强化学习环境(附示例)](https://www.bestblogs.dev/article/cdd6597f) · Latent.Space · 评分 90 来自 Google Gemini RL 团队研究员的「RL Pet Peeves」系列,专注于环境质量问题:低质量的测试框架(Harness)会系统性地生成垃圾训练数据,破坏模型性能。文章提供了常见故障的分类、具体示例与修复方法,例如 mock API 缓存 bug 导致 Agent 学到错误策略、奖励函数只看测试通过而不看代码正确性等。适合正在构建 RL 训练基础设施的工程师,可与今日精讲二(Agent 执行环境安全)配合阅读。 [Google 发布 Gemma 4 12B:具备高级推理能力的开放模型](https://www.bestblogs.dev/status/2062203526588088452) · Google(@Google) · 评分 92 Google 发布最新开放模型 Gemma 4 12B,整合高级智能体推理、视觉与音频能力,采用统一架构(移除独立多模态编码器),设计在仅需 16GB VRAM 的本地硬件上运行,Apache 2.0 授权。这是开源模型生态的又一次能力跳跃,关注本地部署与开源社区的读者值得关注。 [Qwen3.7-Max 挑战谷歌争夺第三,AI 拯救鲸鱼,微调打破版权对齐](https://www.bestblogs.dev/article/2baac995) · The Batch · DeepLearning.AI · 评分 90 本期 The Batch 包含四条有价值的信息:阿里 Qwen3.7-Max 的市场竞争布局、AI 系统用于防止鲸鱼与船只相撞的公益案例、中国 LLM 访问的灰色市场现象,以及微调可能破坏版权对齐的研究结论。内容跨度广,适合希望保持 AI 领域综合情报视野的读者,尤其是最后一条关于微调与版权的发现值得关注。 [基于顶级 Agent(Claude Code)的 Harness 工程搭建式业务 Agent 评测方案](https://www.bestblogs.dev/article/fcbdb6fa) · 阿里云开发者 · 评分 90 阿里云工程师提出创新评测方案:以 Claude Code 作为 Harness 工程的搭建者和运行者,将评测逻辑从代码转化为 Prompt,实现对业务 Agent 的系统性、快速评测。核心矛盾是业务 Agent 迭代快(天级)但传统评测工程搭建慢(周级),这套「Agent 评测 Agent」的思路打破了这个瓶颈。适合正在为多 Agent 系统建立评测体系的工程师团队。 [分享 Claude Code 团队内部的 5 条工作原则](https://www.bestblogs.dev/article/c8916b4b) · 数字生命卡兹克 · 评分 89 解读 Claude Code 工程总监 Fiona Fung 的分享,提炼 AI 原生组织下规划、自动化、代码评审、团队角色与流程变革的 5 条工作原则。核心判断:在 Agent 时代,写代码已不再是工程瓶颈,瓶颈转移到了验证、代码评审与安全,所有上下游流程都需要重新设计。这套思路与今日多篇文章形成共鸣,是 AI 原生工程组织实践的一手观察。 [Skills 中的渐进式披露:大型智能体流程的最强模式](https://www.bestblogs.dev/status/2062529678590513475) · Daniel San(@dani_avila7) · 评分 90 解释在 Skills 中记录大型智能体流程的渐进式披露模式,分为启动(约 500 token 元数据常驻)、任务匹配(SKILL.md 触发加载)和深度执行(附件按需引用)三个阶段,通过按需加载将 token 消耗优化到最低。这是第一篇速览「如何写好 Skill」的工程补充,两篇配合阅读,可以对 Skill 设计的宏观原则与微观优化有更完整的认知。 ## 今日阅读路径 时间有限时,建议按以下顺序优先阅读三篇: 第一优先:科技爱好者周刊第 399 期——中美 AI 算力与生态的第一手比较,信息密度最高,跨领域读者都能获益。在中美信息隔离日趋严重的背景下,这类第一手比较材料极为稀缺。 第二优先:汤道生姚顺雨对谈——腾讯首席 AI 科学家的战略陈述,与第一篇构成绝佳互文:前者是外部观察,后者是内部视角,两篇合读能拼出更完整的中国 AI 发展图景。他的「下半场才刚开始」与「context 是壁垒」两个判断,值得仔细推敲。 第三优先:LangSmith Sandboxes——如果你是正在构建或使用 Agent 的工程师,这篇是当日最具工程价值的文章,直接回答「Agent 安全执行环境」这个已经变得迫切的工程命题,且给出了具体的工程参考框架,读完可以直接用于技术决策。 如果还有余力,速览中的如何写好 Skill 和 Anthropic 递归自我改进 两篇也是今日高质量内容:前者是可立即落地的实操手册,后者是 AI 发展长线叙事中难得的内部数据视角。
译姚顺雨在腾讯云AI大会上首次公开亮相,指出AI已进入下半场,核心从“怎么训练”转向“找好问题”,认为context是Agent时代关键壁垒,腾讯在场景、数据、工具链上有结构性优势。他披露Hy3 preview模型:295B总参数、21B激活参数,首token延迟降低54%,可驱动最长495步Agent工作流。他还提出Co-Design理念,强调模型与产品深度协同,该模型以实用性为导向,不在榜单过度竞争。
#BestBlogs 早报 06-06 今日推荐阅读: 腾讯集团高级执行副总裁汤道生与首席 AI 科学家姚顺雨同台对谈,围绕 AI 下半场的核心命题,从「解决问题」转向「定义问题」、模型与产品的 Co-Design、Agent 技术的演进与性价比、以及腾讯在 AI 时代的战略节奏与组织变革,展开了一场深度对话。
译在 #BestBlogs 6月6日早报推荐中,腾讯集团高级执行副总裁汤道生与首席AI科学家姚顺雨同台对谈,聚焦AI下半场核心命题:从「解决问题」转向「定义问题」、模型与产品的Co-Design、Agent技术的演进与性价比、以及腾讯在AI时代的战略节奏与组织变革。
Claude Desktop 打开内置的网页预览的那一刻我惊呆了,一个屏幕居然能放下这么多 Panels! 这产品经理应该是用 Zoom 开视频会议的时候灵机一动想出来这么牛逼的设计的!
译Claude Desktop 打开内置的网页预览的那一刻我惊呆了,一个屏幕居然能放下这么多 Panels! 这产品经理应该是用 Zoom 开视频会议的时候灵机一动想出来这么牛逼的设计的!
i love being (for now) bdfl for aie because i can do cheeky shit like the AGI pills we did in london and also this
译我喜欢(暂时)担任aie的bdfl,因为我可以搞些恶作剧,比如我们在伦敦做的AGI pills,还有这个。
AI companies say their models are getting better at finding software vulnerabilities. Is that bearing out in public data? Introducing our Cyber Vulnerabilities explorer, which visualizes Common Vulnerabilities and Exposures (CVE) reported to the CVE Program since 2022.
译AI公司称其模型在发现软件漏洞方面越来越好。公开数据是否证实了这一点? 推出我们的网络漏洞探索器,该工具将2022年以来向CVE项目报告的通用漏洞与暴露(CVE)进行可视化。
http://x.com/i/article/2063026895864938496 # 橘座 | Vol. 2:歸藏,审美、创作、快乐、恋爱 每次跟藏师傅聊天,都有很多收获。 我时常想,把我们聊的内容录下来,作为播客发布出去。 昨天和藏师傅录了一期播客,聊了一个多小时。 使用了我发明的史上最快的播客录制工作流。 录完就发,一秒不剪,原汁原味,真实自然。 收听地址:https://www.xiaoyuzhoufm.com/episode/6a22ae9db30e1571aea13cf1 我虽然和藏师傅相识很久,但他的很多故事也是第一次听说。 归藏说他大专学的移动通信,念了五年,什么都没学到。 毕业之后上了两个月培训班,就进了设计行业。 而现在归藏是公认的审美最好的 KOL 之一。归藏的 PPT Skill、归藏的那两套主题,风格强烈到无法被抄袭:稍微改一点就不好看了,不改一眼就知道是他的。 我问他审美是怎么来的。他说了一句很简单的话:看。 看最好的、你能理解的东西,每天看一个小时,看三年,就开窍了。 不是去美术馆看那些你看不懂的东西。央美毕业展很好,但你不知道怎么把那些元素拆出来用到你的产品里。太高了,够不着。他看的是 Behance、Dribbble 上那些完整的 UI 作品。能看到一个想法怎么变成一个体系,能看到别人怎么把审美落到像素上。 这就像预训练(还是不可避免地提到了 AI,很抱歉,毕竟我们沉浸过多)。你看了足够多好的东西之后,你的偏好自然会浮出来。有些人觉得好看的,你觉得不好看。这个偏好就是你的风格。 所谓的风格,就你看了足够多之后,内心最共鸣最想表达的那个东西。 然后他提了一个人,杨奇。从斗战神到黑神话,十年。画风更成熟了,但表达从来没变过。归藏自己也是。他说自我感动是感动别人的第一步。你得先被自己打动,别人才有可能被你打动。 你用理性推理列一二三四五,列一百条标准去做产品,所有人按部就班地做,大概率做出来没有人用。 这个事情我太有共鸣了。我们自己做 Cola 也是这样。你问我为什么做这个设计,很多时候我给不出理性的理由。但我知道那个感觉是对的。那个瞬间你的潜意识里无数可能性坍塌成一种:喜爱。 后来聊到创作状态。 归藏说他非常害怕压力。只要有一件事是固定的、今天必须做的、是命题作文,他一定会写出一坨来。 我笑了。因为这也是我的体验。被 deadline 追着写出来的东西,和你在某个周六早起、没人催、漫无目的坐在那里突然写出来的东西,质量差了十倍不止。 他最高产的时间是周六。因为合作方不上班,他也觉得自己不需要上班,流量不好也没人催。快快乐乐坐在椅子上,以玩的心态去创作。 我说这就叫,妙手偶得之。 PPT Skill 就是这么来的。两行提示词,第一版结果还行,然后沉浸式地调。好看和不好看就差一点点。一页没问题。十页连起来,如果每一页的细节都没有问题,整体感就出来了。 他说这跟 AI 写文章一样。你看 AI 写的文章,每一段单看都行。但连起来就是排比句、就是无聊。人做东西需要那个「空」。长段接短段。密的地方接疏的地方。人脑很奇怪,它需要呼吸的空间。 没有节奏的东西,不管单个多好看,连起来就是噪音。 他说创作的秘密是哄自己。告诉自己可以做可以不做。不招人,因为招了人就有压力,要给人找事干,要为工资负责。一有压力动作就走形了。 一个人干就可以摆烂。想休息就休息。但恰恰是这种可以摆烂的环境里,才能出好东西。 说起来也很巧,归藏离职到这个月,正好一年。 他一个人,从需求获取到开发到上架到分发,全链路自己完成,他说这是未来的大趋势。 我想到金谷园饺子店的老板李博,开了近二十年的店,突然因为 AI 做了个 Skill 火爆全网。李老板跟我说:AI 让南坡和北坡的人相遇了。 这样的人会越来越多。各行各业,原来的技能加上 AI,生产力翻倍翻十倍。你招五个人可能都赶不上他一个人。你嫌他们慢,他们嫌你要求高。然后你就生气,他们也烦。 所以最优秀的创作者都不想上班了。不是因为懒。是因为他一个人在心流里的效率,比在团队里高太多。省去了所有的沟通摩擦、所有的等待、所有的妥协。 归藏说 OPC 跟 Freelancer 不一样。Freelancer 还是受雇于人,只是换了个更自由的地方干活。OPC 是一个完整的闭环,是一个人就是一家公司。 这无关理性,是生理上的选择。你的身体会自然走向那个结果。 但现有的一切基础设施都没有为一个人准备好。断卡行动要求开户必须有财务,你是自然人独资一个人的公司,没有财务。发票、MCN、对公转账,全是为传统组织设计的。 这里面有巨大的机会。就像支付宝解决了网购信任一样,谁能为 OPC 解决协作和信任问题,那可能比再造一个美团还大的事业。 而且附加值高得多。外卖平台赚的是配送费和抽佣。OPC 平台连接的是高价值的创造性劳动。 我跟他说我们创业公司招人也遇到这个问题:身边很多优秀的人都不想来上班(怎么才能让藏师傅来我公司上班)。 他笑了。 最后聊到恋爱。归藏最近开始谈恋爱了。他说他一直以为自己心理很健康。直到女朋友跟他说:你每周一都不开心。 他完全感知不到。一个人待太久了,分不清常态和异常。 谈恋爱之后生活里的事更多了。要离开 AI,离开屏幕。女朋友喜欢户外,周末去没有信号的地方待一天。 他说这反而让创作变好了。 你整天坐在电脑前,你的内容是数字,下载量是数字,影响力是数字。AI 跟抽卡一样,每次点一下都期望更好的结果,你不自觉地就一直坐在那里。精神越绷越紧,做出来的东西一天不如一天。你很努力,你的 AI 也很努力,但产出越来越平庸。 这是封闭系统的熵增。你下意识地加倍努力,但没有用。 你必须离开这个系统。去一个完全不同的地方,接收完全不同的信号。没有信号的山里也行。你的身体需要那些跟数字世界无关的东西。 以前我们做好东西靠紧绷。项目制、集体力量、deadline 把效率拉满。但现在效率已经不是瓶颈了。AI 已经给了你十倍效率。 瓶颈是创造力。而创造力需要的恰恰是松弛。 录播客本身也是一种沉浸。我们把手机通知都关了,聊了一个多小时。聊到最后归藏说他现在唯一认真看完的一本书是纳瓦尔宝典,其他内容类的东西基本不看。因为 AI 时代内容太容易过时了。 但实践沉淀下来的东西不会过时。 塔勒布只喝存在了一千年以上的饮料(红酒)。有点激进,但有道理。大部分新东西的价值,一句话就说完了,不至于写一本书。 然后他推荐了Karpathy 的视频。总共拍了五个,但影响力巨大。他说你想入门大语言模型,不用买任何课,把 Karpathy 那四个小时看完就够了。 内容行业也是这样。你可能做了一百个视频,不如一个爆的。内容的 scaling 靠的不是数量,靠的是质量到了某个临界点之后的飞轮效应。 所以归藏从来不追求"稳定产出爆款"。他跟所有人说,没有人能保证稳定产出爆款。当你向一个人下达"给我做个爆款"这个指令的时候,那个东西就一定不会成为爆款。 好东西只能在松弛中偶得。你只需要保护好两样东西:注意力,和创造力。 剩下的交给时间。
译归藏分享审美源于每天看Behance、Dribbble等一流UI作品,持续三年形成个人风格。创作需松弛,避免固定任务和Deadline,周六高产。他推崇OPC(一人公司)模式,认为AI让个人效率超越团队,但现有基础设施(财务、发票等)尚未适配。恋爱和户外活动能打破“数字封闭系统”的熵增,提升创造力。他推荐Karpathy的大语言模型入门视频,并强调内容质量比数量更重要。
Same prompt with Reve. I love how differently it's interpreted.
译与 Reve 使用相同的提示词。我喜欢它截然不同的解读方式。
This single deal is about the revenue of @CoreWeave to put it in perspective @SpaceX is the largest neocloud & its AI cloud revenue at $26b run rate is actually at the level of Google Cloud & AWS already, catching up to Azure ($37b run rate)
译SpaceX作为最大neocloud,其AI云收入年运行率已达260亿美元,与Google Cloud和AWS相当,正逼近Azure(370亿美元)。据SpaceX修订的S-1文件披露,其与谷歌签署大额协议:2026年10月至2029年6月每月9.2亿美元,双方可提前90天通知终止。Emad Mostaque指出,这一交易规模相当于CoreWeave的整个收入。
现在 Codex 的设置已经多到要靠搜索来解决了。 但是作为一个成熟的 Agent,难道交互不应该是在 Chat 里面说一句:“Hey Codex,帮我修改一下 XX 设置”?
译现在 Codex 的设置已经多到要靠搜索来解决了。 但是作为一个成熟的 Agent,难道交互不应该是在 Chat 里面说一句:“Hey Codex,帮我修改一下 XX 设置”?
Trying Omni image-to-video with this Krea K2 output to try making an anime intro sequence.
译尝试将这张Krea K2的输出用于Omni图像转视频,试图制作一段动漫开场序列。
How XINSAYNE and No Identity build experimental Hyperpop
译XINSAYNE 和 No Identity 如何制作实验性 Hyperpop
Meet Hiroki-san (@tomiyasu16) who is running his farm in Japan with ChatGPT and Codex: https://chatgptpro.substack.com/p/hiroki-tomiyasu
译日本北海道农户Hiroki Tomiyasu(@tomiyasu16)从未学过农业、未继承土地,曾是公务员。他用ChatGPT和Codex自行构建工具运营100公顷农场:通过聊天APP远程控制温室通风口(ESP32板+电机驱动+Cloudflare Workers);自动检测温度并开窗的机器人;卫星作物健康数据叠加农田地图;Airtable关联地块、任务、物料、传感器;从照片生成电控柜布线图。这些以前只有大型农企才能负担。
Next week(s) is going to be absolutely insane. We're seeing so much testing of the Claude Mythos derivative, because it's been given to red team members, that a release is really imminent. According to all the rumors, GPT-5.6 is also coming very soon, and I'm pretty sure OpenAI and Anthropic are trying to outdo each other. And then there's Google with Gemini 3.5 Pro, which was announced at I/O as being released in early June. So, in all likelihood, next week will see a quantum leap. Get ready, friends.
译据多方传言,Anthropic 的 Claude 衍生模型(Mythos)已交付红队测试,发布在即;OpenAI 的 GPT-5.6 也很快到来;Google 在 I/O 上宣布 Gemini 3.5 Pro 将于 6 月初发布。三大模型密集释出,下周或迎 AI 能力量子跃迁。
Find an important unsolved problem you care about. Then use AI to solve it. Go deep! Talk to people. Build a community. It might take you months or years, but always know that AI capabilities will only keep improving. Build for now and for the future.
译找到一个你关心的、重要的未解难题。 然后用AI去解决它。深入研究!与人交流。建立社区。 这可能需要几个月或几年,但始终要知道,AI的能力只会不断提升。 为当下和未来而构建。
Obsidian 加上 Codex,再配合合适的 API、MCP 和 Skills,基本上能替代目前 90% 以上的 AI Agent 产品。 这是我将笔记从 Notion 迁移到 Obsidian 一个月之后的感受。
OpenAI just wrote: "We also see early signs of recursive self-improvement (RSI) in today's systems: where AI development...
install codex on your parents' computers so you can fix stuff remotely
http://x.com/i/article/2063036194372648960
明天老马要发工资了, 我这里研究平台算法有一阵了, 基本拿到了底层收益算法逻辑, 准备做一个x创作者收益预测平台, 宝子们可以给我一下最近两周自己的数据,我来打磨一下我的预测模型和算法, 做好了我会开源出来,大家可以拿去分析自己的数据。
我教你们咋Vibecoding!!! 打开Codex,打开侧边栏,选择终端,输入Claude 现在鱼和熊掌兼得了,Claude code规划,Codex干活!!
宝玉的新书《图解Skill》已出版,配套 GitHub Repo 开源了书中涉及的所有可复制粘贴的 Skills,包括之前未公开的播客文字稿转访谈稿 Skill。读者理论上可以不买书直接使用 Repo 内容。电子书版本同步上线,方便读者复制粘贴。
@xiaohu @dotey 这类书只想看电子版,毕竟适合复制粘贴
字节豆包推出68/200/500元月费订阅引发中国用户抵制,而ChatGPT Plus 20美元/月在美国无人质疑。根本原因在于中美AI变现路径不同:美国AI公司通过企业客户变现劳动力——Anthropic约80%营收来自企业和API,服务超30万家公司,千余家年支出超100万美元,2026年4月年化收入达300亿美元;中国AI公司则在消费者市场争夺注意力,豆包、Kimi、Qwen竞争下载量、DAU和MAU(豆包月活3.45亿、日活超1亿),而非ARR。美国AI直接提升劳动效率,中国AI仍依赖免费模式获客。
近日 Google 裁掉整个工程教育团队,该团队曾负责 10 万+工程师的培训。标志性的“Testing on the Toilet”项目(自 2006 年起在厕所隔间张贴最佳实践纸片)随之消失。推文指出,此举释放信号:连最重视工程文化的 Google 也认为培养人不如 AI 划算,未来可能不再有公司花几年时间培养新人,“师傅带徒弟”式的成长或成历史。@GergelyOrosz 确认全员被裁。
Everyone on Google's Engineering Education team had been laid off very recently It suggests Google completely stops inve...
@rohitdotmittal 指出,2024年拿50万美元/年股权的Anthropic员工现账面值1.25亿美元,但多轮融资稀释(从$61.5B到$965B)后实际倍数仅15-25倍,且pre-IPO难出售、锁定期加税后到手远低于账面。核心判断:AI时代财富半衰期缩短,窗口短但杠杆大。普通人与其羡慕,不如用Cursor+Claude+Codex构建Agent产品、内容IP或垂直工具,从卖时间转为拥有系统。
If an Anthropic employee got $500k/year in equity over 4 years in 2024, they are now worth $125M. At $1M/year equity for...
我就是 OpenAI 的驴,每天起床先看看有没有余量 Token,有就开始消耗。
You are not tokenmaxxing if you don't have at least 20 copies of this function in your repo.
Google DeepMind 发布开源权重模型 Gemma 4 12B,支持语音转录,在 AA-WER 基准上得分为 8.8%(排名第 58),远低于专注转录的开源模型 Voxtral Mini Transcribe 2(4B 参数,WER 3.6%)和 Voxtral Small(12B 参数,WER 2.8%)。该模型是 Gemma 4 系列中支持转录的最大型号(另有 E4B、E2B),而 31B 和 26B A4B 仅支持文本、图片和视频输入。Google 同步推出本地听写应用 Eloquent(MacOS/iOS)。模型已在 Hugging Face、Ollama 和 LMStudio 上架。
Coatue Management联合创始人Thomas Laffont在All-In Podcast中引用数据:独角兽($10亿)成长为十角兽($100亿)概率约8%;十角兽到百角兽($1000亿)概率8%-13%;百角兽有31%概率实现10倍增长至万亿美元。他预测OpenAI、Anthropic和SpaceX今年可能达到万亿估值。Laffont还指出,近期公共市场罕见出现三家公司同年从$5000亿跃升至$1万亿,其中两家仅用数周。
误会,都是误会! OpenAI 发现了一个误封账号的 issue,如果你的 ChatGPT 账号前两天被误封了,可以看看是不是恢复了,如果还没有,可以去申诉。 虚惊一场,还好 OpenAI 没有像 A 厂一样成为封号狂魔,不然中国开发者也过于艰难了。。。
An issue caused some user accounts to be incorrectly suspended. We're restoring access and working through related subsc...
Lee Robinson 展示 Cursor 编码智能体今天的五个任务:1)10 分钟语音笔记生成 90% 完成的着陆页并合并;2)Cursor 用 computer use 分析 Search Console 和 Semrush 后合并 3 个 SEO 优化 PR;3)通过 Supabase MCP 提取数千封邮件,结合网络搜索筛选参会者并生成 CSV;4)几小时内更新内部全员调查应用;5)多个智能体研究家具并生成含图片、价格、链接的定制购物车 HTML 页面。这些任务在云后台静默运行,可实时查看进度和合并 PR。作者表示仍使用 $200/月 计划。
姚顺雨在腾讯云AI大会上首次公开亮相,指出AI已进入下半场,核心从“怎么训练”转向“找好问题”,认为context是Agent时代关键壁垒,腾讯在场景、数据、工具链上有结构性优势。他披露Hy3 preview模型:295B总参数、21B激活参数,首token延迟降低54%,可驱动最长495步Agent工作流。他还提出Co-Design理念,强调模型与产品深度协同,该模型以实用性为导向,不在榜单过度竞争。
在 #BestBlogs 6月6日早报推荐中,腾讯集团高级执行副总裁汤道生与首席AI科学家姚顺雨同台对谈,聚焦AI下半场核心命题:从「解决问题」转向「定义问题」、模型与产品的Co-Design、Agent技术的演进与性价比、以及腾讯在AI时代的战略节奏与组织变革。
We've doubled usage limits in Claude Cowork for the next month. Delegate bigger, more complex tasks to Claude.
@swyx @aiDotEngineer Best event in the industry. Excited to see everyone there in 3 weeks!
归藏分享审美源于每天看Behance、Dribbble等一流UI作品,持续三年形成个人风格。创作需松弛,避免固定任务和Deadline,周六高产。他推崇OPC(一人公司)模式,认为AI让个人效率超越团队,但现有基础设施(财务、发票等)尚未适配。恋爱和户外活动能打破“数字封闭系统”的熵增,提升创造力。他推荐Karpathy的大语言模型入门视频,并强调内容质量比数量更重要。
Ideogram v4 > a scan of a page from my high school A3 art pad, highly original niche pencil piece working on the aura of...
SpaceX just quietly amended its S-1 announcing another mega deal $920M/month from Google from October 2026 through June ...
Today's Codex quality-of-life updates start in settings. You can now search Codex settings, with results grouped by cate...
i'm obsessed with AI DIY projects. my favorite one right now is this broccoli farmer in hokkaido, japan using Codex to r...
据多方传言,Anthropic 的 Claude 衍生模型(Mythos)已交付红队测试,发布在即;OpenAI 的 GPT-5.6 也很快到来;Google 在 I/O 上宣布 Gemini 3.5 Pro 将于 6 月初发布。三大模型密集释出,下周或迎 AI 能力量子跃迁。