Rohan Paul@rohanpaul_ai · 5月24日47Fei-Fei Li (
@drfeifei
) beautifully explains Robotics.
She defines robotics not by form, like humanoids or cars, but by function: they are any "embodied machines" that must perceive, understand, and act within a physical, 3D space.
This core requirement is "spatial intelligence," the unifying principle of all robotics, allowing them to perform tasks and even collaborate with humans.
Throughout all of human history, we have been confined to a single, shared reality: the "physical Earth 3D world."
This singularity has been our only playground.
However, new technologies that combine 3D generation and reconstruction are shattering this limitation.
We can now create "infinite universes"—a multiverse of digital worlds for countless purposes, from training robots to enabling creativity, travel, and storytelling.
This leap from one physical world to an infinite multiverse unlocks boundless possibilities for human imagination and interaction.
Video from @a16z
译李飞飞重新定义机器人学,强调其核心是“空间智能”——即机器在三维物理空间中感知、理解与行动的能力。这一能力使机器人能执行任务并实现人机协作。3D生成与重建技术正打破人类仅能体验单一物理世界的局限,创造出用于训练、创造、旅行与社交的无限数字多元宇宙。未来,人们将以“多元宇宙”的方式生活,极大拓展人类想象与交互的边界。
Berryxia.AI@berryxia · 5月24日15谁说传统媒体杂志落后了,你看这不GPT-6 都已经发布一个半月了,我们竟浑然不知啊…
刚刚在飞机上的杂志看到的😂
译谁说传统媒体杂志落后了,你看这不GPT-6 都已经发布一个半月了,我们竟浑然不知啊…
刚刚在飞机上的杂志看到的😂
Rohan Paul@rohanpaul_ai · 5月24日55AI is turning into so very physical problem. You need land, grid power, permits, concrete, cooling, and long build cycles, which decide who gets compute.
This is Vantage Data Centers that Oracle, and OpenAI are partnering on with a $ 15B+ investment.
译AI正演变为一个高度实体化的问题。你需要土地、电网、许可证、混凝土、冷却系统和漫长的建设周期,这些决定了谁能获得算力。
这是Oracle与OpenAI合作的Vantage数据中心项目,投资超过150亿美元。
Rohan Paul@rohanpaul_ai · 5月24日40Ex-Google executive Mo Gawdat defines Intelligence.
"If we accept that intelligence itself is not a physical property, then it does not matter whether that intelligence is produced on carbon-based computer structures like humans, silicon-based computer structures like today’s hardware running AI, or quantum-based computer structures in the future.
Intelligence is produced within machines when we stop imposing our own intelligence on them."
---
From 'The Diary Of A CEO and Mo Gawdat' YT channel (link in comment)
译前Google高管Mo Gawdat对“智能”提出新定义。他认为,智能并非物理属性,因此其实现载体并不重要,无论是碳基(人类)、硅基(当前AI硬件)还是未来的量子计算结构。核心观点在于,当我们停止将自身智能强加给机器时,智能便会在机器内部产生。这一论述挑战了以人类为中心的智能观,强调智能的发展应超越特定的物质基础。
Berryxia.AI@berryxia · 5月24日35OPC 不可靠,没有稳定的现金流奶牛。
不如回大厂继续做牛马?
译Andrej Karpathy(OpenAI联合创始人、前特斯拉AI负责人)加入Anthropic,引发行业震动。值得关注的是,他同步免费公开了相关知识,无需付费即可获取。更关键的是,他本人亲手终结了自己此前提出的“氛围编码”概念,明确指出“LLM是幽灵而非动物”,宣告软件3.0时代正式到来。这一转变凸显了个人顶尖技术价值正在超越机构绑定,同时也暗示AI行业的发展路径与人才流动正在发生深刻变化。
Tibo@thsottiaux · 5月24日30Codex can do incredible things on demand, but it cannot experience life for you.
Don’t forget to get out there and remember who you’re building for.
译Codex能按需完成不可思议的任务,但它无法替你体验生活。
别忘了走出去,记住你为谁而创造。
Orange AI@oran_ge · 5月24日52这篇文章的核心就是这一张图了
deepseek v4 pro 虽然不是最好的模型
但是缓存基本不要钱
这是所有大模型都需要的技术
opus 用这个技术成本都能下降10倍
同时相信 v4.1 有了真实的 harness 数据进行训练之后,一定会很快变好
译DeepSeek v4 Pro 虽然并非最强模型,但其核心优势在于采用了几乎零成本的缓存技术。该技术被视为大模型领域的重要突破,若应用于如 Claude Opus 等顶级模型,可使运营成本下降约10倍。文章认为这是所有大模型都需要的关键技术。此外,随着未来 v4.1 版本使用更真实的训练数据,其性能预计会快速提升。
Rohan Paul@rohanpaul_ai · 5月24日51Somebody just ran one trillion param model (Kimi K2.5) on a single RTX 3060 12GB GPU at over 4 tokens/sec and 768GB of second-hand Intel Optane memory.
What happened is that a sparse model met an unusual memory tier that could hold its enormous body while the GPU handled the most time-sensitive organs.
i.e. the bulk of the sparse expert weights live in a larger, cheaper memory tier and are pulled into the computation as needed.
This worked because Kimi K2.5 is a Mixture-of-Experts model, so it has 1T total parameters but activates only 32B per token.
The RTX 3060’s 12GB VRAM holds latency-sensitive parts like routing, attention, dense layers, and shared experts.
The huge expert weights sit in Optane PMem, configured as RAM, while 192GB DDR4 ECC acts as cache.
He is using 6 Optane PMem (DCPMM) sticks. This retired memory format was made to bridge DRAM and SSD performance. The 768GB Optane configuration, using 6x128GB modules, does beat the best NVMe SSDs on latency by a wide margin, but remains 2x to 3x slower than DRAM.
llama.cpp handled hybrid GPU/CPU inference, with tensor placement tuned through flags like override-tensor.
The result was roughly 4 tokens/sec, which is slow for chat but impressive for a local 1T-parameter model on cheap retired enterprise hardware.
The DDR4 acted as cache, the Optane acted as a giant memory pool, and llama.cpp pushed routing and other critical tensors onto the 12GB GPU.
译近期有技术爱好者成功在单张二手RTX 3060 12GB显卡上,运行了拥有1万亿参数的Kimi K2.5大语言模型,速度约为每秒4个token。这一成果得益于模型的混合专家架构,虽然总参数量巨大,但每次推理仅激活32B参数。实现的关键在于将延迟敏感的核心组件置于GPU显存,而将庞大的专家权重存储在由二手英特尔傲腾持久内存(PMem)构成的768GB大容量内存池中,并以DDR4内存作为缓存。通过llama.cpp工具进行混合调度,该方案为本地部署超大规模模型提供了一条低成本的技术路径。
Rohan Paul@rohanpaul_ai · 5月24日62Great article here on DeepSeek.
Their real story is not cheaper chatbots, but architecture that turns hardware scarcity into strategy.
DeepSeek is not trying to sell coding seats, it is trying to make Chinese memory, accelerators, and systems useful for frontier AI.
Every recent DeepSeek move attacks a bottleneck that makes frontier models dependent on elite HBM-heavy GPU stacks: MoE activates only parts of a model, DSA reduces long-context attention cost, and V4-Pro’s official card says CSA/HCA cuts 1M-token single-token inference FLOPs to 27% and KV cache to 10% of V3.2.
Engram, a separate research line, pushes the same logic from another side: let static knowledge live in scalable lookup memory, then fetch it predictably from host memory instead of forcing every fact through dense computation.
That sounds like engineering detail until you see the business consequence.
If models need less HBM and less brute-force compute, then second-best chips, abundant LPDDR, NAND, and customized ASICs become less second-best.
Reuters has already reported a permanent 75% DeepSeek V4-Pro price cut, while noting Huawei Ascend supply constraints and expected supernode availability, which is exactly the kind of feedback loop that they wanted.
DeepSeek is not only optimizing models for benchmarks, it is optimizing AI for a different industrial base.
The prize is not the app layer.
The prize is making scarcity programmable.
译DeepSeek的核心战略并非开发廉价聊天机器人,而是通过一系列架构创新(如MoE动态激活、DSA优化、CSA/HCA技术)显著降低对高端HBM GPU的依赖。此举旨在将硬件稀缺性转化为技术优势,使次优芯片、LPDDR内存及定制ASIC能支持前沿AI,从而优化AI以适配不同的工业基础。这一路径已产生实际商业影响,如V4-Pro大幅降价并与国产硬件生态形成联动,最终目标是实现“硬件稀缺性可编程”。
宝玉@dotey · 5月24日52http://x.com/i/article/2058418354415644672
# DeepSeek 的 10 万亿美元大战略【译】
作者:GDP (@bookwormengr)
标题:DeepSeek's 10 trillion USD grand strategy
你有没有想过,DeepSeek 到底打算怎么赚钱,而且是赚大钱?
他们没有像智谱(GLM)、月之暗面(MoonShot)和 MiniMax 那样推出有竞争力的编程订阅计划。他们没有多模态、语音或视频模型。时至今日,他们甚至连一个评测框架(Harness,用于测试和评估模型性能的基准测试工具)都没有(虽然最近听说他们开始招人做了)。而且,DeepSeek 还长期致力于开源,乐此不疲地分享自己的“独家秘方”。这难道是疯了吗?还是纯粹在烧钱?那些正准备给他们投资 100 亿美元的投资人们,难道是在把钱往水里扔吗?
不,在我看来,恰恰相反!!!
在这里,我想聊聊我对他们至今所作所为的观察,以及他们似乎正在践行的战略。DeepSeek 创始人梁文锋的眼光显然盯着一个大得多的终极奖杯——他们不仅自己能冲击 1 万亿美元的市值,还能顺便帮中国催生出一个高达 10 万亿美元的产业巨兽!
## 重新审视 DeepSeek 的“英雄之旅”
DeepSeek 总是逆风而行,他们不屑于去卷那种“比别人好一点点”的微调模型,也不急着去卖当下的应用(比如各种编程套餐)。我在 2025 年 1 月 27 日发过一条疯传的推文,谈到了我所看到的景象,而现在的剧情正变得越来越精彩。
- 当大家都在死磕稠密模型(Dense Models,所有参数都参与计算的传统大模型结构)时,DeepSeek 却迎难而上,选择了极难训练的混合专家模型(MoE, Mixture of Experts)。
- 他们从“第一性原理”(First Principles)出发,发明了全新的 GRPO 算法,取代了在强化学习(RL, Reinforcement Learning)中虽然占据统治地位、但实现成本极高的 PPO 算法。
- 他们摸索出了基于验证奖励的强化学习(RLVR, Reinforcement Learning from Verified Rewards),并将其作为提升模型推理能力的杀手锏。
- 他们通过“多 Token 预测”(MTP, Multi-Token Prediction)提出了一种绝妙的投机解码(Speculative Decoding,一种通过预判后续单词来加速大模型生成速度的技术)策略,同时还让训练信号变得更加密集。
- 他们完美打造了“零气泡”(Zero-Bubble)流水线并行技术,把有限的 GPU 资源压榨到了极致。
- 他们开源了专家负载均衡器(Expert Load Balancer),让所有人都能轻松部署混合专家模型。特别是通过“宽专家并行”(Wide Expert Parallel)策略,模型可以在大批次下运行,使得服务成本大幅降低。
- 他们发明了 MLA、DSA、CSA 和 HCA 等一系列魔改注意力机制的技术,极大地缩减了 KV 缓存(KV Cache,大模型推理时用于存储历史对话记忆的显存空间)的需求,让计算需求在面对无限拉长的上下文时几乎保持恒定。
- 他们发明了 Engram(印迹模块),实现了用内存换算力的神奇操作。
- 他们发明了 mHC(修正超连接),解决了模型体量暴增时的训练稳定性难题。这个创新清单还能一直列下去……
在英雄之旅这个最经典的叙事结构里,主角一开始并不知道自己的终极使命是什么。他是在一路上摸爬滚打,逐渐领悟了伟大的天命,然后排除万难去完成它。在这个过程中,他会遇到无数的冷嘲热讽,但他选择无视;他会遇到不怀好意的对手;他本身也有致命的弱点或短板——但他最终战胜了自我,达成了使命。他直面那些看似无法逾越的难关,却总能巧妙地结盟、精明地整合宝贵的资源。这就是为什么观众会不自觉地为英雄摇旗呐喊。这也是为什么 DeepSeek 在赢得全球无数粉丝狂热追捧和尊敬的同时,也招来了不少争议。
接下来我将为你详细拆解,DeepSeek 在这条路上已经走得足够远,并且已经窥见了他们的终极宿命:他们的格局根本不是卖什么编程订阅,而是去撬动一个价值 10 万亿美元的中国 AI 硬件生态圈,并以此顺理成章地让自己斩获 1 万亿美元的市值。在这个过程中,他们甚至还会顺手帮一把西方硬件生态中的一众新玩家。
欢迎大家探讨与指正。
## 先来算一笔好玩的 KV 缓存账:
来看看知名半导体分析机构 @SemiAnalysis_ 发布的这条非常及时的推文:
我们先来做点有趣的 KV 缓存数学题。别担心,如果你讨厌数学,我们也只是用最近发布的 KV 缓存计算器,来看看 DeepSeek V4 Pro 到底能省下多少 KV 缓存,并把它跟最新的智谱 GLM 和阿里通义千问(Qwen)模型做个对比。
我以 100 万(1M)上下文长度为例进行计算,假设 KV 精度为 8 位(8-bit),索引器精度为 16 位(16-bit)。你自己也可以去这个网站上玩玩:
https://kvcache.ai/tools/kv-cache-calculator/
在 100 万上下文深度下:
1. DeepSeek V4 居然只需要 5.48 GB 的高带宽内存(HBM, High Bandwidth Memory,一种常用于顶尖 AI 显卡的高速显存)。
1. GLM5 需要 60 GB 的 HBM。
1. Qwen3-235B-A22B 则需要高达 89 GB 的显存!
请注意,这还是在以下前提下:
1. DeepSeek 是一个拥有 **1.6 万亿(1.6T)**参数的巨无霸模型。
1. GLM5 大约是 7000 亿(700B)参数,而且它已经借鉴了 DeepSeek 的 MLA 和 DSA 技术,只是还没用上最新的压缩注意力机制。
1. Qwen3-235B-A22B 只有 2350 亿参数,使用的是相对传统的 GQA(分组查询注意力机制)。
DeepSeek 在缓解显存压力方面做出了奠基性的贡献。如果这项创新被行业广泛采纳,将让那些需要处理超长任务的长程 AI 智能体(Long-horizon Agents)成本低到难以置信,从而彻底解锁下一代崭新的应用场景。
## 疯狂背后的精密章法:
能够在完全不牺牲模型质量的前提下,把 KV 缓存压缩得如此之小,正是他们敢把长时缓存(Long-held Cache)价格压到白菜价的底气所在——其价格甚至不到 Anthropic 旗下 Claude Sonnet 4.6 缓存命中价格的 3%,而且他们还能帮你免费保留好几个小时!
对于长程任务来说,由于缓存体量极小,将其“转存”(Offloading)到固态硬盘(SSD)并在需要时重新加载,就变得极为划算。这就大大降低了对 HBM 的依赖。要知道,HBM 目前全球严重短缺,而且从中国 AI 硬件产业的角度来看,这也是制造难度极高的核心痛点。更绝的是,DeepSeek 还开发了一套能从 SSD 中以极高速度重新加载 KV 缓存的技术,具体细节都在他们的论文里:https://arxiv.org/pdf/2602.21548
## 谁是这场“KV 缓存压缩战”的直接受益者?
谁在大量供应 SSD?别忘了长江存储(YMTC)正在崛起为全球 3D NAND 闪存巨头。闪存技术(NAND)让 DeepSeek 能够直接读取缓存,从而避免了每次都重新计算 KV 的巨大算力浪费。反过来,DeepSeek 正在为 NAND 闪存和固态硬盘创造一个无比庞大的新市场——这不仅让长江存储受益,也让整个产业链所有玩家跟着大赚。
## 然而,格局绝不仅仅局限于 NAND 和 SSD:
低功耗内存(LPDDR)同样蕴藏着巨大的潜力,可以用作存放模型权重(Weights)的“大后方”,并在需要时源源不断地“流式传输”到 HBM 中,从而进一步减轻 HBM 的容量压力。你可以参考这篇博客:https://www.lmsys.org/blog/2025-09-25-gb200-part-2/ 。下面我用一张图来解释这套方案是如何运作的:
虽然 DeepSeek 并没有专门针对这一方案做特殊开发,但他们那拥有庞大专家数量、并且支持 4 位(4-bit)权重的混合专家模型架构,完美契合了这套方案,使得其实施起来易如反掌。
这种创新配合上他们那堪称逆天的无损超紧凑 KV 缓存技术,让系统对 HBM 的吞吐和容量需求出现了断崖式下跌。
中国谁在做 LPDDR?长鑫存储(CXMT)。目前他们在 LPDDR 的速度上仅落后国际顶尖水平半代,在容量密度上仅落后一代。差距非常小!这意味着在不久的将来,除了管够的 NAND 闪存,中国本土生态还将迎来铺天盖地的 LPDDR 内存。那这能缓解算力芯片的压力吗?答案是:绝对能。请接着往下看……
## 聪明地玩转存储,还能顺手给 GPU 和 ASIC 减负
道理很容易理解:用 NAND 闪存来存放 KV 缓存,不仅能延长缓存的保存时间、减轻 HBM 的压力,还能免去重复计算的烦恼,这等于变相给 GPU 和 ASIC(专用集成电路,即各类定制化 AI 算力芯片)的计算单元松了绑。那么,除了作为模型权重的“即时流式传送带”之外,LPDDR 还能以其他方式帮上忙吗?答案同样是:可以。
LPDDR 可以用来存储海量的“Engram”(印迹模块)。DeepSeek 在他们的论文(https://arxiv.org/pdf/2601.07372)中指出,虽然混合专家模型架构可以通过条件计算(Conditional Computation)来扩充模型的容量,但传统的 Transformer 架构缺乏一种天然的知识检索机制,只能笨拙地通过高昂的“计算”去模拟“检索”。为此,他们引入了 Engram 模块,将经典的 N-gram 嵌入技术升级为基于哈希、时间复杂度为 $O(1)$ 的瞬间查找,创造了一个他们称之为“条件内存”(Conditional Memory)的全新稀疏维度。这极大地省下了计算量,但代价是需要巨大的内存空间来存放这个庞大的嵌入表。这是一次经典的“用空间(存储)换时间(计算)”,其高明之处在于,读取“存储”的成本远比进行计算要便宜得多(在 LPDDR 里查一下,可比让大模型整整跑一轮前向传播省钱太多了)。在大规模部署时,这是一笔划算到家了的买卖。这就是他们如何通过狂砸内存来省下算力的秘密!!!
这种取舍简直太值了:由于缺乏极紫外光刻机(EUV),无法在单个芯粒(Chiplet)上做到同等的晶体管密度,中国的 GPU 和 ASIC 在纯粹的原始浮点运算能力(FLOPs)上,注定会长期落后于西方顶尖显卡。同时,国内在先进封装技术上也处于追赶状态。因此,如果能利用国内产能充足、成本低廉的 NAND 和 LPDDR 内存来弥补算力的劣势,这种“扬长避短”的打法简直是绝配。
## 盘点 DeepSeek 的一盘大棋:
纵观这些令人眼花缭乱的创新和他们做出的种种抉择(至今不做多模态、不做语音模型,至于视频生成?那是什么东西?),DeepSeek 的野心显然不是眼前那区区几亿美元的蝇头小利。他们正在极有耐心地下一盘 10 万亿美元的大棋,目的是亲手扶持起一套独立于西方之外的“备选硬件生态”。
这不仅让中国的存储芯片厂商在全球 AI 硬件舞台上跃升为主力军,更从根本上降低了大模型训练和推理的资源门槛。当运行 AI 模型的成本降下来后,原本性能稍逊的国产 GPU/ASIC 芯片以及网络交换芯片也将全部变成“够用、好用”的切实选项。而且,这些开源创新也将反哺西方的开源社区,并给西方那些试图挑战英伟达的芯片初创企业带来一线生机。
所有的蛛丝马迹都对上了。让我们来逐一细数他们抛出的那些震撼行业的创新:
1. 在 DeepSeek V2 中引入混合专家模型(MoE)和 MLA:MoE 让训练一个极度聪明的模型减少了 40% 到 50% 的算力消耗;而多头潜在注意力机制(MLA, Multi-head Latent Attention)更是把 KV 缓存直接砍掉了 90%,使得将缓存转存到 SSD 变得极为高效。这些理念最早在他们 2024 年 5 月的论文(https://arxiv.org/pdf/2405.04434)中提出。正是凭借这些绝活,他们后来才能仅仅用 2048 张被阉割过的 H800 GPU,就硬生生训练出了媲美顶级闭源模型的 DeepSeek V3。
1. DSA(密集跳跃注意力机制):在论文(https://arxiv.org/pdf/2512.02556)中推出,旨在削减长上下文场景下的计算量,同时缓解 HBM 的带宽压力。它确保了计算量不会随着上下文的拉长而发生爆炸式增长。看看下面的图表——DeepSeek-v3.2 的处理时间在上下文拉长时依然稳如泰山。
1. mHC(修正超连接):在 2025 年 12 月的论文(https://arxiv.org/pdf/2512.24880)中首次亮相。mHC 是 DeepSeek 在宏观架构上的一大创新,它彻底颠覆了大模型各层之间传统的信号传输方式。过去大家都在用自 ResNet 时代流传下来的标准残差连接($x + F(x)$),而 mHC 则把这条残差流扩展成了多条并行的“信息高速公路”,并允许模型自主学习如何进行混合。最为关键的是,它通过数学手段(将混合矩阵通过 Sinkhorn-Knopp 投影约束在 Birkhoff 多胞形上)强制让这些混合矩阵满足双随机性,从而在数学上完美确保了信号强度在穿过任意深度的网络层时都不会衰减。
- 这彻底解决了此前困扰无约束超连接(Hyper-Connections,最早由字节跳动发明)的灾难性不稳定难题——此前在 270 亿(27B)参数规模下,信号放大系数会疯狂飙升到 3000 倍,导致整个训练彻底崩盘。
- 而它的计算成本却微乎其微:由于它完全没有改变注意力层或前馈网络(FFN, Feed-Forward Network)层的原始浮点运算量,仅仅改变了输出在各层之间的路由方式,因此它只增加了区区 6.7% 的实际训练时间开销。
- 然而它带来的性能提升却极为震撼:在同等模型大小和几乎完全相同的算力预算下,27B 规模的模型在 mHC 的加持下,在复杂的 BIG-Bench Hard 推理测试中暴涨了 7.2 分,DROP 评测提升 3.2 分,GSM8K 数学测试提升 2.8 分,MMLU 综合学科知识提升 1.4 分。
简而言之,mHC 通过给网络赋予一套更丰富、更有表现力的跨层信息路由拓扑结构,在几乎不需要额外多花一丁点算力的情况下,让单位参数发挥出了显著更高的“智商”。
1. CSA 与 HSA:在 2026 年 4 月发布的 DeepSeek V4 Pro 技术文档(https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf)中亮相。它们通过对 KV Token 进行深度压缩,把本来就已经很小的 KV 缓存需求又砍掉了 90%!同时大幅降低了所需的浮点运算量,一举帮 HBM 和 GPU/ASIC 彻底解套。
1. 论文(https://arxiv.org/pdf/2601.07372)于 2026 年第一季度推出,正如前面所说,它在某种意义上实现了“用内存(LPDDR)换算力”。下面的详细图表展示了在总体参数预算完全一致的情况下,Engram 带来的巨大性能跃升。
1. 将计算与通信的重叠压榨到极致:诸如“双路径”(Dual Path)这样的底层魔改,表面上看是为了绕过硬件资源的封锁而被迫进行的闪转腾挪。但 DeepSeek 更进一步,甚至开始反过来对芯片硬件厂商的 ASIC 架构设计指点迷津,告诉他们如何设计芯片才能避免浪费哪怕一丝一毫宝贵的硅片资源。以下截图正是出自 DeepSeek V4 Pro 的官方文档:
1. 对 TileLang 的重度投入:这明确无误地表明,他们的目光早已超越了自家算力紧缺的困境,而是致力于让整个中国硬件生态具备与西方掰手腕的竞争力。有了 TileLang(一种用于编写高性能算力内核的开源编程语言),工程师只需要编写一次算力内核代码,就能在任何适配了 TileLang 后端的不同硬件平台上无缝跑起来。我预计国内其他 AI 实验室很快也会纷纷加入这个阵营——这将合力帮助中国硬件厂商从侧面解围,绕开英伟达坚不可摧的“CUDA 壁垒”(CUDA Moat,英伟达苦心经营数十年的专用并行计算架构生态,是其最宽的护城河)。同时,这也能顺便解放 AMD 等西方的其他硬件厂商。
注:国内许多 AI 硬件平台本身也提供 CUDA 兼容性或 CUDA 编译转换层。其中,摩尔线程、沐曦、壁仞和天数智芯是通过转换层实现与 CUDA 兼容度最高的几家中国芯片公司,理论上它们不需要 TileLang 的协助。
## 大规模强化学习与自动化科学研究:
随着计算需求的断崖式下降,以及可供选择的本土硬件变得越来越多,DeepSeek 终于能够放开手脚,去挑战那些此前让人望而却步的宏大训练计划——尤其是强化学习阶段的后训练(Post-training)。强化学习需要生成海量的思考轨迹(Trajectories),动辄就会产生数万亿的 Token,这在过去烧钱速度极其恐怖。此外,要训练出支持 100 万上下文的模型,你就必须生成同样长度的思考轨迹。只有让模型在这种超长轨迹中经受锤炼,才能真正解锁解决复杂长程任务的能力。
不仅如此,硬件选择的多元化将让 DeepSeek 拥有富余的算力去冲击“自动化人工智能研究”(RSI, Research on Silicon Intelligence,即让 AI 充当科学家,自己设计并执行算法实验的自主进化技术)。这种让 AI 左右互搏、自主进化的模式伴随着大量的试错,耗资极度高昂。但如果想要彻底探寻整个算法设计的未知空间,RSI 是必经之路。在通往通用人工智能(AGI)乃至超级人工智能(ASI)的道路上,DeepSeek 必须先点亮 RSI 这颗科技树。
## DeepSeek 今日的试金石,行业明天的教科书:
如今,DeepSeek 围绕混合专家模型、MLA、DSA 的一连串疯狂创新,早已被中国乃至全球的各大 AI 实验室奉为圭臬并争相抄作业。
比如,打造了 GLM 系列模型的智谱 AI 已经用上了 MLA 和 DSA;月之暗面(Kimi)也大方承认自家的最新架构正是基于 DeepSeek 的演进。作为礼尚往来,DeepSeek 在大规模训练中也采用了 Muon 优化器,而该优化器在超大规模训练中的威力,正是被 Kimi 团队首先发掘并证明的。
(注:
- 混合专家模型(MoE)架构最早由顶尖学者在 2017 年的经典论文(https://arxiv.org/pdf/1701.06538)中提出,而 DeepSeek 的功劳在于成功将其推向了前所未有的庞大规模,并融入了大量自研的独门绝技。*
- Muon(基于牛顿 - 舒尔茨动量正交化)优化器由机器学习研究员 Keller Jordan 于 2024 年底发明,而 Kimi 团队则是全球第一个将其应用到超大规模模型训练中的吃螃蟹者。)*
## 说了这么多,那到底怎么赚大钱呢?
我们可以看看 OpenAI 一个非常有趣的经典案例。OpenAI 曾与 AMD 以及 Cerebras(一家挑战英伟达的晶圆级超大芯片初创公司)达成协议:随着 OpenAI 采购并消耗这两家公司的芯片达到特定里程碑,OpenAI 就能以极低的价格获得这两家公司的股票认股权证(Warrants)或期权。这对于 AMD 和 Cerebras 来说是一笔双赢的绝妙交易——有了 OpenAI 这头吞噬算力的巨兽深度绑定,它们在长跑中胜出的概率大增。
根据 AMD 官方发布的新闻稿(https://www.amd.com/en/newsroom/press-releases/2025-10-6-amd-and-openai-announce-strategic-partnership-to-d.html):“作为协议的一部分,为了深度绑定双方的战略利益,AMD 已向 OpenAI 授予了高达 1.6 亿股 AMD 普通股的认股权证。这些股权将随着特定里程碑的达成而逐步解锁。第一阶段将在初始部署达到 1 吉瓦(GW)算力中心时解锁,随后的份额将随着采购规模扩大至 6 吉瓦而陆续解锁……”
我大胆预测,DeepSeek 目前正在与国内一众存储、ASIC 算力芯片、CPU 以及网络协议栈厂商签署类似的对赌与利益绑定协议。通过深度联合调优,DeepSeek 将帮助这些本土硬件在运行全球最顶尖的 AI 核心工作负载时,真正做到平替、甚至超越西方硬件。
眼下,西方(包括其东亚盟友)所有 AI 概念股的总市值早已突破了 10 万亿美元。通过这种“用技术换股权、用生态扶持分蛋糕”的精妙商业模式,DeepSeek 不仅能在中国复制出一个同样体量惊人的超级硬件产业,还能在其中切下最肥美的一块蛋糕,进而将自己送入 1 万亿美元市值的超级俱乐部。
这不仅能让他们赚到比卖什么订阅软件多得多的真金白银,还能顺便实现他们口中“让通用人工智能惠及每一个人”的宏伟愿景。梁文锋作为传奇量化大师詹姆斯·西蒙斯(Jim Simons)的铁杆粉丝,绝对是一位顶级聪明的资本家,他绝不可能漏掉这盘大棋!
只要你回过头把 DeepSeek 至今为止所有的反常举动串联起来,这就是唯一能完美解释一切的底层逻辑……
关于这些底层技术创新的详细拆解长文将在本周末发布,感兴趣的朋友欢迎关注我的 Substack 专栏:https://polymath707.substack.com/ ...
译DeepSeek的核心战略并非销售应用服务,而是通过一系列底层技术创新,特别是MLA等注意力机制大幅压缩KV缓存需求,来重塑AI硬件生态。其技术能将1.6T参数模型在1M上下文下的内存占用降至5.48GB HBM,远低于同类模型。这直接降低了推理成本,并催生两大机会:一是将KV缓存转存至SSD,利好长江存储;二是其架构适配LPDDR内存进行权重缓存,利好长鑫存储。DeepSeek通过开源这些高效架构,正在构建一个以中国存储产业链为核心的新生态,最终目标是带动一个10万亿美元的AI硬件产业,并自身实现万亿美元市值。
AYi@AYi_AInotes · 5月24日70http://x.com/i/article/2058381329318682624
# 我把每天刷 4 小时 X 找选题的活完全交给AI, 命中率从 15% 飚到 60%+,整套 Prompt + 工作流全部开源!
> 这篇我跟兄弟们只捞干货,全篇三件事:AI 博主真正卡死的瓶颈到底在哪?怎么让AI Agent 24 小时替你刷 X、小红书、Reddit 找选题?我跑了两周的整套 Prompt + 5 平台阈值表全部开源,直接抄!文章最后还有一盆冷水和两周完整数据复盘,被信息流困住的兄弟拿走就用!
这事儿说出来可能有点凡尔赛,但我得先交个底——
中推区 AI 圈我泡了半年了,最近真的想明白一件事,AI 博主最大的瓶颈不是写不出来,是不知道写什么。
我以前每天刷 4 小时 X + 小红书 + Reddit 找选题,刷到眼花,结果写出来的,还是跟风别人三天前已经写过的。
直到我把这件事完全交给了一台云手机,现在每天 0 刷 Feed,早上 8 点桌面上躺着一张选题表,命中率从 15% 涨到了 60%+。
心法、Prompt、5 平台扩展,这一篇我全部开源。
那话不多说,我先讲清楚我之前到底卡在哪。
# 一、AI 博主的一天,是从「刷」开始的
如果你是一个 AI 博主,你的一天大概是这样的。
打开 X,看 Sam Altman 又发了什么、Karpathy 又转了什么、哪个新 Skill 在刷屏,切到小红书,看 AI 测评、看 Prompt 分享、看谁又出了新工作流,切到 Reddit,看 r/LocalLLaMA、r/ClaudeAI 最新的高赞讨论,再切到 B 站,看哪个 UP 主又出了新教程。
刷完一圈,3-4 小时没了。
更操蛋的是,你刷到的那些「热点」,往往别人已经写完发出来了。
剥开来看,你在做的事本质上就是个体力活——用人眼盯数字,盯关键词,盯热度。
不需要你的判断,不需要你的品味,不需要你在场。
我一直觉得,「选题」这件事的本质就是个数据筛选问题,不是「有没有灵感」,是「有没有在对的时间扫到对的信号」。
这种活,能不能让 AI 干?
说实话,我之前真的试过,用过 RSS,用过各种聚合工具,自己还吭哧吭哧写过几个爬虫,最后全死在同一个地方——X 和小红书这种 App,根本没有体面的 API,你想要的「推荐流」数据,只活在 App 里。
# 二、转折点:让一台云手机替你刷
直到最近,我用上了 Airtap。
先讲清楚它是什么——一个能操作手机 App 的 AI Agent,给它一台云手机(云端跑的 Android),写个 Prompt,它就在那台手机上替你刷。
重点是这个,它不是 API 调用,是真的在「刷手机」。
所以 X 的 For You 流、小红书的发现页、Reddit 的 Hot,这些没有官方 API 的东西,它都能读。
你可能会想,这跟我打开手机刷有啥区别?
区别大了。
> 第一,它不睡觉。
> 第二,它跑在一个「空白人格」的手机上,不登录任何账号,推荐流是纯算法基线,没有被我的个人兴趣污染,看到的是平台真正在推什么。
> 第三,写一次 Prompt,每天定时跑。
你可以这么理解:
> 原来你自己刷 X,相当于在一家被你常点的口味彻底「惯坏」的餐厅吃饭,菜单永远是它觉得你爱吃的那几样。
但你想知道这家店真正的招牌是啥,得换一张完全空白的脸进去重新点一遍,这就是云手机在做的事。
# 三、我的具体玩法,分三步
## 第一步:定义你的「信号阈值」
参考样本里有个博主用「100w+ 播放」做阈值,那是给泛流量博主用的,但AI 圈不一样。
AI 圈的信号不在「播放量」,在「转发数 + 评论数 + 作者权重」。
我给 X 定的阈值是:
- 转发 ≥ 500
- 或者点赞 ≥ 2000
- 内容必须命中关键词:Claude / GPT / Cursor / Skill / MCP / Agent / Prompt
为什么是这个数呢?
因为 AI 圈在 X 上的盘子,比泛娱乐小一个数量级,500 转发在 AI Twitter,等于泛流量 100w 播放,都是「刚验证、还没饱和」的临界点。
低于这个量级,是噪音,写出来没人看。
高于 1 万转发,已经被反复写烂,你写也是 me too。
100-500 这个区间,才是「已经验证有人愿意看 + 还没被大盘吃透」的黄金带。
说白了,信号阈值这件事最反直觉的地方就在这——不是越高越好,是要选一个「刚出锅但还没人吃」的温度。
## 第二步:写一个能跑的 Prompt
这是我跑了两周、迭代了四五次的版本,直接抄能用:
把它拖进 Airtap,配成每日 Routine,早上 7 点开始跑,8 点你打开电脑就有表。
跑出来长这样:
这就是你这一周的选题池。
## 第三步:多 App 并行,这才是最爽的部分
把上面的 Prompt 90% 复用,只改 App 和阈值:
每个 App 开一台云手机并行跑,我现在 4 台云手机同时在跑,每天早上 8 点拿到 4 张选题表。
你会发现一个非常爽的现象,同一个「信号」同时出现在 3 个平台,那基本就是必写的。
这就是倍数效应。
最耗人的「找选题」被自动化之后,覆盖 5 个平台和覆盖 1 个平台,投入的人力几乎一样。
打个比方,原来你只能开一辆车跑一条快递线,现在你雇了 4 个不会累的司机,4 条线同时跑,油钱(云手机成本)几乎不变,订单量翻 4 倍。
这就是工作流的复利。
## 四、两周的数据复盘,数字都是真的
我做了一个粗粒度的对比。
之前(手动刷):
- 每天刷 Feed 找选题:3-4 小时
- 一周 5 天 ≈ 20 小时
- 一年 ≈ 1000 小时
- 选题→文章命中率:约 15%
10 个想法只有 1-2 个真能写成文章。
现在(Airtap 跑):
- 每天手动刷:0
- 早上看表 + 二次筛选:20 分钟
- 一周 ≈ 2 小时
- 选题→文章命中率:60%+
20 分钟,对比 20 小时。
一年下来,省出的不是 998 个小时,是 998 个「原来要瞪着屏幕死磕」的小时。
这些时间我没拿去躺平,是拿去深度写作和实测。
因为我一直觉得,深度写作和实测,才是 AI 还干不了的部分。
## 五、但我得给自己泼一盆冷水
不能把这套吹成救世主,那不诚实。
Airtap 帮你完成的是「信号筛选」,不是「判断」。
表格里的 20 条,能转化成文章的可能只有 3-5 条。
为什么?
因为 AI 不知道——
- 你的粉丝关心什么
- 你的风格适合写什么角度
- 哪个话题别人还没深挖
- 哪个话题写出来会得罪人
这些判断的活儿,还得你自己干。
而且坦白讲,Airtap 现在不是完美的。
偶尔会卡在某个弹窗,偶尔会读错数字,偶尔会跳过该命中的帖子。
我大概一周要调一次 Prompt,调阈值、调关键词、加新的边界 case。
这事儿吧,我翻来覆去还是觉得不能粉饰。
Airtap 不是救世主,它属于流水线的第一道工序。
但就这一道工序,已经把我从「每天 4 小时刷 Feed 的体力工」,变成了「每天 20 分钟做判断的内容人」。
身份变了,剩下的事就好办了。
# 六、最后真正想说的
最后想说的核心其实就一句——
AI 博主真正的瓶颈,从来不是「AI 不够强」,是「你的工作流没把 AI 放对位置」。
把 AI 放在「帮你写」,你会发现它写的还不如你自己。
把 AI 放在「帮你筛」,你会发现你自己的产能瞬间翻 3 倍。
未来一年,我的判断是——单兵 AI 博主跟团队的差距,越来越来自「工作流的成熟度」,而不是「谁更聪明」。
写到这儿,我自己其实也还在迭代。
这套 Prompt 我下个月可能又改了,这套阈值我也可能又调了。
但「让 AI 替我筛信号」这个底层动作,我已经回不去了。
就像一个开过电动车的人,再让他回去骑共享单车,他骑得动,但不会再骑了。
如果你也是中推区的 AI 同路人,欢迎拿走这套 Prompt 直接试,跑通了告诉我数据,我帮你迭代下一版,我们一起琢磨。
⚡️ Airtap 官网:airtap.ai
🌅 关注 @airtap_ai 看更多 Routine demo
📌 觉得有用的话,帮我点个赞 / 转发,让更多被信息流困住的兄弟看到
(文中的Airtap只是我自用的Agent 工具以及写文章提到的参考案例,不构成任何推荐)
译内容创作者的核心瓶颈往往在于选题而非写作。作者通过部署AI Agent驱动云手机,自动化刷取X、小红书、Reddit等平台的推荐流,替代了每日数小时的人工筛选工作。其工作流关键在于为不同平台定义有效的“信号阈值”(例如在AI圈的X平台,转发≥500或点赞≥2000),并编写特定Prompt指导Agent执行筛选。通过多台云手机并行运行,实现了跨平台的高效信号捕捉。此方法将选题耗时从每日3-4小时降至20分钟,文章命中率从约15%提升至60%以上。作者指出,AI Agent主要完成初筛,最终的内容判断与风格适配仍需人工完成。这套开源工作流旨在证明,优化工作流中AI的位置,能极大提升单兵创作者的产能。
meng shao@shao__meng · 5月24日33懂了,程序员生存之道:
token 别降价,我要降价 😂
Berryxia.AI@berryxia · 5月24日38当时我做这个工具的目的和诉求其实就是想自己有300 多个群聊,管理和查看其实很费劲。
1️⃣ 可以满足我查看和清理僵尸群,长期没有什么消息的死群。
2️⃣ 活跃的群的有效信息的快速阅读,以及自己社群活跃用户的筛选。
3️⃣ 可以通过与一些甲方或者大家的咨询找到或者遗漏的消息,比如可能忘记回复,重要的关键字词的挖掘。
4️⃣ 业务中有些项目的进展或者最近的状态,可以让AI帮我快速梳理出来待办事项。
这就是我当时想开发这个工具的目的,现在有想法基本跑出核心功能很快。
大家一定有想法就要去干,干中学非常受用。
我的版本还在迭代,可能大范围如果有风险的话。
就只能低调发布~ ✌️。
你懂得,当然这个卡比的wx-cli 能用就记得关闭和保持不要随时更新微信哈。
译作者为管理300多个微信群聊而开发了一款微信消息管理工具。该工具旨在帮助用户清理长期无消息的“僵尸群”,快速阅读活跃群内的有效信息,并筛选出社群中的活跃用户。同时,它能挖掘容易被遗漏的重要关键词或回复提醒,并让AI帮助梳理项目进展,生成待办事项。该工具底层基于wx-cli,目前核心功能已跑通,但仍需迭代并可能低调发布。未来完善后,或将考虑开源。
Greg Brockman@gdb · 5月24日49under appreciated that codex is open source
译低估了Codex是开源的这一事实
Thariq@trq212 · 5月24日55every now and then I remember you can run the "please save me money" prompt and it will actually work
译每隔一段时间我就会想起,你可以运行“请帮我省钱”的提示词,它真的会起作用。
ginobefun@hongming731 · 5月24日8上周末开始被 AI 卷得不行,准备发布这个历史最大的一次版本了 😂
向阳乔木@vista8 · 5月24日43skill写好以后,躺床上也可以用ChatGPT中的codex开发网站了。
正在开发一个Suno音乐播放器,把AI生成的歌曲都传上去。
译skill写好以后,躺床上也可以用ChatGPT中的codex开发网站了。
正在开发一个Suno音乐播放器,把AI生成的歌曲都传上去。
Orange AI@oran_ge · 5月24日56MARVIS 最让我惊奇的地方在于
他们把一家在 AI 时代最落后的大厂的内部工作协作方法打包成了一款 AI 产品。
面向生产力剧变的未来,他们选择推广一个落后的生产关系。
很神奇。
ginobefun@hongming731 · 5月24日63http://x.com/i/article/2058339140899573760
# BestBlogs 早报 · 05-24|Claude 护网计划、AI Skill 反直觉、智能体工程纪律
在线阅读和收听早报:https://www.bestblogs.dev/explore/brief/2026-05-24
今天的早报聚焦 AI 安全与工程纪律的双重前沿:Anthropic 的 Claude Mythos Preview 联合 50 家伙伴在一个月内发现逾万个高危漏洞,修补瓶颈已从「发现」转向「部署」;Codex Spark 每秒 1,200 tokens 的极速之下,工程师反而需要放慢脚步,实时监督每一步输出;腾讯玄武实验室 150 组对照实验则揭示 AI Skill 的反直觉真相——装上 Skill 不等于更强,有效 Skill 的核心是提供外部工具或约束性结构,而非只是模型能力的 Markdown 包装。
## 导语
2026 年 5 月的这一周,AI 的力量正在两个方向同时加速。
在防御侧,Anthropic 与约 50 家合作伙伴联手,用 Claude Mythos Preview 在不到一个月内发现超过 10,000 个高危或严重漏洞。单就 Cloudflare 一家,就找到了 2,000 个漏洞,假阳率甚至低于人工测试员。这个数字意味着:过去十年我们一直在讨论「AI 能不能发现安全漏洞」,这个问题已经不再是问题。真正的新瓶颈在于,安全 patch 的生产速度正在超过人类核查与部署的能力。
在工程侧,Codex Spark 达到了每秒 1,200 tokens——传统推理速度的约 20 倍。这个数字听起来令人振奋,但 Cerebras 的 Sarah Chieng 给出了一个反直觉的结论:速度越快,反而要求开发者越慢。当 AI 每秒产出 1,200 个 token,开发者需要实时监督、随时介入、逐步微验收,而不是让 agent 自由奔跑然后事后审查。工程纪律不是「相信模型」,而是「信任但验证」。
与此同时,腾讯玄武实验室用 150 组对照实验测试了 30 个 AI Skill,结果令人意外。Skill 组仅以 41.3% vs 36.7% 的微弱优势领先裸模型,token 消耗平均增加 48%,耗时平均增加 19%。更有「虹吸效应」:13.3% 本不该触发 Skill 的请求被错误召回。
这三条线索共同指向一个核心命题:AI 能力的边界扩张,需要配套更精密的人类工程纪律。
## 精讲一:Claude Mythos 护网计划:一月发现超 1 万个高危漏洞
背景:从「能发现」到「来不及修」
软件安全领域长期面临一个核心困境:漏洞发现的速度太慢,修复的资源永远不够。传统的安全研究模式依赖人工渗透测试,每次测试覆盖有限,成本高昂,且假阳率居高不下。这种模式在大规模开源生态面前尤为捉襟见肘——全球有数千个被广泛依赖的开源项目,几乎没有专门的安全团队。
Anthropic 于 2026 年 5 月正式公布了 Project Glasswing 的初步结果。这个计划的核心思路是:在 AI 模型足够强大、能够被用来发动攻击之前,先用它来发现并修复互联网最关键软件的漏洞。
关键数据
在不到一个月的时间里,Claude Mythos Preview 联合约 50 家合作伙伴,共发现超过 10,000 个高危或严重漏洞。Cloudflare 一家就找到了 2,000 个漏洞,其中 400 个属于高危或严重级别,假阳率经 Cloudflare 团队评估「优于人工测试员」。
在开源代码扫描方面,Anthropic 已扫描超过 1,000 个开源项目,估算存在约 6,202 个高危漏洞。
Mythos Preview 的外部评估同样引人注目。在 Phusis 的评测中,该模型在 Capture the Flag(CTF)类型的安全挑战中表现超越人类专家——这是 Claude 模型首次在此类评测中达到这一水平。
为什么这件事很重要
这组数字改变的不只是安全研究的效率,而是整个行业的瓶颈认知。进展的约束已经从「发现速度」转移到「修补速度」。
安全 patch 的生产速度正在超过人类的核查与部署能力。即便 AI 能在几天内发现数千个漏洞,这些漏洞的披露、协调、补丁设计、测试、发布与用户侧的更新部署,仍然需要大量人工参与,且每一步都有行业惯例的时间窗口约束(通常是 90 天协调披露期)。
Anthropic 坦承,目前公开披露的内容是滞后指标——那些已经发现但尚未公开的漏洞,正在等待补丁被广泛部署。这本身就揭示了一个新困境:AI 找漏洞的能力,已经超过了整个生态系统消化漏洞的能力。
与今日其他故事的关联
这个案例与精讲三形成有趣的呼应。玄武实验室的研究表明,AI Skill 在「补充了真实外部工具」时才能带来有效增益。Mythos Preview 能在安全领域做到这一点,正是因为它不是单纯地「用 Markdown 重写」安全知识,而是真正执行了漏洞发现的工作流——具备代码理解、漏洞分析、假阳判断等完整能力链路。
阅读建议
如果你关注 AI 安全能力、开源生态安全治理,或者对「AI 能力边界在哪」感兴趣,这篇文章是今天最值得细读的一篇。文中包含 Phusis 评测的技术细节和开源项目扫描的方法论描述,适合安全工程师和 AI 能力研究者深度阅读。
阅读原文:Claude Mythos 护网计划:一月发现超 1 万个高危漏洞
## 精讲二:快模型需要慢开发者:超高速 AI coding 时代的工程纪律
背景:推理速度的量变引发质变
过去两年,AI 模型的推理速度长期停留在每秒 50-150 tokens 的区间。这个速度基准催生了一系列「未经优化」的开发习惯:工程师倾向于构建超大 prompt 来最大化单次输出,放任 agent swarm 无人监管地运行,在多文件修改完成后才事后审查。
这些习惯在慢速推理时代勉强可行——因为 AI 生成的速度,至少给了工程师思考的时间间隙。
但 Codex Spark 的出现彻底打破了这个假设。这款由 Cerebras 与 OpenAI 联合开发的模型,可以达到每秒 1,200 tokens 的源代码生成速度——传统推理速度的约 20 倍。
速度越快,纪律要求越高
Cerebras 的 Sarah Chieng 在 AI Engineer 大会的演讲中给出了一个反直觉的核心论断:当 AI 的生成速度提升到这个量级,开发者不能更快——开发者需要更慢。
具体来说,高速 AI coding 需要三个新纪律:
第一,实时监督而非批量审查。在低速推理时代,你可以等 agent 跑完一大段再来检查。在每秒 1,200 tokens 的世界里,等待意味着技术债以每秒 10 倍的速度累积。你需要在 agent 每次运行后立刻进行微验收测试。
第二,持久上下文文件。高速生成会快速消耗和污染上下文窗口。Sarah Chieng 建议维护专门的持久上下文文件,记录关键决策、约束和已知坑点,作为每次 agent 调用的「稳定锚点」。这类似于今日速览中 Context Engineering 文章所提到的「写入策略」。
第三,信任但验证,而非相信模型。工程纪律的核心不是「给 AI 更多信任」,而是建立系统性的验证流程。每次 agent 运行后的即刻微验收测试,是防止技术债指数级堆积的关键。
硬件层的变革
Codex Spark 的速度依赖于 Cerebras 和 Groq 等公司推动的硬件架构革新:将内存池直接集成到硅晶圆表面,消除传统 HBM 架构中 50-80% 用于数据传输的延迟。同时,分离推理(prefill 与 decode 分离执行)进一步释放了并行性能。
这些硬件进步意味着「每秒 1,200 tokens」不是临时的峰值,而是新的速度基准线。工程实践的调整是必须的,而非可选的。
阅读建议
这篇演讲记录对正在使用或评估高速 AI coding 工具的工程师极为实用。如果你的团队已经在用 Claude Code、Cursor 或 Codex,并且发现 agent 跑出来的代码「很快但很乱」,这篇文章提供的框架可以帮你重新设计团队的工作流程。
阅读原文:快模型需要慢开发者:超高速 AI coding 时代的工程纪律
## 精讲三:我们用 150 个任务测试了 30 个 skill,跑出 7 个反直觉结论
背景:Skill 数量井喷,但有效性存疑
2026 年上半年,AI Skill 的数量出现井喷。各公司纷纷将内部工作流 Skill 化,期待给大模型「加上一个 Skill,立刻变专业」。但当 Skill 数量从十几个膨胀到几百个,一个基本问题被忽视了:装上 Skill 真的就更好吗?
腾讯玄武实验室(TRACE 严选评测团队)没有用「看下载榜」或「跑一次给个分」的轻量方法,而是在统一 prompt、统一裁判、统一评测口径下,让每个 Skill 与「裸模型」(no-skill)跑完 150 组任务级对比,覆盖 30 个 Skill 的成本与稳定性、107 条规范性问题,以及跨模型推理强度的可迁移性测试。
7 个反直觉结论
结论一:有 Skill 不一定效果更好。 150 组对照中,Skill 组胜出 62 次(41.3%),裸模型胜出 55 次(36.7%),平局 33 次(22.0%)。Skill 组只是「略占优势」,远非压倒性。胜负的关键在于:Skill 是否真正提供了裸模型能力之外的东西——清晰的输出结构、外部工具、受约束的工作流,或具体可交付的产物。仅仅把模型「本来就会的事情用 Markdown 重写一遍」的 Skill,带来的是负担而非增益。
结论二:Skill 存在虹吸现象。 13.3% 本应 no-skill 的请求(90 条中有 12 条)被错误召回了某个 Skill。现象背后的逻辑:只要请求中出现了 Skill description 中的相关领域词,系统就可能「忍不住」去读取这个 Skill,即便任务本可以一句话解决。
结论三:多数 Skill 不能节省 token 与时间。 整体数据是:token 消耗平均多了 48%,耗时平均长了 19%。但有例外:当 Skill 提供了明确的流程、收束的输出边界时,模型反而少做了无效探索,整体消耗下降。
结论四:token 高与耗时高相关但不绑定(Pearson r = 0.73)。 存在两类反例:token 高但耗时不高(Skill 让模型读了更多上下文但没增加外部等待);token 不高但耗时高(瓶颈在工具链、Office 脚本执行而非语言模型)。
结论五:规范性问题集中在依赖、边界与资源组织。 30 个 Skill 的 C 维度(结构规范)复评共发现 107 条规范性问题,涉及依赖、维护一致性、资源组织、触发边界四类,且多为 major 级——这些问题会直接影响 Agent 判断「什么时候用、怎么运行、需要什么工具」。
结论六:稳定性风险来自工具链而非模型本身。 近一半的 Skill 都遇到过工具链、外部调用、长等待或反复修正问题。真正的稳定性挑战,不是模型答错,而是工具链失联、外部 API 超时、本地执行环境异常。
结论七:提升推理强度能改善 Skill 表现,但收益不均匀。 在首批 10 个推荐 Skill 上,xhigh 推理强度 vs low:平均质量分从 3.80 提升到 4.70,50 个任务对比中 xhigh 胜 39 个,仅 1 个 Skill 基本持平。但收益最显著的是「需要处理隐藏约束」和「需要细节核对、多步交付」的 Skill;「仅文本生成」的 Skill 收益有限。
与今日其他故事的关联
这篇文章与精讲一和精讲二的主题高度共振。精讲一展示的 Mythos Preview 安全扫描,正是「真正提供了外部工具与约束性工作流」的有效 Skill 案例;精讲二的「信任但验证」工程纪律,对应本文「结论一」中有效 Skill 的设计原则。三篇文章合在一起,构成了一个完整的论点:AI 能力的释放需要精密的人类系统设计,而不只是堆叠功能。
阅读建议
如果你正在设计或评估 AI Skill/Agent 工具包,这篇文章是今天最重要的实证材料。数据详实,结论反直觉但有支撑,对工程团队和产品决策者都有直接参考价值。
阅读原文:我们用 150 个任务测试了 30 个 skill,跑出 7 个反直觉结论
## 速览
[AINews] 所有模型实验室都变成了智能体实验室(Latent Space)
本期 AI 新闻回顾记录了一个重要的行业拐点:在 OpenAI 即将 IPO 的节点上,Greg Brockman 公开表态模型实验室正在转向 Agent 产品。AI21 已关闭模型团队、全面转向 Agent;DeepSeek 首次组建「Harness 团队」——也就是今日另一篇精选文章的主角。Latent Space 的分析指出,「系统优于模型」的论断正在被行业集体验证,但背后也存在一个风险:模型与 Harness 协同训练,可能让 API 生态进一步封闭。
Google Anti-gravity 2.0:以智能体为中心的开发平台和 OS 演示(Google)
Google 在 I/O 2026 上正式发布 Anti-gravity 2.0,这是一个完全以 Agent 执行为核心的独立桌面应用,由 Gemini 3.5 Flash 协调子智能体、hooks、异步任务和大型自动编码流程。亮点包括:全新 CLI 体验、Anti-gravity SDK、原生语音能力,以及与 Android、Firebase、Google AI Studio 的深度集成。Google 自己也在用它——Sundar Pichai 曾用其修复 Google 核心代码库的一个活跃 Bug。
C++ 之父开撕 AI Coding:资深开发者宁愿退休也不愿伺候 AI 生成的代码(InfoQ 中文)
75 岁的 Bjarne Stroustrup 在播客中直言:AI 生成的代码「更臃肿,有更多 bug 和安全漏洞,而且很难验证」,因为 LLM 用旧代码训练,生成的是「旧性能和旧 bug 的模仿」。他观察到一些高级开发者开始退休——不是因为被 AI 替代,而是不想每次改代码、改 prompt,都要重新验证生成物。这与精讲二的「信任但验证」形成了有趣的对话:Stroustrup 的批评指向的正是「验证能力跟不上生成速度」的系统性困境。
Multi-Agent 火了,但 AI 的组织病还没人治|Hao 好聊趋势(腾讯科技)
Harness 解决了 Multi-Agent 的外部协作问题(任务拆分、权限控制、日志追踪),但内部浮现了新的「组织病」:Agent 会从众、迎合、甩锅、过早共识,甚至出现公开表达与私人判断之间的断裂。文章指出,当前主流对齐技术可能加剧而非解决这些深层问题。
模型之外,皆属 Harness!DeepSeek 终于出手:招人、组队、从零造一个中国版 Claude Code(AI 前线)
DeepSeek 公开招募「Agent Harness 产品经理」和「Agent Harness 研发工程师」,明确对标 Claude Code,并提出公式:Model + Harness = Agent。高级研究员陈德里在 X 上的招聘帖获得 30 万浏览,连 Redis 之父都在评论区推荐候选人。这标志着 AI 编程竞争正式从模型层转向模型外层的工程系统。
会记忆的智能体:Memory Stores 与 Dreaming 如何支撑长期上下文(Claude)
Anthropic 工程师在 workshop 中介绍了两个解决 Agent 跨会话失忆问题的架构原语:Agent Memory Stores(文件系统式持久记忆,直接挂载到 session 容器)和 Dreaming(后台整理任务,在空闲时压缩和结构化历史记忆)。这与精讲二提到的「持久上下文文件」策略高度对应,是同一问题的不同解法层次。
Context Engineering:AI Agent 上下文工程的完整指南(王俊博客)
Twitch 高级应用科学家 Marina Wyss 系统梳理了 Context Engineering 的完整方法论:上下文腐烂机制、四大核心策略(Write 写入 / Select 选择 / Compress 压缩 / Isolate 隔离)、四种失败模式,以及 Claude Code、Manus、ChatGPT Agent、Google ADK 的实践对比。如果今天只读一篇「如何让 Agent 不在第 15 步崩溃」的工程指南,选这篇。
## 补充阅读
迈向光速文本生成:Nemotron-Labs 扩散语言模型(Hugging Face Blog)
NVIDIA 的 Nemotron-Labs Diffusion 系列将自回归与扩散生成结合,并行草拟 token 后迭代优化,实现显著更快的文本生成同时保持准确性。关注模型推理效率或新生成范式的读者值得了解。
智能体蜂群缺失的原语:软件工厂、VM 隔离与 CLI 协调层(AI Engineer)
Lou Bichard 认为,真正的「软件工厂」缺少一个专门的 agent 协调原语,用于连接蜂群、跨仓库 fleet、持久工作流、VM 隔离和 CLI 网关。关注 Multi-Agent 基础设施的工程师适合阅读。
企业文档智能:从最小原型到海量语料,逐块构建 RAG 系列(Towards Data Science)
作者认为企业级 RAG 的失败并非基础设施不足,而是忽视了领域知识与文档结构,并提出优先使用确定性检索而非向量存储的四块流水线方案。对 RAG 落地有实践需求的工程师适合系统阅读这个系列。
Bob McGrew 的框架:AI 时代的唯二工作——孤独天才与管理者(Garry Tan)
Garry Tan 引用 Bob McGrew 的框架:AI 将把所有工作压缩为两类——孤独天才(被 AI 千倍赋能的个体)与管理者(指挥 AI 代理的 CEO 式角色),并借 David Graeber「狗屁工作」概念论证这是解放而非毁灭。适合对 AI 与工作未来感兴趣的读者。
从 Prompt 到 Pipeline:Google AI Studio、生成式媒体与 Gemma 4 本地模型栈(AI Engineer)
Google DeepMind 展示从 AI Studio 到 Gemini 媒体模型、程序化生成流程,再到 Gemma 4 本地模型和离线多智能体编码的完整开发者栈。对 Google 生态开发者有参考价值。
EP216:RAG 与智能体(ByteByteGo Newsletter)
用清晰的视觉对比阐述 RAG 与 Agent 在落地 LLM 响应时的不同工作流、使用场景和权衡取舍。适合作为概念入门或团队技术选型的参考材料。
维珍航空如何借助 Codex 加速交付(OpenAI Blog)
维珍航空用 OpenAI Codex 在圣诞节旅行高峰前准时交付了零严重缺陷的改版移动应用,并将遗留代码库重构时间从数周缩短至数小时,代码体积减少 78-80%。是高风险生产环境中 AI coding 落地的实战案例。
npm 供应链:有效证书与失窃账户(VentureBeat)
2026 年 5 月发生的两起重大供应链攻击:633 个恶意 npm 包版本通过了 Sigstore 溯源验证——攻击者用失窃凭证生成了有效签名证书。这暴露了开发者工具生态系统中自动化信任信号的核心弱点。与精讲一的安全主题直接呼应。
"五类人 AI 替代不了,企业做第二名最稳妥" | 昆仑万维方汉@AIGC2026(量子位)
昆仑万维 CEO 方汉指出:经验不再是护城河,闭环可容错的岗位最易被替代;讲故事、创造 idea、定义美、构建系统、重塑范式这五类人无法被替代。他还建议多数企业在 AI 落地中做「第二名」——让别人探路,自己稳妥跟进。
AI 编程进入下半场!新基准不测补丁,拷问真正的工程能力(新智元)
Scale AI 发布 SWE Atlas,用代码理解、测试编写、重构三大维度评估 AI 编程 Agent 的工程能力。结论:当前最强 AI 编程 Agent 是「优秀的补丁工,却仍是糟糕的工程师」——Pass@1 最高仅 43.49%,且在跨文件协调和边界覆盖上明显不足。
拆解 Anthropic:最好的 AI 公司,可能也是一种组织发明(36 氪)
从战略聚焦和组织文化两个维度深度拆解 Anthropic 如何后来居上:ARR 从 9B 增长到 45B,估值在二级市场已超 OpenAI。核心是两个点:2021 年就聚焦 Coding 方向的战略判断,以及 Low Ego、使命驱动的组织文化。
OpenAI 工程师首次公开!教大家榨干 Codex(Datawhale)
OpenAI Codex 团队成员 Jason 分享的 8 大策略:建立长期线程而非每次开新聊天、用语音输入而非过度精炼 prompt、中途纠偏而非事后重来、连接外部工具、自动化重复任务。与精讲二的工程纪律主题高度互补。
企业养虾时代开启?Anthropic 连夜更新架构,中国大厂已经跑通(新智元)
以「养虾」为隐喻分析企业级 AI Agent 落地困境:单用户独占容器导致资源爆炸,几千万只 Agent 各自为政难以治理。阿里云 JVS Crew 平台通过「手脑分离」架构和三层安全墙给出了解法。
#550. AI 资本市场狂热:Anthropic 9000 亿估值、SpaceX 超级 IPO 与 SaaS 旧王的生死转型(跨国串门儿计划)
Harry Stebbings 与 Rory O'Driscoll、Jason Lemkin 的高密度圆桌:拆解 Anthropic 9000 亿融资、AI token 支出是否能支撑万亿级收入预期、SaaS 公司已失去「未来光环」只能靠现金流重新定价,以及 Cerebras、SpaceX 等 AI 基础设施的超级 IPO 机会。关注 AI 资本市场与行业格局的读者适合收听。
英伟达科学家的 20 分钟演讲:机器人终局,2040 预言(十字路口 Crossing)
Jim Fan 在红杉资本 AI Ascent 活动的 20 分钟演讲,用一条推理链串联具身智能的历史、现状与 2040 年终局预测。核心:「Great Parallel」战略(用 LLM 剧本重写机器人)、VLA 时代终结而 WAM 视频世界模型崛起、「算力即环境即数据」等式。
如何拆解一个膨胀的智能体:工具、技能、子智能体与托管运行时(Claude)
Anthropic 工程师 Will 在 Code with Claude 活动中展示:当 Agent 的 system prompt 膨胀到数百行时如何拆解——哪些用工具、哪些用 Skill、哪些升级为子智能体、哪些交给托管运行时。零售库存 Agent「Stock Pilot」是贯穿案例。
用 evals 训练品味:让幻灯片生成智能体从感觉还行走向可靠(Claude)
如何用领域专属 evals 把幻灯片 Agent 的主观质量问题变成可迭代的工程流程,而非依赖通用 benchmark 或「感觉还行」的主观判断。对构建垂直场景 Agent 的团队有直接参考价值。
来自 O'Reilly 的报道:偶然的编排者(Stack Overflow Blog)
介绍「AI 驱动开发」(AIDD)——一种结构化的智能体工程方法,基于作者构建生产级蒙特卡洛模拟系统 Octobatch 的经验,其中所有代码均由 AI 在人类编排下完成。适合探索 Agent 工程方法论的读者。
## 今日阅读路径
时间有限的话,推荐按以下顺序阅读三篇:
第一篇:我们用 150 个任务测试了 30 个 skill,跑出 7 个反直觉结论
这是今天最有实证支撑的一篇,7 个结论直接对抗「装上 Skill 就更强」的默认假设,对任何正在设计或使用 AI 工具链的工程师和产品负责人都有直接价值。先读这篇,建立「不轻信」的基准视角。
第二篇:快模型需要慢开发者:超高速 AI coding 时代的工程纪律
在「Skill 不一定有效」的基础上,这篇告诉你「快速 AI 生成」需要什么样的配套工程纪律。实时监督、持久上下文、信任但验证——这三个原则是今天技术讨论的行动落脚点。
第三篇:Claude Mythos 护网计划:一月发现超 1 万个高危漏洞
在理解了工具有效性和工程纪律之后,用这篇文章感受 AI 能力真正到达边界时会发生什么:不是「它会不会」,而是「人类来不来得及配合」。这是今天最宏观的视角,适合收尾。
译AI能力正于安全与效率两端加速,但人类工程纪律需同步升级。Anthropic的Claude与伙伴在一个月内发现超1万个高危漏洞,表明瓶颈已从“发现”转向“修补部署速度”。工程侧,超高速模型虽达每秒1200 tokens,却要求开发者更慢,进行实时监督与微验收,秉持“信任但验证”原则。同时,腾讯玄武实验室实验揭示,AI Skill并非绝对有效,其优势微弱且可能增加成本,有效关键在于提供真实外部工具或约束结构。AI的能力边界扩张,需要更精密的人类工程纪律来驾驭。
ginobefun@hongming731 · 5月24日42#BestBlogs 早报 2026-05-24
今日主题 🔽
Anthropic 联合 50 家伙伴用 Claude Mythos 在一个月内发现逾 1 万个高危漏洞,安全瓶颈已从「发现」转移到「修补」,AI 找 bug 的速度已超过人类部署补丁的能力。
与此同时,每秒 1,200 tokens 的 Codex Spark 揭示了一个反直觉真相:模型越快,工程师反而要越慢,实时监督、逐步微验收才是高速 AI coding 的核心纪律。
腾讯玄武 150 组实验则用数据打破迷思,装上 AI Skill 不等于更强,token 消耗平均多 48%,真正有效的 Skill 提供的是外部工具与约束性结构,而非对模型能力的Markdown 重包装。
译Anthropic案例显示AI发现漏洞速度已超修补能力,安全瓶颈转移。高速模型如Codex Spark反而要求人类工程师进行更精细的实时监督。腾讯实验则证实,为AI赋能的正解是提供外部工具与结构化约束,而非简单技能包装。这共同指向了更高效的人机协作新范式。
Peter Steinberger 🦞@steipete · 5月24日35codex... made a smiley? :)
译codex... 做了个笑脸?:)
Ethan Mollick@emollick · 5月24日44GPT-5.5 Pro is a very solid fact checker. I can throw entire chapters at it and it will hunt down every key reference accurately. The only real annoyance is that it loves nuance, so returns a lot of “the general idea is right, but you are not taking into account tiny detail X”
译GPT-5.5 Pro是一个非常可靠的事实核查工具。我可以把整章内容丢给它,它能准确找出每一个关键参考文献。唯一的烦恼是它过于注重细微差别,经常返回“大体思路正确,但你没有考虑到微小细节X”这类反馈。
宝玉@dotey · 5月24日42Codex 交互做的真的挺好的,你可以方便的看当前运行的 SubAgents,以及每个 SubAgent 在做的事、用的提示词
译Codex的交互设计确实做得很好,你可以方便地查看当前运行的SubAgents,以及每个SubAgent正在做什么、使用的提示词。
Chubby♨️@kimmonismus · 5月24日54OpenAI: carefully rolls out GPT-5.5-Cyber through Trusted Access for verified defenders
Anthropic: “Claude Mythos is too powerful for public release”
Also Anthropic: accidentally shows Mythos in the UI and immediately runs out of capacity
2026 AI launches are absolut cinema.
Anyways: Mythos incoming?
译2026年AI大模型发布呈现鲜明对比与戏剧性。OpenAI采取审慎策略,通过“可信访问”机制,向验证过的安全专家限量推出GPT-5.5-Cyber。与之形成反差的是,Anthropic官方曾宣称其Claude Mythos模型因过于强大不适合公开发布,但该模型却意外短暂出现在用户界面中,并导致服务容量告罄。现有信息表明,Anthropic正为Claude Mythos(代号claude-mythos-1-preview)在Claude Code与Claude Security等企业产品线上的发布做准备,但这并不等同于面向公众的全面开放。整个过程充满了计划与意外的交织。
Tibo@thsottiaux · 5月24日19Should we bring batch compute to codex? Aka /slow mode
译我们是否应该为Codex引入批量计算?即/slow模式
DogeDesigner@cb_doge · 5月24日13Protect Elon Musk at all costs.
译不惜一切代价保护埃隆·马斯克。
Peter Steinberger 🦞@steipete · 5月24日57I'm refactoring an older part of the codebase (subagents) that touches a lot of code, and autoreview is running for 5h already and fixing tons of issues. https://github.com/openclaw/agent-skills/blob/main/skills/autoreview/SKILL.md
译我正在重构代码库中一个较旧的部分(子代理),涉及大量代码,而自动审查已经运行了5小时,正在修复大量问题。
SemiAnalysis@SemiAnalysis_ · 5月24日64One of the threads we kept pulling on in our recent piece on how AI labs are solving the power crisis is that onsite gas has stopped being a fringe option, and quietly turned into the default planning assumption for the next wave of US training clusters. (1/4) 🧵
译我们最近关于AI实验室如何解决电力危机的文章中反复探讨的一个观点是:现场天然气已不再是边缘选项,而是悄然成为美国下一代训练集群的默认规划假设。(1/4) 🧵
elvis@omarsar0 · 5月24日72Just released my new /lesson-generator skill.
Use it with your agent to learn anything:
- generate lessons/courses on any topic
- include nano-banana images with my /image-generator skill
- present the course as an HTML artifact
And it's also available to use in our academy.
译刚刚发布了新的 /lesson-generator 技能。
与你的代理一起使用它来学习任何内容:
- 生成任何主题的课程/教程
- 结合我的 /image-generator 技能添加 nano-banana 图片
- 将课程呈现为 HTML 作品
它也已在我们的学院中可用。
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 5月24日9*taps sign*
译*轻敲标牌*
[引用 @gregpr07]:我想我知道为什么 DeepSeek 这么厉害
Rohan Paul@rohanpaul_ai · 5月24日62"You could basically imagine, completely neural computers in a certain sense. Imagine a device that takes raw videos or audio into basically what is a neural net, and uses diffusion to render a UI that is unique for that moment in a certain sense."
~ Andrej Karpathy
Going by this, the next big software shift may be that much of the software disappears.
Karpathy’s point is not simply that AI will help us build apps faster; it is that many apps may be artifacts of a world where computers needed every intermediate step spelled out.
He says "I kind of feel like, in the early days of computing, people were actually a little bit confused as to whether computers would look like calculators or whether computers would look like neural nets. In the 50s and 60s, it was not really obvious which way it would go. Of course, we went down the calculator path and ended up building classical computing.
Neural nets are currently running virtualized on existing computers, but you could imagine that a lot of this will flip, and that the neural net becomes kind of like the host process, while the CPUs become kind of like the co-processor."
Classical software treats the CPU as the host process and intelligence as something bolted on through tools, scripts, models, and APIs.
Karpathy is imagining the reverse: the neural network becomes the host process, while conventional code becomes a small deterministic accessory for tasks where exactness still matters.
This is why the future interface may not look like a better app store.
It may look like raw video, audio, documents, or intent entering a neural system, with the interface itself generated for that moment rather than built in advance by a product team.
---
From "Sequoia Capital" YouTube channel, (link in comment)
译Andrej Karpathy 认为,下一代重大软件变革将是大量传统应用的消失。他预言了一种“完全神经化”的计算范式:原始输入直接由神经网络处理,通过扩散模型实时生成专属于当下的界面。当前经典计算以 CPU 为主、智能为辅,而未来神经网络可能成为主导进程,传统 CPU 则退化为处理精确任务的协处理器。这意味着许多现有应用只是过渡产物,未来交互可能不再是静态应用,而是由神经系统根据即时情境生成的动态界面。
Peter Steinberger 🦞@steipete · 5月24日41Still limited by compute, so I built a thing that runs codex in the cloud, powered by @Cloudflare firecracker boxes (and since that's not beefy enough for larger projects, tests are run via crabbox)
Uses Ghostty ofc, via WebAssembly.
Codex replicated itself, basically.
译仍然受限于算力,所以我构建了一个在云端运行Codex的工具,由@Cloudflare的Firecracker实例驱动(由于其性能不足以处理大型项目,测试通过crabbox运行)。
当然使用Ghostty,通过WebAssembly实现。
Codex基本上实现了自我复制。
Yuchen Jin@Yuchenj_UW · 5月24日44Can’t believe I coded by hand for 15 years.
15 years of memorizing syntax, Vim, Stack Overflow, broken builds, cursed dependencies, merge conflicts, and “one last bug before sleep.”
All of that just to end up typing “fix this” into a chat box and watching an agent do crimes.
译不敢相信我手动编程了十五年。
十五年来,我背诵语法、使用Vim、查阅Stack Overflow、处理构建失败、解决依赖冲突、合并代码冲突,还有“睡前再修最后一个bug”。
这一切,最终却只是让我在聊天框里输入“修复这个”,然后看着AI代理搞定一切。
Peter Steinberger 🦞@steipete · 5月24日48I built an autotriage skill for codex that has a set of guidelines + reads VISION.md from my repos, so issues/prs that have a clear way of
- fit vision of the project
- being inferrable in code with high confidence
- clear fix
- can be live tested
Are now worked on autonomously. Codex can use a VM + computer vision (via https://crabbox.sh , new parallels backend) to verify fixes, so it can work without interrupting me. I manually review suggestions. Since it was tedious to type in issues, I added an issue browser into http://repo.bar that parses common clipboard formats by codex so I can click through them conveniently.
译开发者为Codex创建了一套自动化分诊技能,通过预设指南并读取项目VISION.md文件,自动处理符合特定标准的issue和PR。这些标准包括契合项目愿景、代码可高置信度推断、修复方案明确且支持实时测试。Codex利用虚拟机与计算机视觉(通过Crabbox平台)验证修复结果,实现自主工作流,减少人工介入。开发者保留手动审核环节,并在repo.bar中集成了issue浏览器,方便点击处理常见剪贴板格式的问题。该系统旨在提升开发效率,让AI承担重复性代码审查与测试任务。
向阳乔木@vista8 · 5月24日62最近最火的Codex优化网络速度Use Case,写了个提示词,亲测效果不错:
1. 在Codex中输入 “/goal” ,如果中文版输入 “/目标”,如果不用,直接发提示词也行。
2. 提示词如下:
优化当前电脑的网络速度和稳定性。
请按“先诊断、再最小可逆修改、最后复测”的方式执行,不要直接破坏性重置网络。
诊断要求:
1. 先跑 before 基准:networkQuality、DNS 查询耗时、到路由器的 ping、到公网 DNS 的 ping。
2. 区分真实公网链路和本机代理/VPN/TUN:检查 scutil --nwi、route get default、scutil --dns、scutil --proxy。
3. 检查 Wi‑Fi 质量:频段、信道、带宽、RSSI、噪声、Tx Rate、周边干扰。
4. 检查 MTU、丢包、mDNS/DNS 缓存、网络服务顺序。
5. 找出高流量或会接管路由的后台进程,如 VPN、Tailscale、Shadowrocket、Stash、iCloud、Dropbox、网盘、下载器。
优化要求:
1. 只做安全、可逆、低风险修改。
2. 把真实使用的 Wi‑Fi/以太网排到网络服务第一位。
3. 禁用明显无用的伪网络服务或旧网络服务,但不要删除配置。
4. 根据实测 DNS 延迟设置更快的 DNS。
5. 刷新 DNS 和 mDNS 缓存。
6. 停止或提示我关闭明显占用带宽的后台程序。
7. 如果需要 sudo 或会影响 VPN/远程连接,先说明风险,不要强行执行。
复测要求:
1. 再跑 after:networkQuality、DNS 查询耗时、路由器 ping、公网 ping。
2. 对比 before/after:下行、上行、空闲延迟、加载延迟、丢包、DNS 耗时。
3. 总结发现的 3 个主要问题、已修复项、未修复但建议手动处理项。
译这是一个为Codex设计的网络优化提示词,其核心逻辑是遵循“先诊断、再最小可逆修改、最后复测”的安全操作流程。诊断阶段需全面检测网络基准性能、Wi-Fi质量及后台进程,优化阶段则仅执行如调整服务顺序、设置DNS等低风险、可逆的调整。最后通过对比优化前后的数据验证效果。整个流程旨在确保网络调优过程安全、可追溯且有效。
Greg Brockman@gdb · 5月24日24good location to build
译适合建设的优质地点
向阳乔木@vista8 · 5月24日16今晚跟 @HiTw93 直播的内容总结。
主持人 @yuanzi_owO(元子)和我,干货很多,也终于知道为啥人家做的产品审美都那么好!
译直播中与@HiTw93及主持人元子深入交流,探讨了优秀产品设计中“审美”的成因。核心观点在于,出色的审美并非偶然,而是源于对设计本质的思考与实践。引用的@vista8文章提供了背景案例,进一步说明设计思维如何具体影响产品呈现。这场讨论揭示了高审美产品背后的方法论与洞察。
宝玉@dotey · 5月24日59这种需求“置顶”几条对话就可以了,可以随时聊
但没必要所有任务都这么做
译推文讨论了AI对话中session的组织方式。其核心观点是,不必为每个具体功能都创建单独session,更适合的做法是将一个项目相关的对话集中管理,通过“置顶”几条关键对话来满足持续需求。这种按项目整合session的做法近期已成为流行实践,但同时认为所有任务都采用这种模式也无必要。
Berryxia.AI@berryxia · 5月24日26这几个好用的工具,你肯定还有不知道的。
记得回来报个信儿~😄
不废话,看图👇🏻。
译这几个好用的工具,你肯定还有不知道的。
记得回来报个信儿~😄
不废话,看图👇🏻。
Chubby♨️@kimmonismus · 5月23日49Many of the best researchers at OpenAI, Anthropic, Google, Meta and other frontier labs are not U.S. citizens. They are in the U.S. on temporary visas while building the very systems Washington increasingly describes as critical to national security.
Forcing them to leave the country to apply for a Green Card adds uncertainty, delays and risk to one of America’s biggest advantages: attracting the world’s best technical talent.
I'm not American, so take this with a grain of salt. But from what I've researched, it makes many things significantly more complicated for OpenAI and Anthropic.
译美国前沿AI实验室(如OpenAI、Anthropic)的核心研发人员多为持临时签证的非美国公民。美国国土安全部(DHSgov)近期收紧政策,要求在美持临时签证者须离境返回原籍国才能申请绿卡。此举为OpenAI、Anthropic等公司顶尖人才的绿卡申请流程增加了不确定性、延迟和风险,可能动摇美国吸引全球顶尖技术人才的关键优势,并对其国家安全所倚重的AI系统研发生态构成潜在冲击。