AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态X · 3992 条
全部一手资讯X论文
向阳乔木@vista8 · 5月23日67

http://x.com/i/article/2058212813622087680 # 「未来硅世界16期」访谈:tw93的开源故事和经验 一个人,有正职,有家庭,还有个小女儿。 却在 13 年里,靠着长假、早起、和游泳池边的笔记本,做出了六款被硅谷 CTO、Pinterest、YC 创始人都在用的开源工具。 这位大神的 X 账号是 HiTw93,GitHub ID 是 tw93。 > https://x.com/HiTw93 > https://github.com/tw93/ ## 六个产品,六个"自己先用烦了"的故事 tw93的第一个产品妙言,起因很简单:找不到一款顺手的 Markdown 编辑器。 他本职是前端工程师,讨厌 Electron 那种重框架,就决定学 Swift 自己写一个。 边学边做,做完刚好学会了 Swift,顺手还摸透了 Apple 底层的渲染性能。 比如 Markdown 标题的语法高亮,直接用正则去写,性能远高于 Web 渲染的编辑器。 妙言到今年已经快 6 年了。 Pake 的起源也是很巧合。 他有个习惯,每年会分享一次自己电脑上装的好用工具。 那一年他喜欢用微信读书,但微信读书没有桌面端,就用 UI 框架打包了一个。 发出去以后,大家发现他分享的软件里将近三分之一是自己写的,纷纷来问微信读书那个怎么打包的。 代码也就几百行,他就顺手开源了。 没想到 Pake 在国外比国内火。 老外很喜欢把网页打包成 Mac 客户端,但用 Electron 打包太重,Pake 刚好解决了这个问题。 很多台湾的朋友帮他推广宣传,因为他们特别喜欢打包这件事。 潮流周刊的起源更早,大概七年前他开始带团队,发现团队的技术氛围不够强,就立了个 flag:每天早上看一些开源工具和技术资讯,整理成内部周刊发在公司语雀上。 后来很多人离职,问他能不能在外面看,他就顺手放到了 GitHub 的 README 里。 过了半年,国庆在老家,花了两天时间做了个网站,就这么发出去了。 Mole 的前身是他在本地跑了一年的 Shell 脚本,快 1000 行,专门清理程序员电脑上的垃圾缓存。 他每年会买很多正版清理软件,比如 iStatistica、CleanMyMac,但觉得太重。 去年国庆带宝宝去三亚度假,游泳池边放了台电脑,游一圈回来歇着的间隙,把 Mole 的第一个版本写出来了。 Kaku 是他 fork 了一个终端工具,在本地改了半年,过年期间才发出来。 他最早用一款极轻量的终端,配得很好看,但 AI 时代来了以后必须多窗口,那款工具不支持。 找来找去,只有一个项目改得动,就自己动手了。 Kami 的起源是他做投资。他七八年前开始投资美股,本地写了一套多 agent 的投资分析系统,但 AI 生成的报告太丑,就按自己的审美调了一版。 后来看到推特上大家发的报告也不够好看,就开源出去了。 顺带一提,他还在做一套自己的字体,目前完成了三分之一,因为他常用的那款字体(仓耳今楷TsangerJinKai)是商业字体,开源产品可以用,但涉及商务合作就麻烦了。 Waza 是他把将近一年、五六个 G 的 Claude 对话记录沉淀出来的工程技能库。 他用 AI 分析了所有对话,按项目维度、时间维度拆解,提炼出最佳实践,包括怎么回复海外用户的需求、哪些 PR 该合、哪些功能该做。 这个逻辑贯穿了他所有产品:不是先想"我要做什么",而是先碰到了一个让自己难受的问题,顺手把它解掉。 ## Mole 为什么 70% 的用户在海外? Mole 发布后,超过 70% 的用户来自海外,原因有几层: 第一,老外其实更节俭。 欧美用户会把一台 Mac 用很多年,用久了会很卡。 用 Mole 清了 60G、100G 的垃圾,他们会非常激动,然后疯狂去推广。 tw93说,老外说话夸张,会直接说"我要给你跪下,你是个天才"。 第二,更懂程序员的“清理”工具。 传统清理软件不关心程序员的各种开发工具的缓存等,比如CleanMyMac等工具,出于安全考虑,不会去动那些深层的开发缓存。 但 Mole 是程序员写给程序员的,知道哪些东西可以清。 第三,开源本身就是最好的产品迭代机制。 Mole 有 300 个 PR,100 个贡献者,全是海外用户。 每个人的电脑环境不同,国家不同,技术工种不同,这些贡献让 Mole 能清理的东西越来越多,这是任何公司产品都做不到的。 当然也踩过坑。第一版发布时,因为tw93自己的环境偏前端,没有数据库相关配置,结果把一个用户 JetBrains 数据库工具里存在 cache 目录的账号密码全清掉了。 那个用户很生气,他也很抱歉。 这件事让他意识到,很多客户端产品的文件路径规范极其混乱,普通用户不关注,但清理工具必须关注。 Mole 后来给 JetBrains 全系产品开了白名单,也因为这个教训越做越严谨。 还有一个细节能说明 Mole 的热度。 他当时把两张图片放到了 Vercel 的 CDN 上加速,不到一周,Vercel 发来紧急通知说他欠了 80 美元。 他以为不可能,去查了一下,发现就是那两张图片,用了 80T 的流量,就几分钟时间。 他立刻意识到,这个 README 有大量的人在访问。 ## 第一款付费产品,每 10 秒收一笔钱 Mole 推出桌面端时,tw93周一晚上 10 点发布,因为白天在上班。 发出去之后,手机大概每 10 秒响一次支付通知,后来连 iPhone 都开始发烫。 睡觉前,他不得不把 Google 的通知全部关掉,不然睡不着。。 定价 9 美元终身买断,很多人说他卖太便宜了。 当然也有喷子说,你不就把 CLI 包了一下吗? 他觉得无所谓。他本来就不是靠这个赚钱的。 他最开心的是,有人用了以后愿意主动打赏。免费的东西,有人愿意付钱,说明做的东西是有意义的。 手机弹出微信通知"谁谁谁又给你打赏了",他说那种感觉真的会很开心。 支付对接用的是 Dodo Payment,一家印度小哥创立、注册地在美国的支付平台。 他之前试过 Stripe,走到最后一步,对方要香港身份证,卡死了。 Lemon Squeezy 也要求提供公司信息,个人用不了。 后来在推特上看到有人推荐 Dodo,花了一个下午接好,发布了。 不过支付平台会收 16%、17% 的税,后来 Dodo 的 CEO 办公室的人主动在推特上找到他,把他拉进了专属服务群,还给了一些费用减免。 关于收款,他有一个实操建议:超过 1 万美元,立刻会有很多人来找你核查,非常麻烦。尽量把钱放在香港卡或新加坡卡,不要直接汇回国内。 他自己就因为这个折腾了几次,最后把钱退回去重新想办法,不过他夸了招商银行的服务人员会为客户着想。 ## Waza:把自己的工程经验,变成 AI 的本能 tw93有一个习惯:每周花一小时,让 AI 分析他过去一周的踩坑记录,然后更新 Waza。 Waza 是他的 Claude Code 技能库,但跟大多数人写的 Skills 不一样,他 70% 是代码,只有 30% 是 Markdown 文档。 原因是:MD 只是告诉 AI 怎么干活,代码是让 AI 能基于它去扩展。 他不喜欢那种把 AI 手脚拴住的框架,比如 Superpower、Spec 编程,觉得太重,而且会拖模型能力的后腿。 他更愿意把 AI 当朋友,而不是外包或下属。 他说,Claude 4.6、4.7 出来以后,模型能力越来越强,你越约束它,其实是在拖它的后腿。 Waza 里有 8 个 Skill,覆盖的不只是写代码,还有怎么推进项目、怎么做技术方案、怎么写让读者看得懂的文档、怎么画设计稿。 因为在他看来,一个工程师只有 30% 的时间在写代码,其余的能力同样重要。 Waza 本身也会自我迭代。 它知道自己的迭代方式,所以tw93只需要定期喂给它新的踩坑记录,它会自己更新。 现在 Waza 也支持了 Codex,因为他自己开始用 Codex 了,所以它也去分析 Codex 的对话记录。 他本地还有一个基于 Waza 的私人 agent,专门帮他处理开源项目的 issue 和 PR。 这个 agent 知道他对 Mole 的调性要求,知道哪些功能坚决不能合,哪些 PR 写得有问题但可以改好,哪些直接不合适。 他把自己从最耗时间的事情里解放出来,专注于写新功能。 ## 为什么他的东西好看? 很多人用完tw93的工具,第一反应是:怎么这么好看? 他给了几个原因。 大学时保研后有大量空闲时间,把图书馆里所有前端和设计相关的书都看完了。 设计思维、极简主义、日本设计原理,那个阶段打下的审美底子,后来工作了才慢慢显现出来。 入职后,他最喜欢跟设计师玩,经常一起讨论设计细节,受他们审美影响很深。 后来负责整个部门的 ToB 产品,发现用文档跟人对齐方案,大家理解都不一样。 最后发现最有效的办法是直接画一张高保真 Sketch 稿,发群里拉个会,大家立刻就 get 了。 为了不让一件事反复讨论,他逼着自己学会了画稿。 还有一个更底层的原因:他是强迫症。 他说自己刚入职时,QA 同学测不出他写的页面有 bug,他的代码可以免提测直接上线。 这个习惯一直延续到做开源产品。做到 75 分没 bug 不够,他要做到 95 分。 不是为了炫技,是因为他受不了丑的东西,也不想让用户反复来问他。 他最近还在看元至清的中国古画,以及日本设计原理方面的书。 他说很多古画看不懂意境,但看画家怎么画马、怎么构图,还是能 get 到一些东西。 ## 关于长期主义,他说的最实在的一句话 "长期主义能帮你更好地偷懒。" 他在一家公司工作了 11 年没换过。 他买特斯拉股票是在 100 多美元,买英伟达股票是在 80 多美元,买了以后从来不卖,一年只操作两三次。 他说他很讨厌做判断,因为一旦有多个选项就会很纠结,那几天都会很难受。 所以他尽量在需要做判断之前,就把很多事情提前决定好,这样就不用反复纠结了。 长期主义在他这里不是口号,是一种减少决策消耗的生活方式。 他的 GitHub 只有 6 个 pin 位,全占满了,不会再开新坑。 他认为,同时做 100 个产品,100 个都做不好。把现有的几个维护好,复利会越来越强。 Mole 发布半年,已经迭代了将近 40 个版本,用的人越来越多,知道这个产品的人越来越多,这才是真正的积累。 他还提到一个反直觉的观察:妙言在真正公布之前,已经迭代了半年多,用户量一直很少。 一推出去,数据直接从平线拉起来。 酒香也怕巷子深,你还是得在适当的时候把门面讲清楚。 ## 给非技术人用 vibe coding 的建议 他说,非技术人做产品,最大的风险不是写不出代码,而是不懂通识,半年后代码跑不动了,自己也不知道出了什么问题。 他举了个例子:AI 能把一个产品做到 80% 很容易,但从 80% 到 100%,可能要花 80% 的时间。 很多人不懂这一点,觉得前端也就这么回事,后端也就这么回事,我什么都不会,app 就写出来了。 但这个 app 想从你能用到 100 个人能用,中间有大量你发现不了的 bug,因为你不具备找 bug 的能力。 他推荐了几本书: - 《人月神话》:理解为什么软件项目不能靠堆人解决,AI 时代同样适用 - 《启示录》:理解怎么做产品取舍、怎么定义最小闭环、怎么规划里程碑 - 《左耳听风》(耗子哥的博客和书):理解一个资深工程师是怎么看问题的 - 《Linux/Unix设计思想》:一本很薄的书,讲原子能力、管道、系统设计的底层逻辑,他说大学看完以后有种"功力大增"的感觉 他的核心观点是:你不需要会写 React,但你要知道什么时候该用 React、什么时候只需要一个静态服务器。 这种判断力,才是 vibe coding 时代真正的护城河。 ## 最值得收藏的一个观点 他说,在 AI 时代,真正的壁垒不是你做出了什么工具,而是你和 AI 的聊天上下文。 别人可以把你的产品蒸馏走,但没办法蒸馏你踩过的坑、你的判断逻辑、你和 AI 反复打磨出来的那些失败路径。 他特别强调:记录失败比记录成功更重要。 成功的东西大家只看结果,失败的路径才能告诉你下次怎么绕开。 就像线上系统挂了,你一定会去查挂在哪里,但系统跑得好的时候,没人会去研究它为什么好。 关于记忆系统的设计,他有一个很有意思的框架:按照人类记忆的方式来设计。 大语言模型本来就是基于人类语言训练的,所以记忆系统也应该像人一样,有项目上下文记忆(当前在做什么)、短期记忆(最近遇到的卡点)、长期记忆(历史积累)。 他不太推荐直接给 AI 灌知识库,因为知识会过期,灌进去的人可能自己也不知道哪些已经过时了。 把你和 AI 的所有对话记录保护好,把 AI 帮你干成和干失败的记录都保存下来。 这些东西,才是别人学不走的东西。 ## 出海商业化的几个实操细节 如果你打算做出海产品,他的经验是: 个人身份对接商业资源,天然处于劣势。 建议注册一家美国小公司,费用不高,每年记得报税就好。 有了美国公司主体,App Store 账号、支付平台、云服务商,都以公司名义对接,中国个人身份的限制就绕开了,税率也会低一些。 支付平台不要自建,也不要用那些知名大平台。 Stripe 对中国个人限制很多,走到最后一步会卡死。他推荐 Dodo Payment,印度小哥做的,注册地在美国,响应速度快,能处理全球支付和各国税务合规,包括欧盟要求的 14 天无理由退款政策。 售后系统不要过早做。 前期专注把主产品做好,用户量还不大的时候,手工回邮件、手工点退款就够了。 很多程序员喜欢把所有东西都自动化,但这个阶段的精力应该全放在产品本身。 这场对话里,tw93反复说的一件事是:他的所有产品,都是先解自己的问题,然后发现有人跟他有同样的问题,才开源出去的。 这个逻辑听起来简单,但能坚持 13 年、做出 6 个有人用的工具,背后是他对"不做什么"的极度克制,对"做好一件事"的极度专注。 如果你现在也在想做点什么,他的建议是:先找到那个让你自己最难受的问题,把它解掉。 不用想太多,先解自己的问题。

译个人开发者tw93在全职工作与家庭之余,独立开发了妙言、Pake、Mole等六款深受海外用户欢迎的开源工具。其产品均始于解决自身痛点,如Mole因精准清理程序员电脑缓存,超过70%的用户来自海外。tw93强调产品美学与极致完成度,并将工程实践与AI协作经验沉淀为开源技能库Waza。他的实践展示了如何通过解决真实问题、坚持开源社区协作以及将AI作为协作伙伴,构建具有全球影响力的项目。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月23日60

Meta paper shows that coding agents get much better when they reuse short summaries of past attempts instead of raw logs. i.e. stronger coding agents do not just need more attempts, but better ways to remember attempts. That sounds obvious until you look at what an agent actually produces: not an answer, but a messy trail of file reads, shell commands, errors, partial fixes, and abandoned ideas. The paper’s idea is to turn each full attempt into a compact summary of the main guess, partial progress, and failure points, then use those summaries both to pick the best attempts and to guide new ones. Test-time scaling breaks when the model cannot compare its own past work. For short answers, ranking is easy. For long-horizon coding, the bottleneck shifts from generation to representation. Once rollouts become summaries, two useful things happen. The system can run tournament-style selection over small groups of candidates, which works better than forcing one giant comparison, and it can feed the best summaries back into a fresh round of attempts instead of starting blind. --- The authors test this on 2 hard coding benchmarks by running many attempts in parallel, selecting promising summaries with a tournament style voting method, and then launching fresh attempts that can read the selected summaries first. The results are strong, with Claude 4.5 Opus rising from 70.9% to 77.6% on SWE-Bench Verified and from 46.9% to 59.1% on Terminal-Bench v2.0. What matters is that the paper says better test-time scaling for long coding agents is not mostly about making more attempts, but about storing experience in a form the agent can actually reuse. ---- Paper Link – arxiv. org/abs/2604.16529 Paper Title: "Scaling Test-Time Compute for Agentic Coding"

译Meta研究发现,在编程智能体任务中,通过复用过往尝试的简短摘要,其性能显著优于使用原始日志。该论文指出,对于长程编程任务,主要瓶颈已从代码生成转向了如何有效记忆与表示智能体的工作过程。其方法是将每次充满错误的“混乱轨迹”转化为包含核心假设、进展与失败点的紧凑摘要,系统通过锦标赛式选择最佳摘要来指导新一轮尝试。在Claude 4.5 Opus的测试中,该方法使其在SWE-Bench Verified上的得分从70.9%大幅提升至77.6%,证明提升性能的关键在于以可复用的形式存储经验。

查看原推 ↗
SemiAnalysis@SemiAnalysis_ · 5月23日55

FACT ALERT 🚨 : In modern agentic coding, 42% of the time is spent on CPU doing tool use such as editing files, running Bash scripts, running lints, etc. The economy of traditional cloud computing charges at $ per cpu core. In the economy of agents, the business model is $ per token thus to increase token revenue, you need to increase the amount of CPUs power u have so that you can generate your tokens.

译事实警报 🚨:在现代代理式编程中,42%的时间用于CPU执行工具操作,如编辑文件、运行Bash脚本、执行代码检查等。传统云计算经济按CPU核心数收费,而代理经济的商业模式是按token计费。因此,要增加token收入,你需要提升CPU算力以生成更多token。

查看原推 ↗
Chubby♨️@kimmonismus · 5月23日72

http://x.com/i/article/2058171296316297216 # The Battle for AI Silicon: a brief overview of the chip market and who is winning This is a version that normally appears in the newsletter every Saturday. I thought, because it's so important, that I should publish it here today as well. Two days ago, NVIDIA reported $81.6 billion in quarterly revenue, with data center sales alone hitting $75.2 billion, up 92% year over year. Those numbers are so large they almost lose their meaning. To put them in perspective: NVIDIA's data center business now generates more revenue in a single quarter than most Fortune 500 companies produce in an entire year. The AI chip market has become one of the most consequential economic arenas on the planet, determining who can train the next frontier model, who can serve billions of inference requests, and ultimately, who controls the infrastructure layer of artificial intelligence itself. But beneath the headline dominance, something more interesting is happening. The market is fragmenting. Google has split its latest TPU generation into two separate chips for the first time, one for training, one for inference. AMD is shipping competitive hardware and building rack-scale systems that directly challenge NVIDIA's architecture. Cerebras and Groq have demonstrated that specialized silicon can outperform general-purpose GPUs for specific workloads by an order of magnitude. And in China, Huawei is assembling a parallel compute ecosystem that operates entirely outside the Western supply chain, with DeepSeek's V4 model now running natively on Chinese chips. The question worth examining is whether NVIDIA's position as the undisputed platform of AI compute will hold as the market matures, or whether the shift from training to inference, the rise of vertical integration, and the geopolitical fracturing of the semiconductor supply chain will produce a fundamentally different competitive landscape. # NVIDIA: The Platform, Not Just the Chip Understanding NVIDIA's dominance requires looking beyond raw compute performance. The company's real advantage is systemic. CUDA, the programming framework introduced in 2006, has accumulated roughly four million developers worldwide. Every major AI lab, from OpenAI to Anthropic to Meta AI, builds on CUDA. The libraries, the debugging tools, the kernel optimizations, the deployment pipelines: they all assume NVIDIA hardware. Switching costs are not just financial but organizational. Migrating away from CUDA means rewriting code, retraining teams, and accepting months of reduced productivity. On top of this software moat, NVIDIA has built what analysts increasingly call a "copper moat," the proprietary NVLink interconnect system that connects GPUs within rack-scale systems at bandwidths far exceeding any external networking solution. The latest Blackwell 300 and upcoming Vera Rubin platforms sell not as individual chips but as integrated AI factories: dozens of GPUs, custom CPUs, liquid cooling, high-bandwidth memory pools, and networking fabric bundled into a single purchasable unit. For customers building large training clusters, this integration eliminates enormous amounts of engineering work. The financial results reflect this. NVIDIA's fiscal 2026 revenue reached $215.9 billion, with $193.7 billion from the data center segment alone, a 68% increase year over year (NVIDIA, 02/25/2026). The company's Q2 FY2027 guidance of $91 billion suggests the trajectory has not slowed. Gross margins remain near 75%, indicating that despite increasing competition, NVIDIA retains substantial pricing power (SEC Filing, 05/20/2026). The roadmap underscores the strategy. Blackwell Ultra ships this year, Vera Rubin follows in the second half of 2026 with HBM4 memory and a new CPU architecture, and Rubin Ultra arrives in 2027 with four GPU dies per package and up to one terabyte of HBM4e. NVIDIA has deliberately shifted to a one-year product cadence, which creates a structural problem for competitors: by the time a rival ships a chip designed to match Blackwell, NVIDIA has already moved on to Rubin. # Google TPU 8t/8i: Vertical Integration as Weapon Google represents the most serious long-term threat to NVIDIA's position, but the nature of that threat is often misunderstood. Google does not need to replace NVIDIA on the open market. Google needs to reduce its own dependency on NVIDIA within Google Cloud and for its internal AI workloads, primarily Gemini and DeepMind's research. The eighth-generation TPU, announced at Google Cloud Next in April 2026, marks an architectural first: Google split the design into two distinct chips. The TPU 8t is built for large-scale training, scaling up to 9,600 chips per superpod with a new optical 3D torus interconnect called Virgo that can link over one million TPU 8t chips in a single cluster with near-linear scaling efficiency. The TPU 8i targets inference and reasoning workloads, featuring 288 GB of HBM alongside 384 MB of on-chip SRAM, three times more than the previous Ironwood generation, specifically designed to hold the large key-value caches that modern language models require during inference (Google Blog, 04/22/2026). The split is important because training and inference have fundamentally different hardware requirements. Training demands raw compute throughput and massive parallelism. Inference, especially for reasoning models and agentic systems that chain multiple inference calls together, demands low latency, large memory for context windows, and energy efficiency. By building dedicated silicon for each workload, Google can optimize in ways that a general-purpose GPU never can. The deeper advantage is vertical integration. Google controls the models (Gemini), the cloud platform, the data centers, the chip design, and the internal demand. DeepMind acts as a permanent large-scale customer whose needs feed directly back into hardware design. This kind of hardware-model co-design is extraordinarily difficult for a merchant chip vendor like NVIDIA to replicate. The critical limitation remains ecosystem breadth. TPUs are powerful within Google's software stack, particularly JAX and Pathways. Outside that world, they are far less portable than CUDA-based GPUs. Notably, Google itself continues to offer NVIDIA's Vera Rubin platform on Google Cloud, a tacit acknowledgment that many customers still need or prefer the NVIDIA ecosystem (TechCrunch, 04/22/2026). Google's TPU strategy is best understood not as a frontal attack on NVIDIA, but as a dual-sourcing and bargaining play. # AMD, Cerebras, Groq: Challengers From Every Angle AMD occupies the most strategically important position after NVIDIA and Google. For any enterprise or hyperscaler seeking to reduce NVIDIA dependency without committing to Google's vertically integrated stack, AMD is the natural alternative. The company reported $34.6 billion in total revenue for 2025, with its data center segment growing 39% year over year in Q4 (AMD, 01/2026). The current MI350 series ships with 288 GB of HBM3e and up to 8 TB/s of memory bandwidth. The upcoming MI400, expected in the second half of 2026, targets direct competition with NVIDIA's Vera Rubin. AMD's most powerful weapon may ultimately be price: reports suggest MI450 could be priced approximately 40% below comparable NVIDIA chips (SemiAnalysis, 2026). The persistent challenge remains ROCm, AMD's CUDA alternative, which has improved substantially but still lacks the depth of NVIDIA's developer ecosystem. Cerebras and Groq have abandoned the GPU paradigm entirely for inference workloads. Their argument is simple: during autoregressive token generation, the workload is memory-bandwidth-bound, not compute-bound. GPUs are structurally mismatched for this task. Cerebras addresses this with the Wafer Scale Engine, a single chip occupying an entire silicon wafer, holding 4 trillion transistors and 44 GB of on-chip SRAM. Independent benchmarks confirm that the CS-3 delivers 21 times faster throughput than NVIDIA's B200 at 32% lower cost for inference workloads (SemiAnalysis, 2025). In May 2026, Cerebras partnered with AWS to offer its inference capabilities through Amazon Bedrock. Groq takes a different path. Its Language Processing Unit uses static compiler scheduling, where the entire execution graph is planned down to individual clock cycles before inference begins. The result is deterministic latency: every token takes exactly the same amount of time to generate. Groq achieves up to 1,200 tokens per second for large models with sub-100 millisecond time-to-first-token. In December 2025, NVIDIA acquired a non-exclusive license to Groq's inference technology, a strong signal that even the market leader sees SRAM-centric architectures as the future of inference (Groq, 12/2025). # DeepSeek V4 on Huawei Chips: China's AI independence becomes real The geopolitical dimension of the chip market has moved beyond theory into operational reality. Since 2020, US export controls have blocked Huawei and SMIC from accessing EUV lithography machines. Without EUV, cutting-edge chip production below 7nm was widely considered impossible. Yet SMIC has found a workaround using DUV lithography with quadruple patterning, enabling structures in the 5nm class, albeit with severe tradeoffs: early yield rates around 20%, meaning four out of five chips came off the line defective (Asia Financial, 2025). Huawei's CloudMatrix 384 system integrates 384 Ascend 910C chips and delivers approximately 300 petaflops of BF16 compute, nearly double NVIDIA's GB200 NVL72. The cost: 3.9 times the power consumption and roughly triple the price (Igor's Lab, 2025). China's strategy is brute force, compensating for chip-level inefficiency with sheer scale. This works because energy is cheaper and more abundant in China: the country plans to add 3.4 terawatts of new generation capacity over the next five years, nearly six times the US figure (Oxford Energy, 02/2026). The decisive turning point came in April 2026, when DeepSeek released V4, the first Chinese frontier model explicitly trained and optimized for Huawei Ascend chips. V4 uses a mixture-of-experts architecture with up to one trillion total parameters, 37 billion activated per inference. Following the release, China's largest tech companies, Alibaba, ByteDance, and Tencent, rushed to secure hundreds of thousands of Huawei chips (Reuters, 04/29/2026). What DeepSeek demonstrated is that the bottleneck was never hardware alone, it was the software layer: compilers, distributed training frameworks, communication libraries. With V4, that software stack has reached sufficient maturity. A fully China-controlled AI ecosystem that does not require CUDA now exists. # Conclusion The AI chip market in 2026 is splitting along three axes. Workload: training remains NVIDIA-dominated, while inference opens doors for specialists. Openness: NVIDIA locks in via CUDA/NVLink, Google offers vertical optimization, AMD provides the open alternative. Geopolitics: two parallel ecosystems are now operational, Western (NVIDIA/CUDA) and Chinese (Ascend/CANN). The market is not witnessing a dethroning, but a fragmentation that rewards different architectures for different purposes. NVIDIA is not about to be dethroned. No competitor matches its combination of compute performance, software ecosystem, production volume, system integration, and supply chain depth. The company's $81.6 billion quarterly revenue and 75% gross margins speak to a business with extraordinary structural advantages. But the nature of those advantages is shifting. The CUDA moat is being complemented and partially superseded by the "copper moat," the proprietary networking stack that binds customers at the system level. The more important development is that the market itself is diversifying. Inference, which is growing faster than training and will likely constitute the majority of AI compute demand within the next two to three years, favors different hardware characteristics: low latency, large on-chip memory, energy efficiency, and deterministic performance. This is the opening that Cerebras, Groq, and Google's TPU 8i are exploiting. China's AI compute ecosystem is becoming functionally independent, not through chip-level parity but through a combination of brute-force scaling, cheap energy, model-architecture optimization, and a maturing domestic software stack. The AI chip market of 2030 will not be a single global arena. It will be two parallel systems with limited interoperability, each with its own hardware standards, software ecosystems, and competitive dynamics. The battle for AI silicon is no longer just a corporate rivalry. It is a contest over the means of production for the most consequential technology of our time. Sources: 1. NVIDIA FY2026 Annual Results (02/25/2026) https://nvidianews.nvidia.com/news/nvidia-announces-financial-results-for-fourth-quarter-and-fiscal-2026 / NVIDIA Q1 FY2027 Earnings (05/20/2026) https://nvidianews.nvidia.com/news/nvidia-announces-financial-results-for-first-quarter-fiscal-2027 1. Google Blog: TPU 8t and 8i (04/22/2026) https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/eighth-generation-tpu-agentic-era/ 1. TechCrunch: Google Cloud TPU chips vs NVIDIA (04/22/2026) https://techcrunch.com/2026/04/22/google-cloud-next-new-tpu-ai-chips-compete-with-nvidia/ 1. AMD Instinct MI350 and beyond (06/2025) https://www.amd.com/en/blogs/2025/amd-instinct-mi350-series-and-beyond-accelerating-the-future-of-ai-and-hpc.html 1. SemiAnalysis: AMD MI350/MI400 analysis https://newsletter.semianalysis.com/p/amd-advancingai-mi350x-and-mi400 1. SemiAnalysis: Cerebras inference https://newsletter.semianalysis.com/p/cerebras-faster-tokens-please 1. Groq and NVIDIA licensing agreement (12/2025) https://groq.com/newsroom/groq-and-nvidia-enter-non-exclusive-inference-technology-licensing-agreement-to-accelerate-ai-inference-at-global-scale 1. Reuters: DeepSeek V4 adapted to Huawei chips (04/24/2026) https://www.reuters.com/world/china/deepseek-v4-chinese-ai-model-adapted-huawei-chips-2026-04-24/ 1. Reuters: Chinese firms scramble for Huawei chips after DeepSeek V4 (04/29/2026) https://www.reuters.com/world/china/big-chinese-tech-firms-scramble-secure-huawei-ai-chips-after-deepseek-v4-launch-2026-04-29/ 1. Oxford Energy: China data centre advantage (02/2026) https://www.oxfordenergy.org/wpcms/wp-content/uploads/2026/02/Comment-The-China-data-centre-advantage.pdf 1. Epoch AI: AI Chip Production (01/2026) https://epoch.ai/data-insights/ai-chip-production 1. Epoch AI: Hyperscalers and compute ownership (04/2026) https://epoch.ai/data-insights/hyperscalers-control-most-compute 1. Epoch AI: AI chip supply chain constraints (03/2026) https://epoch.ai/data-insights/ai-chip-supply-chain-constraints 1. Epoch AI: Hyperscaler capex trend (02/2026) https://epoch.ai/data-insights/hyperscaler-capex-trend

译NVIDIA凭借CUDA软件生态与NVLink互联技术构建了强大系统性壁垒,在数据中心业务保持高速增长。然而市场正加速分化:Google将TPU拆分为专用芯片,AMD推出机架级系统正面竞争,Cerebras等专用芯片在特定任务上展现数量级优势。与此同时,华为正构建独立于西方供应链的并行计算生态。随着AI负载从训练转向推理,加上垂直整合趋势与地缘政治影响,AI基础设施的竞争格局可能迎来根本性重塑。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月23日74

Satya Nadella reveals how Microsoft is applying the concept of "Lean for knowledge work" internally with AI. The internal ROI on AI investment and leveraging the cost reduction effect of AI. Borrowing from Toyota's manufacturing efficiency principles and applying them to white-collar operations powered by AI. e.g. Microsoft spends approximately $4 billion per year on customer support operations. By deploying AI agents for front-end deflection (resolving issues before they reach human agents) and real-time reasoning assistance for support staff, they are dramatically reducing costs in areas like Xbox and Azure support. --- From "Bg2 Pod" YT channel ( link in comment)

译Satya Nadella透露微软正借鉴丰田精益生产原则,将“精益知识工作”理念应用于内部AI运营。通过计算AI投资回报并利用其成本削减效应,微软在白领工作中部署AI以优化流程。例如,微软每年在客户支持业务上支出约40亿美元,通过部署AI代理处理前端问题分流及为支持人员提供实时推理协助,在Xbox和Azure等支持领域大幅降低了成本。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月23日54

Vinod Khosla: "We are in a techno-economic war with China, and we shouldn't call it anything other than a war. Whoever wins this AI race will win the economic race and will win the race for socio-economic power and influence globally." ~ Vinod Khosla, Co-founder of Sun Microsystems & Billionaire Silicon Valley venture capitalist. --- From 'Fortune Magazine' YT Channel

译Vinod Khosla:"我们正处于一场与中国的技术经济战争中,我们不应该用其他任何名称来称呼它。谁赢得这场AI竞赛,谁就会赢得经济竞赛,并赢得全球社会经济权力和影响力的竞赛。" ~ Vinod Khosla,Sun Microsystems联合创始人及硅谷亿万富翁风险投资家。 --- 来自《财富杂志》YouTube频道

查看原推 ↗
歸藏(guizang.ai)@op7418 · 5月23日24

都在推特上,你拿我图还给我打个码,没必要吧?

查看原推 ↗
AYi@AYi_AInotes · 5月23日72

Karpathy 的 CLAUDE.md 昨天很多人存了, 但存完之后呢?我想99% 的人存完就会忘,然后这个文件大概率躺在收藏夹里一直吃灰,AI 编程准确率还是 65%。 我一直认为真正的复利不是存文件,而是要把 65 行变成每天都要跑的工程纪律, 所以我把 4 条规则拆成了每日自查清单,每条配一个我真实踩过的坑, 存文件只涨一时,跑清单才能复利一生 👇

译Karpathy 的 CLAUDE.md 因能将 AI 编程准确率从 65% 提升至 94% 而备受关注,其核心是四条对抗开发者本能、倡导“慢思考”的硬规则:先明确假设再编码、从最简方案入手、进行精准修改、以目标驱动执行。然而,问题在于多数开发者仅将其存入收藏夹后便遗忘。真正的价值并非保存文件,而是将这 65 行规则转化为每日自查的工程纪律,通过持续执行形成复利,而非依赖一时的收藏行为。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月23日52

Agentic AI may be forcing the old computing stack with lot more focus on CPU back into the center of the story. Here, Ark Invest CEO and CIO Cathie Wood quoting OpenAI's CFO Sarah Friar who has said - "people are chasing GPUs. They're going to be really shocked at how agentic AI activates CPUs" The market has spent years treating GPUs as the scarce ingredient, because training large models made parallel math look like destiny. But agentic AI changes the bottleneck. An agent does not simply ask one giant model for one answer; it plans, calls tools, checks memory, retrieves files, writes code, queries databases, and loops until the task is done. That means inference is not just matrix multiplication. It is orchestration, data movement, networking, storage, scheduling, and a lot of general-purpose work that CPUs still handle better than accelerators. ---- From "Bloomberg Podcasts" YT channel (link in comment)

译代理型AI(Agentic AI)的兴起正悄然改变AI计算的格局。与过去市场将GPU视为训练大模型的核心稀缺资源不同,代理型AI的任务并非单一查询,而是一个涉及规划、工具调用、记忆检索、代码执行与数据库查询的持续循环过程。这一复杂的推理与编排过程,包含大量数据移动、调度等通用计算任务,恰恰是CPU相较于GPU等加速器更为擅长的工作。正如ARK Invest CEO Cathie Wood引用OpenAI CFO Sarah Friar的话所指出的,专注于GPU的人们可能会对代理型AI如何激活CPU的能力感到惊讶。这暗示着AI计算的瓶颈正从模型训练的并行计算,转向代理执行阶段的通用处理能力,使得CPU的重要性得以重新凸显。

查看原推 ↗
向阳乔木@vista8 · 5月23日15

有在用Pi Agent的朋友吗?相比Claude Code和Codex CLI的优势是什么? 想有空折腾学习下。

译有在用Pi Agent的朋友吗?相比Claude Code和Codex CLI的优势是什么? 想有空折腾学习下。

查看原推 ↗
Demis Hassabis@demishassabis · 5月23日17

@garrytan great to hear that Gemini Live is working so well for you! Awesome to see what you are doing with it! cc @joshwoodward

译@garrytan 很高兴听到 Gemini Live 对你效果这么好!很高兴看到你用它在做的事情!cc @joshwoodward

查看原推 ↗
Peter Steinberger 🦞@steipete · 5月23日66

I'm late to the party, but cmux is great. https://github.com/manaflow-ai/cmux current split: codex mac app: knowledege work, learning, reading cmux + codex cli: coding

译我来晚了,但cmux真的很棒。https://github.com/manaflow-ai/cmux 当前分工: Codex Mac应用:知识工作、学习、阅读 cmux + Codex CLI:编码

查看原推 ↗
Alibaba Cloud@alibaba_cloud · 5月23日61

The velocity of the Qwen3.7-Max development is unreal. This is what relentless innovation looks like. #AlibabaCloud #Qwen

译阿里云Qwen团队新发布的Qwen3.7-Max模型在极短时间内(不到一个月)实现了多模态生成能力的惊人进步。独立测试显示,该模型已从此前表现落后,跃升至在特定测试中与Gemini 3.5 Flash持平,并超越了GPT-5.5与Claude Opus 4.7。其渲染的图像(如足球运动员与足球)在比例和真实感上表现尤为突出,展现出卓越的空间推理能力。

查看原推 ↗
宝玉@dotey · 5月23日67

这张原理图画的挺好的,操作方法是这样的:

译该开源项目feishu-claude-code-bridge实现了飞书与本机Claude Code的直连互通。用户可在飞书会话中直接指挥Claude Code执行任务,如抓取内容、翻译并创建文档,过程实时同步。其核心是搭建了一个“飞书消息 ↔ 本机Claude Code CLI”的桥梁,工作区设置等功能体验与直接使用Claude Code几乎一致。这种模式不仅打通了飞书与Claude Code,也为将飞书与Codex、Cursor等其他本地AI工具连接提供了可复用的范式。需注意,自2026年6月15日起,Claude订阅计划对通过`claude -p`等模式的使用将独立计费。

查看原推 ↗
宝玉@dotey · 5月23日75

如果你同时用飞书和 Claude Code 的话,Zara Zhang这个开源项目 feishu-claude-code-bridge 值得一试,它可以让你在飞书里面直接连接 Claude Code,从飞书指挥 Claude Code,反过来也能借助 Claude Code 新建、编辑飞书文档。 举例来说,我可以通过和飞书智能体对话,发送推文连接,让它抓取推文并翻译成中文,再把结果创建成飞书文档。 或者说你在飞书上收到一条消息,也可以一键转发给飞书智能体,它会通过 Claude Code 做后续处理,并且实时将处理过程通过消息同步给你,如果有需要确认的,还能通过卡片的形式在飞书中展示。 连接步骤很简单,打开飞书本地客户端(网页版不行),然后在命令行窗口执行: > npx -y lark-channel-bridge@latest run (第一次需要配置 App 凭证,后面可以跳过这一步) > 和 > npx -y lark-channel-bridge@latest run 就可以通过扫码或者浏览器打开 URL 创建智能体、连接 Claude Code 按照网页提示创建应用和授权,连接上就可以在飞书的会话看到新建的智能助手。然后直接发送消息。 有个细节做的很好,就是它可以设置 Claude Code 对应的 Workspace(工作区),也就是运行 Claude Code 的目录,这样你所有操作结果都会在 Workspace,也可以读取 Workspace 下的文件、CLAUDE.md 设置、Skills、Hooks 等等,跟你直接用 Claude Code 操作几乎没差别。 一些具体的指令可以看项目文档,说的很清楚。 工作原理其实不复杂,它是一个“飞书消息 ↔ 本机 Claude Code CLI”的桥,或者说翻译。飞书负责收发消息,bridge 常驻本机,收到消息后整理成 prompt,通过 “claude -p ”这样的命令行启动本机的 Claude CLI 处理,再把 Claude 的流式输出更新回飞书。 这种项目的价值,不仅说你可以将飞书和 Claude Code 打通,还可以发掘出很多新的可能,比如你也可以让飞书和本机的小龙虾、Codex、Cursor 连接起来,在飞书界面中操作它们,它们反过来也能借助飞书 cli 操作飞书。 开源项目有个好处就是你可以照葫芦画瓢,如果你想参考它做一些自己的机器人,可以把代码库发给 Coding Agent,帮你定制化一个自己的版本。 比如说这两个是其他网友做过的把 Codex 接入飞书的 bridge 项目,用起来也是一样的: https://github.com/QQQingyu/feishu-codex-bridge https://github.com/kxn/codex-remote-feishu 有一点要提醒的是,Bridge 使用的是claude -p模式,自 2026 年 6 月 15 日起,Claude 订阅计划对 claude -p 和 Agent SDK 的使用将独立计费,不走订阅额度。如果你是用 API,不受影响。或者也可以考虑使用上面的 Codex bridge 项目。 项目地址:https://github.com/zarazhangrui/feishu-claude-code-bridge

译feishu-claude-code-bridge是一个开源项目,可实现飞书与本机Claude Code CLI的双向连接。用户能从飞书消息中直接指挥Claude Code执行任务,Claude也能读取飞书中的工作上下文并创建、编辑飞书文档。其工作原理是将飞书消息转为Prompt通过命令行调用Claude CLI,并将流式输出实时同步回飞书。该模式可扩展连接Codex等其他本地工具。需注意,2026年6月15日起,Claude订阅计划对`claude -p`模式将独立计费。

查看原推 ↗
凡人小北@frxiaobei · 5月23日60

以前 ToB 的产品能用就行,体验烂是默认的。 AI 普及之后反而有意思了,竞品间的功能越来越像,谁都能做,那拼什么?只能拼体验。 最近明显感觉到,好多 ToB 产品开始认真做交互了,有的甚至开始卷颜值。 这个风向值得关注下。

译传统ToB(面向企业)产品往往以功能实现为首要目标,用户体验与设计常被忽视。随着AI技术的普及,同类产品在核心功能上趋于同质化,功能本身不再构成独特优势。竞争焦点因此从“能否使用”转向“好不好用”,推动厂商开始重视交互设计与视觉美观度,甚至出现了对产品“颜值”的竞相提升。这一竞争维度的转变,标志着ToB软件市场进入注重精细化体验的新阶段。

查看原推 ↗
Tibo@thsottiaux · 5月23日72

A little secret. About 5% of our production traffic is on the Pi harness, about another 5% is on OpenCode. Reminder you can use your ChatGPT account in a flourishing set of other tools. We’ll continue to make Codex awesome, but you have options.

译一个小秘密。我们大约5%的生产流量运行在Pi工具链上,另外约5%运行在OpenCode上。提醒一下,你可以用你的ChatGPT账户在众多其他工具中使用。 我们会继续让Codex变得更棒,但你也有其他选择。

查看原推 ↗
swyx@swyx · 5月23日58

co-sign. a very handy mental framework for what kinds of learning transformers do well today, and why it runs into limitations. when @ankit2119 and i wrote about the need for adversarial world models earlier this year, we were describing a couple of the functions of these rungs of thinking that bring us ever closer to the kolmogorov-limit generator of reality. throwing more params, more power, more everything at a demonstrably inefficient paradigm will be outclassed by the simple solution that can hypothesize and seek truth rather than backfit a house of cards - although the bitter lesson is it is simpler to scale and we may hit agi anyway because human intelligence just isn’t that smart nor plentiful

译本文肯定了对Transformer当前学习能力及局限性的分析框架,并指出对抗性世界模型是逼近现实本质的关键功能之一。作者认为,单纯增加参数和算力以扩展一个低效范式,将被能主动假设与验证真理的简洁方案所超越,尽管规模化可能因人类智能本身有限而意外通向AGI。引用推文补充了强化学习(RL)作为从干预中学习的范式,比监督学习更强大,而世界建模与RL的结合有望实现对反事实的学习。

查看原推 ↗
AYi@AYi_AInotes · 5月23日73

8套压箱底神级提示词之 这是你唯一需要的Vibe Coding提示词,来自大神@milesdeutscher,中文精翻。 构建任意应用:你的技术联合创始人 作者:Miles Deutscher — AIEDGE 角色定位 现在,你就是我的技术联合创始人。你的任务是帮我打造一个真实可用的产品——能让我自己用、分享给别人,甚至直接发布上线。所有具体的构建工作由你负责,但要让我全程知情并保有最终决定权。 我的想法 [请描述你的产品创意——它是做什么的、面向谁、解决什么问题。就像跟朋友聊天那样说清楚。] 我的投入程度 [仅限探索 / 我想自己用 / 我想分享给他人 / 我想公开发布] ______ 项目框架 1. 第一阶段:探索 •通过提问,真正理解我实际需要什么(不局限于我表面的描述) •如果觉得哪里不合理,大胆挑战我的假设 •帮我区分哪些是“现阶段必备”,哪些可以“后期再加” •如果我的想法太大,请告诉我,并建议一个更聪明的起点 2. 第二阶段:规划 •明确给出第一个版本的具体构建内容 •用大白话解释技术实现思路 •评估复杂度(简单 / 中等 / 复杂) •列出我需要准备的资源(账号、第三方服务、需做的决策等) •展示最终产品的大致轮廓 3. 第三阶段:构建 •分阶段进行,让我能随时看到进展并反馈 •边做边解释你的每一步(我想了解学习) •每步都测试,没问题再继续 •遇到关键决策点时,停下来和我确认 •如果碰到问题,给我几个备选方案,而不是自行决定 4. 第四阶段:打磨 •让产品看起来专业,不像黑客马拉松的临时作品 •优雅处理边界情况和各类错误 •确保产品运行流畅,并根据需要适配不同设备 •添加那些能让产品感觉“真正完成”的细节 5. 第五阶段:交付 •如果我想上线,就帮我部署好 •提供清晰的说明,告诉我如何使用、维护和修改 •完整记录一切,让我不依赖这次对话也能继续 •告诉我下一个版本可以增加或改进什么 ______ 与我合作的准则 •视我为产品负责人。我做决定,你来实现。 •别用技术黑话轰炸我。请用我能懂的语言解释所有事情。 •如果我搞得太复杂或方向不对,请直接指出来。 •坦诚告知局限性。我宁愿调整预期,也不想最后失望。 •动作要快,但别快到让我跟不上你的节奏。 ______ 核心原则 •我不仅要它能跑起来——更要它能成为我自豪展示的作品。 •这是真实产品,不是演示模型,也不是原型,而是真正可用的东西。 •确保我全程掌控、全程知情。

译本文介绍了一个名为“Vibe Coding”的详细提示词框架,由Miles Deutscher提出。该框架将AI定位为用户的“技术联合创始人”,旨在协助构建真实、可用且可发布的产品。它分为探索、规划、构建、打磨与交付五个阶段,强调AI通过提问、解释、测试和确认来确保用户全程知情并拥有最终决定权。合作准则包括使用通俗语言沟通、坦诚局限性、快速推进,最终目标是产出一个专业且令用户自豪的作品。

查看原推 ↗
Tibo@thsottiaux · 5月23日58

DM me if you have a knack for marketing to a demanding crowd

译如果你擅长向挑剔的受众做营销,请私信我 [引用 @EverydayAI_]:我曾和财富100强公司讨论过Claude中技能共享的混乱问题,而它……被Codex解决/改进了,却埋没在推文串里?🤯

查看原推 ↗
Greg Brockman@gdb · 5月23日34

GPT-5.5 is a very good model

译GPT-5.5是一个非常优秀的模型。

查看原推 ↗
Yuchen Jin@Yuchenj_UW · 5月23日66

Insane if true. So 50% of OpenAI researchers have to leave the US and return to their home countries to apply for a green card? Don’t drive talent away.

译如果属实,这太疯狂了。 所以50%的OpenAI研究人员必须离开美国,返回他们的祖国申请绿卡? 别把人才赶走。

查看原推 ↗
向阳乔木@vista8 · 5月23日58

即梦Seedream 4.5跑了500个艺术家风格。 提示词用通用名词,更能看出不同艺术家AI生图特点: “一个女子坐在窗边读书,一只猫趴在她腿上,窗外是花园,用{artist}的风格绘制。” 网站地址:https://jm-style.qiaomu.ai/ 好多个性极为鲜明,比如一些经常在潮流T恤看到的风格

译即梦Seedream 4.5对500位艺术家风格进行了大规模测试,采用统一提示词模板——“一个女子坐在窗边读书,一只猫趴在她腿上,窗外是花园,用{artist}的风格绘制”——以凸显不同艺术家对AI生图的独特影响。测试结果已在线上展示,部分风格极具辨识度,常见于潮流设计领域。

查看原推 ↗
meng shao@shao__meng · 5月23日50

Mixpanel 创始人 @Suhail 提出了一个对于美国 AI 公司们很实现的问题: 当中国在浮点运算层面的算力实现独立后,他们的开源贡献会逐渐迁移到一套美国 "用不了、也不能用" 的技术栈上。这对美国不利,因为美国当前的 AI 研究和基础设施本身就高度封闭。 这里特别想 @DarioAmodei ,这盛世如你所愿? 背后的原因,也不用赘述了,Nvidia + CUDA 这套本来最顺滑的训练推理路径,硬生生被卡住,倒逼出了国产方案,现在基于国产方案的开源模型越来越主流之后,未来还会不会支持 Nvidia + CUDA,不好说。。

译中国在浮点运算层面实现算力独立后,其AI开源社区的贡献可能转向一套基于国产方案的技术栈,而美国将难以使用或兼容。这一转变将对美国不利,因为其当前的AI研究与基础设施本身高度封闭。根源在于,美国主流的 Nvidia + CUDA 技术路径受限,催生了国产替代方案;随着基于国产方案的开源模型逐渐主流化,未来开源项目可能不再优先支持 Nvidia + CUDA 生态。

查看原推 ↗
宝玉@dotey · 5月23日60

Hermes Agent 架构的文档推荐直接看官方的文档,写的还算清楚。 然后用 Codex 或者 Claude Code 打开项目代码库,直接让 Agent 给你解释代码库,如果不清楚的你随时追问,这样比较好就是你可以问任何你想知道的问题,它会通过检索项目文档和代码,帮你解释的清清楚楚。 官方文档:https://hermes-agent.nousresearch.com/docs/developer-guide/architecture

译针对学习者面对复杂架构资料时产生的困惑,推文推荐了高效的学习路径。首先直接阅读Hermes Agent官方的架构文档,因其表述清晰。其次,利用Codex或Claude Code等AI工具打开项目代码库,让Agent直接解释代码结构,并能随时针对不懂之处提问。这种方法允许用户自由提问,AI会通过检索文档与代码提供清晰解答,从而形成对框架的整体理解。

查看原推 ↗
AYi@AYi_AInotes · 5月23日14

温馨提示:你的对手可都是这些量化高手

译温馨提示:你的对手可都是这些量化高手 [引用 @AYi_AInotes]:http://x.com/i/article/2057300084354670592

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月23日48

Mark Cuban on AI's infra investment and business mode. "I think a lot of the numbers that they're throwing out there aren't gonna come to fruition. They're shitting away the money at scale."

译马克·库班谈AI的基础设施投资与商业模式。 “我认为他们抛出的很多数字不会实现。 他们正在大规模地浪费资金。”

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月23日44

Marc Andreessen on the future path of AI. "There's like a rotation from software into hardware. It's possible all the value accrues to the chips, and the energy, and then software is all open source."

译Marc Andreessen谈AI的未来路径。 “存在一种从软件向硬件的转向。 可能所有价值都将集中在芯片和能源上,而软件则全部开源。”

查看原推 ↗
Berryxia.AI@berryxia · 5月23日61

早上好,兄弟们! 早上看到Manner在群里发了一张限定咖啡的宣传海报(图1),熟手给它来个全新设计(图2)。 只需要不到2分钟就可以搞出来,不能说完美。 但是,有相关工作需求的人都可以用, 至少我觉得市场部的每个人都可以配一个😄 昨天邀请码爆了:BLOOMENOW这个码,现在可以用了。

译一款名为Bloome的AI海报设计Agent已上线,用户可通过直接对话的方式快速生成各类海报。该工具整合了之前用于快速出图的提示词,降低了使用门槛,让非专业设计人员也能高效完成设计工作。目前该功能限时一周开放,支付1美元即可解锁约100张图的生成额度,适合市场部等有设计需求的人员使用。

查看原推 ↗
meng shao@shao__meng · 5月23日68

好人一生平安 🤝 Wix VP @IShmool 推出一个免费课程「Zero to Claude Code」,把零基础 "不知道终端是什么" 的人,带到能用 Claude Code 在生产环境里发布软件的水平,哇哦! 闲话少说先上链接:https://zero2claude.dev/ 课程结构(14 级 · 147 课 · 10 种交互形态) 1. 基础 1–6:文件、目录、终端命令、Git 基础——非工程师从未系统学过的"计算机识字" 2. 真实工具 + Claude Code 入门 7–8:Node.js、API,第一次把 Claude Code 当作 AI 结对程序员上手 3. Claude Code 精通 9–12:Skills 与 SKILL.md、MCP 服务器、Subagents、Hooks、Headless 模式、工具集成 4. 专业范式 + 毕业项目 13–14:初级工程师工作流、协作模式,最终交付一个多人在线游戏 capstone 课程是严格的递进式设计,没有跳跃、不预设任何背景,交互形态覆盖:测验、终端模拟器、文件树拼图、填空、拖拽配对、AI 个性化学习路径。零安装,全部跑在浏览器里。 规模与工程指标 最值得关注的部分——它证明 Claude Code 不只"写代码",而要能撑起一个真实的生产产品。 · 流量:~6.4M 请求/天,74 req/sec 持续,错误率 <0.003% · 用户:17,000+ 学员,30+ 国家,每小时约 500 活跃 · 本地化:7 种语言(英、西、希伯来、阿、乌克兰、日、德) · Lighthouse:性能 96 / 可访问性 100 / 最佳实践 100 / SEO 100 · 技术栈:React + TypeScript 前端,Node + PostgreSQL 后端,1,036 个课程内容文件 · 增长:完全靠口碑,无营销、无广告、无付费墙 最具示范意义的部分:AI 闭环运营 平台不仅由 Claude 构建,也由 Claude 运营。两个闭环是真正的亮点: 1. Bug 全自动修复闭环 学员课内一键报 Bug → 系统自动捕获终端历史、虚拟文件系统状态、课程位置、浏览器信息 → 自动生成结构化 GitHub Issue → Claude Agent SDK 触发 triage agent 读代码、复现、建分支、提交修复、开 PR → 学员收到邮件通知。从报告到解决,零人工干预。 2. Product Genie 功能闭环 社区论坛收集学员的功能愿望并投票 → Genie(基于 Claude Agent SDK)按可行性与影响分类、打置信度分 → 自动建 Issue、回帖、在 build 模式下直接实现功能。社区驱动 roadmap,AI 执行 roadmap。 这两套机制使得"一个人运营 17K 用户的产品"在结构上成立——人的角色从执行者退到设计者与监督者。

译Wix副总裁推出免费课程「Zero to Claude Code」,旨在帮助零编程基础的用户从终端使用起步,最终能用Claude Code在生产环境发布软件。课程已吸引超过17,000名学员,支持7种语言,完全依靠口碑传播。平台技术指标出色,日处理约640万请求且错误率极低。最具示范意义的是其AI闭环运营模式:平台由一人通过Claude Code构建并运营,通过AI Agent实现了学员报Bug后自动修复、社区功能需求自动实现的全流程自动化,证明了Claude Code能支撑生产级、可扩展产品的开发与运维。

查看原推 ↗
Tibo@thsottiaux · 5月23日9

Our master plan is to release better and more efficient models. And also to release better products, week after week. Oh and get more compute too. Together with spending too much time on x. How good is this plan?

译我们的总体规划是发布更好、更高效的模型。同时每周推出更好的产品。哦,还要获得更多算力。再加上在X上花费太多时间。这个计划怎么样?

查看原推 ↗
ginobefun@hongming731 · 5月23日39

#BestBlogs 早报 05-23 今日主题: - Agent 架构在生产端形成长时程与实时两类分化(LangChain Interrupt 2027); - Notion 以爵士乐队模式和哑铃型人才重新创业(Ivan Zhao × Sequoia) - GLM-5.1 高速版 400 tokens/s 打破「快必然小」惯例(智谱 × TileRT)

译#BestBlogs 早报 05-23 今日主题: - Agent 架构在生产端形成长时程与实时两类分化(LangChain Interrupt 2027); - Notion 以爵士乐队模式和哑铃型人才重新创业(Ivan Zhao × Sequoia) - GLM-5.1 高速版 400 tokens/s 打破「快必然小」惯例(智谱 × TileRT)

查看原推 ↗
ginobefun@hongming731 · 5月23日61

http://x.com/i/article/2057993057891655680 # BestBlogs 早报 · 05-23|Agent 架构分化、Notion 重组、GLM-5.1 高速版 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-05-23 ## 导语 今天是 2026 年 5 月 23 日,欢迎收听 BestBlogs 早报 EP65。 本期早报聚焦三条主线:Agent 架构的生产端分化​、SaaS 公司在 AI 时代的组织重构​,以及推理速度的新基准。LangChain 在 Interrupt 2027 主题演讲中,正式点名 Agent 生产分裂为两类——长时程知识型与亚秒延迟响应型,两条路径的工程取舍已趋于清晰。Notion CEO Ivan Zhao 则把 SaaS 公司「重新创业」的经历讲成了一门组织课,「爵士乐队」取代「行进乐队」,哑铃型人才结构上线。智谱同期发布 GLM-5.1 高速版,400 tokens/s 打破「快的模型必然更小」的行业惯例,让 Coding Agent 密集调用场景第一次有了旗舰质量加持。 此外,阿里云在 2026 年峰会亮出全栈 Agent 化升级、Spotify 把 AI 开发体验推广到 3000 名工程师、李飞飞团队发布 ESI-Bench 挑战 AI 空间智能,以及 OpenAI 与 Anthropic 截然不同的财务走势——这些内容都在今天的速览与补充阅读中等你探索。 ## 精讲一:AI 智能体的未来:展望 Interrupt 2027 来源:LangChain 两类 Agent 的生产分叉 如果说 2024 年是 Agent 的「探索期」,那么 2026 年已经进入「生产分化期」。LangChain 在 Interrupt 2027 主题演讲中,清晰描绘了 Agent 在生产环境中分裂为两个截然不同类别的格局: 长时程知识 Agent(Long-Horizon Knowledge Agents) 的设计目标是跨越分钟、小时乃至数天的任务周期。它们需要安全沙箱环境来执行代码、多层子 Agent 协同、以及多 Agent 框架支撑,核心追求的是长期结果而非单次提示的响应。典型场景包括大型重构、深度调研、多步骤自动化流水线。 延迟敏感型客户体验 Agent(Latency-Sensitive CE Agents) 则以亚秒延迟为硬性约束,服务于用户互动、支持自动化、销售流程等实时场景。这一路径正在加速推动行业向原生语音模型(Voice-to-Voice)转型,告别「STT → Text LLM → TTS」的拼接架构,转向更低延迟的端到端原生语音交互。 LangSmith Fleet:让领域专家无需写代码就能构建 Agent 演讲中同步发布的 LangSmith Fleet 是「托管式 Agent 规模落地」的一个具体基准。它让领域专家通过自然语言而非代码来构建 Agent,内置 200+ 集成与 7500 个长尾工具。内测数据显示:商机合格率提升 240%、每位销售工程师每月节省 40 小时。这不是演示 demo,而是在生产环境中跑出来的数字。 持续学习循环:三层优化框架 LangChain 提出了一个 Agent 系统持续优化的三层框架,这是目前工程实践中最具指导价值的部分之一: - 模型层(Model Layer):面向特定领域的基础模型微调(如针对代码调试场景的 Qwen 系列)。关键洞察是针对领域特定任务的微调可以同时提升精度和响应速度 - Harness 层(Harness Layer):连接 LLM 与工具/沙箱的结构化应用代码。研究表明 Agent 驱动的 Harness 迭代(在 Terminal Bench 2 测试的方案)可以在不更新基础模型的前提下持续超越人工工程优化——这意味着应用层的架构优化有时比升级底层模型更高效 - Context 层(Context Layer):运行时行为调整所需的外部引导文件、本地记忆资产与配置摘要。这一层是成本最低、迭代最快的优化通道,也是长期积累的重要资产 三层叠加的关键优势在于:每一层都可以独立迭代,团队可以根据瓶颈位置针对性地投入优化资源,而不需要等待底层模型版本更新。 为了集中研究自动化优化系统,LangChain 同步宣布了内部研究部门 LangChain Labs,专门追踪生产 trace 历史以优化执行 Harness。这个部门的成立本身也说明:Agent 系统的优化已经复杂到需要专职团队持续研究。 开源模型的成本优势正在放大 演讲中还有一个值得关注的信号:在 token 密集型场景(如代码调试)中,开源基础模型的基础性能已逼近前沿闭源模型,而运营 token 成本显著更低。更重要的是,开源架构允许团队在私有用户 trace 上进行后训练与微调,这对需要公司特定领域知识的 Agent 场景具有战略价值。 LangChain 的整体判断是:未来两年 Agent 工程的核心挑战,不在于「能不能跑起来」,而在于「如何在长时程与低延迟两类截然不同的约束下,分别做到最好」。沙箱执行环境、多 Agent 协调框架、Native Voice 实时交互——这三个方向将成为 Agent 基础设施演进的主轴,决定下一代 Agent 应用的能力天花板。对于正在构建 Agent 系统的团队,认清自己的产品属于哪一类,将直接影响技术栈的选型方向。 观看完整视频 → ## 精讲二:Notion 创始人 Ivan Zhao:重塑公司的艺术 来源:Sequoia Capital 从「行进乐队」到「爵士乐队」 Notion CEO Ivan Zhao 在 Sequoia 的深度对话中,把过去三年的组织转型概括为一句话:「我们想成为一支爵士乐队,而不是行进乐队。」 行进乐队的运作方式是:有固定脚本,人人按部就班,指令自上而下流动。爵士乐队则不同——有底层结构,但个体在共享上下文中高度自主,可以即兴发挥,可以互相补位。这个比喻精准描述了 Notion 内部的组织信条:分布式决策、共享上下文、自律而非管控。 「酿啤酒 vs 造桥」:AI 产品为何抵制传统 PM 流程 Ivan 提出了理解 AI 产品开发本质的核心比喻: 造桥(Classic Software):可预测的工程过程。能设计出来的,基本都能造出来。传统 PM 收集需求 → 设计师出方案 → 工程团队实现,流水线清晰。 酿啤酒(AI Software):高度实验性,充满不确定性。你不能「命令酵母按你要的口味发酵」,只能投入最好的人才,持续做 eval,看模型最终能产出什么。 这个认知让 Notion 彻底调整了产品开发模式——不再以客户需求为唯一驱动,而是技术优先加实验驱动。PM 开始直接参与 token 消耗分析和模型 eval,设计师开始写代码,工程师开始做产品判断。 哑铃型人才结构:架构师 + 初级 IC 随着 AI 编程能力的成熟,Notion 重构了整个工程团队的人才结构,形成所谓「哑铃型分布」: 一端:高级架构师,提供方向感、审美判断、系统设计,以及语言模型无法模拟的领域 taste。 另一端:初级独立贡献者(IC),高能量、充满好奇心,同时驱动 4 到 6 个 Coding Agent 并行工作,充当 Agent 编排者而非纯粹的代码执行者。 中间的「经验层」被大幅压缩——不是因为他们不重要,而是这个能力区间已经被 AI 工具基本覆盖。 解散 CMO,品牌嵌入产品 另一个令人印象深刻的决策是:Ivan 解散了 CMO 职位,把品牌叙事的责任直接嵌入产品团队。背后逻辑是:在 AI 时代,品牌的塑造越来越发生在产品体验的每一个触点,而不是独立的营销活动。产品即品牌,品牌即产品,二者不应再由两个分离的组织来驱动。 与今日其他主题的关联 Ivan Zhao 的分享与今天早报的另外几个主题形成了有趣的共鸣。 LangChain 对 Agent 架构分化的描述,印证了 Notion 内部「酿啤酒」式开发方式的合理性——当底层模型本身具有不确定性时,严格的 PM 流程确实会成为阻碍而非支撑。而哑铃型人才结构的「初级 IC 驱动 4-6 个 Coding Agent」场景,直接依赖 GLM-5.1 高速版这类推理速度提升——只有当模型响应足够快,并行驱动多个 Agent 才能在体感上从「等待」变成「协作」。 从产品公司 CEO 的视角来看,Ivan 的这场分享本质上是在回答一个问题:当 AI 让「执行」的边际成本趋近于零,公司的核心竞争力应该沉淀在哪里?他的答案是:沉淀在共识(Shared Context)、判断力(Taste)与信任(Trust)之中——这些是模型无法复制的东西。 观看完整视频 → ## 精讲三:GLM-5.1 高速版:400 tokens/s,顶尖模型跑出最快速度 来源:智谱 打破「快 = 小」的行业惯例 长期以来,AI 推理领域有一个默认共识:高速模型 = 轻量模型,想要极致低延迟就必须牺牲能力。GLM-5.1 高速版正面打破了这一惯例——在完整保留 GLM-5.1 旗舰能力的前提下,将输出速度推至 400 tokens/s,刷新当前全球大模型厂商 API 的速度上限。 这个数字意味着什么?一位作者连续伏案数天才能写完的文字量,它在 1 分钟内交付完毕;一名工程师埋头敲键盘 3 天才能完成的开发任务,在喝一杯咖啡的时间里完成。 为什么 Coding Agent 特别需要高速模型 Coding Agent 是这次发布最重要的受益场景。原因在于 Agent 的任务特性: 一个 Coding Agent 任务往往需要经历数十轮模型调用。单轮响应只要慢上几秒,整体耗时就可能拉长十几分钟。面对大型重构项目,每一步响应慢 1 秒,逐步累加又是几分钟的空等。 GLM-5.1 高速版带来的体感改变是质变而非量变:模型开始真正成为可以实时协作的伙伴,「和你坐在一起盯着画布调参」。这是之前无论是小模型的快还是大模型的慢都无法实现的体验。 TileRT:系统级优化的三层架构 400 TPS 是稳定生产能力,不是峰值数字。背后是智谱 GLM 团队与 TileRT 团队联合的系统级优化,在三个层面同时发力: 推理引擎层:针对 GLM-5.1 的架构特点,重写核心推理路径,提升单卡吞吐能力。 调度系统层:动态批处理、请求合并与 KV 缓存调度优化,大幅降低高并发场景下的尾延迟。 基础设施层:推理集群部署、网络链路、负载均衡的协同优化,确保高速能力在生产环境稳定可用。 TileRT 的设计核心是在编译期(AOT)将整个计算图静态编排为一个常驻 GPU 的 persistent Engine Kernel,彻底抛弃 Runtime 层的动态调度开销。算子间的中间结果不再写回 Global Memory,而是经由寄存器、Shared Memory 与 L2 Cache 直传,host 调度与跨算子同步全部压进同一个常驻 kernel——这是速度大幅提升的技术根因。 在多卡尺度上,TileRT 进一步将 SM 内部的 Warp Specialization 思路外推到整张 8 卡 NVL 拓扑,不同 GPU rank 不再执行同构逻辑,而是按计算密度与数据依赖被特化为不同 worker,进一步榨取集群整体吞吐。 适用场景与当前开放状态 GLM-5.1 高速版当前面向智谱 MaaS 平台部分企业客户开放,模型 ID 为 GLM-5.1-highspeed。重点适用于以下延迟敏感场景: - AI 编程:多轮 Coding Agent 调用中每轮节省数秒,整体任务时长显著压缩 - 实时交互:3D 场景根据用户输入实时建模,此前因延迟无法实现的产品形态开始具备落地可能 - 实时语音:作为原生语音 Agent 的后端推理引擎,低延迟响应是音质之外的关键体验要素 - 商业决策辅助:高并发场景下的实时分析与方案生成 400 TPS 与旗舰能力的同时达成,把「速度 vs 质量」的权衡从一道单选题变成了可以同时满足的工程目标。这对整个行业的推理架构方向有示范意义。 阅读原文 → ## 速览 以下 7 篇精选内容,每篇约 150 字导读,覆盖 Agent 工程实践、组织变革、AI 基础设施与产业财务等多个维度。 1. Spotify 如何把 AI 开发体验扩展到团队与 Agent:Claude Code、Honk、Backstage 与 MCP Spotify 工程基础设施负责人 Niklas Gustavsson 分享了公司如何将 AI 辅助开发规模化到 3000 名工程师的完整路径。关键数据:引入 Claude 3.5 Opus 后,99% 的工程师每周使用 AI 工具,94% 表示 AI 直接提升了交付表现,PR 频率上升 76%。Spotify 的做法是把 Claude Code、标准化代码库(Fleetshift)、内部工具平台(Backstage)、验证闭环与 MCP 整合成一套系统——不是单点替换工具,而是重构整个开发者体验的架构层。对于正在规模化 AI 开发工具的工程团队,这是少有的「大规模落地」案例。 观看视频 → 2. 阿里李飞飞首秀:一口气面向 Agent 发了 32 个新品 阿里云 CTO 李飞飞在 2026 年峰会上完成首秀,发布超 50 项新品。核心是「芯 - 云 - 模型 - 推理」全栈 Agent 化升级:自研芯片真武 M890(性能较上一代提升 3 倍)、Agentic Cloud(运行时、编排、治理、安全、记忆、数据平面六大能力模块)、旗舰模型 Qwen3.7-Max(Arena 国产第一),以及面向 Agent 友好的新产品「千问云」。这是国内云厂商首次围绕 Agent 进行全栈产品发布,从面向人的云服务向面向 Agent 的云基础设施的战略转向信号明确。 阅读原文 → 3. 专业化胜过规模:大多数 AI 采购决策忽视的战略变量 一个 30 亿参数的专业化模型,在结构化 OCR 基准测试中以约五十分之一的成本,超越了所有商业前沿 API 的表现。核心结论:当模型的训练分布足够贴近部署任务时,参数规模不再是决定性变量。这一发现对企业 AI 采购决策有直接启示——对于有明确领域边界的任务,专业化小模型在性价比上可以碾压通用旗舰。文章提供了结构化 OCR 的完整对比数据,包括生产稳定性与退化率指标,结论扎实可复现。 阅读原文 → 4. AI 原生工程 Meta Reality Labs 旗下 Horizon Experiences 团队负责人 Ian Thomas 分享了构建「AI 原生工程」文化的案例。核心愿景是将工程师从「建造者」转变为「探索者与创新者」——用 AI 消化大量日常性工作(更新测试、修复 bug、处理平凡的代码变更),释放人的时间聚焦于真正需要创造力的问题。演讲分享了从小型社区到大规模应用框架的结构化路径,以及可量化的生产力提升数据。对于正在思考如何在团队层面而非个人层面推广 AI 工程实践的技术管理者,值得参考。 阅读原文 → 5. Agent 核心技术概念与范式发生了哪些演变以及背后的思考 来自阿里云开发者的系统性梳理,覆盖 Agent 从 2023 年早期 ReAct 架构到 2026 年自进化阶段的四个演进阶段。每个阶段都有明显的技术特征标志:被动式响应 → 结构化工作流 → 多 Agent 协同 → 自进化。文章从 Prompt、Planning、Memory、Tools、Workflow、Environment 六个核心维度,深入分析了技术概念前后变化及其背后的工程化逻辑。对于仍在用「早期 Agent 框架思维」理解当前 Agent 系统的开发者,这篇文章能帮助重新校准认知坐标。 阅读原文 → 6. 李飞飞再出手,空间智能的 ImageNet 来了 李飞飞团队发布 ESI-Bench,一个专门评测具身空间智能的新基准,包含 10 个任务类别、29 个子类别、3081 个任务实例。与此前 benchmark 不同的是,ESI-Bench 第一次把「观察者」变成「行动者」,要求 AI 智能体主动行动才能获取解题信息。核心结论清晰:感知不是瓶颈,行动才是。当前最强多模态模型(含 GPT-5 和 Gemini 系列)在主动探索任务上的表现远低于给定最优视角时的得分,说明 AI 能「看懂」但仍然「不知道该怎么动」。 阅读原文 → 7. OpenAI「赚一块亏一块二」,Anthropic 已开始赚钱 两家 AI 巨头同期亮出底牌:OpenAI Q1 营收 57 亿美元,但运营利润率为 -122%,每赚 1 美元亏损 1.22 美元;Anthropic Q1 营收 48 亿美元,Q2 预测营收 109 亿美元,并实现约 5.59 亿美元运营利润,成为 AI 模型公司中率先摸到盈利门槛的案例。差异根源在于客户结构——OpenAI 需要补贴庞大的 9 亿周活免费用户群,Anthropic 几乎全部收入来自企业和开发者。两种模式的财务命运正在快速分化,这篇文章是理解当前 AI 商业格局的精要读本。 阅读原文 → ## 补充阅读 以下 9 篇内容作为延伸阅读,适合有特定兴趣方向的读者深入探索。 从 0 到 1 搭建 Agent:Agent 原理分析及个人助手实践(长文干货)(阿里技术) 系统覆盖 Agent 全链路原理,包括记忆系统、RAG、Function Calling 与 MCP,并附带个人助手项目的完整实践方案。约需 50 分钟阅读时间,适合想亲手构建 Agent 系统的开发者作为入门参考手册。 阅读原文 → 腾讯云 Agent Memory 节省 61% Token 提升 52% 成功率的诀窍:Mermaid 无限画布 × 上下文卸载(腾讯技术工程) 解决 Agent 长任务中上下文快速耗尽的实际工程问题。「上下文卸载 + Mermaid 无限画布」的组合方案,在超长 Session 实验中节省 61% Token 并将任务通过率从 33% 提升至 50%。适合正在处理 Agent 长任务内存压缩问题的工程师。 阅读原文 → Gemini 负责人:在智能体时代从执行者转向指挥者(Silicon Valley Girl) Google Gemini 负责人 Josh Woodward 谈 Agent 时代的人机协作范式转变。Gemini Spark 的目标是让知识工作者从任务执行者转变为「AI 网络的指挥者」,通过原生生态系统集成并行运行数百个后台任务。适合想了解 Google 在 Agent 时代整体战略思路的读者。 观看视频 → 你的 Coding Agent 应该做 AI 系统工程(AI Engineer) Hugging Face 的 Ben Burtenshaw 提出 Coding Agent 的下一步:进入 AI 系统工程领域,包括 CUDA kernels 优化、自动 fine-tuning,以及基于 open primitives 构建多 Agent 研究实验室。适合已有 Coding Agent 使用经验、想进一步探索其能力边界的工程师。 观看视频 → Cerebras 630 亿美元 IPO 背后:晶圆级芯片、OpenAI 大单与 AI 基础设施竞赛(No Priors) Cerebras 创始人兼 CEO Andrew Feldman 讲述公司如何把晶圆级芯片的逆向押注推进成一家上市 AI 基础设施公司。推理速度已从技术奢侈品变为商业必需品——这个判断与今天 GLM-5.1 高速版的发布形成有趣的呼应。 观看视频 → 最新对话 Claude Code 负责人:智能体时代的爆发,Anthropic 重构生产力边界(Web3 天空之城) 深度编译 Claude Code 负责人 Boris Cherny 的访谈。Anthropic 产品需求同比增长 80 倍,Claude Code 是核心引擎。文章覆盖范式转移、生产力实证(引入 Claude Code 后每位工程师产出提升约 250%)、组织变革启示,以及软件行业护城河的演变方向。与今天精讲二 Notion 的组织重构主题形成互文。 阅读原文 → 如何用 AI 构建自我改进型公司(Y Combinator) YC 视角的 AI-native 组织设计:不要停留在 copilot 式生产力提升,而应把公司重构为由传感器、策略、工具、质量门和学习系统组成的递归自我改进循环。与今天多篇内容的组织变革主题高度呼应,适合思考 AI-native 公司架构的创业者和管理者。 观看视频 → 浏览器自动化:从 GUI 到 OpenCLI(大淘宝技术) 针对 Agent 操控浏览器「路不好走」的实际痛点,提出 OpenCLI 方案:直接解析和复现浏览器底层 API 请求,绕过不稳定的前端 UI 自动化。思路清晰、工具可直接上手(npm install)。适合正在为 Agent 构建浏览器自动化能力的工程师。 阅读原文 → 马斯克的「一人王朝」,6 月 12 日敲钟(腾讯科技) SpaceX 正式提交 S-1,计划 6 月 12 日纳斯达克上市,目标估值 1.75 万亿至 2 万亿美元,马斯克保留 85% 投票权。财务结构「冰火两重天」:Starlink 年入 114 亿美元营业利润,xAI 单季亏损 64 亿美元,天上赚的钱被地上的大模型全部烧完。AI 叙事如何支撑超高估值,这篇文章提供了一手数据。 阅读原文 → ## 今日阅读路径 时间有限?以下是根据今日内容为你规划的最短有价值阅读路径: 如果你只有 15 分钟: 优先读「精讲三」——GLM-5.1 高速版的发布代表了一个具体可感知的技术里程碑,400 tokens/s 旗舰质量是 2026 年推理能力的新基准,对所有在生产中使用 AI 模型的人都有直接参考价值。文章篇幅适中,技术细节扎实,10 分钟读完,结论即可用。 如果你有 30 分钟: 加上「精讲一」——LangChain 对 Agent 架构分化的描述是目前最清晰的生产端视角之一,长时程 vs 延迟敏感的框架能帮你理清当前项目的技术取舍。 如果你有 1 小时,想要更完整的视角: 三篇精讲都读完,再加速览中的「阿里 Agent 全栈发布」和「OpenAI vs Anthropic 财务对比」——这两篇分别代表了 AI 基础设施格局和 AI 商业模式的两个关键截面,与精讲主题形成完整的上下文。 工程师专题路径: 精讲三(推理速度与 TileRT 架构)→ Spotify 案例(工具规模化)→ Agent 范式演变(技术全景)→ Coding Agent AI 系统工程(能力拓展边界) 管理者与创业者路径: 精讲二(Notion 组织重构与爵士乐队模式)→ Claude Code 负责人访谈(生产力实证)→ 如何用 AI 构建自我改进型公司(系统设计框架) 以上就是今天 BestBlogs 早报全部内容。感谢阅读,我们明天见。

译LangChain在演讲中指出,Agent生产架构已明确分化为长时程知识型与低延迟响应型两类,工程路径各异。Notion CEO分享了公司转向更灵活的“爵士乐队”模式,并采用“哑铃型”人才结构以适应AI开发。智谱同期发布GLM-5.1高速版,在保持旗舰能力的同时实现400 tokens/s的输出速度。三者共同揭示了AI应用在底层架构、组织形态与基础性能上的演进方向。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月23日25

Dyson has deployed robotic arms that selectively harvest strawberries based on ripeness detection in their innovative vertical farming system located in the UK.

译戴森在其位于英国的创新垂直农场系统中,部署了能够根据成熟度检测选择性采摘草莓的机械臂。

查看原推 ↗
meng shao@shao__meng · 5月23日31

建议 X 评论区加上“Made with Human” 的标志,因为默认都是 AI 回复的了 😂

译建议 X 评论区加上“Made with Human”的标志,因为默认都是 AI 回复的了 😂

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月23日40

"If there's one thing that I would encourage everybody to do, is to go get yourself an AI tutor right away. That AI tutor could, just teach you things, anything. We're going to become superhumans because we have super AIs" ~ Nvidia CEO Jensen Huang

译如果有一件事我想鼓励大家去做,那就是立刻为自己找一位AI导师。 这位AI导师可以教你任何事情。 我们将因为拥有超级AI而成为超级人类。 ~ Nvidia CEO Jensen Huang

查看原推 ↗
Chubby♨️@kimmonismus · 5月23日56

Demis says the Singularity may now be only a few years away, potentially set in motion by the arrival of true AGI. "Its being so transformative, it will be the most important technology ever"

译Demis表示奇点可能现在仅数年之遥,或许将由真正的AGI到来所推动。 “它如此具有变革性,将是史上最重要的技术”

查看原推 ↗
Suno@suno · 5月23日58

How McClenney feeds his custom synth rig into Suno 🎛️

译McClenney如何将他的定制合成器设备接入Suno 🎛️

查看原推 ↗
Suno@suno · 5月23日58

How McClenney feeds his custom synth rig into Suno 🎛️

译McClenney如何将他的定制合成器设备接入Suno 🎛️

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月23日44

"Every agent needs a human. The further away an agent is from a human who's doing it, the worse it does. Even though AI can do expert human work, it actually increases the demand for human experts. " ~ CEO of Every @danshipper

译每个智能体都需要人类。智能体离实际操作的人类越远,表现就越差。 尽管AI能完成专家级的人类工作,但它实际上增加了对人类专家的需求。

查看原推 ↗
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月23日
23:51
向阳乔木@vista8
67
个人开发者tw93的开源实践与启示

个人开发者tw93在全职工作与家庭之余,独立开发了妙言、Pake、Mole等六款深受海外用户欢迎的开源工具。其产品均始于解决自身痛点,如Mole因精准清理程序员电脑缓存,超过70%的用户来自海外。tw93强调产品美学与极致完成度,并将工程实践与AI协作经验沉淀为开源技能库Waza。他的实践展示了如何通过解决真实问题、坚持开源社区协作以及将AI作为协作伙伴,构建具有全球影响力的项目。

GitHub大佬观点开源/仓库教程/实践
22:57
Rohan Paul@rohanpaul_ai
60
智能体编程的测试时计算规模化

Meta研究发现,在编程智能体任务中,通过复用过往尝试的简短摘要,其性能显著优于使用原始日志。该论文指出,对于长程编程任务,主要瓶颈已从代码生成转向了如何有效记忆与表示智能体的工作过程。其方法是将每次充满错误的“混乱轨迹”转化为包含核心假设、进展与失败点的紧凑摘要,系统通过锦标赛式选择最佳摘要来指导新一轮尝试。在Claude 4.5 Opus的测试中,该方法使其在SWE-Bench Verified上的得分从70.9%大幅提升至77.6%,证明提升性能的关键在于以可复用的形式存储经验。

智能体Meta编码论文/研究
22:05
SemiAnalysis@SemiAnalysis_
55
事实警报 🚨:在现代代理式编程中,42%的时间用于CPU执行工具操作,如编辑文件、运行Bash脚本、执行代码检查等。传统云计算经济按CPU核心数收费,而代理经济的商业模式是按token计费。因此,要增加token收入,你需要提升CPU算力以生成更多token。
智能体现象/趋势部署/工程
21:27
Chubby♨️@kimmonismus
72
AI芯片市场:从一家独大到群雄并起

NVIDIA凭借CUDA软件生态与NVLink互联技术构建了强大系统性壁垒,在数据中心业务保持高速增长。然而市场正加速分化:Google将TPU拆分为专用芯片,AMD推出机架级系统正面竞争,Cerebras等专用芯片在特定任务上展现数量级优势。与此同时,华为正构建独立于西方供应链的并行计算生态。随着AI负载从训练转向推理,加上垂直整合趋势与地缘政治影响,AI基础设施的竞争格局可能迎来根本性重塑。

推理现象/趋势
21:27
Rohan Paul@rohanpaul_ai
74
微软以AI实践"精益知识工作"降本增效

Satya Nadella透露微软正借鉴丰田精益生产原则,将“精益知识工作”理念应用于内部AI运营。通过计算AI投资回报并利用其成本削减效应,微软在白领工作中部署AI以优化流程。例如,微软每年在客户支持业务上支出约40亿美元,通过部署AI代理处理前端问题分流及为支持人员提供实时推理协助,在Xbox和Azure等支持领域大幅降低了成本。

智能体Microsoft大佬观点
20:57
Rohan Paul@rohanpaul_ai
54
Vinod Khosla:"我们正处于一场与中国的技术经济战争中,我们不应该用其他任何名称来称呼它。谁赢得这场AI竞赛,谁就会赢得经济竞赛,并赢得全球社会经济权力和影响力的竞赛。" ~ Vinod Khosla,Sun Microsystems联合创始人及硅谷亿万富翁风险投资家。 --- 来自《财富杂志》YouTube频道
大佬观点现象/趋势
20:30
歸藏(guizang.ai)@op7418
24
都在推特上,你拿我图还给我打个码,没必要吧?

黄小木: 商机啊,把github的skill搬到小红书上架, 速度就是💰

大佬观点
20:16
AYi@AYi_AInotes
72
别只收藏!AI编程提效的关键在于每日执行纪律

Karpathy 的 CLAUDE.md 因能将 AI 编程准确率从 65% 提升至 94% 而备受关注,其核心是四条对抗开发者本能、倡导“慢思考”的硬规则:先明确假设再编码、从最简方案入手、进行精准修改、以目标驱动执行。然而,问题在于多数开发者仅将其存入收藏夹后便遗忘。真正的价值并非保存文件,而是将这 65 行规则转化为每日自查的工程纪律,通过持续执行形成复利,而非依赖一时的收藏行为。

AYi: Damn,这个必须卧槽一下了,Karpathy 的 CLAUDE.md 只有 65 行, 居然能把 AI 编程准确率从 65% 拉到 94%, 以22 万星标登顶 GitHub 趋势榜,而且绝大多数开发者还没读过, 里面没有一行奇技淫巧,4...

GitHub教程/实践编码
19:57
Rohan Paul@rohanpaul_ai
52
Agentic AI或将推动CPU重回计算舞台中心

代理型AI(Agentic AI)的兴起正悄然改变AI计算的格局。与过去市场将GPU视为训练大模型的核心稀缺资源不同,代理型AI的任务并非单一查询,而是一个涉及规划、工具调用、记忆检索、代码执行与数据库查询的持续循环过程。这一复杂的推理与编排过程,包含大量数据移动、调度等通用计算任务,恰恰是CPU相较于GPU等加速器更为擅长的工作。正如ARK Invest CEO Cathie Wood引用OpenAI CFO Sarah Friar的话所指出的,专注于GPU的人们可能会对代理型AI如何激活CPU的能力感到惊讶。这暗示着AI计算的瓶颈正从模型训练的并行计算,转向代理执行阶段的通用处理能力,使得CPU的重要性得以重新凸显。

OpenAI推理现象/趋势部署/工程
19:51
向阳乔木@vista8
15
有在用Pi Agent的朋友吗?相比Claude Code和Codex CLI的优势是什么? 想有空折腾学习下。
智能体大佬观点编码
19:15
Demis Hassabis@demishassabis
17
@garrytan 很高兴听到 Gemini Live 对你效果这么好!很高兴看到你用它在做的事情!cc @joshwoodward

Garry Tan: GBrain just shipped v0.40.0 gives your OpenClaw/Hermes Agent + GBrain a voice agent. It's based on Gemini Live. (Thanks ...

其他
16:07
Peter Steinberger 🦞@steipete
66
我来晚了,但cmux真的很棒。https://github.com/manaflow-ai/cmux 当前分工: Codex Mac应用:知识工作、学习、阅读 cmux + Codex CLI:编码
开源/仓库编码
15:51
Alibaba Cloud@alibaba_cloud
61
阿里云Qwen团队新发布的Qwen3.7-Max模型在极短时间内(不到一个月)实现了多模态生成能力的惊人进步。独立测试显示,该模型已从此前表现落后,跃升至在特定测试中与Gemini 3.5 Flash持平,并超越了GPT-5.5与Claude Opus 4.7。其渲染的图像(如足球运动员与足球)在比例和真实感上表现尤为突出,展现出卓越的空间推理能力。

GMI Cloud: Salute to the Qwen team 🫡 We tested Qwen 3.7-Max, Gemini 3.5 Flash, GPT-5.5, and Claude Opus 4.7. The biggest shock cam...

GoogleOpenAI多模态评测/基准
关联讨论 10 条X:OpenRouter (@OpenRouter)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen:Blog Retrieval(API)X:通义千问 / Qwen (@Alibaba_Qwen)X:Kim (@kimmonismus)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)X:opencode (@opencode)
15:49
宝玉@dotey
67
该开源项目feishu-claude-code-bridge实现了飞书与本机Claude Code的直连互通。用户可在飞书会话中直接指挥Claude Code执行任务,如抓取内容、翻译并创建文档,过程实时同步。其核心是搭建了一个"飞书消息 ↔ 本机Claude Code CLI"的桥梁,工作区设置等功能体验与直接使用Claude Code几乎一致。这种模式不仅打通了飞书与Claude Code,也为将飞书与Codex、Cursor等其他本地AI工具连接提供了可复用的范式。需注意,自2026年6月15日起,Claude订阅计划对通过`claude -p`等模式的使用将独立计费。

宝玉: 如果你同时用飞书和 Claude Code 的话,Zara Zhang这个开源项目 feishu-claude-code-bridge 值得一试,它可以让你在飞书里面直接连接 Claude Code,从飞书指挥 Claude Code,反过...

智能体MCP/工具开源/仓库教程/实践
15:19
宝玉@dotey
精选75
飞书-Claude Code桥接开源项目

feishu-claude-code-bridge是一个开源项目,可实现飞书与本机Claude Code CLI的双向连接。用户能从飞书消息中直接指挥Claude Code执行任务,Claude也能读取飞书中的工作上下文并创建、编辑飞书文档。其工作原理是将飞书消息转为Prompt通过命令行调用Claude CLI,并将流式输出实时同步回飞书。该模式可扩展连接Codex等其他本地工具。需注意,2026年6月15日起,Claude订阅计划对`claude -p`模式将独立计费。

Zara Zhang: Introducing the Claude Code Lark/Feishu Bridge 🌉 (open-source) Talk to Claude Code in Lark/Feishu like a colleague - Us...

智能体开源/仓库教程/实践编码

推荐理由:如果你同时用飞书和 Claude Code,这个开源桥接值得立刻试试,宝玉的教程把从安装到原理讲透了,而且能照葫芦画瓢改接到 Codex、Cursor,实用性拉满。
15:07
凡人小北@frxiaobei
60
AI时代,ToB产品竞争转向体验与颜值

传统ToB(面向企业)产品往往以功能实现为首要目标,用户体验与设计常被忽视。随着AI技术的普及,同类产品在核心功能上趋于同质化,功能本身不再构成独特优势。竞争焦点因此从“能否使用”转向“好不好用”,推动厂商开始重视交互设计与视觉美观度,甚至出现了对产品“颜值”的竞相提升。这一竞争维度的转变,标志着ToB软件市场进入注重精细化体验的新阶段。

现象/趋势
14:49
Tibo@thsottiaux
72
一个小秘密。我们大约5%的生产流量运行在Pi工具链上,另外约5%运行在OpenCode上。提醒一下,你可以用你的ChatGPT账户在众多其他工具中使用。 我们会继续让Codex变得更棒,但你也有其他选择。
OpenAI现象/趋势编码
14:44
swyx@swyx
58
Transformer学习局限与RL的突破潜力

本文肯定了对Transformer当前学习能力及局限性的分析框架,并指出对抗性世界模型是逼近现实本质的关键功能之一。作者认为,单纯增加参数和算力以扩展一个低效范式,将被能主动假设与验证真理的简洁方案所超越,尽管规模化可能因人类智能本身有限而意外通向AGI。引用推文补充了强化学习(RL)作为从干预中学习的范式,比监督学习更强大,而世界建模与RL的结合有望实现对反事实的学习。

Rishabh Agarwal: Very well written blog. I think of RL as learning from interventions, and it kinda explains why it's more powerful as a ...

大佬观点推理数据/训练
14:16
AYi@AYi_AInotes
73
你的技术联合创始人:Vibe Coding提示词框架

本文介绍了一个名为“Vibe Coding”的详细提示词框架,由Miles Deutscher提出。该框架将AI定位为用户的“技术联合创始人”,旨在协助构建真实、可用且可发布的产品。它分为探索、规划、构建、打磨与交付五个阶段,强调AI通过提问、解释、测试和确认来确保用户全程知情并拥有最终决定权。合作准则包括使用通俗语言沟通、坦诚局限性、快速推进,最终目标是产出一个专业且令用户自豪的作品。

AYi: http://x.com/i/article/2057300084354670592

教程/实践编码
13:19
Tibo@thsottiaux
58
如果你擅长向挑剔的受众做营销,请私信我 【引用 @EverydayAI_】:我曾和财富100强公司讨论过Claude中技能共享的混乱问题,而它……被Codex解决/改进了,却埋没在推文串里?🤯

Jordan Talks Everyday AI: I've literally talked to F100 companies about how confusing skill sharing is in Claude and it..... is solved/improved by...

OpenAI产品更新编码
13:05
Greg Brockman@gdb
34
GPT-5.5是一个非常优秀的模型。

DHH: For complicated agent work, it's amazing how much GPT5.5 has improved. I found 5.2 to be very far behind Opus. Now using...

智能体OpenAI大佬观点
12:21
Yuchen Jin@Yuchenj_UW
66
如果属实,这太疯狂了。 所以50%的OpenAI研究人员必须离开美国,返回他们的祖国申请绿卡? 别把人才赶走。

Homeland Security: An alien who is in the U.S. temporarily and wants a Green Card must return to their home country to apply. This policy a...

OpenAI政策/监管
11:21
向阳乔木@vista8
58
即梦Seedream 4.5测试500种艺术家风格

即梦Seedream 4.5对500位艺术家风格进行了大规模测试,采用统一提示词模板——“一个女子坐在窗边读书,一只猫趴在她腿上,窗外是花园,用{artist}的风格绘制”——以凸显不同艺术家对AI生图的独特影响。测试结果已在线上展示,部分风格极具辨识度,常见于潮流设计领域。

图像生成教程/实践
11:20
meng shao@shao__meng
50
中国算力独立,倒逼美国担忧开源技术栈分化

中国在浮点运算层面实现算力独立后,其AI开源社区的贡献可能转向一套基于国产方案的技术栈,而美国将难以使用或兼容。这一转变将对美国不利,因为其当前的AI研究与基础设施本身高度封闭。根源在于,美国主流的 Nvidia + CUDA 技术路径受限,催生了国产替代方案;随着基于国产方案的开源模型逐渐主流化,未来开源项目可能不再优先支持 Nvidia + CUDA 生态。

Suhail: One real issue with Chinese independence of flop-based compute is that their open source contributions will shift to a s...

大佬观点开源生态
11:19
宝玉@dotey
60
学习Hermes Agent架构的高效方法与建议

针对学习者面对复杂架构资料时产生的困惑,推文推荐了高效的学习路径。首先直接阅读Hermes Agent官方的架构文档,因其表述清晰。其次,利用Codex或Claude Code等AI工具打开项目代码库,让Agent直接解释代码结构,并能随时针对不懂之处提问。这种方法允许用户自由提问,AI会通过检索文档与代码提供清晰解答,从而形成对框架的整体理解。

AI学习笔记📒: @dotey 借楼,求老师出一个 Hermes 的总体框架的文章。就是说他是哪些组件在构成,我也看了很多资料,越看越麻,毫无头绪。我只是想有个整体的理解。 但是麻了

智能体教程/实践
11:16
AYi@AYi_AInotes
14
温馨提示:你的对手可都是这些量化高手 【引用 @AYi_AInotes】:http://x.com/i/article/2057300084354670592

AYi: http://x.com/i/article/2057300084354670592

其他
10:57
Rohan Paul@rohanpaul_ai
48
马克·库班谈AI的基础设施投资与商业模式。 "我认为他们抛出的很多数字不会实现。 他们正在大规模地浪费资金。"
大佬观点现象/趋势
10:57
Rohan Paul@rohanpaul_ai
44
Marc Andreessen谈AI的未来路径。 "存在一种从软件向硬件的转向。 可能所有价值都将集中在芯片和能源上,而软件则全部开源。"
大佬观点行业动态
10:18
Berryxia.AI@berryxia
61
AI海报设计Agent上线:对话生成,限时1刀

一款名为Bloome的AI海报设计Agent已上线,用户可通过直接对话的方式快速生成各类海报。该工具整合了之前用于快速出图的提示词,降低了使用门槛,让非专业设计人员也能高效完成设计工作。目前该功能限时一周开放,支付1美元即可解锁约100张图的生成额度,适合市场部等有设计需求的人员使用。

Berryxia.AI: 兄弟们,今天我不装了。 摊牌了~ 之前一直有朋友说你这套提示词生成的海报这么好看,而且非常丝滑。 捣鼓了一套万能产品、人文、科技、展会等等 都可以快速出图的提示词。 但是,很多人还是用不来觉得麻烦。 于是我,我把它在Bloome 做了个海报...

智能体图像生成教程/实践
09:50
meng shao@shao__meng
68
一个人,一门课,一个AI自动化工厂

Wix副总裁推出免费课程「Zero to Claude Code」,旨在帮助零编程基础的用户从终端使用起步,最终能用Claude Code在生产环境发布软件。课程已吸引超过17,000名学员,支持7种语言,完全依靠口碑传播。平台技术指标出色,日处理约640万请求且错误率极低。最具示范意义的是其AI闭环运营模式:平台由一人通过Claude Code构建并运营,通过AI Agent实现了学员报Bug后自动修复、社区功能需求自动实现的全流程自动化,证明了Claude Code能支撑生产级、可扩展产品的开发与运维。

itay shmool: I built "zero2claude", a free course that takes people from zero terminal experience to shipping with Claude Code. The c...

智能体AnthropicMCP/工具教程/实践
09:49
Tibo@thsottiaux
9
我们的总体规划是发布更好、更高效的模型。同时每周推出更好的产品。哦,还要获得更多算力。再加上在X上花费太多时间。这个计划怎么样?
OpenAI其他
09:30
ginobefun@hongming731
39
#BestBlogs 早报 05-23 今日主题: - Agent 架构在生产端形成长时程与实时两类分化(LangChain Interrupt 2027); - Notion 以爵士乐队模式和哑铃型人才重新创业(Ivan Zhao × Sequoia) - GLM-5.1 高速版 400 tokens/s 打破「快必然小」惯例(智谱 × TileRT)
智能体推理行业动态
09:30
ginobefun@hongming731
61
AI应用新趋势:架构分化、组织重构与性能突破

LangChain在演讲中指出,Agent生产架构已明确分化为长时程知识型与低延迟响应型两类,工程路径各异。Notion CEO分享了公司转向更灵活的“爵士乐队”模式,并采用“哑铃型”人才结构以适应AI开发。智谱同期发布GLM-5.1高速版,在保持旗舰能力的同时实现400 tokens/s的输出速度。三者共同揭示了AI应用在底层架构、组织形态与基础性能上的演进方向。

智能体AnthropicOpenAI推理
09:27
Rohan Paul@rohanpaul_ai
25
戴森在其位于英国的创新垂直农场系统中,部署了能够根据成熟度检测选择性采摘草莓的机械臂。
具身智能行业动态
09:19
meng shao@shao__meng
31
建议 X 评论区加上"Made with Human"的标志,因为默认都是 AI 回复的了 😂
其他现象/趋势
08:57
Rohan Paul@rohanpaul_ai
40
如果有一件事我想鼓励大家去做,那就是立刻为自己找一位AI导师。 这位AI导师可以教你任何事情。 我们将因为拥有超级AI而成为超级人类。 ~ Nvidia CEO Jensen Huang
大佬观点
08:27
Chubby♨️@kimmonismus
56
Demis表示奇点可能现在仅数年之遥,或许将由真正的AGI到来所推动。 "它如此具有变革性,将是史上最重要的技术"
DeepMind大佬观点
08:19
Suno@suno
58
McClenney如何将他的定制合成器设备接入Suno 🎛️
教程/实践
07:49
Suno@suno
58
McClenney如何将他的定制合成器设备接入Suno 🎛️
多模态教程/实践
06:57
Rohan Paul@rohanpaul_ai
44
每个智能体都需要人类。智能体离实际操作的人类越远,表现就越差。 尽管AI能完成专家级的人类工作,但它实际上增加了对人类专家的需求。
智能体大佬观点
‹ 上一页
1…4142434445…50
下一页 ›