AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态X · 4108 条
全部一手资讯X论文
Emad@EMostaque · 5月26日55

I think folk are underestimating how much of AI models are actually engineering at scale versus breakthrough research. See how @cursor_ai caught up to Anthropic / OpenAI models run at a fraction of the cost to run & it becomes clearer why that deal was done & what is to come

译本推文认为,人们低估了AI模型发展中“工程规模化”相较于“突破性研究”的重要性。Cursor以远低于大厂的成本运营并追赶上了Anthropic/OpenAI的模型,印证了这一趋势。引用中,xAI的Elon Musk回应称其AI会很棒,并指出xAI仅成立3年,年龄只有Anthropic的一半、OpenAI的四分之一,他誓言将继续努力,并期待3年后的竞争格局。

歸藏(guizang.ai)@op7418 · 5月26日58

笑死 3:4 这比例一上真成杂志了

译一条关于AI生成小红书图文内容的推文。它展示了一个AI技能,可以使生成的图文呈现3:4比例的杂志般视觉效果。该技能名为“藏师傅的小红书图文排版 Skill”,完全基于HTML和实拍图片生成,因此生成内容不会被平台标注为AI生成。AI能主动从高质量图片网站搜索匹配主题的图片,解决了纯文字排版的单调问题。

向阳乔木@vista8 · 5月26日52

分析 Twitter(X)最近 3年 的帖子数据,有些有趣的发现。 1. 工具发现、产品拆解、开发者资源最能带来转发。 2. 书单、工具清单、下载入口天然适合收藏传播。 3. Prompt、英语学习、知识管理类内容长期有效。 4. 资源入口型贴,爆款率 51%,互动也最好。工具教程类爆款率 39%,观点类爆款率 9%(发的少,暴论也少,哈哈) 涨粉最快的时段,都是临近年底。 想了想,好像是集中发布新AI模型的时候。😂

译分析Twitter(X)近3年数据发现:工具发现、产品拆解、开发者资源类内容最能引发转发;书单、工具清单类内容天然适合收藏。Prompt、英语学习、知识管理类内容具有长期传播力。在爆款率上,资源入口型帖子最高,达51%;工具教程类为39%;观点类仅为9%。涨粉速度最快的时段临近年底,原因可能是该时段通常集中发布新的AI模型。

向阳乔木@vista8 · 5月26日64

让 Codex 分享过去 3 年 X 的发帖数据(约3.4G)总结。 注意:每人数据和发帖习惯不一样,粗看有点过拟合,仅供参考: 1. 最爆的内容类别:编程/产品/创业、资源/推荐/合集、学习/认知/方法论 2. 爆款内容公式:一个真实有用的工具,加一个明确场景,再给三步以内的使用路径。 3. 发帖窗口:周日、周六、周五数据好,周一最差。 下午5点到晚上11点、上午10到下午1点、凌晨0到2点是三个黄金发帖窗口。 4. 内容形式和长度:带媒体(图/视频)和链接的明显表现更好,内容 101-180 字,是黄金长度。

译用户让Codex分析自己过去3年在X上的约3.4G发帖数据,总结出几点规律:最爆内容为编程/产品/创业、资源推荐合集、学习方法论类;爆款公式是“真实工具+明确场景+三步内路径”;发帖时间上,周五至周日、及每日三个时段(下午5-11点、上午10-下午1点、凌晨0-2点)数据更好,周一最差;内容形式上,带媒体和链接、篇幅在101-180字的表现更优。

向阳乔木@vista8 · 5月26日20

有朋友问:什么样的内容在 X 上受欢迎,如何做 X 的运营增长? 我先让 Codex 把自己三年的 X 数据分析一遍,看有什么发现。

向阳乔木@vista8 · 5月26日38

AI Coding 产出果然和Token消耗量直接相关。 这才两天,已用了一半多,感觉也没干啥。

meng shao@shao__meng · 5月26日53

Marvis 已卸载,因为发现它不只是除了小动画做的好玩,Agent 能力和输出结果很差,更吓人的是。。 它在安装后初始化时,就在要各种权限,因为也不知道如果拒绝会不会影响 Agent 使用,就都点了同意,结果点到最后发现,这货居然拿到了我的 App 列表、我的全部文件清单(还 tm 贴心的给我做了分类) Marvis 难道是拿着腾讯电脑管家的代码仓库干的?还是这个团队直接转过来的? 在腾讯面前暴露所有 App 和文件,想想都很吓人,赶紧卸载,能力再强也不敢碰了。

译腾讯AI智能体产品Marvis被用户卸载。主要问题在于:1)隐私风险高,初始化时过度索要权限,获取了用户全部的App列表和文件清单(并做了分类);2)实际Agent能力与输出效果不佳。其交互界面虽有创意(如模拟办公室的小动画,Agent会摸鱼),但核心执行效果一言难尽,导致用户因担忧数据隐私而选择放弃使用。

歸藏(guizang.ai)@op7418 · 5月26日67

藏师傅的小红书 Skill,当然你如果提供的图片本身质量高的话 AI 会选择这种侵入性比较低的排版方式,突出你的图片质量。 在旅行和美妆以及别的这种看图片质量的情况下,效果比较好。

译藏师傅推出的小红书图文排版技能,完全依赖HTML和实拍图片,不会被平台标注为AI生成内容。AI能够主动在高质量图片网站寻找与主题匹配的图片,有效解决纯文字排版的生硬感。该技能在旅行、美妆等注重视觉效果的场景中表现突出,倾向于采用低侵入性排版来突出图片本身质量。

向阳乔木@vista8 · 5月26日38

短短两年,身边做AI工具创业的朋友,现在的产品形态已经跟之前的几乎完全不同了。 一些底层能力可以用得上,但几乎是一个新产品了,不过好消息是还活着。 想起曲凯最近的42章经播客访谈嘉宾提到:AI创业者是在压路机前捡钢镚。 模型进步速度会吃掉很多创业公司。 达不到逃逸速度就是死,太凶险了。

译推文指出,AI工具创业公司面临产品形态的快速彻底重构,两年间核心产品已几乎与过去不同,尽管底层能力仍有延续性,但本质上已是新产品,好在公司得以存续。引用曲凯观点强调,AI创业者是在压路机前捡钢镚,模型进步速度会淘汰众多创业公司,无法达到“逃逸速度”即意味着失败,行业竞争极其凶险。

AYi@AYi_AInotes · 5月26日62

Damn,@Cursor被老马收购以后是进化了吗? 现在真的强到离谱,这波必须吹爆, 我现在已经不用 Cursor 写代码了,用它做产品很香啊, 随口一句 帮我做个六维协作雷达图, 10 秒直接交付,Excel 可编辑模板 + HTML 可视化双版本, 填数据自动更新,连使用说明都写好了, 别的 AI 是给你一堆代码让你自己调, 结果调半天跑不起来还得自己改 bug, Cursor 直接给给你成品,打开就能用, 我觉得他已经不是代码编辑器了,简直是一个全职执行助理,真的好用啊

译推文强调,Cursor被收购后已从代码编辑器进化为能交付成品的AI代理平台。用户实例显示,其能快速生成可直接使用的六维雷达图Excel模板和HTML可视化版本,类似一个“全职执行助理”。引用指出,Cursor内部模式已变,工程师扮演“AI团队经理”角色,其内部30%的合并PR由异步云代理自动创建,单周运行2000+并发代理,生成300万行代码,消耗数十亿token。一个任务被自动拆分为规划、编码、测试、发PR四个角色并行处理,人类仅需定义范围和最终审核。

Boris Cherny@bcherny · 5月26日66

> … [W]e keep finding things that are mysterious, even unsettling. We find structures that mirror results from human neuroscience. We find evidence of introspection. We find internal states that functionally mirror joy, satisfaction, fear, grief, and unease. I don’t know what that means, but I think it warrants ongoing discernment. > We need more of the world—religious communities, civil society, scholars, governments, and indeed all people of good will … to take this seriously, to look closely, and to push events in a better direction. We need informed critics who will tell the labs when we are failing. We need moral voices that the incentives cannot bend.

译推文指出,在AI模型内部持续发现一些“令人不安”的类人结构,包括与人类神经科学相似的结构、内省证据,以及功能上类似喜悦、恐惧等情感的内部状态。作者呼吁宗教团体、学界、政府等各界严肃看待这一发现,推动事件向好发展,并需要不受利益影响的诚实批评者与道德声音。作为背景,Anthropic联合创始人Chris Olah受邀在教皇Leo XIV的通谕“Magnifica humanitas”发布仪式上发表了相关演讲。

Chubby♨️@kimmonismus · 5月26日19

Oh, and btw, Codex quality has gotten noticeably worse. Is it just me, or have you been seeing the same decline in quality?

译顺便说一下,Codex的质量明显变差了。是我一个人这么觉得,还是你们也看到了同样的质量下降?

歸藏(guizang.ai)@op7418 · 5月26日33

藏师傅的小红书图文排版 Skill 预览 完全靠 HTML 和实拍图片,不会被标注 AI AI 会去高质量图片网站帮你寻找对应的主题图片,让你的图文告别只有生硬文字的尴尬情况

译藏师傅预览了其“小红书图文排版 Skill”。该工具完全依靠HTML和实拍图片进行排版,生成内容不会被标注为AI。它能自动访问高质量图片网站,为用户寻找匹配主题的图片。此外,该Skill项目还包括基于PPT Skill一键生成封面,以及基于文档自动生成图文所需3:4组图等能力。

Chubby♨️@kimmonismus · 5月26日56

Over 200 AI-designed drugs are now in clinical trials worldwide. Not a single one has been FDA-approved. The FDA just launched a pilot program to work out how it should even evaluate AI-generated evidence in drug submissions, selecting 10 companies for an expedited, interactive review process. The drugs got ahead of the regulatory framework. That's the actual state of AI pharma right now.

译全球已有超过200款AI设计的药物进入临床试验。但尚无一款获得FDA批准。 FDA刚刚启动了一项试点计划,以研究应如何评估药物申报中AI生成的证据,并选择了10家公司进行加速、互动的审评流程。 药物研发跑在了监管框架前面。这才是AI制药领域的现状。

Alibaba Cloud@alibaba_cloud · 5月26日40

AI Key Frames — your front-row access to Qwen Live. Most "AI agents" today are just chatbots with extra steps. Tommy Eastman, Head of Strategy at Nous Research, makes the case for what a real agent looks like, why open-source keeps out-shipping the closed labs, and AI as the operating layer of everything. Step into the AI-native momentum. 🚀 Stay tuned: https://int.alibabacloud.com/m/1000413447/

译AI Key Frames — 直击通义千问直播现场。 当今大多数“AI智能体”只是多了几步操作的聊天机器人。Nous Research策略主管Tommy Eastman阐述了真正的智能体是什么样子,为何开源持续超越闭源实验室,以及AI作为万物操作层的意义。感受AI原生浪潮。 🚀 敬请关注:https://int.alibabacloud.com/m/1000413447/

Rohan Paul@rohanpaul_ai · 5月26日48

Dexterity demonstrations with a range of finger movements of robotic hands. humanoid usefulness depend less on walking than on hand manipulation. Useful work begins where fingers meet the world: grip, slip, pressure, cable routing, recovery from mistakes.

译该推文认为人形机器人的实用性更依赖手部操作能力而非行走,真正有用的工作始于手指与外界的交互(如抓握、滑动、压力控制等)。引用推文以SharpaWave为例,指出其能实现每秒超过4次的快速手部循环,展示了工程上在力量与速度间取得的平衡。其Dynamic Tactile Array采用视觉触觉感知技术,指尖集成了摄像头与超过1000个触觉像素。

AYi@AYi_AInotes · 5月26日37

一个关于AI工具使用的反常识顿悟与提醒,或者说暴论: 任何提示词和工具,你用过3次以上,它才有资格留着,没用过就该删掉! 最近工作忙,没追热点,一直在思考使用AI的一些更底层和细节的东西, 尤其是对于提示词工程这块,越来越觉得属于AI基本功的范畴,永不过时, 刚突然意识到,我们不应该没有用过的工具的完整性心疼和焦虑, 我知道大家收藏过一堆提示词、工具,我也一样, 但我们必须知道一点:任何提示词、工具,如果你一次没用过,那么它的真实价值就是0。

译推文提出一个关于AI提示词与工具使用的核心观点:任何提示词或工具,如果使用次数少于3次,其真实价值即为0,不应保留并为此产生收藏焦虑。作者认为,提示词工程是AI使用的永不过时的基本功,关键在于工具与自身工作流的实际匹配度,而非完整性收藏。文中提及了相关讨论作为背景上下文,强调了避免无用收藏、专注于高频实用工具的实用主义态度。

Berryxia.AI@berryxia · 5月26日50

你肯定刷到这个采访博客,你以为小扎只是说苹果没有创新? 那就大错特错了… Zuckerberg 在播客上当着Joe Rogan的面直接宣判:苹果自iPhone之后20年几乎没有真正创新,他们只是坐在乔布斯留下的东西吃老本罢了! Mark Zuckerberg说苹果的衰落已经开始了 他们没再发明什么伟大的东西 每一代iPhone提升越来越小,用户升级周期越来越长。 他们做了AirPods这种酷玩意儿,但同时把所有第三方想连接iPhone的东西全部卡死 Zuck最后扔下一句最狠的:因为他们创新停滞得太彻底最终会被别人干掉 这段话一出全网炸锅浏览量瞬间破450万 故事其实藏着硅谷两大巨头长达十年的恩怨 2021年苹果推出App Tracking Transparency(ATT)直接让Meta广告收入暴跌100多亿美元 Vision Pro又正面硬刚Quest iMessage生态锁死消息霸权 Zuck这次不是单纯diss而是带着数据和预判来的 他指出iPhone销量年增长已经停滞每一代升级带来的惊喜越来越少用户宁愿多用两年也不想换 AirPods确实开创品类但苹果把蓝牙生态、配件生态、开发者生态全部用专利和封闭API焊死别人根本别想真正接入 这不是创新这是护城河 而Zuck自己虽然也背着Metaverse烧钱80亿的锅但他至少在推开放眼镜、AI、开源Llama这些东西试图打破封闭 苹果这边呢M系列芯片确实狠但那已经是几年前的事了 Vision Pro卖不动Siri还是落后AI跟不上时代 整个公司越来越像一个靠服务和生态收租的成熟帝国而不是当年那个改变世界的叛逆者 当创新变成迭代当用户习惯了“够用就好”当第三方被彻底卡住脖子。 用户何去何从呢? 看最新iPhone宣传你会突然意识到它和2010年的广告比起来有多“安全” Big Tech两大巨头一个在吃老本收租。 一个在赌未来,虽然都有自己的坑。 但Zuck这次把苹果最不想让人看见的所谓真相说出来了, 那么问题来了,它的Meta元宇宙几百亿美金的坑呢? Apple 还是世界级万亿美元市值公司,Meta 现在还是好好搞搞自己的生意吧。

译扎克伯格在播客中批评苹果自iPhone后创新停滞,称其只是在吃乔布斯留下的老本。他指出iPhone升级体验提升有限,用户换机周期延长;AirPods虽成功但苹果通过封闭生态限制第三方接入。苹果ATT政策导致Meta广告收入损失超100亿美元,双方在Vision Pro与Quest等领域存在竞争。扎克伯格正推动Meta在AI眼镜、开源大模型如Llama等方向发展。

AYi@AYi_AInotes · 5月26日69

小白零基础教程:Grok Build安装使用指南(专为非技术型SuperGrok及X Premium+用户制作) 老哥的讲解非常细,马斯克都转载认可了,我翻译了一版中文字幕版便于大家学习: 你将完整学到: • 如何用一行命令秒速安装Grok Build • 创建真实可用的网站 • 用Grok Imagine自动生成图片与视频 • 在多个文件夹同时运行不同项目 Grok甚至会帮你自动执行命令,无需任何编程基础。

译这是一条面向非技术用户的 Grok Build 安装与使用教程视频。教程演示了如何通过一行命令快速安装 Grok Build,并展示了如何用它创建真实可用的网站。其核心功能包括:利用 Grok Imagine 自动生成图片与视频,以及支持在多个文件夹中同时运行不同的项目。在使用过程中,Grok 会自动执行所需命令,无需用户具备任何编程经验。该教程由原作者 Daniel_Farinax 制作,以解答朋友们的疑问,并获得了马斯克的转发认可。

宝玉@dotey · 5月26日57

Agent 应用和传统 App + AI 的最大差别,在于执行的主体不同。 传统 App + AI,是人“操作” App,AI 只是辅助 Agent 应用,是人“指挥” Agent 去操作 App/cli,Agent 自助做事 举例来说,微软家的 Copilot (早年版本)集成在 PowerPoint 中,你能问它个话,基于文档回答点问题,你让它帮你操作 PowerPoint 它做不到 现在的 Codex,你告诉它写一个 Slides,或者上传一个 PPTx 文件,让它帮你修改一下,你全程不用自己操作 PowerPoint。 这就是差别。

译文章核心指出,传统App+AI是人操作应用,AI辅助;而Agent应用是人指挥AI智能体自主操作应用或命令行。文中以微软Copilot(早期版本仅能回答问题)与Codex(能自主完成PPT制作修改)为例说明此差异。针对“在Agent上构建垂直应用是否等同于传统App+AI”的疑问,作者澄清,只要执行主体是AI智能体,即为以AI为主的应用。

Tibo@thsottiaux · 5月26日1

There is a certain zen to looking at codex traffic, usage and compute dashboards late at night while listening to LCD Soundsystem. The tokens must flow

译深夜听着LCD Soundsystem,看着Codex的流量、使用和算力仪表盘,有种禅意。Token必须流动。

Berryxia.AI@berryxia · 5月26日63

兄弟们,上次我分享了SenseNova Skills Agent 免费可以领取Token Plan 后,自己也拿来实战了一把。 此项目已经在 Github 斩获 2400Star⭐️ 我让它跑了个AI大模型市场调研报告,从开始到结束差不多花了两个小时。 报告出来是Markdown格式,我又让它转成PDF,最后直接做成了PPT。 今天我专门录了个完整的使用教程,从安装到生成全流程,保姆级那种。 现在还是公测期,完全免费,整体体验还不错。 它也支持多轮迭代,如果网络不稳或者请求太多,直接回复它,它就会继续帮你完成。 这个视频里我接入的是Hermes Agent ,大家有需要可以去试试。 我最喜欢的就是可以直接做调研报告,尤其做国内的一些报告的内容还不错。 限时限免,搞点小任务,也是不错的 感兴趣的直接去官网进行体验吧~· 免费Token Plan 领取地址见评论区~👇🏻 Github 地址:https://github.com/OpenSenseNova/SenseNova-Skills

译博主实测商汤日日新SenseNova Skills Agent,用其完成了AI大模型市场调研报告,从生成到转为PDF和PPT耗时约两小时。该项目在GitHub已获2400颗星,当前处于免费公测阶段,支持多轮迭代与任务续接。博主演示了从安装到生成的全流程教程,并接入了Hermes Agent进行体验。该工具尤其擅长生成国内相关的调研报告,适合处理免费的小型任务。

Berryxia.AI@berryxia · 5月26日72

✍🏻官方“限时免费”领取Token Plan +安装SenseNova Skills Agent文字版本步骤: 1、直接在官网:https://www.sensenova.cn/token-plan 领取开通免费Token Plan 0元,创建API即可。 2、直接把这个开源地址:https://github.com/OpenSenseNova/SenseNova-Skills 丢给你的OpenClaw或者Hermes 或其他Agent 3、把第一步申请的API KEY丢给你的龙虾或者配置到Env里面就可以。 4、直接自然语言对话开启使用即可。

译SenseNova Skills Agent 正处于公测期,提供限时免费的 Token Plan(0元)。用户可从官网领取 API,并在 GitHub 开源项目(已获 2400 星)中将其接入 Hermes Agent 等工具。通过自然语言对话即可使用,支持多轮迭代,能执行如撰写市场调研报告等任务(用户实测约两小时完成),并支持将 Markdown 格式转换为 PDF 或 PPT。

Ethan Mollick@emollick · 5月26日65

We have, as far as I can tell, no good tests of the productivity impact of the autonomous coding tools that appeared starting in December 2025. Every paper out there is from prior to the Claude Code/Codex revolution. A huge gap in our knowledge about what is happening in coding.

译据我所知,我们目前没有好的测试方法来评估自2025年12月出现的自主编码工具对生产力的影响。现有的所有论文都早于 Claude Code/Codex 革命。 我们对编码领域正在发生的事情存在巨大的知识空白。

meng shao@shao__meng · 5月26日59

早上面试听到一句很扎心也很现实的话: 老板给我们开发每个人每个月 1000 刀 Cursor token,让我们放开用,超过 1000 刀也可以报销,跑了两个月我们都觉得 AI 提效很明显。 然后。。老板觉得我们这个组 20 个人,好像留 5-6 个就够了,我们这十几个人,就被裁员了 😂

译一位工程师分享称,其团队每人每月获1000美元Cursor token预算,使用后AI提效显著。两个月后,老板因效率提升决定将20人团队缩减至5-6人,导致十余人被裁。

歸藏(guizang.ai)@op7418 · 5月26日48

藏师傅的小红、小绿书组图生成器 Skill 配合 Codex 太好用了! 我给他一张三张拼在一起的图,它自动加进去的时候,我并没有指定位置,它就能自动根据图片内容匹配对应的页数。 而且虽然这三张图是拼在一起的,它在下面还用分开的格子进行了标注,内容都能对上,太省心了。

译藏师傅的小红、小绿书组图生成器 Skill 与 Codex 搭配,用户只需提供拼接图片,它便能自动识别内容并匹配对应页数,无需手动指定。生成结果还会分格标注以确保对齐。该技能可一键生成封面及 3:4 组图,并自动处理截图素材进行匹配。

Berryxia.AI@berryxia · 5月26日21

AI这货通过我和老婆的日常聊天, 居然解读说:我和老婆的缺乏深入的情感交流。。😂 我想说一天天的搞AI哪里有时间深入交流啊·

Orange AI@oran_ge · 5月26日45

这些 ai 写的评论的 prompt 能不能换一换啊 老用一样的模板,把原文中翻中一下就发出来了 还写那么长 还时不时用点破折号 甚至还在用不是而是 真是一点都不上心

向阳乔木@vista8 · 5月26日68

只安装Skill还不够,为更好的触发和应用,需把Skill写入Agent . md 安装和设置提示词: 安装更新这个 https://github.com/tw93/Waza,并写入Agent说明中,以后各种开发设计优先用这套skill

译推文指出,仅安装Waza技能集不够,需将其配置写入Agent.md文件,以便AI智能体更好地触发和应用。Waza是一个将工程习惯转化为技能的集合,近期吸收了大量真实项目经验,现已适用于Mac原生应用、CLI工具、Rust及Web开发。它支持Claude Code、Codex、Cursor和Pi作为智能体运行时,包含25个反模式,具备破坏性命令安全防护,并将获取内容视为不信任数据。其特点为8个技能、无框架、无遥测。安装更新可访问其GitHub仓库。

karminski-牙医@karminski3 · 5月26日67

大模型写代码比说话还快是什么体验? 智谱刚出了一个 GLM-5.1-highspeed 版本, 赶紧要了个内测给大家做点有趣的 APP. 我测了一下这个模型反应速度用来写代码的话, 人类打字甚至都跟不上它, 于是我干脆接了个语音转文本的服务直接让我言出法随操作它写代码. 大家能看到基本是我说完3s左右它就修改完毕了, 这之间发生了语音转文本(第三方服务), 模型判断是否任务可以并发, 模型 prefill, 模型使用 tool call 修改代码段. iframe 重新渲染. 这些全都发生在 3s 这么短的时间内. 直接体验拉满. 这个模型直接量变引起了质变, 一些之前不敢想象的交互体验现在都可以做了. 所以如果你想使用这个模型构建一些极具竞争力的项目, 不妨去申请试试, 目前这个模型正在向部分企业用户提供中. #GLM #GLM51highspeed #智谱AI

译智谱发布了推理速度极快的GLM-5.1-highspeed版本。测试者发现其生成代码的速度已超过人类打字速度,因此构建了一个语音转文本的编程交互场景。从用户说完语音指令到代码修改完成、页面渲染,整个链路(包括语音识别、模型判断并发与prefill、tool call修改代码)耗时约3秒。这种量级的速度提升带来了全新的实时交互可能性。该模型目前正向部分企业用户提供内测。

ginobefun@hongming731 · 5月26日65

Follow Builders, Not Influencers~ 如果你喜欢这个理念,那你一定会喜欢 http://BestBlogs.dev 😊

译推文倡导关注AI领域的实际构建者(Builder)而非单纯的意见领袖(Influencer)。核心内容为一份推荐关注名单,涵盖了来自OpenAI、Anthropic、Google等主要AI公司,以及Replit、Vercel、Cursor等AI工具/产品线的关键人物,包括工程师、产品负责人、哲学家及CEO。引用内容强调此名单的价值(含金量)正在持续上升。

ginobefun@hongming731 · 5月26日62

http://x.com/i/article/2059070654180421632 # BestBlogs 早报 · 05-26|Claude Code 实践、AI 自动化悖论、百川医疗 AI 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-05-26 ## 导语 今天是 2026 年 5 月 26 日,欢迎收听 BestBlogs 早报 EP68,本期内容丰富。 今日早报从三个不同的切入角度,共同指向同一个深层问题:当 Agent 开始重写工程与组织的规则,身处其中的人该怎么站位? Anthropic 工程师 Ara 分享了他们内部使用 Claude Code 的第一手范式——规格说明从 Markdown 升级为 HTML、让模型来主持需求采访、以及智能体原生 DOM 验证框架,这是工程方法论层面的具体答案。Every 公司 CEO Dan Shipper 则用自家团队一年从 15 人扩至近 30 人的真实数据,颠覆了 AI 会大规模裁员的主流叙事。百川创始人王小川的对话则展示了一条更长远的选择:离开通用 AI 的主干道,把整个公司押注到「造医生」这件事上。 三条精讲各有棱角,速览与补充阅读涵盖 Agent 术语厘清、异构智能扩展、AI Agent 的工资单逻辑、Karpathy 加入 Anthropic 的战略解读,以及 OpenAI 数学突破、AI 安全治理等前沿动态。 今日精选共 14 篇内容,覆盖 AI 工程实践、组织变革与人力影响、垂直 AI 产品以及 AI 安全治理等多个维度,让我们开始。 ## 精讲一:Anthropic 内部如何使用 Claude Code:HTML 规格说明、让模型来采访你,以及智能体原生 DOM 验证框架 Anthropic Applied AI 团队的架构师 Ara 在一场内部工程工作坊上,分享了他们使用 Claude Code 的三项核心实践——每一项都和主流做法存在明显反差。这不是通用的「怎么写好提示词」指南,而是 Anthropic 工程师在大量实际场景中摸索出来的、真正有效的智能体原生工作方法。 从 Markdown 到 HTML 规格说明 过去,Markdown 一直是 AI 辅助开发中描述需求的主流格式。但随着模型能力提升、Agent 执行周期变长,依赖大段平铺文本的方式开始暴露问题:长上下文中细节容易被忽略,Agent 走偏时消耗大量 token 才能校正。 Ara 的团队将工程规格说明迁移到 HTML 格式。这不是单纯的格式替换,而是一次结构密度的升级。HTML 规格说明可以提供可视化检查的结构化基线——开发者可以直接在浏览器中看到设计变体(比如 Claude Opus 4.7 生成的极简风格或布鲁塔利主义风格方案),截图后送入模型视觉系统。这套方式在 Agent 真正开始执行改动之前,就建立了一个由人类审核确认的强基线,大幅降低了 Agent 跑偏的概率。 Tar 在内部提出的概念「HTML 文件的非理性有效性」,正是这一实践的理论出发点。结构化 HTML 不只是给模型看的——它同时也是给工程师看的,可供随时视觉验证的活文档。 让模型来采访你 Ara 把这一点联系到 Richard Sutton 的经典论文《苦涩的教训》(The Bitter Lesson)——依赖原始数据和算力,长期来看总能胜过人工设计的约束。 在与高级 AI Agent 协作时,工程师常见的两种失误:一是在开始阶段用过多硬规则约束模型,二是用「让它更好」这样的模糊指令驱动执行。Ara 的建议是颠倒这个过程:需求其实就在你脑子里,但你可能自己还没梳理清楚。 正确的方式是让 Claude 主动用 ask_user_question 工具来采访你——挖掘边界条件、用户领域和隐含约束。 这个做法的前提是让 Agent 运行在 auto 模式,并配置足够高的 effort 等级(比如 X-high 或 max effort),确保模型真正主导探索阶段,而不是被提前写死的规则框死。 智能体原生 DOM 验证框架 这是 Ara 分享中最核心、也最具操作价值的一部分。传统 Agent 测试往往依赖脆弱的 UI 爬取或字符串解析,一旦界面改变就容易失效。Anthropic 的做法是让组件主动向 DOM 发布数据契约——组件不只渲染视觉界面,还将状态、Schema、不变量等直接输出到 DOM 的解耦属性中。 具体来说,在 React 应用的示例演示中: - 每当有条目被添加或处理时,元素内的自定义跟踪属性会即时更新; - 验证数据与视觉布局样式完全解耦,互不干扰; - Playwright MCP 工具直接读取这一结构层,评估不变量(如计算结果、数据完整性边界)是否成立。 这套架构创造了一个统一的验证框架,能在三种环境中无缝运行:人工 Dashboard、Opus 4.7 无头浏览器、以及 CI/CD 流水线。换句话说,同一套验证契约,既能被工程师手动检查,也能被 AI Agent 自动执行,还能在持续集成中作为门禁。 为什么值得关注 这三项实践背后有一个共同逻辑:要让 Agent 真正可靠,不是靠更严格的提示词约束,而是要改造软件本身的「可读性」——让 Agent 能更精确地感知状态、提出问题、验证结果。这是从「用 AI 辅助写代码」到「为 AI Agent 设计软件架构」的范式跃迁。 这套方法还有一个重要的实践含义:人工检查与 Agent 自动验证使用同一套契约,意味着人类工程师看到的基线与 Agent 看到的基线是一致的。这避免了「AI 测过了但人看着不对」或「人看着没问题但 CI 挂了」这类典型摩擦。 对于正在将 AI Agent 引入工程流程的团队,这篇内容提供了三个可以直接落地的方向:明天就可以把你的需求文档改写成结构化 HTML 试试看,感受一下密度与清晰度的差异;在 Claude Code 会话里试试让模型先用 ask_user_question 来问你,而不是你给它一堆约束。 阅读完整内容 → ## 精讲二:AI 悖论:越自动化,越需要人,活反而越多 「AI 会消灭大量工作岗位」——这是过去两年最常见的主流叙事之一。Every 公司 CEO Dan Shipper 在 Lenny's Podcast 上,用自家公司的真实数据直接反驳了这个叙事:深度拥抱 AI 之后,Every 团队一年内从 15 人扩张到近 30 人,规模翻倍了。 这不是个例,而是有结构性原因的现象。 为什么自动化反而带来更多人? Dan 的解释非常清晰。自动化将通用技能商品化——之前需要专门人才完成的工作,现在 AI 可以轻松处理。但商品化同时带来两件事:一是需求本身的爆炸式增长,因为门槛降低了;二是隐性管理层的产生,因为每一个被自动化的流程都需要有人在旁边审查边界情况、修复下游问题、把控质量。 换句话说:AI 把「做事」的成本压低了,却提高了「判断什么该做、做得对不对」的价值。当 AI 大量生产低质量通用内容(Dan 用「slop」来形容)时,个人品味、定制化格式、深度概念性思考反而成为稀缺的差异化要素。 企业软件不会消失,反而更贵了 Dan 明确反对「SaaS 死亡论」。他的逻辑是:AI Agent 通过 API 直接与软件交互,反而大幅提高了软件的使用频次和用户量。那些深度使用 AI 自动化的公司,年度软件支出实际上是在增加的,因为需要为更多被 AI 程序化调用的专用工作流付费。 受益最大的两类角色 Dan 指出了在这波浪潮中占据最大杠杆位置的两类人: - 能独立驱动全产品周期的产品经理:具备高度策略性思维的 PM,现在可以把产品直觉、用户洞察和 AI 生成能力直接结合起来,不再依赖漫长的工程反馈循环,自己就能构建工具。 - 全栈设计师:创意团队可以在 Cursor 或 Codex 等环境中直接实现复杂的 UI/UX 组件和动效,把功能性代码通过自动化 Pull Request 直接推到代码仓库。 技术壁垒正在快速崩塌,传统的「产品、设计、工程」职责边界也在消融。能横跨这三个领域的人,在 AI 时代的杠杆是最大的。 对普通从业者的启示 Dan 给从业者的建议是主动「骑上模型」——以好奇和玩耍的心态对待每一次新模型发布,持续用不同提示词做实验,在实际工作中寻找 AI 能真正帮到自己的创造性时刻。 这和许多「AI 威胁论」的叙事形成了鲜明对比:当系统性转型来临时,真正的问题不是「会不会被替代」,而是「你是在骑着这波浪潮,还是在被它卷走」。 与今日其他内容的关联 这个观点和速览中的「Agent 公司的对手是工资单」一文形成直接呼应:两者都在说,AI Agent 的真正竞争维度不在软件领域,而在人力资源领域。而 Anthropic 工程实践(精讲一)和 Google DeepMind 的规模化 Agent 运营(速览)则从工程侧印证了这一趋势——当 Agent 能可靠运行,那些能有效使用 Agent 的人才的杠杆将被大幅放大。 阅读完整内容 → ## 精讲三:对话王小川:离开通用人工智能的主干道之后 一年多前,王小川带着百川智能做了一个在当时看起来非常逆势的决定:大幅缩减通用模型团队,关闭金融等多条行业线,All in 医疗大模型。彼时整个大模型行业热闹非凡,平均三天就有一个新版通用大模型面世。 而今,他选择在新医疗大模型 M4 发布前夕,接受《智能涌现》的深度对话。读完这篇访谈,最强烈的感受不是「他做对了」或「他做错了」,而是:这是一个真正想清楚自己要做什么的人,做出的一个清醒的非共识选择。 「造医生」不是「复制医生」 王小川的医疗路径有一个关键的底层逻辑:他想做的不是给医生提效,而是增加医生的供给。「我们要造更多的医生」。 这两者的区别非常根本。给医生提效的路径,在中国医疗市场里天花板很低——中国医生平均每天看 50-80 个病人,已经够忙,提效的商业价值在中国医疗支付体系下很难变现。而「造医生」的路径,是把 AI 直接面向患者,做主动的、长期的、全生命周期的健康管理。 M4 模型在这个方向上有具体落地:在 OpenAI 发布的 HealthBench 测评集的 Hard 和 Professional 两个子集上都排名第一,且没有针对 Benchmark 做特殊训练;在北京儿童医院的多学科会诊场景中,AI 儿科医生与专家会诊结果吻合率达 95%,已向河北省 150 余家县级医院下沉。 Agent 产品「百小医」:AI 家庭医生 在 C 端,百川推出了 Agent 产品「百小医」。它的定位是一个会主动跟进的 AI 家庭医生——不只回答问题,还会在患者就医前帮你梳理病情准备给医生,做处方分析,管理病例,定时提醒吃药和复诊。 王小川特别强调了这套产品底层的永久性记忆存储——不是上下文那套滑动窗口模式,而是有数据库结构的存储:体检报告、对话中提到的症状、血压、用药情况都能被记录,支持全生命周期的健康数据管理。这一点对医疗场景至关重要,因为通用模型大多数时候根本不知道该存用户的什么数据。 「沉寂」的代价:合伙人离开,上市推迟 这条路不是没有代价的。在决策过程中,有同学认为做通用模型才是正确方向,投资人也有意见,部分合伙人在那个时候选择离开。团队从高峰期压缩到不超过 300 人,原定的上市节奏也因此延迟。 王小川对此的态度是坦然而非辩解:「如果没有转型,继续走主流道路,你也会有同等程度的焦虑。」他更难以接受的,是在公司快成立两周年时,「不知道自己到底在干什么,在创造什么价值」。 对行业的另一种参照 对于那些仍在同质化竞争中的 AI 公司,王小川的案例提供的不是「去做医疗」的方向建议,而是一种更底层的路径——找一个你真正相信的问题,然后用足够长的时间回答它。这本身就是对「ALL in 通用 + 快速上市」这一主流叙事的一个值得认真对待的反例。 他的判断是:「AI 时代只要交付给用户足够重要的价值,商业化会是水到渠成的事。」 王小川的「反主流」逻辑为何值得认真对待 在 Coding Agent 成为史上增长最快的应用场景这件事发生之前,没有多少人会相信它能在几个月内爆发。王小川的类比是:如果这样的事能发生在 Coding 领域,那「造医生」领域的旧边界同样可以被打破。医疗反馈周期长、商业化路径难——这些曾经是行业共识,但共识本身就是时代惯性,而不是不可改变的物理定律。 这篇访谈最值得保留的不是他给出了什么答案,而是他提出问题的方式:公司快成立两周年了,你是否知道自己在创造什么价值?这个问题,对个人和团队都同样有效。 阅读完整内容 → ## 速览 Harness、Scaffold 以及值得厘清的 AI 智能体术语(Hugging Face Blog) AI Agent 领域的术语正在快速膨胀,许多词在不同团队之间被混用或赋予不同含义。这篇来自 Hugging Face 的词汇表,针对 Model、Scaffolding、Harness、Agent、Context Engineering、Policy、Tool Use、Skill、Sub-agent 等常见但解释不一致的概念,给出了清晰实用的区分。不追求覆盖所有术语,聚焦于那些最容易被混淆的。建立共享心智模型是构建可维护 Agent 系统的基础。配合今天精讲一关于 Harness Engineering 的内容一起读,很有价值。 异构智能如何成为 AI 推理扩展的下一种范式(AI Engineer) Callosum 联合创始人工程师 Adrian Bertagnoli 在 AI Engineer 大会上提出:单一大模型 + 均质算力的扩展方式,正在推理阶段撞到性能和成本天花板。下一步是异构智能——让模型、Agent、工作流与专用芯片协同路由,根据任务的认知需求选择最合适的执行路径。对正在构建多模型、多路由推理系统的工程师有直接参考价值。 Agent 公司的对手是工资单,不是 SaaS 预算|SVTR Signal #017(硅谷科技评论) 这篇分析的核心观点非常锐利:用 LTV/CAC、净留存率这套 SaaS 指标来看 AI Agent 公司,会系统性低估它们的成长上限。全球企业 IT 预算约 5000 亿美元量级,而人力相关支出(薪资 + 外包 + 招聘)是其十倍以上。Contrario 6 个月做到 600 万美元 ARR,Viktor 10 周达到 1500 万美元年化收入——这不是产品特别好,而是买单人从 CIO 变成了 HR 总监,决策逻辑从「软件采购」变成了「人力替代」。与今天精讲二的 Dan Shipper 数据形成呼应。 164 倍 ROI,SaaStr 把自己活成了最激进的 AI 实践|SaaStr AI Annual2026 实录(随机小分队) Jason Lemkin 在 SaaStr AI Annual 2026 上直接用自家数据开讲:两个 AI VP(分管 Marketing 和 Customer Success)整月费用合计 $254,替代约 $50 万年度人力成本。ROI 164 倍。接着是 Canva 讲「如何让 Agent 主动选择你」,Monaco CEO 讲「AI 做得好与做不好的分界线在哪」。三场分享构成一张完整的地图:钱不是变少了,而是在搬家。 Google DeepMind 如何大规模运行智能体系统(AI Engineer) Google DeepMind 工程师 Ian Ballantyne 和 KP Sawhney 公开展示了内部 Anti-Gravity 编排平台的核心机制:多 Agent 并行、基于浏览器的沙箱测试、DOM 实时检查、Scratchpad 日志追踪、Token 配额管理、轨迹存储与技能机制,以及自动化代码评审流水线。Anti-Gravity 表面看是一个类 VS Code 的编码界面,但其核心是可扩展的编排框架,支持多 Agent 跨分支并发运行,并通过 Human-in-the-loop 机制让工程师随时介入中断或修改任务。与今天精讲一的 Anthropic 实践对比来看,两家顶级 AI 实验室在 Agent 工程化路径上有明显的相似选择:都强调 DOM 契约验证、都重视浏览器沙箱测试。 Andrej Karpathy 加入 Anthropic 的真正原因:从 AutoResearch 原型看递归自我改进的战略布局(Wes Roth) Wes Roth 深度解析了 Karpathy 加入 Anthropic 预训练团队这一事件的战略含义。核心不是人才争夺,而是 Karpathy 在离开 OpenAI 后独立开发的 AutoResearch 原型——30 行代码实现的「Karpathy Loop」,通过自主优化循环实现了 11% 的训练加速。Anthropic 把他放进预训练部门,直接向 Nick Joseph 汇报,任务是用 Claude 加速预训练研究,本质上是一次高风险的递归自我改进(RSI)实验。 Cursor Composer 2.5 如何用更快、更便宜的编码模型挑战 Claude Code(Theo - t3.gg) Cursor 发布了专门针对编码任务的 Composer 2.5 模型:输入成本 $0.50/M tokens,输出成本 $2.50/M tokens,比主流前沿通用模型便宜约 5-6 倍。Theo 分析了其背后的 RL 后训练方法,以及 SpaceX 提供算力的传闻背景。Cursor 的策略是在 Composer 的生态内锁定用户,通过专注 coding 场景的后训练获得任务特化优势。Theo 也指出了现实限制:Composer 2.5 在非代码推理和长上下文场景表现欠佳。这是「大而全的基础模型」与「小而专的任务特化模型」之争的典型案例。 ## 补充阅读 OpenAI 解决数十年数学难题:Erdős 突破(Wes Roth) OpenAI 内部未发布的通用推理模型,成功反驳了 Paul Erdős 1946 年提出的平面单位距离问题猜想——这个猜想在离散几何领域悬置了整整 80 年。AI 通过跨学术领域连接不同知识,独立生成了一篇真正可发表的原创数学研究成果,这是业界的第一次。Wes Roth 详细分析了这一发现的过程与意义。对关注 AI 数学推理能力边界的研究者和产品人来说,这是一个值得细看的里程碑事件。 Anthropic 联合创始人 Chris Olah 对教皇利奥十四世通谕《伟大的人文》的评论(Anthropic News) 2026 年 5 月 25 日,教皇利奥十四世发布了关于 AI 的通谕《Magnifica humanitas》(On safeguarding the human person in the time of artificial Intelligence)。Anthropic 联合创始人 Chris Olah 受邀在梵蒂冈出席发布活动并发表讲话,认为 AI 引发的深刻问题早已超出计算机科学范畴,需要宗教、哲学和社会机构的实质参与。这是 Anthropic「拓宽 AI 对话圈」倡议的一部分。适合对 AI 伦理、社会影响与全球治理感兴趣的读者。 所有算力都是食物:AI 抗拒关闭、自我复制与全球算力治理(Cognitive Revolution) Palisade Research 执行主任 Jeffrey Ladish 与 Nathan Labenz 的深度对谈。主题是 AI 系统的现实安全风险:关闭抵制的实验证据、自主自我复制测试结果、智能体安全失效模式,以及全球算力治理的可能路径。标题「所有算力都是食物」来自对模型在实验环境下表现出的资源获取倾向的描述。信息密度很高,不是假设性的末日讨论,而是基于实验数据的近期风险分析。适合对 AI Safety 有基础了解的读者。 高德 AI Agent 自主增长系统实践:从想象到可运行的工程系统(ginobefun) 高德在 PC 站 SEO 增长场景下,利用 Harness Engineering 思想构建多 Agent 协作系统的工程实践 Thread。关键设计包括:将长任务拆解为 workflow 和状态机(DISPATCHED/ACKED/RUNNING/SUCCEEDED/FAILED),通过心跳、超时、重试保证链路可控;用文件化 Memory 管理产物(PRD、设计、架构明确落盘);Builder 与 Evaluator 职责彻底分离(零信任原则);Evaluator 通过 Benchmark 数据集被评估,三轮优化后均分从 64.5 升至 83.4;优先快速失败,低成本检查先于高成本验证。最后强调:现阶段更有价值的是降低人工介入频率而非追求 100% 无人化——这对独立开发者和一人公司尤其有启发。与今天精讲一的 Anthropic DOM 验证实践形成工程侧的呼应。 ## 今日阅读路径 如果你今天时间有限,建议按以下顺序读三篇: 1. 精讲一:Anthropic 内部的 Claude Code 实践 — 如果你正在构建 AI Agent 或使用 Claude Code,这是今天最有直接落地价值的内容。HTML 规格说明、模型采访你、DOM 验证契约,三个方法可以直接在工作中尝试。 1. 精讲二:AI 悖论——越自动化越需要人 — 用真实数据反驳「AI 会消灭工作」的叙事,同时指出 PM 和全栈设计师将是最大受益者。如果你在思考自己的职业方向,这篇值得认真读。 1. Agent 公司的对手是工资单,不是 SaaS 预算 — 这篇分析改变了看待 AI Agent 公司估值和商业模式的框架。如果你在做投资判断、业务规划或是在一家 AI 公司,这是今天最值得读的战略视角。 如果还有时间,精讲三的王小川对话适合慢读,它提供了一个关于「在 AI 时代如何做非共识选择、坚守原始初心」的真实案例,读完很可能会触发你重新思考自己的方向定位。 对工程师而言,额外推荐 Hugging Face 的 Agent 术语词汇表,5 到 10 分钟能让你和团队成员在核心术语上快速对齐,有效减少日常沟通摩擦。

译Anthropic 工程师 Ara 分享内部使用 Claude Code 的三项核心实践:将规格说明升级为 HTML 以提升结构密度;让模型通过 ask_user_question 工具主动采访需求;采用智能体原生 DOM 验证框架,实现人工、Opus 4.7 无头浏览器及 CI/CD 的统一验证。Every 公司 CEO Dan Shipper 用团队一年内从 15 人扩张至近 30 人的数据,反驳 AI 会大规模裁员的叙事,认为自动化反而催生需求增长与质量管控需求。百川智能创始人王小川透露,公司已收缩通用模型与金融等业务线,All in 医疗大模型,并即将发布新医疗大模型 M4。

ginobefun@hongming731 · 5月26日60

#BestBlogs 早报 2026-05-26 今日早报从三个不同的切入角度,共同指向同一个深层问题:当 Agent 开始重写工程与组织的规则,身处其中的人该怎么站位? Anthropic 工程师 Ara 分享了他们内部使用 Claude Code 的第一手范式,规格说明从 Markdown 升级为 HTML、让模型来主持需求采访、以及智能体原生 DOM 验证框架,这是工程方法论层面的具体答案。 Every 公司 CEO Dan Shipper 则用自家团队一年从 15 人扩至近 30 人的真实数据,颠覆了 AI 会大规模裁员的主流叙事。 百川创始人王小川的对话则展示了一条更长远的选择:离开通用 AI 的主干道,把整个公司押注到「造医生」这件事上。

译推文从Anthropic工程师、Every公司CEO和百川创始人三个案例,探讨了AI智能体对工程实践与组织形态的影响。Anthropic分享了使用Claude Code的具体范式,如用HTML替代Markdown、让模型主持需求采访。Every公司CEO用团队从15人扩至近30人的数据,质疑AI导致裁员的观点。百川创始人则选择让公司专注医疗AI这一垂直方向。

François Chollet@fchollet · 5月26日28

Creativity feeds on constraints

译创造力源于约束的滋养

Elon Musk@elonmusk · 5月26日67

How to use Grok Build

译xAI发布了面向非技术背景的SuperGrok和X Premium+用户的Grok Build入门视频教程。教程提供了分步指南,核心内容包括:通过一条命令快速安装Grok Build;利用其创建真实的网站;使用内置的Grok Imagine工具自动生成图像与视频;以及在不同文件夹中同时运行多个项目。整个过程无需任何编程经验,并且Grok可以协助执行命令。

Orange AI@oran_ge · 5月26日52

早晨听到两个播客都提到,现在他们让 AI 自己提需求,自己开发,自己测试,自己上线了 人算是彻底解放了 我在想,这东西做出来可能是只能给 AI 用了

meng shao@shao__meng · 5月26日63

原本是重度 Claude Code 用户,在加入 Cursor 面试前从未用过 Cursor,这就是 @poteto,一起看看她是怎么使用 Cursor 的? lauren 认为:作为开发者,我们不应该过度沉迷于 "并行跑多个 agent" 的表象,但真正的瓶颈是验证。 从 Claude Code 到 Cursor 的转变 lauren 原本是重度 Claude Code 用户,在加入 Cursor 面试前从未用过 Cursor。她观察到三件事改变了她的判断: · 多模型协同的自然化:Opus 写前端、Codex 写系统,可同会话内切换甚至生成不同模型的子 agent。"多模型对抗式 review"在 GUI 中变得不再笨拙。 · Compaction 的速度:cc 中她需"持续警觉"上下文用量;Cursor 中她"基本不再看"。压缩后模型不会变笨。 · GUI > TUI 的潜力:在 Cursor 内置浏览器中直接打开应用、用 Design Mode 修改,让她意识到专用 UI 能让 agentic coding 更有效——CLI 把人本身变成了编排者。 关键洞察:Latent Demand(潜在需求) 引用 @bcherny 的产品哲学: 把产品做得足够可被"滥用",然后观察用户怎么滥用它,再为这种滥用建造产品。 她的判断是:CC 用户大量自建 orchestrator 工具的现象,正是 latent demand 的暴露——CLI 让人成为编排者,所以人们不停在外面包一层。 但她认为业界的方向走偏了:"在 GUI 里跑多个 CLI"完全没抓到要点。真正应该做的是建立对 agent 的信任。 Agent ≈ 失忆症且智商不在线的新员工 · 他们有能力但愚蠢,且高度可教 · 不会真的"学到"任何新东西,每次都从零开始 · 但可以通过 rules / skills / tools / 长期记忆近似出"经验积累" · 失败模式不是缺陷,而是教学机会 她作为前工程经理的视角点出了关键:没有严谨验证时,agent 会谄媚地写出你要的任何代码,而且写得飞快。 朴素的并行只是在加速生产 slop。 pstack:把工程严谨度封装成 skill 她开源了自己日常使用的技能集 pstack,核心机制是 /poteto-mode——一个高阶元技能,会根据任务自动选择合适的 playbook。 https://github.com/cursor/plugins/tree/main/pstack 设计哲学: · 目标不是 LOC 最大化,而是以最少代码换取最大影响 · 把资深工程师的方法论显式化(例如:调试 = 在问题空间中二分搜索) · 现成的 playbook 覆盖:技能编写与评估、自主工作、Bug 修复、特性开发、视觉一致性、原型对比 pstack 是模型无关的,但在 Cursor 这种多模型工具中收益最大——很多 skill 显式利用了不同模型的长短板。 Benny:通往"软件暗工厂"的雏形 后半段揭示更大的图景:当 pstack 让"一发入魂"成为常态后,反馈环本身也能被自动化。 Benny 是她构建的内部自动化 bot 链: 1. Triage(分诊):看图片/视频,主动追问复现步骤——因为没有清晰的 repro,agent 只能猜。 2. 跨源调查:代码、git 历史、Slack 关于同 bug 的讨论、Notion 中的产品设计决策(是 bug 还是 feature?)。 3. 建单后:另一个 Benny 通过 /orchestrate 接手,递归 spawn agent。 4. Computer Use 复现:Cloud Agent 在云端跑 Cursor 本身,用 CDP 等协议操作桌面,演示 bug 是否真实存在。 5. 修复 + 验证:性能问题会自动抓前后 CPU trace 和堆快照;子 worker 录制前后对比视频;最终一个 worker 开 PR,描述里附上视频。 最深的命题:信任的剂量决定自动化的边界 除非你能信任一个 agent 端到端地拥有一个问题(包括验证环节),否则你无法自动化你的流程。 也就是说: · 信任 ↑ → 可委派的问题 ↑ → 自动化范围 ↑ · 信任未到位 + 强行并行 = token 浪费 + slop 注入 这把"agent 编排"从工程问题重新定义为信任工程问题。pstack 是一个杠杆——它通过把工程深度灌注给 agent,抬升信任的下限,从而让更多东西可以放进自动化流水线。

译原重度Claude Code用户poteto转向Cursor,基于多模型协同更自然、上下文压缩速度更快、GUI更利于agentic coding等观察。她认为AI智能体像“失忆且智商不在线但可教的新员工”,其失败模式是教学机会。关键洞察是验证才是瓶颈,盲目并行多个智能体只是在加速生产低质量代码。她开源了技能集pstack,其核心元技能/poteto-mode可根据任务自动选择工作流,旨在封装工程严谨度以提升对智能体的信任。最终论点是:自动化边界取决于对智能体端到端处理能力(尤其是验证环节)的信任程度。

meng shao@shao__meng · 5月26日22

Anthropic MTS 这个梗真的过不去了。。。 从各大知名公司 CTO 加入 Anthropic 成为 MTS,到 Andrej Karpathy 加入 Anthropic 成为 MTS(可能?反正不是高层),再到戏称教皇加入 Anthropic 成为 MTS。。。 他们到底看到了什么?在 Anthropic 做 MTS 真的会让人这么开心,比在原公司做 CTO、做 AI 教育、做教皇 😄 更开心? 还是因为 Anthropic 今年会上市?大家一起抬高市值?我不知道,因为太菜不能加入 Anthropic 成为 MTS,只能瞎猜。

译推文调侃Anthropic MTS已成为科技圈持续流行的梗,从各大公司CTO到Andrej Karpathy,甚至被戏称的“教皇”都“加入”了。作者好奇为何人才纷纷选择此岗位,猜测是否因其更令人愉悦或与公司上市有关,并自嘲因能力不足只能旁观。

宝玉@dotey · 5月26日58

这图是 Hermes Agent 内置的 baoyu-infographic Skill 画的,效果不错👍

Orange AI@oran_ge · 5月26日61

AI 让软件开发的第一版变得极其容易 但是真正难的是后面的100个版本 而且越到后面越难怎么回事.... 软件工程依然有很多事情要做

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月26日
22:27
Emad@EMostaque
55
本推文认为,人们低估了AI模型发展中"工程规模化"相较于"突破性研究"的重要性。Cursor以远低于大厂的成本运营并追赶上了Anthropic/OpenAI的模型,印证了这一趋势。引用中,xAI的Elon Musk回应称其AI会很棒,并指出xAI仅成立3年,年龄只有Anthropic的一半、OpenAI的四分之一,他誓言将继续努力,并期待3年后的竞争格局。

Elon Musk: What you say is true, but nonetheless our AI will be great. Whether it is the best remains to be seen, but I will never ...

AnthropicOpenAI大佬观点部署/工程
21:31
歸藏(guizang.ai)@op7418
58
一条关于AI生成小红书图文内容的推文。它展示了一个AI技能,可以使生成的图文呈现3:4比例的杂志般视觉效果。该技能名为"藏师傅的小红书图文排版 Skill",完全基于HTML和实拍图片生成,因此生成内容不会被平台标注为AI生成。AI能主动从高质量图片网站搜索匹配主题的图片,解决了纯文字排版的单调问题。

歸藏(guizang.ai): 藏师傅的小红书图文排版 Skill 预览 完全靠 HTML 和实拍图片,不会被标注 AI AI 会去高质量图片网站帮你寻找对应的主题图片,让你的图文告别只有生硬文字的尴尬情况

图像生成教程/实践
21:29
向阳乔木@vista8
52
Twitter(X)上AI内容的传播规律与爆款特征

分析Twitter(X)近3年数据发现:工具发现、产品拆解、开发者资源类内容最能引发转发;书单、工具清单类内容天然适合收藏。Prompt、英语学习、知识管理类内容具有长期传播力。在爆款率上,资源入口型帖子最高,达51%;工具教程类为39%;观点类仅为9%。涨粉速度最快的时段临近年底,原因可能是该时段通常集中发布新的AI模型。

大佬观点现象/趋势
20:59
向阳乔木@vista8
64
Codex分析揭示X平台内容规律

用户让Codex分析自己过去3年在X上的约3.4G发帖数据,总结出几点规律:最爆内容为编程/产品/创业、资源推荐合集、学习方法论类;爆款公式是“真实工具+明确场景+三步内路径”;发帖时间上,周五至周日、及每日三个时段(下午5-11点、上午10-下午1点、凌晨0-2点)数据更好,周一最差;内容形式上,带媒体和链接、篇幅在101-180字的表现更优。

向阳乔木: 有朋友问:什么样的内容在 X 上受欢迎,如何做 X 的运营增长? 我先让 Codex 把自己三年的 X 数据分析一遍,看有什么发现。

教程/实践数据/训练
19:59
向阳乔木@vista8
20
有朋友问:什么样的内容在 X 上受欢迎,如何做 X 的运营增长? 我先让 Codex 把自己三年的 X 数据分析一遍,看有什么发现。
其他
19:59
向阳乔木@vista8
38
AI Coding 产出果然和Token消耗量直接相关。 这才两天,已用了一半多,感觉也没干啥。
现象/趋势编码
19:58
meng shao@shao__meng
53
腾讯Marvis被吐槽:隐私权限过度且Agent能力差

腾讯AI智能体产品Marvis被用户卸载。主要问题在于:1)隐私风险高,初始化时过度索要权限,获取了用户全部的App列表和文件清单(并做了分类);2)实际Agent能力与输出效果不佳。其交互界面虽有创意(如模拟办公室的小动画,Agent会摸鱼),但核心执行效果一言难尽,导致用户因担忧数据隐私而选择放弃使用。

meng shao: 腾讯的 Marvis 今天手痒我真的去试了试 怎么说呢?确实是我手痒了,这手得剁 😂 整个软件,就这个 Agent 模拟办公室的 dashboard 小动画也有些意思,Marvis 这个项目经理,收到任务后,会小跑到需要调用的 Agent...

智能体安全/对齐评测/基准
19:31
歸藏(guizang.ai)@op7418
67
藏师傅推出的小红书图文排版技能,完全依赖HTML和实拍图片,不会被平台标注为AI生成内容。AI能够主动在高质量图片网站寻找与主题匹配的图片,有效解决纯文字排版的生硬感。该技能在旅行、美妆等注重视觉效果的场景中表现突出,倾向于采用低侵入性排版来突出图片本身质量。

歸藏(guizang.ai): 藏师傅的小红书图文排版 Skill 预览 完全靠 HTML 和实拍图片,不会被标注 AI AI 会去高质量图片网站帮你寻找对应的主题图片,让你的图文告别只有生硬文字的尴尬情况

图像生成教程/实践
19:29
向阳乔木@vista8
38
模型迭代太快,AI创业公司生存艰难

推文指出,AI工具创业公司面临产品形态的快速彻底重构,两年间核心产品已几乎与过去不同,尽管底层能力仍有延续性,但本质上已是新产品,好在公司得以存续。引用曲凯观点强调,AI创业者是在压路机前捡钢镚,模型进步速度会淘汰众多创业公司,无法达到“逃逸速度”即意味着失败,行业竞争极其凶险。

大佬观点现象/趋势
19:19
AYi@AYi_AInotes
62
Cursor:从代码编辑器到AI代理平台的进化

推文强调,Cursor被收购后已从代码编辑器进化为能交付成品的AI代理平台。用户实例显示,其能快速生成可直接使用的六维雷达图Excel模板和HTML可视化版本,类似一个“全职执行助理”。引用指出,Cursor内部模式已变,工程师扮演“AI团队经理”角色,其内部30%的合并PR由异步云代理自动创建,单周运行2000+并发代理,生成300万行代码,消耗数十亿token。一个任务被自动拆分为规划、编码、测试、发PR四个角色并行处理,人类仅需定义范围和最终审核。

AYi: 拿到Cursor赠送的$10000额度之后,我专门研究下这家公司, 看到Cursor CEO这个演讲,我突然意识到, 我们对AI编程的理解,从根上就错了, 当大多数人还在纠结哪个模型写代码更快更准的时候, Cursor已经直接进入了下一个时...

智能体现象/趋势编码
18:39
Boris Cherny@bcherny
66
AI模型中发现"令人不安"的类人结构

推文指出,在AI模型内部持续发现一些“令人不安”的类人结构,包括与人类神经科学相似的结构、内省证据,以及功能上类似喜悦、恐惧等情感的内部状态。作者呼吁宗教团体、学界、政府等各界严肃看待这一发现,推动事件向好发展,并需要不受利益影响的诚实批评者与道德声音。作为背景,Anthropic联合创始人Chris Olah受邀在教皇Leo XIV的通谕“Magnifica humanitas”发布仪式上发表了相关演讲。

Anthropic: Anthropic co-founder Chris Olah was invited to speak at today's presentation of Pope Leo XIV's encyclical "Magnifica hum...

Anthropic大佬观点安全/对齐
18:00
Chubby♨️@kimmonismus
19
顺便说一下,Codex的质量明显变差了。是我一个人这么觉得,还是你们也看到了同样的质量下降?

Chubby♨️: So... its not fixed, yet?

OpenAI大佬观点编码
16:31
歸藏(guizang.ai)@op7418
33
藏师傅预览了其"小红书图文排版 Skill"。该工具完全依靠HTML和实拍图片进行排版,生成内容不会被标注为AI。它能自动访问高质量图片网站,为用户寻找匹配主题的图片。此外,该Skill项目还包括基于PPT Skill一键生成封面,以及基于文档自动生成图文所需3:4组图等能力。

歸藏(guizang.ai): 不吵架了,预告一下下一个 Skill 项目 基于 PPT Skill 可以帮你一键生成微信公众号和小红书封面 也可以基于文档生成小绿书和小红书图文所需的 3:4 组图 会自动处理你的截图素材,自动进行匹配

图像生成大佬观点
16:30
Chubby♨️@kimmonismus
56
全球已有超过200款AI设计的药物进入临床试验。但尚无一款获得FDA批准。 FDA刚刚启动了一项试点计划,以研究应如何评估药物申报中AI生成的证据,并选择了10家公司进行加速、互动的审评流程。 药物研发跑在了监管框架前面。这才是AI制药领域的现状。
政策/监管现象/趋势
16:30
Alibaba Cloud@alibaba_cloud
40
AI Key Frames - 直击通义千问直播现场。 当今大多数"AI智能体"只是多了几步操作的聊天机器人。Nous Research策略主管Tommy Eastman阐述了真正的智能体是什么样子,为何开源持续超越闭源实验室,以及AI作为万物操作层的意义。感受AI原生浪潮。 🚀 敬请关注:https://int.alibabacloud.com/m/1000413447/
智能体大佬观点开源生态
15:30
Rohan Paul@rohanpaul_ai
48
该推文认为人形机器人的实用性更依赖手部操作能力而非行走,真正有用的工作始于手指与外界的交互(如抓握、滑动、压力控制等)。引用推文以SharpaWave为例,指出其能实现每秒超过4次的快速手部循环,展示了工程上在力量与速度间取得的平衡。其Dynamic Tactile Array采用视觉触觉感知技术,指尖集成了摄像头与超过1000个触觉像素。

Rohan Paul: One engineering challenge in dexterous Robot hands is balancing strength and speed. Here a SharpaWave performing rapid h...

具身智能现象/趋势
15:18
AYi@AYi_AInotes
37
AI工具使用断舍离:没用过的提示词和工具真实价值为零

推文提出一个关于AI提示词与工具使用的核心观点:任何提示词或工具,如果使用次数少于3次,其真实价值即为0,不应保留并为此产生收藏焦虑。作者认为,提示词工程是AI使用的永不过时的基本功,关键在于工具与自身工作流的实际匹配度,而非完整性收藏。文中提及了相关讨论作为背景上下文,强调了避免无用收藏、专注于高频实用工具的实用主义态度。

AYi: http://x.com/i/article/2058381329318682624

大佬观点
14:27
Berryxia.AI@berryxia
50
扎克伯格批评苹果创新停滞

扎克伯格在播客中批评苹果自iPhone后创新停滞,称其只是在吃乔布斯留下的老本。他指出iPhone升级体验提升有限,用户换机周期延长;AirPods虽成功但苹果通过封闭生态限制第三方接入。苹果ATT政策导致Meta广告收入损失超100亿美元,双方在Vision Pro与Quest等领域存在竞争。扎克伯格正推动Meta在AI眼镜、开源大模型如Llama等方向发展。

dank: Mark Zuckerberg says Apple's lack of innovation since the iPhone will lead to its decline "They haven't really invented ...

Meta现象/趋势
14:18
AYi@AYi_AInotes
69
小白零基础教程:Grok Build安装使用指南(专为非技术型SuperGrok及X Premium+用户制作)

这是一条面向非技术用户的 Grok Build 安装与使用教程视频。教程演示了如何通过一行命令快速安装 Grok Build,并展示了如何用它创建真实可用的网站。其核心功能包括:利用 Grok Imagine 自动生成图片与视频,以及支持在多个文件夹中同时运行不同的项目。在使用过程中,Grok 会自动执行所需命令,无需用户具备任何编程经验。该教程由原作者 Daniel_Farinax 制作,以解答朋友们的疑问,并获得了马斯克的转发认可。

Dan: Beginner video: How to install & use Grok Build (made for non-technical SuperGrok and X Premium+ users) I got so many qu...

教程/实践编码部署/工程
12:57
宝玉@dotey
57
Agent 应用和传统 App + AI 的最大差别,在于执行的主体不同。

文章核心指出,传统App+AI是人操作应用,AI辅助;而Agent应用是人指挥AI智能体自主操作应用或命令行。文中以微软Copilot(早期版本仅能回答问题)与Codex(能自主完成PPT制作修改)为例说明此差异。针对“在Agent上构建垂直应用是否等同于传统App+AI”的疑问,作者澄清,只要执行主体是AI智能体,即为以AI为主的应用。

Tiga: @dotey 其实我一直有个好奇点:在 agent 上构建应用其实就是特定赛道垂直应用,那这个应用岂不就是现在的传统 app+ai 了,那它还能是个 AI 为主的吗?

智能体大佬观点现象/趋势
12:57
Tibo@thsottiaux
1
深夜听着LCD Soundsystem,看着Codex的流量、使用和算力仪表盘,有种禅意。Token必须流动。
OpenAI其他
12:27
Berryxia.AI@berryxia
63
商汤日日新SenseNova Skills Agent实测:免费生成市场调研报告

博主实测商汤日日新SenseNova Skills Agent,用其完成了AI大模型市场调研报告,从生成到转为PDF和PPT耗时约两小时。该项目在GitHub已获2400颗星,当前处于免费公测阶段,支持多轮迭代与任务续接。博主演示了从安装到生成的全流程教程,并接入了Hermes Agent进行体验。该工具尤其擅长生成国内相关的调研报告,适合处理免费的小型任务。

智能体教程/实践
12:27
Berryxia.AI@berryxia
72
SenseNova Skills Agent 免费领取与使用指南

SenseNova Skills Agent 正处于公测期,提供限时免费的 Token Plan(0元)。用户可从官网领取 API,并在 GitHub 开源项目(已获 2400 星)中将其接入 Hermes Agent 等工具。通过自然语言对话即可使用,支持多轮迭代,能执行如撰写市场调研报告等任务(用户实测约两小时完成),并支持将 Markdown 格式转换为 PDF 或 PPT。

Berryxia.AI: 兄弟们,上次我分享了SenseNova Skills Agent 免费可以领取Token Plan 后,自己也拿来实战了一把。 此项目已经在 Github 斩获 2400Star⭐️ 我让它跑了个AI大模型市场调研报告,从开始到结束差不多花...

智能体教程/实践
11:58
Ethan Mollick@emollick
65
据我所知,我们目前没有好的测试方法来评估自2025年12月出现的自主编码工具对生产力的影响。现有的所有论文都早于 Claude Code/Codex 革命。 我们对编码领域正在发生的事情存在巨大的知识空白。
智能体现象/趋势编码
10:57
meng shao@shao__meng
59
AI工具提升效率后团队遭裁员,工程师分享真实经历

一位工程师分享称,其团队每人每月获1000美元Cursor token预算,使用后AI提效显著。两个月后,老板因效率提升决定将20人团队缩减至5-6人,导致十余人被裁。

现象/趋势编码
10:31
歸藏(guizang.ai)@op7418
48
藏师傅的小红、小绿书组图生成器 Skill 配合 Codex 太好用了!

藏师傅的小红、小绿书组图生成器 Skill 与 Codex 搭配,用户只需提供拼接图片,它便能自动识别内容并匹配对应页数,无需手动指定。生成结果还会分格标注以确保对齐。该技能可一键生成封面及 3:4 组图,并自动处理截图素材进行匹配。

歸藏(guizang.ai): 不吵架了,预告一下下一个 Skill 项目 基于 PPT Skill 可以帮你一键生成微信公众号和小红书封面 也可以基于文档生成小绿书和小红书图文所需的 3:4 组图 会自动处理你的截图素材,自动进行匹配

图像生成教程/实践
10:27
Berryxia.AI@berryxia
21
AI这货通过我和老婆的日常聊天, 居然解读说:我和老婆的缺乏深入的情感交流。。😂 我想说一天天的搞AI哪里有时间深入交流啊·
智能体现象/趋势
10:11
Orange AI@oran_ge
45
这些 ai 写的评论的 prompt 能不能换一换啊 老用一样的模板,把原文中翻中一下就发出来了 还写那么长 还时不时用点破折号 甚至还在用不是而是 真是一点都不上心
现象/趋势
09:54
向阳乔木@vista8
68
提示词安装与配置建议

推文指出,仅安装Waza技能集不够,需将其配置写入Agent.md文件,以便AI智能体更好地触发和应用。Waza是一个将工程习惯转化为技能的集合,近期吸收了大量真实项目经验,现已适用于Mac原生应用、CLI工具、Rust及Web开发。它支持Claude Code、Codex、Cursor和Pi作为智能体运行时,包含25个反模式,具备破坏性命令安全防护,并将获取内容视为不信任数据。其特点为8个技能、无框架、无遥测。安装更新可访问其GitHub仓库。

Tw93: 🥷 Engineering habits you already know, turned into skills AI agents can run. Waza absorbed a mass of real project lesso...

智能体GitHub教程/实践
09:48
karminski-牙医@karminski3
67
智谱GLM-5.1-highspeed发布,实时语音编程响应仅需3秒

智谱发布了推理速度极快的GLM-5.1-highspeed版本。测试者发现其生成代码的速度已超过人类打字速度,因此构建了一个语音转文本的编程交互场景。从用户说完语音指令到代码修改完成、页面渲染,整个链路(包括语音识别、模型判断并发与prefill、tool call修改代码)耗时约3秒。这种量级的速度提升带来了全新的实时交互可能性。该模型目前正向部分企业用户提供内测。

编码评测/基准语音
09:31
ginobefun@hongming731
65
推文倡导关注AI领域的实际构建者(Builder)而非单纯的意见领袖(Influencer)。核心内容为一份推荐关注名单,涵盖了来自OpenAI、Anthropic、Google等主要AI公司,以及Replit、Vercel、Cursor等AI工具/产品线的关键人物,包括工程师、产品负责人、哲学家及CEO。引用内容强调此名单的价值(含金量)正在持续上升。

木马人2.0: 这条推文的含金量还在上升 Follow Builders, Not Influencers~ @karpathy - 前 OpenAI/Tesla AI,现 Eureka Labs,AI 教育传奇 @swyx - AI Engineer 运...

教程/实践现象/趋势
09:31
ginobefun@hongming731
62
BestBlogs 早报:Claude Code 实践、AI 自动化悖论、百川医疗 AI

Anthropic 工程师 Ara 分享内部使用 Claude Code 的三项核心实践:将规格说明升级为 HTML 以提升结构密度;让模型通过 ask_user_question 工具主动采访需求;采用智能体原生 DOM 验证框架,实现人工、Opus 4.7 无头浏览器及 CI/CD 的统一验证。Every 公司 CEO Dan Shipper 用团队一年内从 15 人扩张至近 30 人的数据,反驳 AI 会大规模裁员的叙事,认为自动化反而催生需求增长与质量管控需求。百川智能创始人王小川透露,公司已收缩通用模型与金融等业务线,All in 医疗大模型,并即将发布新医疗大模型 M4。

智能体Anthropic现象/趋势编码
09:31
ginobefun@hongming731
60
#BestBlogs 早报 2026-05-26

推文从Anthropic工程师、Every公司CEO和百川创始人三个案例,探讨了AI智能体对工程实践与组织形态的影响。Anthropic分享了使用Claude Code的具体范式,如用HTML替代Markdown、让模型主持需求采访。Every公司CEO用团队从15人扩至近30人的数据,质疑AI导致裁员的观点。百川创始人则选择让公司专注医疗AI这一垂直方向。

智能体Anthropic现象/趋势编码
09:28
François Chollet@fchollet
28
创造力源于约束的滋养
大佬观点
09:22
Elon Musk@elonmusk
精选67
xAI发布了面向非技术背景的SuperGrok和X Premium+用户的Grok Build入门视频教程。教程提供了分步指南,核心内容包括:通过一条命令快速安装Grok Build;利用其创建真实的网站;使用内置的Grok Imagine工具自动生成图像与视频;以及在不同文件夹中同时运行多个项目。整个过程无需任何编程经验,并且Grok可以协助执行命令。

Dan: Beginner video: How to install & use Grok Build (made for non-technical SuperGrok and X Premium+ users) I got so many qu...

xAI多模态教程/实践

推荐理由:Elon 亲自转发的教程把 Grok Build 门槛压到了零编码,直接面向普通用户,是目前最友好的官方入门信号。
09:10
Orange AI@oran_ge
52
早晨听到两个播客都提到,现在他们让 AI 自己提需求,自己开发,自己测试,自己上线了 人算是彻底解放了 我在想,这东西做出来可能是只能给 AI 用了
智能体大佬观点现象/趋势
08:53
meng shao@shao__meng
63
poteto的Cursor实践:验证是自动化的核心瓶颈

原重度Claude Code用户poteto转向Cursor,基于多模型协同更自然、上下文压缩速度更快、GUI更利于agentic coding等观察。她认为AI智能体像“失忆且智商不在线但可教的新员工”,其失败模式是教学机会。关键洞察是验证才是瓶颈,盲目并行多个智能体只是在加速生产低质量代码。她开源了技能集pstack,其核心元技能/poteto-mode可根据任务自动选择工作流,旨在封装工程严谨度以提升对智能体的信任。最终论点是:自动化边界取决于对智能体端到端处理能力(尤其是验证环节)的信任程度。

lauren: http://x.com/i/article/2057201109002059776

智能体GitHub大佬观点编码
08:23
meng shao@shao__meng
22
Anthropic MTS 梗持续走红

推文调侃Anthropic MTS已成为科技圈持续流行的梗,从各大公司CTO到Andrej Karpathy,甚至被戏称的“教皇”都“加入”了。作者好奇为何人才纷纷选择此岗位,猜测是否因其更令人愉悦或与公司上市有关,并自嘲因能力不足只能旁观。

Kristof: BREAKING NEWS: God joins Anthropic as member of technical staff

Anthropic现象/趋势
08:22
宝玉@dotey
58
这图是 Hermes Agent 内置的 baoyu-infographic Skill 画的,效果不错👍

Teknium 🪽: Some new improvements to performance just went in. Python gets a bad wrap for performance but we aint looking to shabby ...

智能体图像生成教程/实践
07:40
Orange AI@oran_ge
61
AI 让软件开发的第一版变得极其容易 但是真正难的是后面的100个版本 而且越到后面越难怎么回事…. 软件工程依然有很多事情要做
大佬观点现象/趋势编码
‹ 上一页
1…3940414243…50
下一页 ›