AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态X · 3989 条
全部一手资讯X论文
AYi@AYi_AInotes · 5月22日61

为什前面红杉 AI Ascent 2026那场闭门峰会,150 个顶级创始人聊了 6 小时, 最后给 2026 年下了一个新定义——"长周期智能体的商业元年"。 为什么个体的红利吃不到组织头上? 我给这个现象起了个名字,叫 "AI 生产力悖论"。 它的本质是这样的: AI 工具是装在每个个体身上的外挂,比如我用 Cursor 写代码、用 Claude 写稿、用 NotebookLM 做研究——这些工具的记忆,全在我这一台电脑里、我这一个账号下。 我离职的那天,这些"记忆"会一起带走。 我升级的那天,这些"记忆"重新清零。 我和同事协作的时候,这些"记忆"根本传不出去。 写到这你会发现,个体效率的提升,在组织层面是不可累加的。 每个员工都是一个孤岛,每个孤岛上都有一座小工厂,但岛和岛之间没有桥。 更多洞见请阅读下文↓

译红杉AI Ascent 2026闭门峰会提出,“长周期智能体”将成为2026年的商业定义。但这引发了“AI生产力悖论”:尽管Cursor、Claude、NotebookLM等AI工具显著提升了个人效率,但这些工具的“记忆”绑定于个人账号和设备,无法迁移、共享或在团队间累积。因此,个体效率的提升难以转化为组织层面的生产力增益,每个员工都像一座座彼此孤立的“信息孤岛”。

查看原推 ↗
Chubby♨️@kimmonismus · 5月22日70

Microsoft put $13 billion into OpenAI and built the cloud infrastructure Anthropic runs on. This week it canceled its internal Claude Code licenses because the token bill was too high. Even for MSFT Claude is too expensive.

译微软因token费用过高取消了内部Claude Code授权,凸显出企业AI使用成本正急剧上升。这标志着AI补贴时代的终结,基于使用量的定价模式正迫使企业面对大模型运行的高昂成本。企业面临两难:缩减AI投入会影响AI实验室的增长目标;若实验室降价则会损害自身盈利。两种路径都指向当前成本模式难以为继,最终可能需进行资产减值。

查看原推 ↗
歸藏(guizang.ai)@op7418 · 5月22日57

最近好像 Claude Code 连接飞书又火了 再推荐一下藏师傅两个多月前写的这个 Skills 哈。 它能连接 Telegram、飞书、QQ、微信、Discord 等各种 IM,支持 Claude Code 和 Codex。

译最近好像 Claude Code 连接飞书又火了 再推荐一下藏师傅两个多月前写的这个 Skills 哈。 它能连接 Telegram、飞书、QQ、微信、Discord 等各种 IM,支持 Claude Code 和 Codex。 [引用 @op7418]:http://x.com/i/article/2029562855511744512

查看原推 ↗
Qwen@Alibaba_Qwen · 5月22日66

👀👀

译近期一项针对前沿AI模型在真实智能体任务上的测试显示,Qwen 3.7-Max在效果与成本方面全面领先。该任务要求模型自主编写并迭代优化一个能自我训练的Tetris机器人程序。在10轮自我改进中,Qwen 3.7-Max仅花费1.32美元,便将机器人性能提升了56%。相比之下,Claude Opus 4.7花费12.15美元提升了28%,GPT-5.5花费2.85美元提升了7%。结果表明,在需要长时间自主推理、代码阅读与迭代的复杂智能体循环场景中,Qwen Max具备极强的成本效益比与自我改进能力。

查看原推 ↗
Berryxia.AI@berryxia · 5月22日67

麻蛋,我昨天刷到SenseNova 6.7 Skills Agent的直播 AJ他们直接管这玩意儿叫“牛马人套装”(😄文末白嫖)。 今天刚到酒店,闲着也是闲着,就顺手丢了个AI大模型市场调研报告给它跑。 结果一跑就是1个半点儿了…😭 还没完。 我盯着后台看,它真在一家一家网站爬数据、整理表格、生成MD文件。 得亏现在是公测阶段免费的,要不然真的我还怕给我搞破产了。 下一步是可以直接出报告PPT的,我晚点给大家同步看看效果如何。 要去薅羊毛的赶紧去,我想你肯定不是最后一个知道的。 他们的CodingPlan 现在显示免费😄 低调~~注意轻点啊~~xdm 地址评论区见👇🏻:

译用户实测SenseNova 6.7 Skills Agent,称其为“牛马人套装”。该AI agent能够自主执行长时间、重复性的数据处理任务,例如爬取网站、整理数据并生成结构化文件(如MD格式),以完成一份市场调研报告。由于任务复杂,执行耗时较长,但因产品处于公测阶段,目前免费使用。用户后续还将测试其自动生成报告PPT的功能,并提醒大家抓紧机会体验其免费的CodingPlan。

查看原推 ↗
Berryxia.AI@berryxia · 5月22日32

卧槽~~ 纷众传媒电梯广告老板该看完热血沸腾了吧! 这套提示词给电梯打广告完全够用啊! 口喷数字就可以出来不错的效果,人工稍微调整就可以上线了,找个人设计你画毛毛钱可以做出来吗! 速去,兄弟们~等你们哈哈

译在Bloome平台上,@berryxia 推出了一款海报设计Agent,基于万能提示词集,可快速生成适用于产品、人文、科技、展会等多种场景的海报。用户通过对话交互即可生成设计图,1美元解锁后可生成100张图,限时一周。该系统被推荐用于电梯广告等设计,操作简单,只需输入数字并微调即可产出优质效果,鼓励广大用户尝试使用。

查看原推 ↗
向阳乔木@vista8 · 5月22日10

光头牛哥(@guangtouniuge)是我认识十多年的兄弟,他的人生简直像爽文小说主角。 从山东农村到北京打拼,卖过菜、摆过路边摊,当过保安。 机缘巧合接触互联网,凭借强大的学习能力,很快成为SEO高手,帮好几个网站做到日百万UV。 因为家庭原因定居西安,一向爱笑开朗的人竟然得抑郁症,那几年很灰暗,他说靠钓鱼打发时间。 走出来后,开了自己公司,带十多人团队做Logo设计、抖音投流等咨询服务,短短几年东山再起。 在我和姚老师劝说下,开了 X 账号,他除了想学AI,还想分享自己的各种GEO实战案例 强烈推荐关注:@guangtouniuge

译推文介绍了“光头牛哥”@guangtouniuge的个人经历:他从山东农村到北京,历经卖菜、摆摊、当保安等多份工作,后凭借自学成为SEO高手,帮助网站达到日百万UV。因家庭原因定居西安期间曾患抑郁症,康复后创办公司,在咨询服务领域东山再起。如今在他人劝说下开设X账号,计划分享自身GEO实战案例并学习AI。

查看原推 ↗
向阳乔木@vista8 · 5月22日71

虽然我已从字节离职一年多,但飞书还是我认为最好用的工作平台,现在也是最适合连接各种AI工具的平台。 最近我发现Zara (@zarazhangrui ) 开源了一个超好用的工具,直接把你本地的 Claude Code 变成飞书机器人。 这样,手机上用飞书就能随时Claude Code对话,完成各种复杂任务。 昨天我就在AI产品蝗虫群分享,体验过的都觉得棒,安装指令如下: npx -y lark-channel-bridge@latest start 体验后,几点印象深刻: ① 能把收到的飞书消息转给Claude Code处理,真正的“AI工作助理”。 ② 飞书支持可交互卡片,不仅内容渲染好,也支持按钮点击等操作,比打字对话简单多了。 ③ AI 生成的图片、文件等,在飞书对话直接显示,不像在终端需要自己点击链接查看。 ④ 飞书聊天记录支持全量搜索,Claude Code上下文压缩也不怕。 还有很多功能设置,比如消息回复方式,工具调用是否显示等,让人很有掌控感。 不多说,强烈推荐自己试试,零差评,必须给Zara点赞!

译前字节员工推荐飞书作为连接AI工具的平台。通过Zara开源的lark-channel-bridge工具,可将本地Claude Code变为飞书机器人,实现手机端随时进行复杂任务对话。该工具能将飞书消息转给Claude Code处理,支持可交互卡片和文件图片的直接显示,并结合飞书的全量搜索功能,提供流畅、可控的“AI工作助理”体验,被作者强烈推荐。

查看原推 ↗
Berryxia.AI@berryxia · 5月22日64

1美金100张图,属于0.07 RMB/张 GPT-image-2的图。 不为爱发电是为了谁发电啊? 不就是为你发电嘛哈哈哈

译推文强调GPT-image-2的性价比,指出其生成图片成本仅约0.07元/张(1美元100张),并鼓励用户充分利用此低成本服务。引用补充了使用建议,倡导用户进一步细化操作方法以优化个人体验。整体传达了“以低成本获取AI图像生成服务”的核心信息,突出其亲民价格和实用价值。

查看原推 ↗
AYi@AYi_AInotes · 5月22日64

我用了这个专家系统提示词之后,把其他类似的提示词都删了! 这是我目前用过最强大的通用专家系统提示词, 它不是简单的角色设定,而是直接给AI装上了一套完整的思维操作系统,花了百万token训练而成🤖 它会强制AI: 1. 先拆解你的真实需求,而不是上来就瞎答 2. 在后台进行自我批判和漏洞检查 3. 先给核心结论,再讲推理过程 4. 主动指出你忽略的盲点和风险 5. 最后给你一份可立即执行的行动清单 以前你是在求AI回答问题, 现在你是在指挥一个顶级专家为你工作, 复制粘贴到任何大模型里都能用, 亲测Claude/ChatGPT/Gemini效果爆炸, 完整提示词放在评论区了👇 文章了还有其他7套自用的神级提示词🎁

译这是一套经过百万token训练的通用专家系统提示词,其核心在于为AI植入结构化的思维流程,而非简单的角色扮演。该提示词强制AI执行五大关键步骤:首先拆解用户真实需求,随后进行后台自我批判与漏洞检查,遵循“先核心结论后推理过程”的输出逻辑,并主动识别用户忽略的盲点与风险,最终生成可立即执行的行动清单。它声称能显著提升AI的输出质量与实用性,在Claude、ChatGPT、Gemini等多个主流大模型上均验证有效。

查看原推 ↗
Alibaba Cloud@alibaba_cloud · 5月22日56

Looking for the most cost-effective way to deploy DeepSeek V4-Flash? 🚀 We compared the different deployment options on Alibaba Cloud PAI-EAS with real benchmarks & pricing data. Find your best performance per dollar! 📺 Watch now: https://youtu.be/32GdEdEzPs8 #DeepSeek #AlibabaCloud #PAI #AI

译寻找部署 DeepSeek V4-Flash 最具性价比的方式?🚀 我们通过实际基准测试和定价数据,对比了阿里云 PAI-EAS 上的不同部署选项。找到您每美元的最佳性能! 📺 立即观看:https://youtu.be/32GdEdEzPs8 #DeepSeek #AlibabaCloud #PAI #AI

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月22日35

"Existing high-power chips in China are still a fraction of the performance of NVIDIA's leading chips. And it's actually really, really hard to build up a scaled and complex semiconductor supply chain" Paulina McPadden, Inv Manager at Baillie Gifford

译中国现有的高性能芯片性能仍只是英伟达领先芯片的一小部分。 而且,建立规模化且复杂的半导体供应链实际上非常、非常困难。 ——Paulina McPadden,Baillie Gifford 投资经理

查看原推 ↗
向阳乔木@vista8 · 5月22日79

今天抽空试试,x的产品经理真的不太行。

译推文批评X平台产品经理能力不足,发布文章体验糟糕。引用推文显示,开发者利用ChatGPT(通过codex/goal)开发了Markdown转换插件,允许用户拖拽文件快速生成X文章格式,以改善发布流程。该插件开源并提供谷歌插件版本,旨在解决原生体验的痛点。

查看原推 ↗
meng shao@shao__meng · 5月22日66

VSCode 团队介绍 Agent-First Development 的五大支柱 1. Model —— 选择思考的深度 模型不是"越大越好",而是"匹配任务"。 Copilot 提供 Low / Medium / High / Auto 四档思考深度: · Low:补全、改名、格式化等机械任务,追求延迟 · Medium:常规功能开发,平衡速度与质量 · High:架构设计、复杂 bug、跨文件重构,宁可慢也要对 · Auto:让系统按任务复杂度自动调度 真正的认知是:思考深度是有成本的(时间、token、用户耐心)。Agent-First 的成熟用户会主动为任务"挑档位",而不是默认全开 High。 2. Harness —— Agent 的行动边界 Harness 指 Agent 能做什么、不能做什么的运行环境。Copilot Chat 面板就是 harness,它决定了 Agent 是"嘴上说说"还是"动手执行"。 三种模式构成了一个渐进信任阶梯: · Ask:只对话,不动文件 - 探索、问问题、学习代码 · Plan:列出步骤,等你批准 - 方案讨论、风险大的改动 · Agent:自主规划、执行、迭代 - 方向明确、需要落地的任务 关键洞察:从 Ask → Plan → Agent 是从"我主导"到"它主导"的权力让渡。强行一上来用 Agent 模式做模糊任务,等于让一个不了解情况的人替你做决定——失控是必然结果。 3. Context —— Agent 的"视野" 模型本身不知道你的代码库。Context 是它做对事的前提。 Copilot 获取 context 的方式分两类: · 自动:搜索 workspace、读取相关文件 · 手动(更可靠):用 # codebase、# file、# fetch 显式指定 这是最容易被低估的一环。多数"Agent 改坏了代码"的案例,根因不是模型不行,而是它根本没看到关键文件就开始猜。显式提供 context 不是冗余,是控制变量。 4. Prompt —— 意图的精度 Prompt = 目标 + 约束 + 验收标准。 "帮我加个登录功能" 和 "在 auth/ 目录下用现有的 SessionService 实现邮箱登录,复用 LoginForm 组件,错误信息走 toast,不要引入新依赖" 得到的结果完全不同。 专业用户的 prompt 通常包含: · 要做什么(goal) · 在哪里做(scope) · 不能做什么(constraints) · 怎么算完成(acceptance) 模糊的输入只能换来通用的输出。 5. Tools —— Agent 的"手" Tools 是 Agent 实际能调用的能力:读文件、跑命令、搜索、调 API、跑测试…… Tools 越多越强,但也意味着爆炸半径越大。Agent-First 的纪律是: · 给它需要的工具,不给不必要的工具 · 危险操作(删库、推 main、改 prod 配置)应当显式审批 · 工具链应可观测——Agent 跑了什么命令、改了什么文件,必须可见可回滚 整体框架:五个旋钮,而不是五个步骤 结果差 = f(模型档位错 × 载体模式错 × 上下文缺失 × 提示模糊 × 工具不够/太多) Agent-First Development 的本质是承认一件事:写代码的主体正在从"人 + 编辑器"变成"人 + Agent + 编辑器"。人的角色从"打字员"转向"模型选择者、上下文提供者、意图定义者、边界设定者"。 VS Code Learn 系列视频 https://www.youtube.com/playlist?list=PLj6YeMhvp2S4l1_iP4-pS6p7lgyqKo-Ix

译VSCode团队提出Agent-First Development框架,核心理念是开发主体从“人+编辑器”转向“人+Agent+编辑器”,人的角色转变为选择模型、提供上下文、定义意图和设定边界。五大支柱为:模型(匹配任务深度,按需选择思考档位)、执行边界(从问答到自主规划的渐进信任模式)、上下文(显式提供关键信息以避免错误)、提示(需清晰包含目标、范围与约束)与工具(能力需可控、可审计)。该框架旨在系统化指导人与AI代理高效协作开发。

查看原推 ↗
AYi@AYi_AInotes · 5月22日57

宝子们,压箱底的8套神级 Prompt开源了啦,至少价值上万! 覆盖工作、生活、学习、副业等所有场景,文章最后还有宝藏彩蛋喔🎁 1️⃣KERNEL-X 终极动态专家系统(助我3个月从0-1涨粉到3万+的王炸系统) 2️⃣HE COMPILER IDENTITY (全栈编译器人格) 3️⃣唯一需要的Vibe Coding提示词 4️⃣Naval Ravikant分身(决策神器,哲学/人生Prompt) 5️⃣AI工作流程专家系统提示词 6️⃣认知挖掘提示词 7️⃣深度研究报告Prompt 8️⃣神级反思Prompt 用上之后你会从眉头紧锁的焦虑到豁然开朗,就像视频的这样👇

译本次分享开源了8套被称作“神级”的Prompt模板,宣称总价值超过万元。这些模板覆盖了工作、生活、学习、副业等多领域场景,包括KERNEL-X、AI工作流专家、深度研究等具体系统,旨在帮助用户提升效率、解决实际问题,实现从焦虑到豁然开朗的状态转变。

查看原推 ↗
歸藏(guizang.ai)@op7418 · 5月22日57

完全体

译探讨了墨水屏硬件作为低功耗副屏的创新应用场景。设备开机时,可作为AI信息显示终端,自动接收并展示待办事项、日历等推送信息,便于用户快速查阅;关机后则转变为电子名片,利用墨水屏的静态显示特性方便线下社交扫码。该方案通过“磁吸”方式灵活部署,旨在将硬件功能打包为可复用的技能模块。

查看原推 ↗
AYi@AYi_AInotes · 5月22日64

http://x.com/i/article/2057668634579714048 # 说实话,这个问题我自己想了大半年,从 2023 年开始关注 AI,到现在也三年了 这三年我自己也算个小样本:一个人维护账号、一个人写稿、一个人跑业务。AI 工具确实把我变成了一个"准团队",效率提高十倍不止。但最近半年,我反过来观察那些真的有团队的朋友,发现一个很拧巴的现象。 一句话概括叫:个体在飞,组织在塌。 每个人都在用 ChatGPT、Claude、Gemini、Cursor,每个人都说自己快了十倍, 但整个团队凑在一起,产出反而比两年前还慢。 这事儿明显是不对劲的。 我一直在琢磨它到底卡在哪儿,前两天 MIT 斯隆刚发的那份 2026 AI 采用报告,给了我一个最直观的答案。 ## 一、95% 这个数字,比想象的还要扎心 MIT 那份报告里有一组数据:95% 的企业 AI 投入,没有产生任何可衡量的业务回报。 我说实话,看到这个我也懵了。 不是 50%,也不是 70%,竟然高达 95%。 也就是说,一百家公司里九十五家——花了钱、买了工具、培训了员工,最后拿不出一个能写进财报的数字。 你可能会想:是不是这些公司用得不对?是不是模型还不够强? 我翻来覆去想了很久,都不是。 真正的瓶颈是另一件事——报告里还有一个被很多人忽略的数据:超过 30% 的团队时间,花在了重建别人早就拥有的上下文上。 什么意思?我给你们描述一个场景,看看是不是有些眼熟: 一个决策三个月前就拍板了,今天复盘的时候,谁也找不到当时的讨论记录。 一个产品问题每天在用户群里被问 20 遍,每个运营都要从头复制粘贴一遍答案。 一个新人入职,要花一个月时间,从散落在飞书、企微、邮件、语雀里的碎片中,拼凑出"这家公司到底怎么运作"。 呐,这就是真相。 AI 没让组织变快,因为组织本来就没有记忆,AI 只是把这件事放大了。 ## 二、为什么个体的红利吃不到组织头上 我给这个现象起了个名字,叫 "AI 生产力悖论"。 它的本质是这样的: AI 工具是装在每个个体身上的外挂,比如我用 Cursor 写代码、用 Claude 写稿、用 NotebookLM 做研究——这些工具的记忆,全在我这一台电脑里、我这一个账号下。 我离职的那天,这些"记忆"会一起带走。 我升级的那天,这些"记忆"重新清零。 我和同事协作的时候,这些"记忆"根本传不出去。 写到这你会发现,个体效率的提升,在组织层面是不可累加的。 每个员工都是一个孤岛,每个孤岛上都有一座小工厂,但岛和岛之间没有桥。 这就是为什么前几天红杉 AI Ascent 那场闭门峰会,150 个顶级创始人聊了 6 小时,最后给 2026 年下了一个新定义——"长周期智能体的商业元年"。 红杉合伙人 Pat Grady 有句话我记了好几天: > 下一轮 AI,卖的不是工具,而是收益。 听起来像是供给侧的判断,但我自己琢磨完之后,觉得这话翻译过来其实是在说需求侧: 客户已经不要工具了,因为工具买回来都装在个体身上,提升不了组织指标。 你给我十个 ChatGPT 账号没用,我要的是我们公司从昨天到今天,每一次对话、每一个决策、每一份反馈,都能被沉淀下来、被检索到、被复用。 可一旦想到这里,问题就来了: 再聪明的智能体,如果不知道你的组织在想什么,它就只是一个聪明的傻瓜。 它能写出完美的文案,但写不出你品牌调性的那一句, 它能回答所有通用问题,但答不出"我们产品上周那个 bug 到底修没修", 它能给你一份漂亮的市场分析,但不知道你三个月前已经否过这个方向。 扯远了哈哈,我想说的是,问题从来不在模型,问题在组织没有给模型一个能学习的地方。 ## 三、有一类产品正在做这件事,但还远没到救世主的程度 聊到这儿,我必须诚实地说一个点, 这个赛道里已经有一些产品在尝试,但坦率地说,没有一家解决了所有问题。 我自己最近在看的一个例子,是两天前刚拿了 300 万美元种子轮的 Lucius,Future Capital Discovery Fund 领投。这是创始人赵赫的第三次创业,前两次都死在了同一个地方,用户连文档都不愿意写。 他这次的思路有点意思:既然人不愿意写文档,那就让 AI 自己听、自己学、自己沉淀。 具体怎么做的?我看了一下他们的机制,大概是这样一个闭环: 用户在群里问一个问题 → AI 先用已有知识回答 → 如果答不上来,自动建任务给运营 → 运营回答之后,AI 把这个答案结构化存进知识库 → 下次同类问题,AI 自己处理。 没有 prompt 要写,没有规则要配。它像一个新来的实习生,坐在群里听着,慢慢学。 早期用户的数据是:社区自解析率从 29% 涨到 88%,运营每天花在重复回答上的时间从 3 小时降到 20 分钟。 但这里我要泼一盆冷水,它还不能处理高价值客户的复杂咨询,不能生成或执行代码,本质上还是一个"高频重复场景的减负工具"。 它核心做的是把最浪费时间的那 30% 标准化重复工作切出去,不是替代你整个团队。 你不能指望它接管你的业务,但可以让你的团队不再被同一个问题问 20 遍。 这就够了吗?我觉得对很多小团队来说,这样其实够了, 但对追求"全自动 AI 公司"的幻想来说,还远远不够。 所以我对 Lucius 的态度是——它是一个有趣的样本,不是终点。 毕竟这个赛道才刚刚开始,未来一年会冒出来一堆类似的"组织记忆层"产品,谁能跑出来还不一定。 这个是官方 Discord 社区,大家可以去体验:https://discordhunt.com/en/servers/lucius-lab-1484054485020966956 刚上线 Lucius 提供限免(400 次 actions),大家如果自己有社区的话也可以试用! ## 四、真正想说的一件事 乱糟糟说了这么多,有点乱, 但我想说的核心其实就一句话:未来赢家不是模型最强的公司,而是组织记忆最深的公司。 这句话我想了很久才敢写下来,因为它意味着,过去三年我们花在"找最强模型"上的精力,可能用错了方向。 模型每三个月就更新一次,护城河浅得可怜。 但一个公司沉淀了两年的对话、决策、反馈、品牌声音——这东西没法被复制,也没法被快速追赶。 所以如果让我给三类人一句话建议,那我想说这些: 对创业者: 不用 all in 最前沿的模型,去找一个垂直场景,把"组织记忆"做厚,这样就算模型在变,但组织记忆是会产生复利的。 对管理者: 别再给员工买更多 AI 工具了,先想想你的团队有没有一个地方,能把每一次对话沉淀下来。 没有这个底座,买再多工具都是在加速混乱。 对像我这样的个体: 哪怕你只是一个人,也开始建你自己的 Context Layer 吧。 你的项目笔记、你的客户对话、你的写作素材——这些是你未来 5 年最值钱的资产。 写到这里,说实话这件事我自己也还没完全想清楚。 我自己也还在用着十几个 AI 工具,也还在不停地把同一个想法在不同的地方重复输入,也还经常找不到三个月前那个我自以为记得的洞察。 所以这篇不是一篇"我懂了你跟着学"的教程,这是我作为一个 AI 时代的从业者,写给同样在迷雾里摸索的你的一封信。 如果你也感觉到了那种"个体在飞、团队在塌"的拧巴,那我们就是同路人。 咱们慢慢来,一起琢磨。 (本文基于 MIT 2026 AI 采用报告、红杉 AI Ascent 2026 闭门峰会纪要与近期行业动态综合写成,Lucius 只是文中提到的一个例子,不构成任何推荐。) 📌 觉得有用的话,欢迎点个赞 / 转发和关注,我将持续跟大家分享优质实用的AI洞见。

译本文指出当前AI应用存在一个“生产力悖论”:个人使用AI工具效率大幅提升,但组织整体效能却未同步增长。核心原因在于,组织普遍缺乏有效的“记忆系统”,导致大量时间(据MIT报告超30%)被消耗在重复构建上下文中,使个体提升的效率无法在组织层面累加与沉淀。MIT报告显示,高达95%的企业AI投入未产生可衡量回报。作者认为,未来竞争的关键不在于使用最强的AI模型,而在于构建最深厚的“组织记忆”,将对话、决策等资产系统化沉淀,这比单纯追求工具本身更为重要。

查看原推 ↗
Greg Brockman@gdb · 5月22日17

trying to remember what it was like to code before codex

译试图回忆在Codex出现之前编程是什么感觉

查看原推 ↗
Tibo@thsottiaux · 5月22日22

Codex is our WorkGPT

译Codex是我们的WorkGPT。

查看原推 ↗
歸藏(guizang.ai)@op7418 · 5月22日41

对了! 这条内容所有的这种 3:4 的介绍图片,都是用藏师傅的 PPT Skills 一键直出的

译Codex 发布了史诗级更新,显著提升了开发体验。核心新功能包括:快捷截图通过组合键自动捕获窗口并添加上下文,内置浏览器支持高级注释模式可直接编辑页面元素,/goal 功能允许设定目标后持续执行任务数小时至数天,以及团队共享插件实现批量安装。这些更新优化了工具效率,使得藏师傅的 PPT Skills 能高效一键直出 3:4 介绍图片。

查看原推 ↗
Ethan Mollick@emollick · 5月22日40

Its funny how much the whole "strawberry" thing, which turned out to be o1-preview, was dismissed as overhyped at launch when it is clear in retrospect that it was way underhyped. A direct line from models unable to do basic math to solving unresolved math problems in 18 months.

译有趣的是,整个“草莓”事件(后来证实是o1-preview)在发布时被斥为过度炒作,但事后看来,它其实被严重低估了。 从模型连基础数学都不会,到18个月内解决未解数学问题,这是一条清晰的进化路径。

查看原推 ↗
Ethan Mollick@emollick · 5月22日64

I would push back a little: because the models are so good & improving, they don't have to be the product. But it is the model that is the prime mover. If they weren't so generally capable, the harnesses & apps the labs build around them would be hard to build and wouldn't work.

译我想稍微反驳一下:因为模型如此出色且不断进步,它们不必成为产品本身。 但模型才是主要的驱动力。如果它们没有如此全面的能力,实验室围绕它们构建的框架和应用程序将难以构建,也无法正常工作。

查看原推 ↗
宝玉@dotey · 5月22日76

如何在 Codex App 使用 /goal 的简单说明: 1. 升级 Codex App 到最新版本 2. 先在命令行运行一下下面的指令: > codex features enable goals 或者手动修改 ~/.codex/config.toml [features] goals = true 3. 开头输入 /goal,或者点 + 弹出菜单中选择 4. 开始后,输入框上方可以暂停、编辑、删除

译OpenAI宣布Codex的/goal模式已结束实验,成为稳定功能。用户可在Codex应用、IDE扩展或CLI中使用,通过设定具体里程碑,让AI持续工作直至完成,任务可运行数小时甚至数天。过程中支持随时检查、调整方向及暂停。使用前需升级应用并启用该功能(可通过命令行指令或手动修改配置文件实现)。开启后,可在输入框管理任务,并利用侧边对话查看进度而不中断主任务。该功能旨在高效处理各类复杂任务。

查看原推 ↗
Greg Brockman@gdb · 5月22日65

the model alone is no longer the product

译模型本身已不再是产品

查看原推 ↗
宝玉@dotey · 5月22日14

同问: 执行 /goal 的过程中,达到限额了,等 5 小时限额恢复了,任务能自动继续?还是需要人手动输入“continue”继续?

译一条科技推文探讨了AI任务执行中的中断恢复问题。核心疑问是:当执行/goal类任务时遇到5小时的运行时间限制,等待限额恢复后,任务是否会自动继续,还是需要用户手动输入指令(如“continue”)来重新激活。引用部分显示,此前已有其他用户就同一场景(针对/goal任务)向开发者提问“限额到了能恢复吗”,表明该问题受到持续关注。讨论聚焦于AI任务连续性机制及用户交互方式。

查看原推 ↗
Orange AI@oran_ge · 5月22日70

当你创造的价值超过你的薪资,你的薪资就成了诅咒 builder 因为 AI 生产力变 10x,价值持续升高 seller 做的一直是在放大收入,也比较安全 而这里说的第三类人,就成了重灾区

译Cloudflare近期裁员约1100人,CEO Matthew Prince在专栏中将员工分为“建造者”、“销售者”和“度量者”三类。AI生产力提升直接利好工程师等“建造者”,销售因需人际互动也较安全。最大风险落在负责财务、审计、中层管理等可重复性工作的“度量者”身上,因其任务正是AI所擅长。公司随后招聘大量AI原生代实习生实施“腾笼换鸟”,但此举引发股价下跌。核心观点是,AI替代风险与工作的结构性和可重复性高度相关。

查看原推 ↗
宝玉@dotey · 5月22日77

Cloudflare CEO Matthew Prince 在《华尔街日报》发了一篇专栏,标题是:《我是怎么选择用 AI 替换哪些员工的》 Cloudflare 刚裁掉约 1100 人,占全员五分之一,是这家公司 16 年来第一次大规模裁员。然后Cloudflare 今年招了 1111 名实习生,基本上和裁员的人数相当,等于是腾笼换鸟了。 而且夸张的是, Cloudflare 今年收到了将近 100 万份实习申请,录取率只有千分之一,就业环境可见一斑,也难怪毕业典礼上 CEO 们吹 AI 下面嘘声一片! 至于裁员的理由,当然是归结为 AI 了。为了说清楚裁员的理由,Prince 搬出了管理学家彼得·德鲁克 1954 年的《管理的实践》,把公司里的人分成三类: 1. 建造者(builder) 2. 销售者(seller) 3. 以及“度量者”(measurer),负责其余一切,包括财务、审计、法务、合规、中层管理、运营、市场。 AI 不动前两类。工程师效率翻十倍,他说有多少招多少;销售也安全,因为掏钱的是人,人愿意跟懂自己需求的人打交道。 会被 AI 顶掉的是第三类“度量者”,因为他们做的统计业绩、出报表、跑审计,正是结构化、可重复、AI 最擅长的活。这次裁的,绝大多数就是这批人。 他举了几个具体例子:Cloudflare 的内部审计以前每个季度只能抽查几个业务风险领域,现在转向全业务持续审计;财务关账更快了,错误更少了;中层管理者被大幅裁减,因为 AI 让每个经理可以直接管更多人。 而且用来替代这些人的实习生,Matthew Prince 的话来说:是天生的 AI 原生代。他们无一例外,全都是“建造者”或者“销售者”。 财报和裁员一起公布后,Cloudflare 股价一度跌掉二十多个百分点;公司这一季其实还亏了 6200 万美元,光遣散和重组就要花 1.4 到 1.5 亿美元。一边说不是省钱,一边背着上亿重组开支,投资人显然没全买账。

译Cloudflare裁员约1100人,同时招聘近似数量的实习生。CEO在《华尔街日报》撰文,引用德鲁克理论,指出AI主要替代从事审计、财务、中层管理等结构化工作的“度量者”,而工程师与销售人员影响较小。公司已将审计转向AI驱动,财务流程得以优化。大量实习岗位被视为面向“AI原生代”。财报显示公司当季亏损,且因裁员产生高额重组费用,消息公布后股价一度大跌超20%。

查看原推 ↗
karminski-牙医@karminski3 · 5月22日43

之前翻译软件&翻译API仅存优势是速度快(比如玩旮旯给木一目十行), 但现在这么小的模型完全能扔显卡里拉到200tps, API就没优势了.

译翻译软件和翻译API的核心优势曾在于速度快,但当前小模型在显卡上可达到200tps的运行速度,使其速度优势不再明显。同时,用户如@chenerTR指出,只要通用大语言模型(如GPT 5.5)速度满足需求,他们更愿意用其进行翻译,而非依赖专用翻译工具。这表明通用模型正逐步替代传统翻译软件,改变了翻译技术的使用格局。

查看原推 ↗
meng shao@shao__meng · 5月22日29

在面试或交流中,如果听到把 prompt 发音为 [pro mo t],会默默减分吗 😂 我感觉我也不是强迫症,但是每次听到这样读,还是很出戏。。

译在面试或交流中,如果听到把 prompt 发音为 [pro mo t],会默默减分吗 😂 我感觉我也不是强迫症,但是每次听到这样读,还是很出戏。。

查看原推 ↗
meng shao@shao__meng · 5月22日70

AI 补贴时代终结了吗? @HedgieMarkets 认为:AI 服务的"包月时代"正在结束,按 token 计费正在成为行业默认 · 微软取消内部 Claude Code:理由是基于 token 的计费模式让成本"难以承受",即便对一家拥有近乎无限云资源的公司也是如此。 · Uber 的 CTO 内部备忘录:警告公司在四个月内烧光了 2026 年全年的 AI 预算。 · 行业定价层面的变化:美国 AI 软件价格上涨 20%–37%,GitHub 正在全线产品中放弃固定费率套餐,转向按用量计费。 摆在面前的两条路,都不太好走 路径 A:维持当前价格 · 企业缩减 AI 用量以适配预算 · AI 公司收入增长放缓,而 labs 正需要营收来支撑 IPO 前的估值 路径 B:AI 公司降价 · 企业用量恢复 · 单位经济性进一步恶化,亏损扩大 Hedgie 用了一张典型的"利润剪刀差"图 · 绿色曲线(Per-Seat Revenue):按席位收费的订阅收入,呈温和上升; · 红色曲线(Per-Token AI Compute Cost):按 token 计的算力成本,呈指数式上扬; · 两线在右侧拉开巨大缺口,标注为 "Profit Collapse(利润崩塌)"。 只要定价单位(per-seat)和成本单位(per-token)不匹配,使用量越大,亏损越深。这正是 Claude Code、Codex、Cursor 等"包月制 AI 编程工具"目前面临的结构性问题,也解释了为什么 GitHub 要放弃 flat-rate。

译AI服务定价正从包月制转向按用量计费,微软、Uber等企业因成本压力缩减AI预算。行业面临两难:维持价格将抑制使用量并影响AI公司收入增长,降价则会加剧亏损破坏经济性。核心矛盾在于固定订阅收入与指数增长的算力成本不匹配,形成利润剪刀差,这是AI编程工具及整个行业面临的结构性挑战。

查看原推 ↗
meng shao@shao__meng · 5月22日67

一起看看 Cursor 团队内部最常用的 Skills thermo-nuclear-code-quality-review,一位苛刻的代码质量审计员,它的设计目标是:在 PR 合并之前,识别那些"能跑、但让代码库变得更糟"的改动并拒掉它们。 在这安装 @cursor_ai Team Kit: https://cursor.com/marketplace/cursor/cursor-team-kit 四条核心审计原则 1. 删除复杂性,而不是搬运复杂性 重构的常见反模式是把一坨复杂逻辑从 A 文件挪到 B 文件,调用栈变深,但总复杂度没降甚至上升。该 skill 要求改动产生净简化,而非位置转移。 2. 阻止超过 1000 行的文件 硬性上限。超过 1k 行的文件几乎必然意味着职责不清、难以测试、难以并行修改。这是一条"宁可错杀"的工程红线。 3. 标记薄包装层和泄漏的逻辑 · Thin wrappers:只是转发参数、没有实质行为的函数/类,徒增间接层。 · Leaked logic:本该封装在某层的业务规则散落到了调用方,破坏边界。 4. 拒绝"能工作但让代码更乱"的 PR 这是最关键的一条立场:功能正确 ≠ 可以合并。维护性是一等公民,与功能性同等重要。 两阶段、父子 Agent 协作的运行机制 阶段 1 — 父 agent 准备上下文(并行) · 一个 shell 子 agent 执行 git diff <base>...HEAD(默认 base 为 main) · 一个 explore 子 agent 抓取所有变更文件的完整内容 阶段 2 — 调用审计 agent 父 agent 把上面两份产物组装成带 ### Git / diff output 和 ### Changed file contents 两个标注段落的 prompt,传给 thermo-nuclear-code-quality-review 子 agent 执行审计。 这个设计有几个值得注意的点: · 审计 agent 本身不做信息收集,输入是结构化的、确定的,避免它在探索阶段被噪声干扰。 · 禁止嵌套子 agent(除非显式要求),强制单次、聚焦的判断。 · 只评判 diff 中看得见的东西,但当改动触及模块边界时要追踪跨文件影响——这避免了"只见树木"的局部审查。 Rubric 的兜底逻辑 Skill 明确写了一个 fallback:如果 cursor-team-kit 插件不在,就退化为一次"严厉的可维护性审计",目标对齐: · 大胆简化(ambitious simplification) · 文件不无故膨胀超过 ~1k 行 · 不容忍随手加 if/else 让分支无序增长 · 显式类型与边界 · 规范的分层(canonical layers)

译Cursor 团队内部广泛使用的代码审查技能“thermo-nuclear-code-quality-review”,其核心目标是在代码合并前,拦截那些“能运行但会使代码库变糟”的提交。它基于四条硬性原则:强制实现复杂度净简化而非转移、限制单文件不超过1000行、标记无用的封装与散落的逻辑、坚持维护性与功能同等重要。该技能采用父子Agent两阶段协作机制:父Agent并行收集结构化差异与文件内容,再交由审计Agent进行单次、聚焦的严格评判。即使插件未安装,也会触发一套对齐上述原则的可维护性降级审计。

查看原推 ↗
Sam Altman@sama · 5月22日26

what problem do you most hope AI will solve in the future? maybe we can help!

译你最希望AI在未来解决什么问题? 也许我们能帮忙!

查看原推 ↗
Chubby♨️@kimmonismus · 5月22日18

1.Cure all diseases 2.Automate scientific research, helping us solve challenges such as energy scarcity and discover new materials 3.Eliminate boring, repetitive work by letting AI handle those tasks 4.Give everyone access to a personal AI doctor that can monitor all of their health data and vitals 5. Provide everyone with a proactive personal AI assistant or secretary

译1. 治愈所有疾病 2. 自动化科学研究,帮助我们解决能源短缺等挑战并发现新材料 3. 通过让AI处理任务来消除枯燥重复的工作 4. 让每个人都能获得个人AI医生,监控所有健康数据和生命体征 5. 为每个人提供主动的个人AI助理或秘书

查看原推 ↗
Berryxia.AI@berryxia · 5月22日57

Optimus V2.5 走路的样子已经明显变了。 视频里它迈步时有了清晰的节奏和自信,动作连贯自然,不再像之前那样带着明显的机械感和谨慎。 这个进步不是小事。 行走一直是人形机器人最难解决的动态平衡问题之一。 现在它能走得像一个真正知道自己要去哪里的人,说明整个感知、控制和执行系统的协同能力又上了一个台阶。 当 Optimus 连走路都已经开始带上人的姿态时。 我们真正该关注的,已经从它能不能走稳,变成了它什么时候能真正进入工厂、仓库和家里开始干活。

译Tesla Optimus V2.5的行走动态展现出显著提升,动作更连贯、自然,充满自信。这一进步反映了其感知、控制与执行系统的协同能力达到了新高度,解决了人形机器人动态平衡的核心难题。讨论焦点已从其能否走稳,转向何时能真正进入工厂、仓库等实际场景工作。

查看原推 ↗
Berryxia.AI@berryxia · 5月22日25

兄弟们,这个TOB端还是有应用场景的! 设计师戴着 Vision Pro,站在一辆等身大的虚拟汽车模型周围走动观察。 他们可以从不同角度仔细查看,还能和远程的同事实时一起讨论、标记问题,进行协作评审。 这就是刚发布的 Apple Vision Pro 应用「Immersive for Autodesk VRED」。 它把汽车设计评审从传统的看屏幕,变成了真正沉浸在模型空间里的共同作业。 当设计工作可以做到这种程度的等身大沉浸和远程协作时。 真正值得关注的是,空间计算正在把“远程开会”变成“远程一起站在同一个物理空间里工作”。

译Apple Vision Pro发布「Immersive for Autodesk VRED」应用,让设计师佩戴设备后围绕等身大虚拟汽车模型沉浸式走动观察,并与远程同事实时协作评审。该技术将设计会议升级为高临场感共同作业,展现了空间计算改变工作模式的潜力。

查看原推 ↗
Orange AI@oran_ge · 5月22日35

我想吐槽一下这些模型厂的发布,能不能把基本的东西都直接写出来 比如 qwen max 3.7 max 多大参数,价格多少 比如 gemini omni 价格多少 这些最基本的东西都不写,谷歌也搜不到,还要去官网查半天

译用户批评部分AI模型厂商在发布新模型时,未公开关键基本信息,如Qwen Max 3.7 Max的参数规模、定价,以及Gemini Omni的价格。这些基础信息缺乏公开透明,导致用户难以通过常规搜索获取,需额外花费时间查询官网,影响了信息获取效率与体验。

查看原推 ↗
ginobefun@hongming731 · 5月22日63

http://x.com/i/article/2057600777791913984 # BestBlogs 早报 · 05-22|Agent 记忆原语、Qwen3.7-Max、自动化与人类专家 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-05-22 ## 导语 今天的早报围绕一个核心问题:AI Agent 真正「成熟」意味着什么? Anthropic 工程师首次公开了两项平台级原语——Memory 与 Dreaming,把 Agent 的跨会话记忆问题从理论变成了工程事实,Rakuten 的 97% 错误率下降数据让所有人意外。与此同时,Qwen3.7-Max 在 35 小时连续压测中以 1158 次工具调用零中断,把国内大模型竞争的焦点彻底从问答分数拉向长程稳定性。Every 创始人 Dan Shipper 则提出了一个反直觉的论断:AI 越普及,能「评判对错」的人类专家反而越稀缺。 今天速览部分涵盖了 Daytona 与 Railway 两家 Agent 基础设施公司的产品哲学,以及腾讯 Hy-MT2 翻译模型开源、AMD 苏姿丰上海演讲、ZCube 组网架构突破等多个值得关注的进展。补充阅读部分包括 OpenAI 推翻 80 年数学猜想、多篇 Harness Engineering 工程实践,以及 Martin Fowler 关于 Agent 代码可维护性传感器的最新思考,内容横跨 AI 科学发现、工程化落地与系统架构多个维度,建议根据今日阅读路径选读。 ## 精讲一:用于自学习自主 Agents 的 Memory 与 Dreaming 来源: Claude(Anthropic 官方频道) 阅读链接: 在 BestBlogs 观看 背景:Agent 记忆的工程瓶颈 在 AI Agent 承担越来越复杂的企业任务时,最大的工程障碍之一是「历史执行上下文的管理」。没有持久化的记忆基础设施,Agent 每次收到新指令时几乎都是「空白状态」——频繁重复错误、重复工作,无法在多 Agent 团队之间共享领域知识。 Anthropic 的 Ravi 在一场公开演讲中首次披露了两项专为云端托管 Agent 设计的基础设施原语:Memory 与 Dreaming。这是 Anthropic 在「长程自主智能体」方向上迄今最具体的架构路径。 Memory:把经验建模为虚拟文件系统 Memory 系统的设计出发点很务实:不强迫模型使用限制性的内部 API,而是把知识显式建模为标准虚拟文件系统,暴露给 AI 模型。 现代大语言模型(如 Opus 4.7)在操作文件路径和目录结构方面具备相当强的原生能力。通过把过去的经验和共享知识表示为标准目录,Agent 可以使用熟悉的 bash、grep 等终端工具来检查、修改和组织历史记录。这消除了不必要的软件层,让模型自己决定哪些会话内容值得保存。 企业控制层级与并发控制: 在大型企业环境中部署共享记忆时,读写冲突是一个现实风险。Anthropic 通过三项架构约束来解决这个问题: 1. 作用域层级(Scoped Hierarchies): Agent 同时访问不同层次的记忆空间——包括只读的企业知识库(如 SLO 策略、运行指南)和可读写的本地任务存储。 1. 乐观并发控制(OCC): 防止多个并发 Agent 在同时写入时互相覆盖状态。 1. 独立 REST API: 使外部工程团队可以方便地执行 CRUD 操作、触发数据导出或进行合规删除。 Rakuten 的早期部署数据非常惊人:引入生产级 Memory 后,首次执行错误率下降了 97%。Wise Docs 也消除了文档验证流程中的跨会话处理瓶颈。 Dreaming:全局优化的异步整合 如果说 Memory 是 Agent 的「知识存储」,那么 Dreaming 就是 Agent 的「夜间整理」。 Dreaming 原语在后台异步运行,对碎片化的记忆进行整合与去重,消除多 Agent 团队的重复学习。它类似于人类睡眠中大脑对白天经验的整理与固化,帮助整个 Agent 组织在不中断任务的情况下持续优化共享知识库。 为什么这很重要 这两项原语的意义不只在于技术层面。它们标志着 Agent 基础设施从「单次任务工具」向「持续学习系统」的关键跃升。当 Rakuten 的数字从 97% 这个量级给出时,它提示了一件事:Agent 的真正价值边界,可能不在于单次任务的表现,而在于是否能从每次执行中积累并共享经验。 与今日其他内容的关联 Memory 与 Dreaming 这两项原语,和今天精讲二中 Qwen3.7-Max 的「长程策略连贯性」指向了同一个问题的两个层面:一个是在基础设施层解决 Agent 的跨会话记忆问题,另一个是在模型层解决长程执行中的策略稳定性问题。这两个方向的进展,共同构成了「AI Agent 从工具到协作者」这一演化的基础条件。 从今天精讲三 Dan Shipper 的视角来看,Memory 与 Dreaming 的意义还不止于此:当 Agent 具备了持久化学习能力,它们在特定领域的执行质量会随时间不断提升,这进一步强化了「人类评委」在整个系统中的战略价值——因为需要有人来判断 Agent 积累的「经验」是否正确、是否值得保留。 如果你正在构建企业级 Agent 或多 Agent 协作系统,这篇内容值得深读。 ## 精讲二:Qwen3.7-Max 重新定义 AI Agent 基座 来源: 通义大模型 阅读链接: 在 BestBlogs 阅 问题的起点:Demo 很惊艳,一上生产就崩溃 很多开发者对 AI Agent 的真实体验是:任务稍长就丢上下文,换个框架就性能暴跌,跑几轮就开始「自我循环」。Qwen3.7-Max 试图正面回应这个痛点。 极限压力测试:35 小时、1158 次工具调用零中断 通义实验室为 Qwen3.7-Max 设计了一场极限压力测试:在训练期从未见过的硬件平台(平头哥真武 M890 PPUs)上,自主优化 SGLang 的 Extend Attention 生产级 Kernel。 没有硬件文档,没有性能分析数据,起点只有任务描述、官方 Triton 参考实现和一个评估脚本。 在约 35 小时的连续运行中,模型共产出 432 次 Kernel 评估,跨越 1158 次工具调用,完全自主地: - 编写、编译、性能分析并迭代推理算子 - 诊断编译报错、修复正确性 Bug - 通过运行时测量定位瓶颈,多次重构底层架构 最终,在多个工作负载上相对 Triton 参考实现几何平均加速 10.0x,而对比同期测试的其他模型最高仅 7.3x,且多数因连续 5 轮无行动而主动退出。 更关键的数据是:模型在 30 小时后仍在持续发现实质性改进点,证明了它的「长程策略连贯性」。 解耦训练架构:跨框架泛化的底层设计 Qwen3.7-Max 的训练架构采用了「任务 - 运行框架 - 验证器」正交解耦设计。在强化学习阶段,模型被强制在不同框架、不同验证器组合下处理同源任务,学到的是通用的解题策略与工具调用范式,而非「某个框架的快捷键」。 这意味着:无论使用 Claude Code、OpenClaw、Qwen Code,还是自研 Tool Use 框架,Qwen3.7-Max 都能即插即用,性能表现高度一致。在 QwenClawBench 与长链路 CoWorkBench 评测中,无论切换何种运行环境,性能均稳定领先上一代。 国内大模型竞争的焦点转移 这次发布的真正意义在于:它把国内大模型的竞争焦点,从「问答分数」拉向了「长程 Agent 稳定性」。在综合 Agent 评测中,Qwen3.7-Max 位列前三,性能逼近行业顶尖水平,在长程 Agentic 稳定性上超越了 Claude 3.7 Sonnet 与 GPT-4.1。 实际应用场景 Qwen3.7-Max 已经在三类真实场景中展示了能力: 编程 Agent — 从一条 prompt 生成包含 Three.js 3D 场景、Canvas 动画的交互式 Web 应用。 MCP 办公助手 — 通过 MCP 工具集成,读取高校学位论文格式规范,自动修复排版混乱的论文,包括页面布局、标题样式、字体字号、页边距、目录生成和参考文献格式,全程通过 office-cli 工具自主完成。 多智能体协作 — 支持主 Agent 规划调度、子 Agent 垂直执行的多智能体编排,同时基于 Tool Use 可直接操控具身设备完成物理环境中的理解、规划与决策。 如果你需要在生产环境中部署长程 Agent,Qwen3.7-Max 即将通过阿里云百炼提供服务,完整兼容 OpenAI 与 Anthropic API 协议。 ## 精讲三:自动化之后 来源: Every 阅读链接: 在 BestBlogs 阅读 悖论的起点:自动化越多,人类工作越多 Every CEO Dan Shipper 在这篇文章里记录了一个令他本人也感到困惑的现象:公司已经把所有能自动化的工作都交给了 AI——用 Codex 和 Claude Code 写代码、设计、客服——但他们没有裁员,反而还在扩张。团队接近 30 人,人类工作似乎比以前更多了。 这和主流叙事截然相反。Dario Amodei 警告过 AI 可能消灭一半入门级白领工作,Meta 裁员 8000 人,GDPVal 评测显示前沿模型在真实经济任务上已经达到 85% 的人类水平。但 Shipper 的实地经验是:「越自动化,需要做的人类工作越多。」 核心机制:AI 商品化了人类专业知识的「遗留物」 Shipper 的解释是:AI 商品化的是人类专业知识中「能被显式表达并训练的部分」。一旦某个技能被大量自动化,这类技能的「默认产出」价值就崩塌了,但「与众不同」的需求反而上升了。 而「与众不同」的需求,本质上是对人类专家的需求——即使我们已经接近 AGI。 举个具体例子:Codex 可以写代码,但能评判「这段代码写得对不对」的工程师变得更值钱,因为 AI 产出了大量同质化的代码需要被审查。AI 批量制造内容,「评估哪篇更好」就成了新稀缺。 人类三明治:设定框架、AI 执行、人类评判 Kieran(Every 的作者)把这种新工作模式称为「人类三明治」:人类设定任务框架 → AI 执行任务 → 人类评判并延伸结果。在 Every 内部,AI 已经回复了 Shipper 95% 的工作邮件,但他仍然在审阅每一封。管理者开始写代码,工程师开始直接接触客户。 没有临界点,只有新常态 Shipper 的结论是反直觉但有据可查的:不会有一个「临界点」让所有工作都消失。真正的新常态是:自动化越多,对专家判断力的需求越高。自动化的终点不是消灭工作,而是把人类角色推向「评委与压舱石」这个最后被商品化的层级。 这和今天的其他内容有什么关联 Qwen3.7-Max 的极限测试,恰好印证了 Shipper 的逻辑:1158 次工具调用之后,仍然需要工程师来评判最终的 10x 加速是否真的「正确」——模型没有硬件文档、没有先验知识,但评估脚本由人类设计,验证标准由人类设定。AI 做了 35 小时的执行工作,而「定义什么是成功」的工作依然是人类的。 Memory 与 Dreaming 的案例同样如此:Rakuten 的 97% 错误率下降,需要人类来确认「错误」的定义、设计评估标准、判断哪些经验值得被 Dreaming 保留。专家判断力不是 AI 自动化的副产品,而是前提条件。 如果你在思考「AI 会不会取代我」,这篇文章提供了一个不同的分析框架,值得仔细阅读。 ## 速览 为智能体配备计算机 — Ivan Burazin,Daytona(来源:Latent Space) Daytona CEO Ivan Burazin 的核心论点是:AI 智能体需要的不仅仅是可丢弃的代码执行沙箱,而是可组合、有状态的「计算机」。他将公司从人类开发环境转型为 Agent 基础设施提供商的历程,以及「localhost 的终结」这一长期判断,对理解 Agent 基础设施赛道的产品逻辑很有帮助。Daytona 不是在构建另一个 sandbox,而是在重新定义 Agent 与计算环境之间的关系。开发者和基础设施产品经理适合阅读。 Railway:面向智能体的原生云平台 — Jake Cooper(来源:Latent Space) Railway 创始人 Jake Cooper 分享了从「零激活能量上线」的产品哲学,到构建裸金属数据中心、实现 70% 利润率的商业路径,再到为 AI Agent 时代重新设计基础设施的全过程。值得关注的是,Railway 在 2026 年 5 月经历了一次 GCP 大规模故障(即使采用了多 AZ、多 zone 架构),其事后复盘对理解 Agent 基础设施的高可用挑战很有参考价值。适合关注云基础设施和 Agent 平台建设的读者。 腾讯混元全新翻译模型 Hy-MT2 开源,小程序「腾讯 Hy 翻译」开放体验(来源:腾讯混元) Hy-MT2 支持 33 种语言互译,7B 和 30B-A3B 模型达到开源最佳效果,超越几十倍参数量的模型。最有意思的是 1.8B 轻量版:得益于 AngelSlim 1.25-bit 极端量化,仅需 440MB 存储空间,可在手机芯片上本地推理,比 Hy-MT1.5 推理速度提升 1.5 倍,同时翻译质量超越微软等主流商业 API。已上线「腾讯 Hy 翻译」小程序,iOS 和安卓 APP 即将发布。 选择正确模型:LLM Evals 与优化的数据驱动指南(来源:Claude) Anthropic 的 Lucas 分享了一套生产级 LLM 选型框架:核心包括自定义 eval 而非依赖公开 benchmark、过程级评分(不只看最终结果)、prompt caching、context hygiene,以及按「成功结果成本」而非「单次调用成本」来优化选型决策。对在生产环境做模型选型的工程师有直接参考价值。 Google 推出 Android CLI,让 Android 工具链对 AI 智能体更友好(来源:InfoQ) Google 重新设计了 Android CLI,引入了结构化 Skills(SKILL.md 格式的模块化指令集)和集成知识库,使 AI 智能体能够更高效地访问 Android 工具链。声称与 Android Studio 内的 Agent 相比,构建速度提升 3 倍,Token 使用量减少 70%。兼容 Claude Code、Codex 等第三方 Agent。这个设计思路与 BestBlogs 自身的 skill 体系颇为相似,值得关注。 下一代大模型推理网络架构:ZCube 如何有效破解网络瓶颈?(来源:智谱) 智谱、驭驯网络与清华大学联合提出的 ZCube 组网架构,在 GLM-5.1 coding 生产环境中实现了成本降低 33%、吞吐提升 15%、TTFT P99 降低 40.6%。核心思路是用全网扁平化拓扑 + 单/多轨混合接入,替代传统 ROFT 架构,从结构层面解决 PD 分离推理中的不对称流量拥塞问题。GPU、软件栈和应用均未改动,纯粹靠架构调优实现跨越。运行大规模推理集群的工程团队值得参考。 苏姿丰上海开讲:AI 正在重新定义计算的每一层(来源:量子位) AMD CEO 苏姿丰在 AMD AI 开发者大会上海站的核心判断:AI 竞争正从模型能力转向系统工程与全栈优化,Agent 时代的成本结构是指数级而非线性的,开发者需要的是「可落地、可优化、可持续演进的工程体系」。AMD 以开放生态和 ROCm 平台应对这一趋势。量子位现场报道,信息密度较高。 ## 补充阅读 OpenAI 模型推翻 80 年数学猜想,AI 首次实现科学发现(来源:Wes Roth) OpenAI 内部推理模型自主推翻了 Paul Erdős 于 1946 年提出的平面单位距离猜想,通过桥接代数数论与初等几何构造出完整的反例族。这是 AI 驱动原创科学发现的一个里程碑时刻。关注 AI 在数学研究领域能力边界的读者值得一看。 OpenAI 单位距离问题突破:完整技术报告(来源:OpenAI Blog) 上一条 Twitter 所对应的 OpenAI 官方完整技术报告。模型构造的点集配置在多项式级别上超越了此前最优的方格构造,顶级数学家 Noga Alon 参与了同行评审。想了解技术细节的读者可以直接读原报告。 QQ 音乐 Harness Engineering 实践(来源:腾讯云开发者) 把 AI 协作从不可控的对话式编码升级为可控、可审计、可复用工程化过程的实践分享。在大仓多服务场景下,如何让 AI 具备自主验证能力是核心挑战。配合下面两篇「Harness Engineering」相关内容一起读效果更好。 构建最强 Agentic Analytics Harness:由 Claude 驱动,用 Claude Code 打造(来源:Claude) Omni CTO 讲解如何构建 Blobby 智能分析系统,涵盖语义层设计、evals 框架、split-brain agent 与直接 SQL 生成等架构经验。关注 AI 数据分析 Agent 工程化落地的读者适合观看。 A²I² 的讽刺性悖论(来源:InfoQ) 探讨自动化和 AI 在事件响应中的结构性困境:AI 提供了自主性和权威性,但缺乏定向注意力、可重定向性和可互预测性——而这些恰恰是人类协调最关键的特质。在高压情境下,这种缺失可能导致严重失败。对 SRE 和运维工程师有现实意义。 提示工程还不够——我构建了一个可在生产环境中运行的控制层(来源:Towards Data Science) 作者在第三次调试同一个崩溃后意识到:问题不在模型,在系统。他构建了一个包含 InputGuard、TokenBudget、PromptBuilder、ResponseValidator、CircuitBreaker、RetryEngine、FallbackRouter、AuditLogger 八个组件的控制层,将结构化输出基准测试通过率从 0% 提升到 100%。69 个测试、5 个可运行 demo,有完整代码。 都是 AI Coding,为什么 Java 体验差了一个量级?五条方法论帮你构建自己的 Harness 环境(来源:阿里云开发者) 深入分析了 Java 微服务项目在 AI Coding 中体验差的根本原因(本地跑不起来,AI 无法自主验证),并提出了通过 Harness Engineering 构建本地可运行环境的五条方法论。有 Checklist 和具体工程方案,对 Java 后端开发者非常实用。 发布 ADK for Kotlin 和 ADK for Android 0.1.0(来源:Google Developers Blog) Google 发布 Agent Development Kit for Kotlin 和 ADK for Android,使开发者可以构建混合 AI Agent,在云端模型(如 Gemini)和设备端 LLM(如 Gemini Nano)之间协调任务。Android 开发者和移动端 AI 应用方向值得关注。 合成人格预训练:从零标记开始的对齐(来源:LessWrong) 通过在预训练文档中附加带有价值判断的道德反思,从训练伊始就植入所需的 AI 助手人格,实现了攻击成功率降低 63%。这是一项 AI 安全领域的早期研究,证明预训练阶段植入的价值观能够在后训练阶段泛化到未见过的安全场景。关注 AI 对齐研究的读者适合阅读。 编码智能体的可维护性传感器(来源:Martin Fowler) Martin Fowler 通过实验多种传感器——从静态分析到 AI 驱动的模块化审查——帮助编码 Agent 自我修正并维护代码库的可维护性。当 Agent 生成代码的速度越来越快时,如何确保长期可维护性是一个值得认真对待的工程问题。 来自 Codex 官方团队的分享:如何把 Codex 用到极致(来源:宝玉的分享) 系统介绍如何利用 Codex 的持久对话流、语音输入、任务干预、自动化、目标设定和侧边栏等高级功能,将其从编程助手升级为全能工作流引擎。Jason 原文的中文翻译版,内容实用。 Ramp 工程师如何借助 Codex 加速代码审查(来源:OpenAI Blog) Ramp 使用 GPT-5.5 驱动的 Codex 将 PR 代码审查时间从数小时缩短至数分钟,核心价值在于「能捕捉人类和其他 AI 工具都遗漏的问题」。配合上一条 Codex 使用指南一起看效果更佳。 当 Agent 真正走进复杂数据分析场景:DataClawBench(来源:AI 前线) 基于 492 个真实金融智库任务的数据分析评测基准,通过保留未清洗数据和隐藏数据源先验,对前沿大模型进行过程级评估。结论是:当前 Agent 在开放式真实数据分析场景中的能力边界,远比 demo 演示的要窄。 LLM 主题并非观察结果(来源:Towards Data Science) LLM 从文本中提取的主题是「生成的变量」而非直接观察结果。在因果分析中,若未解决选择偏差、测量误差等问题而直接用作协变量,会引入严重偏差。对做数据分析和因果推断的研究者有直接警示意义。 在 VS Code 中烹饪 Agents(来源:AI Engineer) Microsoft 的 Liam Hampton 讲解 VS Code 如何成为 local、background 和 cloud agents 的统一控制平面,把 multi-agent workflow、安全边界、MCP 上下文和开发者监督结合起来。VS Code 用户和 Agent 开发者适合观看。 会自动交易的交易信号:在系统化投资中规模化受治理的 AI(来源:Claude) Man Group 数据与 AI 负责人讲解一家管理超过 2000 亿美元资产的受监管投资机构,如何在系统化交易中构建可治理的 AI——包括生产级 AI 交易信号、skills 治理框架,以及「组织上下文作为 AI 护城河」的战略视角。高度监管行业的 AI 落地案例,视角独特。 ## 今日阅读路径 今天内容量偏大,如果你时间有限,建议按照以下路径选读: 第一优先:如果你只有 20 分钟 先读「精讲三:自动化之后」。Dan Shipper 的文章是今天最具思想冲击力的一篇,它提供了一个反直觉但有大量实地数据支撑的分析框架——关于 AI 与人类工作的关系,这是比大多数预测文章都更诚实的一个视角。 第二优先:如果你是 Agent 工程师 读「精讲一:Memory 与 Dreaming」,然后搭配速览中的 Daytona 和 ZCube 两篇。这三篇合在一起,覆盖了 Agent 的记忆层(Anthropic 原语)、计算环境层(Daytona)和网络基础设施层(ZCube),是一条完整的 Agent 基础设施视角。 第三优先:如果你关注国产大模型竞争 读「精讲二:Qwen3.7-Max」。35 小时 1158 次工具调用零中断这个数字,已经足够说明问题的性质——这不是 benchmark 刷分,而是真实硬件上的生产级验证,代表着国内大模型竞争正式进入了一个新的阶段。 补充:如果你是开发者,在用 AI Coding 工具 补充阅读中的 Java Harness Engineering、Codex 官方使用指南、QQ 音乐 Harness 实践这三篇可以组合成一个「AI Coding 工程化」专题,非常实用,适合在上下班通勤时集中阅读。

译本期早报聚焦AI Agent的成熟化。Anthropic首次发布Memory与Dreaming基础设施原语,将跨会话记忆工程化,Rakuten部署后首次执行错误率下降97%。通义实验室的Qwen3.7-Max通过35小时极限压力测试,在未知硬件平台上自主优化Kernel,实现1158次工具调用零中断,凸显长程稳定性,将国内大模型竞争焦点从问答分数转向Agent可靠性。与此同时,Every创始人观察到,随着AI自动化普及,能评判执行质量的人类专家价值反而凸显。这些进展共同指向Agent成熟的基础设施、模型基座与人类协作新范式。

查看原推 ↗
ginobefun@hongming731 · 5月22日45

#BestBlogs 早报 05-22 今日主题:Agent 记忆原语、Qwen3.7-Max、自动化与人类专家

译#BestBlogs 早报 05-22 今日主题:Agent 记忆原语、Qwen3.7-Max、自动化与人类专家

查看原推 ↗
François Chollet@fchollet · 5月22日64

Whenever an AI tells me I'm absolutely right, my trust in it drops by a bit

译每当AI告诉我“你完全正确”时,我对它的信任就会下降一点。

查看原推 ↗
Ethan Mollick@emollick · 5月22日68

We are quite short of compute, and that is going to result in compute becoming very expensive for complex agentic workflows even as single-turn chatbots get cheaper. So the richest companies &amp; most pressing use cases will use AI agents &amp; everyone else will be stuck with chatbots?

译我们目前算力相当短缺,这将导致复杂智能体工作流的算力成本变得非常高昂,即使单轮聊天机器人的成本在下降。因此,最富有的公司和最紧迫的用例将使用AI智能体,而其他人将只能使用聊天机器人?

查看原推 ↗
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月22日
19:16
AYi@AYi_AInotes
61
2026或成长周期智能体元年,AI效率为何难累加?

红杉AI Ascent 2026闭门峰会提出,“长周期智能体”将成为2026年的商业定义。但这引发了“AI生产力悖论”:尽管Cursor、Claude、NotebookLM等AI工具显著提升了个人效率,但这些工具的“记忆”绑定于个人账号和设备,无法迁移、共享或在团队间累积。因此,个体效率的提升难以转化为组织层面的生产力增益,每个员工都像一座座彼此孤立的“信息孤岛”。

AYi: http://x.com/i/article/2057668634579714048

智能体大佬观点
18:56
Chubby♨️@kimmonismus
70
微软因token费用过高取消了内部Claude Code授权,凸显出企业AI使用成本正急剧上升。这标志着AI补贴时代的终结,基于使用量的定价模式正迫使企业面对大模型运行的高昂成本。企业面临两难:缩减AI投入会影响AI实验室的增长目标;若实验室降价则会损害自身盈利。两种路径都指向当前成本模式难以为继,最终可能需进行资产减值。

Hedgie: 🦔Microsoft canceled its internal Claude Code licenses this week after token-based billing made the cost untenable, even...

AnthropicMicrosoft现象/趋势
18:30
歸藏(guizang.ai)@op7418
57
Claude Code 连接飞书工具再受关注

最近好像 Claude Code 连接飞书又火了 再推荐一下藏师傅两个多月前写的这个 Skills 哈。 它能连接 Telegram、飞书、QQ、微信、Discord 等各种 IM,支持 Claude Code 和 Codex。 [引用 @op7418]:http://x.com/i/article/2029562855511744512

歸藏(guizang.ai): http://x.com/i/article/2029562855511744512

MCP/工具教程/实践
18:19
Qwen@Alibaba_Qwen
66
近期一项针对前沿AI模型在真实智能体任务上的测试显示,Qwen 3.7-Max在效果与成本方面全面领先。该任务要求模型自主编写并迭代优化一个能自我训练的Tetris机器人程序。在10轮自我改进中,Qwen 3.7-Max仅花费1.32美元,便将机器人性能提升了56%。相比之下,Claude Opus 4.7花费12.15美元提升了28%,GPT-5.5花费2.85美元提升了7%。结果表明,在需要长时间自主推理、代码阅读与迭代的复杂智能体循环场景中,Qwen Max具备极强的成本效益比与自我改进能力。

atomic.chat: Qwen 3.7-max beats Opus 4.7 and GPT-5.5 We tested three frontier models on a real agentic task: write a Tetris bot that ...

智能体推理评测/基准
关联讨论 10 条X:OpenRouter (@OpenRouter)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen:Blog Retrieval(API)X:通义千问 / Qwen (@Alibaba_Qwen)X:Kim (@kimmonismus)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)X:opencode (@opencode)
18:16
Berryxia.AI@berryxia
67
SenseNova AI Agent实测:自动跑报告,免费薅羊毛

用户实测SenseNova 6.7 Skills Agent,称其为“牛马人套装”。该AI agent能够自主执行长时间、重复性的数据处理任务,例如爬取网站、整理数据并生成结构化文件(如MD格式),以完成一份市场调研报告。由于任务复杂,执行耗时较长,但因产品处于公测阶段,目前免费使用。用户后续还将测试其自动生成报告PPT的功能,并提醒大家抓紧机会体验其免费的CodingPlan。

智能体MCP/工具教程/实践
18:16
Berryxia.AI@berryxia
32
提示词Agent工具助力广告设计,高效出图引热议

在Bloome平台上,@berryxia 推出了一款海报设计Agent,基于万能提示词集,可快速生成适用于产品、人文、科技、展会等多种场景的海报。用户通过对话交互即可生成设计图,1美元解锁后可生成100张图,限时一周。该系统被推荐用于电梯广告等设计,操作简单,只需输入数字并微调即可产出优质效果,鼓励广大用户尝试使用。

Berryxia.AI: 兄弟们,今天我不装了。 摊牌了~ 之前一直有朋友说你这套提示词生成的海报这么好看,而且非常丝滑。 捣鼓了一套万能产品、人文、科技、展会等等 都可以快速出图的提示词。 但是,很多人还是用不来觉得麻烦。 于是我,我把它在Bloome 做了个海报...

产品更新图像生成
17:49
向阳乔木@vista8
10
从逆袭故事到AI实战:推荐关注光头牛哥

推文介绍了“光头牛哥”@guangtouniuge的个人经历:他从山东农村到北京,历经卖菜、摆摊、当保安等多份工作,后凭借自学成为SEO高手,帮助网站达到日百万UV。因家庭原因定居西安期间曾患抑郁症,康复后创办公司,在咨询服务领域东山再起。如今在他人劝说下开设X账号,计划分享自身GEO实战案例并学习AI。

光头牛哥: http://x.com/i/article/2057703737918214144

其他
17:19
向阳乔木@vista8
71
飞书开源工具接入Claude Code,移动端AI助理体验升级

前字节员工推荐飞书作为连接AI工具的平台。通过Zara开源的lark-channel-bridge工具,可将本地Claude Code变为飞书机器人,实现手机端随时进行复杂任务对话。该工具能将飞书消息转给Claude Code处理,支持可交互卡片和文件图片的直接显示,并结合飞书的全量搜索功能,提供流畅、可控的“AI工作助理”体验,被作者强烈推荐。

智能体MCP/工具开源/仓库
17:16
Berryxia.AI@berryxia
64
推文强调GPT-image-2的性价比,指出其生成图片成本仅约0.07元/张(1美元100张),并鼓励用户充分利用此低成本服务。引用补充了使用建议,倡导用户进一步细化操作方法以优化个人体验。整体传达了"以低成本获取AI图像生成服务"的核心信息,突出其亲民价格和实用价值。

Berryxia.AI: 你可以更加细化的使用个人用下来很不错!可以去试试~

OpenAI图像生成教程/实践
17:15
AYi@AYi_AInotes
64
我用了这个专家系统提示词之后,把其他类似的提示词都删了!

这是一套经过百万token训练的通用专家系统提示词,其核心在于为AI植入结构化的思维流程,而非简单的角色扮演。该提示词强制AI执行五大关键步骤:首先拆解用户真实需求,随后进行后台自我批判与漏洞检查,遵循“先核心结论后推理过程”的输出逻辑,并主动识别用户忽略的盲点与风险,最终生成可立即执行的行动清单。它声称能显著提升AI的输出质量与实用性,在Claude、ChatGPT、Gemini等多个主流大模型上均验证有效。

AYi: http://x.com/i/article/2057300084354670592

教程/实践
16:50
Alibaba Cloud@alibaba_cloud
56
寻找部署 DeepSeek V4-Flash 最具性价比的方式?🚀 我们通过实际基准测试和定价数据,对比了阿里云 PAI-EAS 上的不同部署选项。找到您每美元的最佳性能! 📺 立即观看:https://youtu.be/32GdEdEzPs8 #DeepSeek #AlibabaCloud #PAI #AI
DeepSeek教程/实践部署/工程
15:56
Rohan Paul@rohanpaul_ai
35
中国现有的高性能芯片性能仍只是英伟达领先芯片的一小部分。 而且,建立规模化且复杂的半导体供应链实际上非常、非常困难。 --Paulina McPadden,Baillie Gifford 投资经理
OpenAI行业动态
15:49
向阳乔木@vista8
精选79
推文批评X平台产品经理能力不足,发布文章体验糟糕。引用推文显示,开发者利用ChatGPT(通过codex/goal)开发了Markdown转换插件,允许用户拖拽文件快速生成X文章格式,以改善发布流程。该插件开源并提供谷歌插件版本,旨在解决原生体验的痛点。

小小东: X 发布神器: Markdown 转 x 文章, 谷歌插件来了 这几天,我开启了codex /goal 费了10个亿的token 让chatGPT肝出了这个插件 这两天我小小东的文章,都是这个插件发布而来 具体操作是拖拽Markdown 文...

开源/仓库

推荐理由:X官方死活不做Markdown导入,这个插件用拖拽填上了这个坑。如果你经常在X发长文,直接装一个,体验能提升一截。
15:46
meng shao@shao__meng
66
VSCode Agent-First Development五大支柱解析

VSCode团队提出Agent-First Development框架,核心理念是开发主体从“人+编辑器”转向“人+Agent+编辑器”,人的角色转变为选择模型、提供上下文、定义意图和设定边界。五大支柱为:模型(匹配任务深度,按需选择思考档位)、执行边界(从问答到自主规划的渐进信任模式)、上下文(显式提供关键信息以避免错误)、提示(需清晰包含目标、范围与约束)与工具(能力需可控、可审计)。该框架旨在系统化指导人与AI代理高效协作开发。

Microsoft Developer: The @code team released a new Introduction to Agent-First Development series. It breaks down these 5 pillars behind grea...

智能体Microsoft教程/实践编码
15:14
AYi@AYi_AInotes
57
8套价值上万的神级Prompt模板开源分享

本次分享开源了8套被称作“神级”的Prompt模板,宣称总价值超过万元。这些模板覆盖了工作、生活、学习、副业等多领域场景,包括KERNEL-X、AI工作流专家、深度研究等具体系统,旨在帮助用户提升效率、解决实际问题,实现从焦虑到豁然开朗的状态转变。

AYi: http://x.com/i/article/2057300084354670592

智能体教程/实践编码
14:30
歸藏(guizang.ai)@op7418
57
探讨了墨水屏硬件作为低功耗副屏的创新应用场景。设备开机时,可作为AI信息显示终端,自动接收并展示待办事项、日历等推送信息,便于用户快速查阅;关机后则转变为电子名片,利用墨水屏的静态显示特性方便线下社交扫码。该方案通过"磁吸"方式灵活部署,旨在将硬件功能打包为可复用的技能模块。

歸藏(guizang.ai): 终于找到了这种墨水屏硬件最适合的场景: 开机的时候,让 AI 往里边推一个 To-do、日历,一些基础的需要记的信息 把它挂在屏幕边上(用磁吸) 关机的时候,利用墨水屏的特性让它显示名片,这样大家加好友什么的直接看就行 太实用了! 到时候打...

教程/实践端侧
14:14
AYi@AYi_AInotes
64
AI生产力悖论:个体在飞,组织在塌

本文指出当前AI应用存在一个“生产力悖论”:个人使用AI工具效率大幅提升,但组织整体效能却未同步增长。核心原因在于,组织普遍缺乏有效的“记忆系统”,导致大量时间(据MIT报告超30%)被消耗在重复构建上下文中,使个体提升的效率无法在组织层面累加与沉淀。MIT报告显示,高达95%的企业AI投入未产生可衡量回报。作者认为,未来竞争的关键不在于使用最强的AI模型,而在于构建最深厚的“组织记忆”,将对话、决策等资产系统化沉淀,这比单纯追求工具本身更为重要。

智能体其他大佬观点
14:05
Greg Brockman@gdb
17
试图回忆在Codex出现之前编程是什么感觉
OpenAI大佬观点编码
13:43
Tibo@thsottiaux
22
Codex是我们的WorkGPT。
OpenAI大佬观点
13:30
歸藏(guizang.ai)@op7418
41
Codex 发布了史诗级更新,显著提升了开发体验。核心新功能包括:快捷截图通过组合键自动捕获窗口并添加上下文,内置浏览器支持高级注释模式可直接编辑页面元素,/goal 功能允许设定目标后持续执行任务数小时至数天,以及团队共享插件实现批量安装。这些更新优化了工具效率,使得藏师傅的 PPT Skills 能高效一键直出 3:4 介绍图片。

歸藏(guizang.ai): Codex 昨晚发布史诗级更新,体验爆炸提升! 其中快捷截图添加上下文和内置浏览器高级注释的功能太有用了。 你只需要同时按住左边和右边的 Command 键,它就会把你当前鼠标所在位置的窗口全部截下来,然后自动填入到 Codex 的输入框里...

图像生成教程/实践
13:19
Ethan Mollick@emollick
40
有趣的是,整个"草莓"事件(后来证实是o1-preview)在发布时被斥为过度炒作,但事后看来,它其实被严重低估了。 从模型连基础数学都不会,到18个月内解决未解数学问题,这是一条清晰的进化路径。
OpenAI大佬观点推理
12:49
Ethan Mollick@emollick
64
我想稍微反驳一下:因为模型如此出色且不断进步,它们不必成为产品本身。 但模型才是主要的驱动力。如果它们没有如此全面的能力,实验室围绕它们构建的框架和应用程序将难以构建,也无法正常工作。

Greg Brockman: the model alone is no longer the product

大佬观点现象/趋势
12:13
宝玉@dotey
精选76
OpenAI Codex /goal功能正式发布及使用指南

OpenAI宣布Codex的/goal模式已结束实验,成为稳定功能。用户可在Codex应用、IDE扩展或CLI中使用,通过设定具体里程碑,让AI持续工作直至完成,任务可运行数小时甚至数天。过程中支持随时检查、调整方向及暂停。使用前需升级应用并启用该功能(可通过命令行指令或手动修改配置文件实现)。开启后,可在输入框管理任务,并利用侧边对话查看进度而不中断主任务。该功能旨在高效处理各类复杂任务。

OpenAI Developers: 🥅 /goal has graduated from an experiment-for tasks big and small, Codex gets your work done. Use goal mode in the Codex...

智能体OpenAI教程/实践编码

推荐理由:Codex的goal模式从实验毕业,意味着你可以真的放手让AI去跑长时间任务,做开发的不用再守在电脑前,这是agent落地的真信号。
12:05
Greg Brockman@gdb
65
模型本身已不再是产品
OpenAI大佬观点现象/趋势
10:43
宝玉@dotey
14
一条科技推文探讨了AI任务执行中的中断恢复问题。核心疑问是:当执行/goal类任务时遇到5小时的运行时间限制,等待限额恢复后,任务是否会自动继续,还是需要用户手动输入指令(如"continue")来重新激活。引用部分显示,此前已有其他用户就同一场景(针对/goal任务)向开发者提问"限额到了能恢复吗",表明该问题受到持续关注。讨论聚焦于AI任务连续性机制及用户交互方式。

benny: @dotey 这个goal对于5h限额到了, 能恢复吗

智能体其他
10:38
Orange AI@oran_ge
70
Cloudflare近期裁员约1100人,CEO Matthew Prince在专栏中将员工分为"建造者"、"销售者"和"度量者"三类。AI生产力提升直接利好工程师等"建造者",销售因需人际互动也较安全。最大风险落在负责财务、审计、中层管理等可重复性工作的"度量者"身上,因其任务正是AI所擅长。公司随后招聘大量AI原生代实习生实施"腾笼换鸟",但此举引发股价下跌。核心观点是,AI替代风险与工作的结构性和可重复性高度相关。

宝玉: Cloudflare CEO Matthew Prince 在《华尔街日报》发了一篇专栏,标题是:《我是怎么选择用 AI 替换哪些员工的》 Cloudflare 刚裁掉约 1100 人,占全员五分之一,是这家公司 16 年来第一次大规模裁员...

安全/对齐行业动态
10:12
宝玉@dotey
77
Cloudflare裁员千人换AI,CEO撰文解释"腾笼换鸟"逻辑

Cloudflare裁员约1100人,同时招聘近似数量的实习生。CEO在《华尔街日报》撰文,引用德鲁克理论,指出AI主要替代从事审计、财务、中层管理等结构化工作的“度量者”,而工程师与销售人员影响较小。公司已将审计转向AI驱动,财务流程得以优化。大量实习岗位被视为面向“AI原生代”。财报显示公司当季亏损,且因裁员产生高额重组费用,消息公布后股价一度大跌超20%。

大佬观点现象/趋势行业动态
关联讨论 1 条Hacker News 热门(buzzing.cc 中文翻译)
10:12
karminski-牙医@karminski3
43
翻译软件和翻译API的核心优势曾在于速度快,但当前小模型在显卡上可达到200tps的运行速度,使其速度优势不再明显。同时,用户如@chenerTR指出,只要通用大语言模型(如GPT 5.5)速度满足需求,他们更愿意用其进行翻译,而非依赖专用翻译工具。这表明通用模型正逐步替代传统翻译软件,改变了翻译技术的使用格局。

chener: @karminski3 感觉很久不用翻译软件了,只要gpt5.5 速度还行我都愿意用通用模型来做翻译

现象/趋势
09:42
meng shao@shao__meng
29
在面试或交流中,如果听到把 prompt 发音为 【pro mo t】,会默默减分吗 😂 我感觉我也不是强迫症,但是每次听到这样读,还是很出戏。。
其他语音
08:42
meng shao@shao__meng
70
AI 补贴时代终结了吗?

AI服务定价正从包月制转向按用量计费,微软、Uber等企业因成本压力缩减AI预算。行业面临两难:维持价格将抑制使用量并影响AI公司收入增长,降价则会加剧亏损破坏经济性。核心矛盾在于固定订阅收入与指数增长的算力成本不匹配,形成利润剪刀差,这是AI编程工具及整个行业面临的结构性挑战。

Hedgie: 🦔Microsoft canceled its internal Claude Code licenses this week after token-based billing made the cost untenable, even...

AnthropicMicrosoft现象/趋势
08:42
meng shao@shao__meng
67
一起看看 Cursor 团队内部最常用的 Skills

Cursor 团队内部广泛使用的代码审查技能“thermo-nuclear-code-quality-review”,其核心目标是在代码合并前,拦截那些“能运行但会使代码库变糟”的提交。它基于四条硬性原则:强制实现复杂度净简化而非转移、限制单文件不超过1000行、标记无用的封装与散落的逻辑、坚持维护性与功能同等重要。该技能采用父子Agent两阶段协作机制:父Agent并行收集结构化差异与文件内容,再交由审计Agent进行单次、聚焦的严格评判。即使插件未安装,也会触发一套对齐上述原则的可维护性降级审计。

eric zakariasson: the most used skill internally at cursor right now /thermo-nuclear-code-quality-review - deletes complexity instead of m...

智能体教程/实践编码
08:38
Sam Altman@sama
26
你最希望AI在未来解决什么问题? 也许我们能帮忙!
OpenAI其他
08:26
Chubby♨️@kimmonismus
18
1. 治愈所有疾病 2. 自动化科学研究,帮助我们解决能源短缺等挑战并发现新材料 3. 通过让AI处理任务来消除枯燥重复的工作 4. 让每个人都能获得个人AI医生,监控所有健康数据和生命体征 5. 为每个人提供主动的个人AI助理或秘书

Sam Altman: what problem do you most hope AI will solve in the future? maybe we can help!

其他
08:13
Berryxia.AI@berryxia
57
Optimus V2.5 步态更自信,人形机器人迈向实用化

Tesla Optimus V2.5的行走动态展现出显著提升,动作更连贯、自然,充满自信。这一进步反映了其感知、控制与执行系统的协同能力达到了新高度,解决了人形机器人动态平衡的核心难题。讨论焦点已从其能否走稳,转向何时能真正进入工厂、仓库等实际场景工作。

Nic Cruz Patane: Tesla Optimus V2.5 walking dynamics are now much more human-like. Huge improvement over previous versions. It's walking ...

具身智能现象/趋势
08:13
Berryxia.AI@berryxia
25
Apple Vision Pro新应用实现沉浸式汽车设计协作

Apple Vision Pro发布「Immersive for Autodesk VRED」应用,让设计师佩戴设备后围绕等身大虚拟汽车模型沉浸式走动观察,并与远程同事实时协作评审。该技术将设计会议升级为高临场感共同作业,展现了空间计算改变工作模式的潜力。

Sadao Tokuyama: Apple Vision Pro向けアプリ「Immersive for Autodesk VRED」が配信開始。 KIA Motorsの事例にあるよう、MRを活用した等身大での協調的な自動車デザインレビューを可能にし、リモート会議を没入感の...

其他大佬观点
08:07
Orange AI@oran_ge
35
用户吐槽AI模型发布信息不透明

用户批评部分AI模型厂商在发布新模型时,未公开关键基本信息,如Qwen Max 3.7 Max的参数规模、定价,以及Gemini Omni的价格。这些基础信息缺乏公开透明,导致用户难以通过常规搜索获取,需额外花费时间查询官网,影响了信息获取效率与体验。

Google大佬观点
07:30
ginobefun@hongming731
63
BestBlogs 早报 · 05-22|Agent 记忆原语、Qwen3.7-Max、自动化与人类专家

本期早报聚焦AI Agent的成熟化。Anthropic首次发布Memory与Dreaming基础设施原语,将跨会话记忆工程化,Rakuten部署后首次执行错误率下降97%。通义实验室的Qwen3.7-Max通过35小时极限压力测试,在未知硬件平台上自主优化Kernel,实现1158次工具调用零中断,凸显长程稳定性,将国内大模型竞争焦点从问答分数转向Agent可靠性。与此同时,Every创始人观察到,随着AI自动化普及,能评判执行质量的人类专家价值反而凸显。这些进展共同指向Agent成熟的基础设施、模型基座与人类协作新范式。

智能体AnthropicOpenAI推理
07:30
ginobefun@hongming731
45
#BestBlogs 早报 05-22 今日主题:Agent 记忆原语、Qwen3.7-Max、自动化与人类专家
智能体行业动态
05:26
François Chollet@fchollet
64
每当AI告诉我"你完全正确"时,我对它的信任就会下降一点。
大佬观点
05:13
Ethan Mollick@emollick
68
我们目前算力相当短缺,这将导致复杂智能体工作流的算力成本变得非常高昂,即使单轮聊天机器人的成本在下降。因此,最富有的公司和最紧迫的用例将使用AI智能体,而其他人将只能使用聊天机器人?
大佬观点推理
‹ 上一页
1…4344454647…50
下一页 ›