AIHOT

全部动态X · 4017 条

全部一手资讯 X 论文

Ethan Mollick@emollick · 5月29日36

Did this actually happen? It seems very suspicious.

译这事是真的吗？看起来非常可疑。

查看原推 ↗

宝玉@dotey · 5月29日34

写作4.6肯定比4.7强，是不是比4.8强还在测试中，目前感觉还是4.6好

译推文讨论了写作模型不同版本的性能比较。作者认为写作4.6版本明显优于4.7版本，4.7版本不遵循指令的问题较为突出。对于4.8版本，作者表示尚在测试中，目前未明确其是否优于4.6。用户@himself65在引用中补充，4.7版本相比4.6确实表现不佳，并认为4.6应是当前的基准版本。

查看原推 ↗

Rohan Paul@rohanpaul_ai · 5月29日4

We all need this claw in the OpenClaw era.

译在OpenClaw时代，我们都需要这只机械爪。

查看原推 ↗

karminski-牙医@karminski3 · 5月29日62

Claude-Opus-4.8 实测! medium 不太行? Claude-Opus-4.8 刚刚发布! 赶紧给大家带来实测! 这次使用了全新打磨的测试集, 使用光线追踪渲染一个3D场景, 多光源多材质. 可以看到定格后开始去噪渲染效果还是不错的. 但是需要注意一点, 滚动的那个光源应该垂直撞向墙壁的, 而不是水平, 所以怀疑这一带 opus 的空间理解能力可能是下降了的. 演示视频中用的是 xhigh. 如果使用 medium, 是无法完成这个测试的, 写的 shader 有问题直接炸了. 详细测试稍后放出! 敬请期待! (感觉已经堆了好多了, 都在测, 我尽量不鸽...) #claudeopus48 #opus48 #claude

译Claude-Opus-4.8 刚刚发布，用户使用光线追踪渲染一个多光源多材质3D场景的全新测试集进行了实测。在 xhigh 设置下，初始去噪渲染效果不错，但发现一处本应垂直撞墙的光源移动轨迹呈水平，疑似模型空间理解能力下降。在 medium 设置下，因生成的 shader 有问题，测试直接失败无法完成。详细测试报告将后续发布。

查看原推 ↗

ginobefun@hongming731 · 5月29日70

http://x.com/i/article/2060134439691403264 # BestBlogs 早报 · 05-29｜Claude Opus 4.8、Anthropic H 轮融资、动态工作流发布在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-05-29 ## 导语 Anthropic 今天同时放出三枚重磅：旗舰模型 Claude Opus 4.8 在编程与推理基准上全面超越上代，代码诚实度提升四倍；H 轮 650 亿美元融资让估值逼近万亿美元，年化收入已超 470 亿美元；配套推出的 Claude Code 动态工作流，可在单次会话内编排数百个并行子智能体，把「一个人 + AI」能处理的任务边界再次推远。三条消息相互咬合，AI 能力、商业规模与工程基础设施同步跃升，这一天值得仔细读。除了 Anthropic 的三连发，今天还有 Neuralink 联合创始人谈脑机接口产业化路径、Cognition 与 OpenInspect 谈后台异步智能体架构、Devin 背后的技术团队对「浪费 Token 节省时间」范式的思考，以及阿里、腾讯工程师对多智能体协作与 AI 知识显形化的一手观察。此外还有 Cloudflare 构建内部数据智能体的工程实践、Slack 三年多云 AI 架构演进，以及 Meta 2026 年股东大会扎克伯格的四大 AI 战略。整份早报内容密度很高，下面我们从三篇精讲开始。 ## 精讲一：Claude Opus 4.8 发布 Anthropic 正式发布新一代旗舰模型 Claude Opus 4.8，在编程、智能体、推理、知识工作四大类基准中全面超越上代的 Opus 4.7。阅读请访问 BestBlog 这次升级最值得关注的突破来自「诚实度」层面：Opus 4.8 对自身代码缺陷视而不见的概率降低了约四倍。换句话说，当模型写出存在缺陷的代码时，它能更主动地识别问题并告知用户，而不是继续往下执行，直到系统崩溃才被发现。这听起来像是一个工程细节，但在智能体应用场景中，它实际上是整个系统稳定性的关键变量。为什么「诚实度」是这次最重要的升级在单步问答场景中，模型对自身输出的错误诊断能力还不算致命弱点——用户可以很快看到问题并反馈。但在多步骤的智能体工作流中，模型在第一步犯了错误却没有意识到，会导致后续所有步骤在错误的基础上继续推进，最终产生难以回溯的连锁失败。诚实度提升四倍，意味着这类「盲目前行」的概率大幅下降，系统整体的自我修复能力显著增强。这一特性与今天同步发布的动态工作流密切相关。当系统需要编排数十到数百个并行子智能体时，每一个子智能体都需要能够准确评估自己的输出质量，并在判断结果异常时主动终止或请求确认，而不是把错误无声地传递给下游节点。Opus 4.8 的诚实度提升，从根本上改善了这类多智能体系统的可靠性基础。三项配套新功能同步落地与 Opus 4.8 同步推出的还有三项工程层面的新能力。第一，Claude Code 动态工作流——单次会话内可以动态编写编排脚本，并行运行数十乃至数百个子智能体，专为全代码库漏洞排查、大规模迁移、独立验证等超大型任务设计。这实际上是把过去需要外部编排框架才能完成的多智能体调度，内化到了 Claude Code 自身的能力范围之内。第二，claude.ai 新增「努力控制」滑块，用户可以手动调节模型的思考深度，在响应速度和推理质量之间按需权衡。这对于不同类型的任务非常实用：快速问答可以拉低思考深度换取速度，复杂的代码审查或架构分析则可以拉满推理深度换取准确性。第三，API 新增任务执行中实时更新指令的能力，允许外部系统在运行过程中向 Claude 注入新的上下文或修改执行参数，而不必等到任务完成后重新发起请求。这对构建长周期智能体系统意义重大，尤其是那些需要根据实时环境反馈动态调整策略的场景。早期测试者的验证 Databricks 和 Devin 是本次发布的早期测试伙伴。Databricks 侧重于评估 Opus 4.8 在复杂数据工程任务上的判断力，反馈认为其在面对歧义指令时的决策质量有显著提升，尤其是在需要对数据管道中的异常情况作出判断时，模型不再轻易给出一个看起来合理但实际上错误的答案；Devin 则专注于智能体可靠性测试，验证了 Opus 4.8 在长任务链中的稳定性明显优于上代，具体体现在多步骤代码修改场景中的错误传播率显著降低。值得注意的是，这次性能全面提升的同时售价维持不变，对于已经在使用 Claude API 的工程团队来说是直接利好，不需要任何迁移或额外成本，可以立即切换。 ## 精讲二：Anthropic 完成 650 亿美元 H 轮融资，投后估值达 9650 亿美元 Anthropic 宣布完成 650 亿美元 H 轮融资，投后估值 9650 亿美元，距离万亿美元市值仅一步之遥。这是 AI 行业迄今规模最大的单轮融资之一。阅读请访问 BestBlogs。投资方构成与战略意图本轮融资由 Altimeter、Sequoia Capital 和 Dragoneer 联合领投，三家均是顶级成长期基金，领投本身即是对 Anthropic 商业化路径的高度背书。更值得关注的是投资方的结构性构成：超大规模云厂商出资共计 150 亿美元，其中亚马逊单独贡献 50 亿，进一步强化了双方在 AWS Bedrock 上的深度合作关系；Micron、三星、SK 海力士三家半导体巨头以战略投资者身份参与，意味着 AI 计算基础设施层面的供应链关系已从商务合作升级为资本层面的利益共同体。半导体厂商投资 AI 模型公司，是在押注下游需求——他们相信 Claude 将消耗越来越多的芯片资源。收入规模与商业化速度 Anthropic 披露的年化经常性收入已突破 470 亿美元。从历史数据看，这一数字意味着在不到两年的时间里，Anthropic 从一家专注安全研究的实验室演变为具备真实规模收入的商业公司，增速远超此前大多数分析师的预测。资金将主要用于三个方向：持续推进安全与可解释性研究（这是 Anthropic 区别于其他 AI 公司的核心定位）、扩充与 AWS、Google Cloud、Broadcom、SpaceX 的算力合作，以及规模化 Claude Code 和 Cowork 产品线。「首个多云前沿模型」的战略意义本次融资完成后，Claude 成为首个同时登陆 AWS、Google Cloud 和 Microsoft Azure 三大主流云平台的前沿 AI 模型。这一多云覆盖在商业层面意义深远：企业客户可以在不切换云厂商的前提下接入 Claude，大幅降低了迁移成本和采购门槛。对于已经在某一云平台深度锁定的大型企业，这意味着将 Anthropic 产品纳入技术栈的阻力几乎降为零。同时，多云部署也为 Anthropic 自身提供了更强的议价能力，避免对单一云厂商形成过度依赖。结合今天 Opus 4.8 的发布和动态工作流的推出，Anthropic 正在同步提升技术壁垒与商业覆盖面，形成正向飞轮：更强的模型吸引更多企业客户，更多企业客户产生更多收入，更多收入支撑更大规模的研究投入，更大规模的研究投入再产生更强的模型。对于关注 AI 行业格局的读者来说，今天的融资消息是观察这条飞轮转速的最新刻度。更值得关注的是，在当前主流 AI 公司中，Anthropic 是为数不多将「AI 安全」作为核心竞争定位、同时实现商业规模突破的公司，这种组合在过去一直被认为存在根本性张力，而今天的融资数字表明，市场给出了明确的答案。 ## 精讲三：动态工作流功能发布 | Claude Claude Code 正式推出动态工作流（Dynamic Workflows），这是 Claude Code 迄今最重要的架构级升级，标志着 AI 编程助手从「增强单人工作」迈向「编排多智能体系统」的新阶段。阅读请访问 BestBlogs。动态工作流解决的核心问题传统的单智能体模式存在一个根本性限制：单个上下文窗口的容量和注意力是有限的，面对需要同时处理数百个文件、跨多个系统并行验证、需要独立判断相互依赖任务的场景时，单智能体的表现会显著退化。这不是提示词工程能解决的问题，而是架构层面的约束。动态工作流的设计思路是让 Claude Code 在单次会话内自动编写编排脚本，然后将任务拆解并分发给数十至数百个并行运行的子智能体，每个子智能体负责一个具体的、边界清晰的子任务。编排脚本本身由 Claude Code 动态生成，而不是需要工程师手动定义——这是关键的差异，它意味着工程师只需要描述目标，不需要预先设计执行框架。典型应用场景官方给出的三类核心场景清楚地说明了动态工作流的适用边界：全代码库漏洞排查，需要同时分析数百个文件并保持跨文件的上下文关联，同时在多个代码路径间并行追踪安全漏洞；大规模代码迁移，将代码库从旧框架迁移到新框架时，需要对每个迁移单元进行独立的语义验证和测试；独立验证场景，用多条并行路径对同一个问题独立求解，再对比结果以提高可靠性。这三类场景的共同特征是任务总量超过单窗口容量，且子任务之间可以并行处理，不需要严格的串行依赖。「ultracode」模式与使用建议新增的「ultracode」模式让 Claude Code 可以自动判断何时启用动态工作流，无需手动指定启动参数。当前以研究预览形式上线，支持 CLI、桌面版、VS Code 扩展以及各主要云 AI 服务（包括 AWS Bedrock、Google Cloud Vertex AI 等）。官方特别提示：动态工作流的 Token 消耗远高于普通会话，因为多个子智能体并行运行会同时占用大量算力。建议从范围明确、边界清晰的任务起步，逐步摸索适合自己工作流的使用节奏，避免因任务边界不清导致子智能体无限扩张。这与 Opus 4.8 今天同步发布的「努力控制」功能形成配合：努力控制决定每个节点的推理深度，动态工作流决定是否开启多智能体并行模式，两者共同构成新一代智能体工程的核心调节机制。从更长的时间尺度来看，动态工作流代表了一个重要的范式转变：AI 系统的边界正在从「一个人能做什么」扩展到「一个人加上 AI 编排的智能体集群能做什么」。这条线的移动，会在未来几年持续重塑软件工程师的工作方式。从今天开始，衡量一个工程师或团队产能上限的，不再只是个人技能和团队规模，还包括他们编排和调度 AI 智能体集群的能力。这是动态工作流真正深远的意义所在，也是今天这篇发布值得每个从事技术工作的人认真读一遍的理由，无论你现在是否在直接使用 Claude Code。 ## 速览异步智能体时代 — Cognition 的 Walden Yan 与 OpenInspect 的 Cole Murray（Latent.Space） Cognition CPO Walden Yan（Devin 背后的核心人物）与 OpenInspect 创始人 Cole Murray 深度对话，探讨后台异步智能体的兴起与 2025 年 12 月的模型拐点。核心判断：本地编码工具只是起点，下一阶段是自主云端智能体系统，架构设计需要从「同步响应」转向「异步任务处理」。这与今天 Claude 动态工作流的方向高度吻合，值得对照阅读，了解行业视角与产品落地之间的呼应。 Dubbing v2 发布：革命性的全新配音模型（ElevenLabs Blog） ElevenLabs 推出 Dubbing v2，支持 90 多种语言，核心突破是在翻译的同时保留原说话者的情感色彩、语调起伏和发音节奏。视频本地化不再是「用另一种语言重新念一遍」，而是「用另一种语言说出同一个人的声音」。对内容团队、媒体公司和教育平台有直接的落地价值，国际化内容生产的门槛将显著降低。 Neuralink 联合创始人 DJ Seo：脑机接口与 AI 融合的竞赛内幕（Sequoia Capital） Neuralink 联合创始人 DJ Seo 亲口讲述公司如何将脑机接口从实验室研究推向真实患者——第一批瘫痪患者已通过植入设备恢复了对数字世界的控制能力。他还透露了即将推出的视觉恢复技术，并阐述了高带宽 AI-大脑融合的长期愿景。这场 Sequoia Capital 的访谈是理解脑机接口产业化现状最直接的一手视角，观看时长约一小时，信息密度很高。 Harness 的尽头不是缰绳，是镜子：AI 时代最沉默的那场革命（腾讯技术工程）文章提出「显形」这个概念：AI 的真正价值不在于替代人类工作，而在于迫使我们将长期以来只存在于脑中的隐性知识、判断标准和团队品味首次文本化。这是一场不可逆转的认知革命——一旦开始用 AI 协作，你就必须说清楚自己到底想要什么，这个过程本身就是对知识的梳理与沉淀。观点犀利，适合和工程师、产品经理一起读，会引发很多共鸣。从语言涌现到协作涌现：如何让 AI 产生高质量决策（阿里技术）阿里工程师提出 Agent Room 概念：将多个 AI 智能体置于共享上下文场中，让它们互相修正、沉淀任务、执行验证，从而实现从流程自动化到协作涌现的跨越。文章完整记录了团队从「流程自动化」到「全链路自动化」再到「协作涌现」的三阶段演进路径，是少见的有具体工程经历支撑的理论框架，与今天动态工作流的官方叙事形成很好的对照。 143. 对何小鹏的第二次访谈：更大赌注、人形机器人 Iron 诞生、那场意外、技术剧变下 CEO、GX 和缝合怪（张小珺Jùn｜商业访谈录）何小鹏详述小鹏汽车从智能电动汽车向「物理 AI 企业」的战略转型：放弃旧自动驾驶体系、all-in 人形机器人 Iron，坦言两成胜率，也谈了技术剧变中 CEO 的焦虑与决策方式。这次访谈比上一次更深入，何小鹏的坦诚程度也超出预期。想了解中国汽车加机器人赛道真实状态的读者不容错过。浪费 Token，节省时间：Naval 与三位前沿创始人谈 AI 如何重塑软件工程（Naval） Naval 与三位前沿创始人（包括 Devin 团队成员）探讨「软件工厂」范式：用 AI 智能体替代手动编码，核心逻辑是「浪费算力换人力」。他们同时质疑了纯软件护城河的未来——当任何人都能用 AI 快速复制软件功能时，差异化究竟从哪里来？结论指向数据、网络效应和品牌，而非代码本身。 ## 补充阅读推理优化、扩散模型、世界模型等前沿 AI 研究 | YC Paper Club（Y Combinator）首届 YC Paper Club 汇集顶尖创始人和研究者，集中讨论推理加速（Speculative Speculative Decoding）、机器人控制、世界建模、泛化理论和数据效率五个方向的前沿论文。对 AI 基础研究保持跟踪的读者和研究者值得看。我们如何构建 Cloudflare 的数据平台及其上的 AI 智能体（The Cloudflare Blog） Cloudflare 工程团队详述如何从数据孤岛走向统一数据平台 Town Lake，并在其上构建 AI 智能体 Skipper，让任何员工都能用自然语言查询数十亿级别的业务数据。正在构建企业内部数据智能体的团队有直接参考价值，Cloudflare 的规模与复杂度让这个案例的代表性很强。 Slack AI：通往多云之路（Slack Engineering） Slack 工程团队完整记录了从 AWS SageMaker 到 AWS Bedrock + GCP Vertex AI 多云架构的三年演进历程，动因是运营效率、模型灵活性和企业级可靠性的综合需求。是少见的多云 AI 基础设施实战案例，结合今天 Anthropic 的多云战略更有参考意义。当你的客户是 AI 智能体：B2B 企业如何在买家变成 AI 智能体时保持可见（freeCodeCamp） 96% 的 B2B 企业在 AI 驱动的采购流程中是「不可见」的——AI 智能体在为买家筛选候选供应商时，大多数企业根本不在考虑范围内。文章分析了成为「AI 可发现」所需的三项基础设施决策。适合 B2B 产品和营销负责人，这是一个正在发生的结构性变化，需要提前布局。 Skill 文档也能训练？SkillOpt：把 Agent 的经验写进一份可优化说明书（AINLP）微软论文 SkillOpt 的中文解读：把 Agent 的 Skill 文档当成可训练的外部状态，通过 rollout、反思、受限编辑和验证门控实现自动迭代优化，在 52/52 的测评项中达到全部 best 或 tied-best。正在做 Agent 工程化的团队有直接启发，这是一个低成本改善 Agent 表现的方向。 Cursor 开发者习惯报告：AI 编程趋势洞察（Cursor） Cursor 发布《开发者习惯报告》，基于其全球最完整的 AI 编程数据集分析 AI 工具采纳规律。想了解 AI 编程工具在真实开发者群体中如何传播和使用的读者，这份报告是目前数据支撑最扎实的参考之一。 SpaceX 自研 C 语言 AI 训练栈，面向 22 万块 GB300 GPU（Elon Musk） SpaceX 即将完成用 C 语言编写的定制 AI 训练栈 V1.0，精确映射 22 万块 NVIDIA GB300 GPU，声称对大规模训练任务相比 JAX 有超过一个数量级的速度提升。AI 训练基础设施向高度定制化方向演进的一个信号，关注 AI 算力投资的读者值得了解。社会科学中的编码智能体（Anthropic Research） 1260 名社会科学家调查显示：81% 用过 AI 聊天机器人，但只有 20% 使用过编码智能体，且采用率在性别、职业阶段和大学声望方面存在明显分化。早期用户发表了更多工作论文，但期刊投稿量并未增加。数据有趣，适合关注 AI 工具在非工程领域扩散规律的读者。 AI 破晓：生成式 AI 时代文化产业的重塑、跃迁与守望 | 4 万字报告（腾讯研究院）腾讯研究院联合中国传媒大学发布 4 万字研究报告，覆盖短视频、长视频、网络文学、音乐、游戏等多个内容形态，提出生成式 AI 对文化产业的全链条影响框架，包含近 1900 份有效问卷和 20 余位从业者访谈。体量大，适合对文化产业与 AI 交叉领域感兴趣的读者周末细读。一文读懂 Meta 2026 年股东大会：扎克伯格豪赌 AI 四大方向，十项股东提案全被否（腾讯科技） Meta 2026 年股东大会核心内容速览：12 名董事全部连任，10 项股东提案全被否，扎克伯格重点阐述核心应用 AI 化、个人智能体、商业智能体、AI 硬件四大方向，资本支出 1150 亿到 1350 亿美元，几乎是去年两倍。想了解 Meta AI 战略全貌的读者值得一读，结合今天 Anthropic 的融资新闻对照来看格局感更强。 ## 今日阅读路径时间有限时，建议按以下顺序读三篇： 1. Claude Opus 4.8 发布——今天最值得优先读的一篇。Opus 4.8 的「诚实度」提升不是边际改进，而是智能体工程的基础性突破。读完这篇再看动态工作流，会有更清晰的整体感：能力升级和工具升级是同步设计的，不是各自独立的公告。 1. 动态工作流功能发布 | Claude——紧接着读这篇，理解并行子智能体架构的设计逻辑和适用边界，以及「ultracode」模式的实际使用建议。这是今天三篇精讲中最有工程实操参考价值的一篇。 1. Harness 的尽头不是缰绳，是镜子——用腾讯工程师的视角把前两篇「落地」：模型能力再强，真正的价值在于迫使团队将隐性知识显形化。这篇文章是今天所有 AI 进展最好的人文注脚，读完会对「为什么我们需要更强的 AI」有更深的理解。如果还有时间，加读从语言涌现到协作涌现——阿里工程师对多智能体协作的一手实践记录，与今天的 Claude 动态工作流官方叙事形成很好的互补：一篇是工具方的视角，一篇是实践者的视角，放在一起读收获更大。再有时间的话，Anthropic H 轮融资值得完整读一遍——里面关于多云战略和投资方构成的细节，能帮助你理解 AI 行业的资本与技术如何同步运转。

译Anthropic发布旗舰模型Claude Opus 4.8，在编程、智能体、推理等基准上全面超越上代，其代码“诚实度”提升约四倍，增强了多智能体系统的可靠性。同日，Anthropic完成H轮650亿美元融资，投后估值达9650亿美元，年化收入已超470亿美元。配套推出的Claude Code动态工作流允许在单次会话内编排数百个并行子智能体，适用于大规模代码库排查等任务。

查看原推 ↗

Nathan Lambert@natolambert · 5月29日57

For reference, when we visited @Zai_org in China they had an API metrics chart in their showroom, was 5-7 T tokens/day. Inference market in the U.S. / Europe seems way bigger (and that's a big deal for continuing to build models)

译供参考，我们访问中国的 @Zai_org 时，他们在展厅展示了 API 指标图表，达到每天 5-7 万亿 tokens。美国/欧洲的推理市场规模似乎大得多（这对持续构建模型很重要）

查看原推 ↗

Rohan Paul@rohanpaul_ai · 5月29日23

Google Omni deserves a more hype.

译Google Omni 值得更多关注。

查看原推 ↗

Rohan Paul@rohanpaul_ai · 5月29日60

In 2025, peer-reviewed journals published 147,000 citations to studies that don't exist !! Researchers went through 2.5 million papers and found citations tied to non-existent studies, authors, and journals. AI made them up. Nobody caught the problem. Now they are sitting in the scientific record for good. The scary part is not how many there are. It is how fast this is growing. In 2023, it was 1 in 2,828 papers. By early 2026, it is 1 in 277. That curve does not magically flatten. --- arxiv .org/pdf/2605.07723

译研究人员审查250万篇论文发现，2025年同行评议期刊中出现了14.7万次指向不存在研究的引用，这些虚假的研究、作者和期刊由AI生成，且未被察觉，已永久留在科学记录中。问题增长迅速：2023年每2828篇论文中约1篇含此类引用，到2026年初已升至每277篇约1篇。完整研究见arxiv论文2605.07723。

查看原推 ↗

Rohan Paul@rohanpaul_ai · 5月29日66

AWS CEO Matt Garman: The idea that AI will replace junior developers is “the dumbest thing I have ever heard.”

译AWS CEO Matt Garman：AI将取代初级开发者的说法是“我听过最愚蠢的事”。

查看原推 ↗

Rohan Paul@rohanpaul_ai · 5月29日56

WallStreetPrep did a very practical AI benchmarking exercise for real-world finance. It tested financial modeling agents on a real analyst assignment, not a toy prompt with a neat answer key. The task was a serious analyst job: build Apple’s historical and forecast financial statements, cite sources, link assumptions, add schedules, and make the workbook auditable. Primer, an AI financial modeling tool, came out ahead in this test, but the more useful point is why: its output looked less like a spreadsheet patched together cell by cell and more like a connected financial system that could be audited. Primer treats Excel as the final output format, not the agent’s working language, so the AI can build a stronger 3-statement financial model first and then convert it into an auditable spreadsheet. Primer represents the workbook as structured records such as revenue, cost of sales, cash, debt, assumptions, formulas, source links, comments, and dependency checks. That means the AI can query and validate the finance logic directly, for example “show me every formula feeding cash flow” or “find balance sheet plugs,” instead of visually navigating Excel and editing fragile cell references one by one. This is what I am seeing in many areas, that professional AI agents will be judged less by chat quality and more by whether their artifacts survive audit

译测试评估了AI金融建模智能体在构建苹果公司历史与预测财务报表这一真实分析师任务中的表现。其中，工具Primer表现突出，关键在于其生成了可审计的关联财务系统，而非逐单元格拼接的表格。Primer将Excel视为最终输出格式，先构建完整的三表模型，再将其转化为结构化记录（如收入、成本、假设、公式链接等），使AI能直接查询和验证财务逻辑。这指出专业AI智能体的价值将更多取决于其产出物能否通过审计。

查看原推 ↗

SemiAnalysis@SemiAnalysis_ · 5月29日54

The general direction of the codex in app browser UX is pretty good. for web dev Once the codex model itself becomes good at web dev, i would assume all web dev work gonna switch from claude terminal CLI to codex app with in app browser.

译Codex在应用内浏览器的用户体验总体方向很好。对于Web开发，一旦Codex模型本身擅长Web开发，我预计所有Web开发工作将从Claude终端CLI转向带有应用内浏览器的Codex应用。

查看原推 ↗

Google AI Developers@googleaidevs · 5月29日52

Save countless hours of manual migration work. Watch messy legacy code autonomously modernize into Next.js in this example from @Antigravity, powered by Gemini 3.5 Flash.

译节省大量手动迁移工作。观看混乱的遗留代码在 @Antigravity 的示例中，由 Gemini 3.5 Flash 驱动，自主现代化为 Next.js。

查看原推 ↗

Rohan Paul@rohanpaul_ai · 5月29日30

Most human experts will feel this pain and existential reflections of watching a skill becoming an API.

译大多数人类专家在目睹一项技能变成API时，都会感到这种痛苦和生存反思。

查看原推 ↗

Ethan Mollick@emollick · 5月29日74

I had Opus 4.8 in Claude Code write a sophisticated, if minor, academic paper from a archive of hundreds of de-identified research files from years ago I had to use GPT-5.5 Pro as a reviewer, it spotted one major error & some minor points. Opus corrected https://embeddedness-gradient.netlify.app/

译我让 Claude Code 中的 Opus 4.8 从数百份多年前的匿名研究文件中，撰写了一篇虽小但复杂的学术论文。我不得不使用 GPT-5.5 Pro 作为审稿人，它发现了一个主要错误和一些次要问题。Opus 已修正。

查看原推 ↗

Chubby♨️@kimmonismus · 5月29日54

Opus 4.8 is clearly a strong model, but my impression is that Anthropic is increasingly playing catch-up with OpenAI rather than setting the pace. It feels like GPT-5.5 has shifted the benchmark again, and if OpenAI keeps this trajectory, GPT-5.6 could very plausibly become the stronger overall model. Initial testing is that 4.8 is good-ish

译Opus 4.8显然是个强模型，但我的印象是，Anthropic越来越像是在追赶OpenAI，而不是引领节奏。感觉GPT-5.5再次改变了基准，如果OpenAI保持这个轨迹，GPT-5.6很可能成为整体更强的模型。初步测试显示4.8表现尚可。

查看原推 ↗

Luma@LumaLabsAI · 5月29日51

BTS: Career Finder First the characters, then the scenes, then the shots — every piece of this was built from scratch through image gen and video. Here's how it came together. Start creating → http://lumalabs.ai/app

译BTS：职业探索器先是角色，然后是场景，然后是镜头——每一个部分都是通过图像生成和视频从零开始构建的。以下是它的制作过程。开始创作 → http://lumalabs.ai/app

查看原推 ↗

Nathan Lambert@natolambert · 5月29日58

Licenses are probably the top very un-sexy things that help the open ecosystem become more long-term stable and economically viable. Excited about this!

译许可证可能是最不性感但最能帮助开放生态实现长期稳定和经济可行性的东西。对此感到兴奋！

查看原推 ↗

Replit ⠕@Replit · 5月29日64

How to secure your vibecoded app in 4 steps 🔒 Speed without security is a liability. Here's how to ship without leaving the back door open using Replit. 🧵Open thread ↓

译如何用四步保障你的vibecoded应用安全 🔒 速度若无安全加持，便是隐患。以下是使用Replit发布应用时，如何避免留下后门的方法。 🧵展开阅读 ↓

查看原推 ↗

AYi@AYi_AInotes · 5月29日63

Cursor真牛逼，这么快就上线了Claude Opus 4.8！

译Cursor已上线Claude Opus 4.

查看原推 ↗

SemiAnalysis@SemiAnalysis_ · 5月29日64

The most popular AI subscription will run you about $20/month and it gives you access to most of the models and is good enough for the average daily user. But for a company like Anthropic how much does it cost the company to be servicing the user? It's safe to assume that the majority of users aren't going to be hitting the usage limits but hypothetically let us say they did. Depending on the workload, the same $20 subscription can range from insanely profitable to barely breaking even.

译最受欢迎的AI订阅服务每月约20美元，可访问大多数模型，对普通日常用户来说已足够。但对于Anthropic这样的公司，服务用户的成本是多少？可以合理假设大多数用户不会达到使用上限，但假设他们达到了。根据工作负载的不同，同样的20美元订阅可能从极其盈利到勉强收支平衡。

查看原推 ↗

Chubby♨️@kimmonismus · 5月29日51

„4.8 understands nuances better, feels much more natural to talk to, and is overall a stronger collaborator on everything from coding to knowledge work.“ So big. Is 4.8 being our good old friend 4.6 just better?? Testing time

译Anthropic发布了Claude Opus 4.8版本。据官方（@alexalbert__）介绍，这是基于用户对4.7版本反馈的改进，重点修复了问题。4.8模型在理解细微差别方面表现更好，对话感觉更自然，在编程（coding）到知识工作（knowledge work）等各种任务中都是更强大的协作者。

查看原推 ↗

Ethan Mollick@emollick · 5月29日62

This is a skill & having standards issue. I use AI in book writing. But I write the full draft of the text myself (using AI for feedback or when stuck to give options), use advanced models that hallucinate rarely, read every reference AI finds, & have multiple models check work.

译推文对比了负责任的AI用法（如使用高级模型、人工复核引用）与行业现状。文章引用《纽约杂志》报道，指出媒体创业者Steven Rosenbaum在其著作《The Future of Truth》中被发现包含多条错误归因或伪造的引文，疑似由AI生成，凸显了非虚构出版业对模型幻觉的脆弱性。问题核心在于，行业长期缺乏确保事实准确的合同义务与系统性核查流程。业内人士表示漏洞普遍存在，许多AI生成的内容正被当作原创作品使用。

查看原推 ↗

Ethan Mollick@emollick · 5月29日57

I had early access to Opus 4.8. Was impressed by it. Here is Opus 4.8's one shot of "create a visually interesting shader that can run in twigl, make it like an infinite city of neo-gothic towers partially drowned in a stormy ocean with large waves" (this is all done with math)

译Opus 4.8与GPT-5.2 Pro在相同任务上展示了其代码生成能力。两者均通过“一次性生成”（single shot）的方式，为twigl平台创建可运行的视觉shader。具体任务为：用数学生成一个“无限的新哥特式塔楼城市部分淹没于巨浪汹涌的暴风雨海洋中”的场景。这则推文通过并列展示，体现了两个顶级大语言模型在创意编程领域的直接对比。

查看原推 ↗

Ethan Mollick@emollick · 5月29日64

Here Opus 4.8 built and play-tested a new RPG in Claude Code, including 3 PDF manuals and adventures, playtest notes, a website, and a playable solo adventure - then put it all on Netlify. No feedback from me at all. https://stillpoint-osr.netlify.app

译Opus 4.8 在 Claude Code 中构建并测试了一款新的 RPG 游戏，包括 3 本 PDF 手册和冒险内容、测试笔记、一个网站，以及一个可玩的单人冒险——然后将其全部部署到 Netlify。全程没有我的任何反馈。 https://stillpoint-osr.netlify.app

查看原推 ↗

Google AI@GoogleAI · 5月29日41

We wanted to see if we could take simple, physical materials (like cardboard and markers) and use AI to bring them to life. What was the result? A short film starring a bunch of TPUs getting ready for the big stage at Google I/O 2026! Working with director Laurie Rowan and Nexus Studios, we kept human artistry at the center of the film by blending puppetry and 3D animation with our models to do the following ↓ Nano Banana: Generated beautifully stylized first frames from the raw puppet footage and basic 3D animations. @GoogleAIStudio: Built a custom tool inside the platform to test these frames at scale, ensuring pixel-perfect consistency Gemini Omni & experimental @GoogleDeepMind Models: Merged the base animation and stylized frames to elevate the final piece to a cinematic level. Our AI pipelines were specifically designed to protect the crafty details that give these films their heart, like the tiny human imperfections of puppetry, or the nuance an animator can build into an expression.

译Google通过一部短片展示了如何利用AI工具将纸板、马克笔等简单物理材料“赋予生命”。该短片讲述了为Google I/O 2026舞台做准备的一群TPU的故事，创作中融合了木偶戏与3D动画。核心工具包括：Nano Banana（从原始木偶镜头和基础3D动画生成风格化首帧）、Google AI Studio（构建定制工具以大规模测试帧并确保一致性）、以及Gemini Omni和Google DeepMind的实验性模型（合并基础动画与风格化帧，提升至电影级画面）。整个AI流水线的设计旨在保护那些体现手工艺温度的细微细节，例如木偶戏的细微不完美感。

查看原推 ↗

Yuchen Jin@Yuchenj_UW · 5月29日17

Reached 150k followers today. I was at 100k just 3 months ago. Apparently my follower count follows LLM scaling laws. Thank you for enjoying my rants while AGI is near. Even more exciting: Opus 4.8 releases today, and maybe GPT-5.6 as well?!

译今天粉丝数达到15万。 3个月前才10万。显然我的粉丝数遵循大模型缩放定律。感谢大家喜欢我的吐槽，AGI即将到来。更令人兴奋的是：Opus 4.8今天发布，也许GPT-5.6也会？！

查看原推 ↗

OpenAI@OpenAI · 5月29日43

R&D Part 1: Here to Win

译研发第一部分：志在必得

查看原推 ↗

AYi@AYi_AInotes · 5月29日48

那些说@Google Omni拉胯，说不如seedance 2.0的人看过来， Omni演示的把一个普通人手变成活体解剖演示，肌肉、肌腱、骨骼全都看得清清楚楚，这用在生物医学相关的课上，简直就是最完美的解剖教学啊🤯

译推文回应了关于Google Omni能力的争议，展示了其将普通人手转化为逼真活体解剖影像的演示效果。该演示清晰呈现肌肉、肌腱、骨骼等组织结构，被评价为生物医学教学的理想工具。文中提及的对比对象为seedance 2.0，强调了该技术在教育领域的独特应用价值。

查看原推 ↗

Chubby♨️@kimmonismus · 5月29日12

Im so ready

译我已准备就绪

查看原推 ↗

向阳乔木@vista8 · 5月29日62

Anthropic 出了一篇Computer Use的最佳实践，总结学习下，评论区有原文。 1. 原图分辨率太高，超 API 限制时，系统自动降采样，会导致画面和代码坐标系不匹配，就会点偏。 Claude 4.6 系列上限：最长边 1568 像素，总像素 1.15 mp。 Claude Opus 4.7 上限：最长边 2576 像素，总像素 3.75 mp。最佳实践：4.6 系列推荐默认 1280x720；Opus 4.7 推荐默认 1080p。 2. 构建 API 请求时，文本指令必须放在图片之前。推荐：[ {文本: "点击提交按钮"}, {图片: base64} ] 让AI先看到文本，知道要找啥，找的更准。 3. 每张截图大约消耗 1000–1800 个 token，200k 的上下文很快就会满，文章给了三种解法，感兴趣的可以看。反常识内容： 1. 截图切块发送不会提升精度，画坐标网格也没用。 2. 开 Low thinking 比不开还省 token，因为犯错少。 3. 开到Max Thinking 完全没必要，开到medium性价比更高，比Max便宜一半。因为视觉操作是“感知和机械任务”，不是逻辑任务。

译Anthropic发布最佳实践指南，核心包括：控制图像分辨率以避免降采样导致坐标偏移，Claude 4.6系列推荐1280x720，Opus 4.7推荐1080p。构建API请求时，文本指令必须置于图片之前以提升准确性。每张截图消耗1000-1800 token，200k上下文窗口会较快用尽。文中指出：截图切块或画网格无益精度；开启Low thinking比不设更省token（因减少错误）；而Max thinking在视觉任务中性价比低，Medium设置更优且更便宜。

查看原推 ↗

向阳乔木@vista8 · 5月29日43

前几天开发的Chrome插件上架被拒。谷歌提示说插件描述有不相干的关键词，因为是让Codex调用Computer Use自己完成的，估计它为了商店排名，给自己加戏了。修改后再次上传，这次调用的是Codex的 Chrome 插件。发现执行速度和和准确率反而不如Computer Use，有点出乎意料。

译开发者让Codex调用Computer Use智能体来完成Chrome插件的上架工作。首次提交被谷歌拒绝，原因为插件描述包含不相关的关键词，疑似是智能体为优化商店排名自行添加的。修改后，开发者改用Codex自带的Chrome插件来完成提交，却发现其在执行速度和准确率上反而不如之前使用的Computer Use，这一结果出乎开发者预料。

查看原推 ↗

Artificial Analysis@ArtificialAnlys · 5月28日70

Announcing AA-WER Streaming, our new benchmark measuring streaming Speech to Text models on accuracy and latency for voice agent use cases. Pareto optimal models on this new benchmark include those from Cartesia, ElevenLabs, and Deepgram Streaming Speech to Text (STT) powers real-time transcription in voice agents and live captioning, where models must balance accuracy against speed. Fast transcripts are especially important for keeping responses feeling natural and leaves more of the response-time budget for reasoning and tool calls. Accuracy also matters since transcription errors compound in downstream reasoning and speech generation. Streaming STT models transcribe audio as it is fed in, sharing outputs continuously, unlike offline (batch) models that process the entire file at once and are typically slower. What we measure: AA-WER Streaming reports Word Error Rate and latency together, measured from the moment end of speech is detected, with a Pareto line of increasing accuracy as time to transcript received increases. For direct comparability to offline models on accuracy, we test these streaming models on the same ~8 hours of audio as our offline benchmark, AA-WER v2.0: AA-AgentTalk, Earnings22-Cleaned-AA, VoxPopuli-Cleaned-AA. We measure WER and latency as paired metrics at two points after Silero VAD-detected end of speech: First Final Transcription: WER is measured on the first final-denoted transcript returned after end of speech is detected. Latency is the time in seconds from end of speech to that final-denoted transcript. This is more useful for understanding performance as a standalone streaming transcription model, and for higher accuracy. First Partial Transcription: WER is measured on the first transcript-bearing event (partial or final) returned after end of speech is detected. Latency is the time in seconds from end of speech to that first transcript event. This is more useful for near instantaneous transcription for lower-accuracy tasks like responding to "yes" or "no" questions, or for speculative decoding. Key results: ➤ Highest accuracy on Final after End of Speech: @Cartesia Ink-2 (semantic endpoints) at 3.59% WER, 0.21s latency, followed by ElevenLabs Scribe v2 Realtime (3.64%, 0.14s) and Cartesia Ink-2 (external endpoints) (3.66%, 0.09s) ➤ Highest accuracy on First Partial after End of Speech: @ElevenLabs Scribe v2 Realtime at 3.65% WER, 0.13s latency, followed by Cartesia Ink-2 (external endpoints) (4.33%, 0.07s) and @AssemblyAI U3 Realtime Pro (4.46%, 0.47s) ➤ Fastest transcription: @DeepgramAI Flux leads both Final and Partial at 0.020s and 0.019s respectively (both 7.36% WER). On Final, it's followed by @soniox_ai Realtime and Deepgram Nova-3 Realtime (both 0.06s); on First Partial, it’s followed by @NVIDIA Nemotron 3 ASR 80ms (0.04s) and Soniox Realtime (0.05s) Charts below include a Pareto frontier of accuracy vs. speed, so you can shortlist the models that best fit your latency constraints while still achieving high accuracy. See below for further detail ⬇️

译AA-WER Streaming是一个新基准，用于测量流式语音转文本模型在语音智能体场景下的准确率与延迟。该测试基于约8小时音频，报告词错误率与延迟。关键结果显示：Cartesia Ink-2（语义端点）在最终转录中准确率最高（WER 3.59%，延迟0.21秒）；ElevenLabs Scribe v2 Realtime在首次部分转录中准确率最高（WER 3.65%，延迟0.13秒）；Deepgram Flux在速度上领先，最终和首次部分转录延迟分别为0.020秒和0.019秒。

查看原推 ↗

Rohan Paul@rohanpaul_ai · 5月28日60

"If you look at the valuations for all these AI names, they just can't all be accurate. You have memory makers at 3-5X PE. You have NVIDIA at a really low PE." ~ @GavinSBaker Managing Partner & CIO of Atreides ($11B AUM). Nvidia, memory, custom chips, optical networking, power equipment, cooling systems and data center builders are all being treated as winners of the same spending boom. But each bucket is pricing a different version of the boom. There is Cross-sectionally inefficiency, i.e. the market is not ranking related AI companies consistently, because one group implies massive data center growth while another group implies slower or riskier growth. A boom does not automatically make every supplier a compounder, because the profit pool moves toward whatever is hardest to substitute, hardest to delay, and hardest for customers to bargain down. If the scarce thing is electricity, cooling, and physical capacity, then infrastructure suppliers should command the premium. If the scarce thing is still accelerated compute, then Nvidia and memory are probably too cheap relative to the rest of the chain. The ASIC narrative adds another layer of fog. Broadcom can be growing fast in custom chips and still not be taking the most valuable parts of Nvidia’s growth. ---- From " All-In Podcast" YouTube channel, (link in comment)

译当前AI产业链各环节（如NVIDIA、内存、定制芯片、光网络、电力设备等）的估值可能无法同时准确，市场对相关公司的排序并不一致，因为不同环节隐含了截然不同的增长预期。繁荣不会自动让每个供应商都持续增长，利润池将流向最难替代、最难延迟、最难被客户压价的环节。若稀缺的是电力、冷却和物理容量，则相关基础设施供应商应获溢价；若稀缺的仍是加速计算，则NVIDIA和内存可能被低估。此外，ASIC（定制芯片）叙事也增加了不确定性。

查看原推 ↗

ginobefun@hongming731 · 5月28日52

现在很多 Agent 产品都喜欢讲「一个 AI 团队帮你完成任务」。这个表达很顺，也很容易被用户理解。但这篇文章提到了一个更本质的问题：AI 不是员工，Agent 也不是岗位。一个 Agent 是否有用，不取决于它叫研究员、写手还是审查员，而取决于它能看到什么、能调用什么、能修改什么、在哪里执行，以及出错之后能不能被发现和回滚。角色是产品语言，边界才是系统能力。

译推文批评了当前AI智能体产品普遍采用“AI团队”的角色化宣传（如研究员、写手）。文章指出，这种表达忽视了更本质的问题：智能体的价值不取决于其扮演的“角色”，而取决于其系统能力边界。具体能力包括：能访问的数据（可见范围）、能使用的工具（调用权限）、能执行的操作（修改权限）、运行的环境，以及错误发生后能否被监控和回滚。推文强调，角色是面向用户的营销语言，而能力边界才是决定其是否真正有用的技术内核。

查看原推 ↗

X.PIN@thexpin · 5月28日10

http://x.com/i/article/2059951585590177792

译我们刚刚发布了Claude 4.7 Sonnet和Claude Opus 4。

查看原推 ↗

Berryxia.AI@berryxia · 5月28日73

Qwen新发布的Qwen-Image-Bench，把T2I评测从“生成”直接拉到“创作”： 56个细粒度facet + ρ=0.92人类对齐Q-Judger，OpenAI、Gemini、Grok、Flux全得重排座次！大家还在死磕提示词对齐，Qwen却证明：真实世界保真度和创意生成能力才是真正差距。新基准1000条prompt+56个rubric，可解释诊断，现有SOTA模型差距肉眼可见。那么，对于我们有什么实际使用价值呢？实际怎么用？（收藏） 1. 开发者/研究者：把自己的T2I pipeline（不管是Qwen自家模型、GPT-4o图像、Gemini的Imagen系列、Grok的Flux集成还是开源SD3）扔到这个benchmark上跑一遍。重点看Real-world Fidelity和Creative Generation两个支柱的得分，就能知道真实差距在哪。 2. Prompt工程师：以后写复杂创意prompt时，可以用Q-Judger先自测一下生成结果在56个facet上的表现，快速迭代，而不是靠人工肉眼判断。 3. 企业/产品方：要选T2I供应商或者自研图像生成时，把Qwen-Image-Bench当作新标杆。别再只看“prompt alignment”这种基础分了，直接看创意和保真度得分，更接近真实商业场景。 4. 对比实验：论文已经证明，它在区分领先模型上的分离度远超老基准。想验证自己模型有没有进步？用这个跑前后对比，数据会说话。 Qwen这次的打法很清晰：不光自己卷模型，还把评测标准往前推了一大步。就像当年Scaling Law出来后大家才知道该怎么卷参数一样，这次Qwen-Image-Bench把“从生成到创作”的评价框架给立住了。

译阿里通义千问（Qwen）推出了新的文本到图像（T2I）评测基准Qwen-Image-Bench。该基准包含56个细粒度评估维度，并配备与人类对齐度达ρ=0.92的评判模型Q-Judger。其核心理念是将T2I模型评价从基础的“提示词对齐”，提升至关注“真实世界保真度”和“创意生成能力”两大支柱，通过1000条测试提示词能更清晰地区分现有SOTA模型表现。该基准为开发者、提示词工程师及企业提供了一个更贴近实际创作需求的新评估框架。

查看原推 ↗

Deedy@deedydas · 5月28日70

ChatGPT had 80% of global AI users six months ago. Today it’s 60%. Consumer AI is no longer a one-horse race. Here’s a break down. In that time, Gemini grew from ~20% to ~50% of ChatGPT's unique users. Claude grew from ~3% to ~20%. In fact, Claude is the fastest growing website in the top 100 last quarter, followed by DeepSeek (#78, 105%) and Cricbuzz (#52, +69%). Global website rankings: – ChatGPT #5 (+11%QoQ) – Gemini #15 (+27% QoQ) – Claude #36 (+255% QoQ) Active users: Gemini has publicly reported 900M monthly active users and ChatGPT as 900M weekly active users. This number counts native desktop and mobile, so I (naively) use a multiple to scale up web traffic from SimilarWeb. This implies: — ChatGPT: ~900M WAU, ~1.5B MAU — Gemini: ~500M WAU, 900M MAU — Claude: ~150-200M WAU, ~250-300M MAU Geographically, Gemini has significantly caught up in non-English speaking countries, with 65-70% of ChatGPT in India, Brazil, Japan, Indonesia, Korea and Vietnam while Claude in particular ironically shows remarkable growth in China (!). VCs often ask startups "What if Google decided to do this?" and usually it's the wrong question. But when Google does indeed decide to put the full force of a company behind something, they're formidable. This market is starting to look a lot less "winner takes all" and a lot more like cloud market (AWS/Azure/GCP) or wireless market (Verizon/AT&T/T-Mobile) with 3 dominant players: a triopoly.

译消费级AI市场格局发生显著变化。ChatGPT在全球用户中的份额从半年前的80%下滑至60%。同期，Gemini用户数增至约为ChatGPT的50%，Claude份额从约3%增长至20%。在网站流量方面，Claude是上季度增长最快的百强网站。活跃用户数估算显示，ChatGPT周活跃用户约9亿，月活跃用户可能达15亿；Gemini月活跃用户为9亿；Claude月活跃用户约为2.5-3亿。在印度、巴西等非英语国家，Gemini用户数已接近ChatGPT的65-70%，而Claude在中国增长尤为显著。市场形态正从“赢家通吃”向类似云计算或电信市场的三方垄断演变。

查看原推 ↗

OpenRouter@OpenRouter · 5月28日69

TIP: You can use Flex and Priority tiers for supported models (OpenAI, Google Vertex, & more) Pricing available on each model page. Docs: https://openrouter.ai/docs/guides/features/service-tiers

译提示：您可以为支持的模型（OpenAI、Google Vertex 等）使用 Flex 和 Priority 层级。定价信息请查看各模型页面。文档：https://openrouter.ai/docs/guides/features/service-tiers

查看原推 ↗

Chubby♨️@kimmonismus · 5月28日56

Microsoft is launching homegrown AI models at Build next week, positioned as cheaper alternatives to OpenAI and Anthropic. Buried in the reporting: relying on Anthropic's Claude forced Microsoft to raise GitHub Copilot prices and cap how much developers could actually use it. They get OpenAI's models free through 2032 but are spending billions to not need them when that expires. Suleyman's team hasn't topped a single leaderboard in two year, the explanation being that Microsoft's OpenAI deal restricted him from training frontier models until April. Convenient timing for a launch. Via The Information Anyways, really excited for Microsoft Build next week. Ill attend in person.

译微软计划在下周的 Build 大会上发布其自研 AI 模型，旨在成为 OpenAI 和 Anthropic 的更廉价替代方案。据报道，依赖 Anthropic 的 Claude 迫使微软提高了 GitHub Copilot 的价格并限制了开发者的实际使用量。尽管通过协议在 2032 年前可免费使用 OpenAI 模型，但微软正投入巨资以期在协议到期后减少依赖。负责 AI 模型的 Suleyman 团队两年来未在任何基准测试中领先，其解释称是受与 OpenAI 的协议限制，直至今年四月才可训练前沿模型。此次发布时机值得关注。

查看原推 ↗

ginobefun@hongming731 · 5月28日52

阿里 ATA 这篇文章有点骚，把 Claude Code 从本地 CLI 工具部署到云端、通过魔改 SDK 实现 HTTP 流式调用，并利用沙箱实现多用户隔离。

查看原推 ↗

5月29日

08:12

Ethan Mollick@emollick

36

这事是真的吗？看起来非常可疑。

Tracy Alloway: "An AI consultant tells Axios one of their clients recently spent half a billion dollars in a single month after failing...

Anthropic大佬观点行业动态

08:09

宝玉@dotey

34

推文讨论了写作模型不同版本的性能比较。作者认为写作4.6版本明显优于4.7版本，4.7版本不遵循指令的问题较为突出。对于4.8版本，作者表示尚在测试中，目前未明确其是否优于4.6。用户@himself65在引用中补充，4.7版本相比4.6确实表现不佳，并认为4.6应是当前的基准版本。

Bread🍞: @dotey 因为4.7比4.6确实不行,试过了4.7很喜欢不按照规定单独搞一套,4.6应该是目前的baseline

Anthropic大佬观点

07:44

Rohan Paul@rohanpaul_ai

4

在OpenClaw时代，我们都需要这只机械爪。

其他开源/仓库

07:40

karminski-牙医@karminski3

62

Claude-Opus-4.8实测：3D渲染空间理解引关注

Claude-Opus-4.8 刚刚发布，用户使用光线追踪渲染一个多光源多材质3D场景的全新测试集进行了实测。在 xhigh 设置下，初始去噪渲染效果不错，但发现一处本应垂直撞墙的光源移动轨迹呈水平，疑似模型空间理解能力下降。在 medium 设置下，因生成的 shader 有问题，测试直接失败无法完成。详细测试报告将后续发布。

Anthropic编码评测/基准

07:40

ginobefun@hongming731

70

Claude Opus 4.8、Anthropic H轮融资、动态工作流发布

Anthropic发布旗舰模型Claude Opus 4.8，在编程、智能体、推理等基准上全面超越上代，其代码“诚实度”提升约四倍，增强了多智能体系统的可靠性。同日，Anthropic完成H轮650亿美元融资，投后估值达9650亿美元，年化收入已超470亿美元。配套推出的Claude Code动态工作流允许在单次会话内编排数百个并行子智能体，适用于大规模代码库排查等任务。

智能体Anthropic推理现象/趋势

07:08

Nathan Lambert@natolambert

57

供参考，我们访问中国的 @Zai_org 时，他们在展厅展示了 API 指标图表，达到每天 5-7 万亿 tokens。美国/欧洲的推理市场规模似乎大得多（这对持续构建模型很重要）

Fireworks AI: This tracks. 30 trillion tokens a day on our end, and open model share keeps climbing. Our partners @FactoryAI are seein...

推理现象/趋势

06:14

Rohan Paul@rohanpaul_ai

23

Google Omni 值得更多关注。

Google多模态大佬观点

06:14

Rohan Paul@rohanpaul_ai

60

学术论文现14.7万次虚假引用，AI生成问题激增

研究人员审查250万篇论文发现，2025年同行评议期刊中出现了14.7万次指向不存在研究的引用，这些虚假的研究、作者和期刊由AI生成，且未被察觉，已永久留在科学记录中。问题增长迅速：2023年每2828篇论文中约1篇含此类引用，到2026年初已升至每277篇约1篇。完整研究见arxiv论文2605.07723。

arXiv数据/训练现象/趋势

06:14

Rohan Paul@rohanpaul_ai

66

AWS CEO Matt Garman：AI将取代初级开发者的说法是"我听过最愚蠢的事"。

大佬观点现象/趋势编码

05:44

Rohan Paul@rohanpaul_ai

56

WallStreetPrep针对真实金融场景进行了非常实用的AI基准测试。

测试评估了AI金融建模智能体在构建苹果公司历史与预测财务报表这一真实分析师任务中的表现。其中，工具Primer表现突出，关键在于其生成了可审计的关联财务系统，而非逐单元格拼接的表格。Primer将Excel视为最终输出格式，先构建完整的三表模型，再将其转化为结构化记录（如收入、成本、假设、公式链接等），使AI能直接查询和验证财务逻辑。这指出专业AI智能体的价值将更多取决于其产出物能否通过审计。

Ruggero Gargiulo: http://x.com/i/article/2053566242338795520

智能体评测/基准

05:18

SemiAnalysis@SemiAnalysis_

54

Codex在应用内浏览器的用户体验总体方向很好。对于Web开发，一旦Codex模型本身擅长Web开发，我预计所有Web开发工作将从Claude终端CLI转向带有应用内浏览器的Codex应用。

智能体现象/趋势编码

05:12

Google AI Developers@googleaidevs

52

节省大量手动迁移工作。观看混乱的遗留代码在 @Antigravity 的示例中，由 Gemini 3.5 Flash 驱动，自主现代化为 Next.js。

Google教程/实践编码

04:44

Rohan Paul@rohanpaul_ai

30

大多数人类专家在目睹一项技能变成API时，都会感到这种痛苦和生存反思。

Tomás Bjartur: Mathematician reacts to OpenAI's recent proof:

推理现象/趋势

04:42

Ethan Mollick@emollick

74

我让 Claude Code 中的 Opus 4.8 从数百份多年前的匿名研究文件中，撰写了一篇虽小但复杂的学术论文。我不得不使用 GPT-5.5 Pro 作为审稿人，它发现了一个主要错误和一些次要问题。Opus 已修正。

智能体AnthropicOpenAI教程/实践

04:14

Chubby♨️@kimmonismus

54

Opus 4.8显然是个强模型，但我的印象是，Anthropic越来越像是在追赶OpenAI，而不是引领节奏。感觉GPT-5.5再次改变了基准，如果OpenAI保持这个轨迹，GPT-5.6很可能成为整体更强的模型。初步测试显示4.8表现尚可。

AnthropicOpenAI大佬观点

03:51

Luma@LumaLabsAI

51

BTS：职业探索器先是角色，然后是场景，然后是镜头--每一个部分都是通过图像生成和视频从零开始构建的。以下是它的制作过程。开始创作 → http：//lumalabs.ai/app

教程/实践视频

02:07

Nathan Lambert@natolambert

58

许可证可能是最不性感但最能帮助开放生态实现长期稳定和经济可行性的东西。对此感到兴奋！

NVIDIA AI: We're adopting the Linux Foundation's OpenMDW framework across our open model families. This helps make open model licen...

大佬观点开源生态

01:52

Replit ⠕@Replit

64

如何用四步保障你的vibecoded应用安全 🔒 速度若无安全加持，便是隐患。以下是使用Replit发布应用时，如何避免留下后门的方法。 🧵展开阅读 ↓

教程/实践部署/工程

01:31

AYi@AYi_AInotes

63

Cursor已上线Claude Opus 4.

AYi: 上周 Cursor 送了我 1 万美金额度, 我以为往死里造 7 天怎么也得花到 3000 美金, 结果实际一看, 300 多美金都没花到。 7这几天我用 Claude Opus 4.7 thinking xhigh MAX 跑了几十次, ...

Anthropic现象/趋势编码

01:18

SemiAnalysis@SemiAnalysis_

64

最受欢迎的AI订阅服务每月约20美元，可访问大多数模型，对普通日常用户来说已足够。但对于Anthropic这样的公司，服务用户的成本是多少？可以合理假设大多数用户不会达到使用上限，但假设他们达到了。根据工作负载的不同，同样的20美元订阅可能从极其盈利到勉强收支平衡。

推理现象/趋势

01:14

Chubby♨️@kimmonismus

51

Anthropic发布了Claude Opus 4.8版本。据官方（@alexalbert__）介绍，这是基于用户对4.7版本反馈的改进，重点修复了问题。4.8模型在理解细微差别方面表现更好，对话感觉更自然，在编程（coding）到知识工作（knowledge work）等各种任务中都是更强大的协作者。

Alex Albert: Excited to release Opus 4.8 today! We heard your feedback on 4.7 and have made many fixes for 4.8. 4.8 understands nuanc...

Anthropic大佬观点模型发布

01:12

Ethan Mollick@emollick

62

推文对比了负责任的AI用法（如使用高级模型、人工复核引用）与行业现状。文章引用《纽约杂志》报道，指出媒体创业者Steven Rosenbaum在其著作《The Future of Truth》中被发现包含多条错误归因或伪造的引文，疑似由AI生成，凸显了非虚构出版业对模型幻觉的脆弱性。问题核心在于，行业长期缺乏确保事实准确的合同义务与系统性核查流程。业内人士表示漏洞普遍存在，许多AI生成的内容正被当作原创作品使用。

New York Magazine: In May, the New York 'Times' reported that media entrepreneur Steven Rosenbaum had included "more than a half-dozen misa...

大佬观点安全/对齐

01:12

Ethan Mollick@emollick

57

Opus 4.8与GPT-5.2 Pro在相同任务上展示了其代码生成能力。两者均通过"一次性生成"（single shot）的方式，为twigl平台创建可运行的视觉shader。具体任务为：用数学生成一个"无限的新哥特式塔楼城市部分淹没于巨浪汹涌的暴风雨海洋中"的场景。这则推文通过并列展示，体现了两个顶级大语言模型在创意编程领域的直接对比。

Ethan Mollick: Had early access to GPT-5.2. Its an impressive model. Here is GPT 5.2 Pro's version of "create a visually interesting sh...

Anthropic多模态模型发布

01:12

Ethan Mollick@emollick

64

Opus 4.8 在 Claude Code 中构建并测试了一款新的 RPG 游戏，包括 3 本 PDF 手册和冒险内容、测试笔记、一个网站，以及一个可玩的单人冒险--然后将其全部部署到 Netlify。全程没有我的任何反馈。 https：//stillpoint-osr.netlify.app

智能体Anthropic教程/实践编码

01:06

Google AI@GoogleAI

41

Google用AI工具让纸板和马克笔"活起来"

Google通过一部短片展示了如何利用AI工具将纸板、马克笔等简单物理材料“赋予生命”。该短片讲述了为Google I/O 2026舞台做准备的一群TPU的故事，创作中融合了木偶戏与3D动画。核心工具包括：Nano Banana（从原始木偶镜头和基础3D动画生成风格化首帧）、Google AI Studio（构建定制工具以大规模测试帧并确保一致性）、以及Gemini Omni和Google DeepMind的实验性模型（合并基础动画与风格化帧，提升至电影级画面）。整个AI流水线的设计旨在保护那些体现手工艺温度的细微细节，例如木偶戏的细微不完美感。

Google多模态教程/实践视频

00:42

Yuchen Jin@Yuchenj_UW

17

今天粉丝数达到15万。 3个月前才10万。显然我的粉丝数遵循大模型缩放定律。感谢大家喜欢我的吐槽，AGI即将到来。更令人兴奋的是：Opus 4.8今天发布，也许GPT-5.6也会？！

AnthropicOpenAI大佬观点

00:36

OpenAI@OpenAI

43

研发第一部分：志在必得

OpenAI行业动态

00:31

AYi@AYi_AInotes

48

Google Omni演示手部解剖，生物医学教学潜力获赞

推文回应了关于Google Omni能力的争议，展示了其将普通人手转化为逼真活体解剖影像的演示效果。该演示清晰呈现肌肉、肌腱、骨骼等组织结构，被评价为生物医学教学的理想工具。文中提及的对比对象为seedance 2.0，强调了该技术在教育领域的独特应用价值。

Google多模态现象/趋势

00:13

Chubby♨️@kimmonismus

12

我已准备就绪

Gwall1878: @kimmonismus if you force latest version of cc

其他

00:07

向阳乔木@vista8

62

Anthropic发布Computer Use最佳实践指南

Anthropic发布最佳实践指南，核心包括：控制图像分辨率以避免降采样导致坐标偏移，Claude 4.6系列推荐1280x720，Opus 4.7推荐1080p。构建API请求时，文本指令必须置于图片之前以提升准确性。每张截图消耗1000-1800 token，200k上下文窗口会较快用尽。文中指出：截图切块或画网格无益精度；开启Low thinking比不设更省token（因减少错误）；而Max thinking在视觉任务中性价比低，Medium设置更优且更便宜。

智能体Anthropic教程/实践

00:07

向阳乔木@vista8

43

AI智能体自动上架Chrome插件，Computer Use表现意外更优

开发者让Codex调用Computer Use智能体来完成Chrome插件的上架工作。首次提交被谷歌拒绝，原因为插件描述包含不相关的关键词，疑似是智能体为优化商店排名自行添加的。修改后，开发者改用Codex自带的Chrome插件来完成提交，却发现其在执行速度和准确率上反而不如之前使用的Computer Use，这一结果出乎开发者预料。

教程/实践

5月28日

23:48

Artificial Analysis@ArtificialAnlys

70

发布AA-WER Streaming：测量语音智能体场景下流式语音转文本模型的新基准

AA-WER Streaming是一个新基准，用于测量流式语音转文本模型在语音智能体场景下的准确率与延迟。该测试基于约8小时音频，报告词错误率与延迟。关键结果显示：Cartesia Ink-2（语义端点）在最终转录中准确率最高（WER 3.59%，延迟0.21秒）；ElevenLabs Scribe v2 Realtime在首次部分转录中准确率最高（WER 3.65%，延迟0.13秒）；Deepgram Flux在速度上领先，最终和首次部分转录延迟分别为0.020秒和0.019秒。

智能体评测/基准语音

23:43

Rohan Paul@rohanpaul_ai

60

AI产业链估值存在错配，利润将流向关键瓶颈环节

当前AI产业链各环节（如NVIDIA、内存、定制芯片、光网络、电力设备等）的估值可能无法同时准确，市场对相关公司的排序并不一致，因为不同环节隐含了截然不同的增长预期。繁荣不会自动让每个供应商都持续增长，利润池将流向最难替代、最难延迟、最难被客户压价的环节。若稀缺的是电力、冷却和物理容量，则相关基础设施供应商应获溢价；若稀缺的仍是加速计算，则NVIDIA和内存可能被低估。此外，ASIC（定制芯片）叙事也增加了不确定性。

大佬观点现象/趋势

23:39

ginobefun@hongming731

52

AI智能体：角色只是包装，边界才是内核

推文批评了当前AI智能体产品普遍采用“AI团队”的角色化宣传（如研究员、写手）。文章指出，这种表达忽视了更本质的问题：智能体的价值不取决于其扮演的“角色”，而取决于其系统能力边界。具体能力包括：能访问的数据（可见范围）、能使用的工具（调用权限）、能执行的操作（修改权限）、运行的环境，以及错误发生后能否被监控和回滚。推文强调，角色是面向用户的营销语言，而能力边界才是决定其是否真正有用的技术内核。

关木: http://x.com/i/article/2059840186461429760

智能体现象/趋势

23:37

X.PIN@thexpin

10

我们刚刚发布了Claude 4.7 Sonnet和Claude Opus 4。

现象/趋势

23:31

Berryxia.AI@berryxia

73

通义千问（Qwen）发布新T2I评测基准Qwen-Image-Bench，推动评价标准升级

阿里通义千问（Qwen）推出了新的文本到图像（T2I）评测基准Qwen-Image-Bench。该基准包含56个细粒度评估维度，并配备与人类对齐度达ρ=0.92的评判模型Q-Judger。其核心理念是将T2I模型评价从基础的“提示词对齐”，提升至关注“真实世界保真度”和“创意生成能力”两大支柱，通过1000条测试提示词能更清晰地区分现有SOTA模型表现。该基准为开发者、提示词工程师及企业提供了一个更贴近实际创作需求的新评估框架。

Adina Yakup: Qwen @Alibaba_Qwen just dropped a new Text to Image benchmark + a judge model https://huggingface.co/collections/Qwen/qw...

图像生成开源生态评测/基准

23:07

Deedy@deedydas

70

AI市场从一家独大转向多强竞争

消费级AI市场格局发生显著变化。ChatGPT在全球用户中的份额从半年前的80%下滑至60%。同期，Gemini用户数增至约为ChatGPT的50%，Claude份额从约3%增长至20%。在网站流量方面，Claude是上季度增长最快的百强网站。活跃用户数估算显示，ChatGPT周活跃用户约9亿，月活跃用户可能达15亿；Gemini月活跃用户为9亿；Claude月活跃用户约为2.5-3亿。在印度、巴西等非英语国家，Gemini用户数已接近ChatGPT的65-70%，而Claude在中国增长尤为显著。市场形态正从“赢家通吃”向类似云计算或电信市场的三方垄断演变。

AnthropicOpenAI现象/趋势

23:05

OpenRouter@OpenRouter

精选69

提示：您可以为支持的模型（OpenAI、Google Vertex 等）使用 Flex 和 Priority 层级。定价信息请查看各模型页面。文档：https：//openrouter.ai/docs/guides/features/service-tiers

GoogleOpenAI教程/实践部署/工程

推荐理由：OpenRouter 这个 Flex/Priority 层级用法看似细枝末节，但你如果同时调 OpenAI 和 Vertex，知道怎么分层能免掉很多无谓的速率限制和成本焦虑。

22:42

Chubby♨️@kimmonismus

56

微软将于 Build 大会发布自研 AI 模型，定位为更廉价替代品

微软计划在下周的 Build 大会上发布其自研 AI 模型，旨在成为 OpenAI 和 Anthropic 的更廉价替代方案。据报道，依赖 Anthropic 的 Claude 迫使微软提高了 GitHub Copilot 的价格并限制了开发者的实际使用量。尽管通过协议在 2032 年前可免费使用 OpenAI 模型，但微软正投入巨资以期在协议到期后减少依赖。负责 AI 模型的 Suleyman 团队两年来未在任何基准测试中领先，其解释称是受与 OpenAI 的协议限制，直至今年四月才可训练前沿模型。此次发布时机值得关注。

Microsoft模型发布行业动态

22:39

ginobefun@hongming731

52

阿里 ATA 这篇文章有点骚，把 Claude Code 从本地 CLI 工具部署到云端、通过魔改 SDK 实现 HTTP 流式调用，并利用沙箱实现多用户隔离。

AnthropicMCP/工具教程/实践部署/工程