@dotey 宝玉老师,有没有比较好的skill管理工具推荐
可能你不需要 skill 管理工具,真正常用的只有几个 Skills,少量放全局 Skills,其他跟着项目走就够了
译针对 Agent 框架中的技能管理,@dotey 的建议是无需依赖专门的 skill 管理工具。核心观点是,实际常用的 Skills 数量很少,只需将少量高频技能置于全局,其余技能跟从各自项目存放和管理即可。这为处理多个 Agent 或项目的技能配置提供了一种轻量化的思路。
iPhone 上直接用 App Store 下载就行: 👉 Bonsai Studio — PrismML 官方 iOS 应用,免费安装,模型在手机本地跑 我觉得给学校老师做一些素材展示,或者幼儿园小朋友教学还是可以的。 不需要额外的TOKEN费用,风格支持的挺多的。 中文文字还是乱码但是可以快速理解你的意境(图2) 技术背景: Bonsai Image 4B 基于 FLUX.2 Klein,把模型权重压缩成 1-bit/3-bit,体积从 7.75GB 压到 0.93GB iPhone 上生成一张 512×512 图约占 1.5GB 内存, 1024×1024 大概 2GB,iPhone 15 Pro 以上没问题 完全本地推理,不联网 就可以跑起来! Android 暂时没官方 App,只能走 WebGPU 网页版。 我实际在iPhone 17 Pro Max 测试了一下,出一张5125*512的画的速度不到几十秒就可以出来一张。 浏览器中需要下载1.8G 左右模型就可以玩~ 地址在评论区👇🏻
译PrismML发布官方iOS应用Bonsai Studio,用户可免费下载,在iPhone上本地离线运行其Bonsai Image 4B扩散模型。该模型基于FLUX.2 Klein,其1-bit压缩版仅0.93GB,比全精度版小8.3倍。在iPhone 15 Pro及以上机型生成512×512图像耗时约几十秒,内存占用约1.5GB。应用支持多种风格,但中文文字生成目前为乱码。Android用户可通过WebGPU网页版体验。
以我的经验,只有明确的可以程序自动验收标准的 Skills 才能自我进化,比如说你写个 Skill 去优化代码性能,这个代码性能是可测量可量化的,那么给一些测试样例去优化 Skill,那么能越来越好。 对于一些没有明确的验收标准的 Skill,比如你写一个写作的 Skill,写作的好坏并没有很明确的验收标准,只能是 AI “自己打分”,但是这个打分其实和真实人类的体感还是有差距,AI 打分很好的稿子可能真人看起来一股 AI 味。 真想写好 Agent Skills,还是要人去用,人去指出优化的方向,才能优化好。 但有一点,没必要人自己去写 Skill,最好是人指挥 AI 去优化 Skill,AI 在具体执行上是做的蛮好的。 另外做好版本管理,一轮一轮迭代,有时候还会出现负优化,得回退到旧的版本。
译文章指出,只有具备明确、可程序自动验收标准的Skill才能有效自我进化,例如优化代码性能。微软等机构提出的SkillOpt框架,通过让AI评估并迭代优化Skills,使GPT-5.5直接对话准确率提升23.5分。其核心机制是每次编辑需在验证集上得分提升才能合并,并引入学习率预算。论文主张Skill应作为外部状态被系统性“训练”,这标志着提示词工程与模型训练界限的融合。
It is cliché at this point, but most people don't realize how capable the current generation of AI systems in their harnesses really are (And, as opposed to previous times where non-lawyers or non-mathematicians were making these comments about law & math, now it is the experts)
译律师专家分享在Codex中搭建50州法律研究工作流的实例。此类工作过去需要律师助理团队耗时一周完成,成本约15万至30万美元。现在,通过Codex API,类似质量的研究仅需2小时,成本极低。主推文指出,与过去外行评论AI不同,如今是领域专家们开始感叹当前AI系统在实际应用中被严重低估的能力。
连续两个月,每天数小时,Codex 与 Claude Code 并行使用后,@AlexFinn 决定转向 Codex,为什么? 在 Alex 的判断中,关键变量是:模型智商或代码生成速度已不是关键,自测闭环更重要,Codex 会在内置浏览器里验证每次改动,形成「改 → 测 → 修」的自动化循环。 Codex 自测闭环后,从 40% 的改动首次交付就有 bug,到 ≤3%,可靠性明显提升,更容易进入心流。 我的补充:除内置浏览器外,Codex 还有 Computer Use 和 Chrome 扩展可以搭配使用,做网站自动化验证测试。
译开发者 AlexFinn 在连续两个月、每天数小时并行使用 Codex 和 Claude Code 后,决定转向 Codex。其核心原因在于 Codex 拥有强大的自测闭环功能:每次代码改动后,它会在内置浏览器中自动验证,形成“改→测→修”的自动化循环。这一机制将首次交付有 bug 的改动比例从约 40% 显著降低至 ≤3%,可靠性大幅提升,更利于开发者保持心流。他建议开发者不要对任何公司忠诚,应始终使用当下最好的工具。
兄弟们,我最近刷到一个把 本地模型Gemma 4玩出新花样的项目,直接看呆了。 你打开一个复古风地牢爬行游戏,角色走到一个NPC面前,随手一句Prompt,它居然现场给你搭出一个能跑的Web App。 这就是Google Gemma团队刚推出的AIventure,一个完全开源的地牢爬行游戏,却被做成了开发者大师课。 核心玩法:把agentic workflow和vibe-coding塞进游戏里:你边玩边学怎么让AI真正去执行复杂任务,而不是只停在聊天框里。 Gemma 4在这套系统里负责实时理解你的指令、规划步骤、调用工具,最后把代码落地成真实应用。 整个项目从游戏机制到agent集成,全都开源了。 项目地址GitHub在这里👇🏻
译Google Gemma团队开源了AIventure项目,这是一款地牢爬行游戏。玩家可以向游戏中的NPC输入提示词,AI会实时构建可运行的Web应用。AI核心由Gemma 4驱动,负责理解指令、规划步骤并生成代码。项目将智能体工作流与氛围编程融入游戏,是面向开发者的实操大师课,从游戏设计到智能体集成均已开源。
All the deps around opus are old or terrible, so vibed my own and replaced octoscript and opus-native. Performance of modern wasm on node/V8 is ~equivalent to native. Your claw now automatically takes meetings notes and you can talk to it in meetings. https://github.com/openclaw/libopus-wasm
译Opus周围的所有依赖都过时或糟糕,所以我凭感觉自己重写了,并替换了octoscript和opus-native。 现代WASM在Node/V8上的性能与原生代码大致相当。 现在你的Claw可以自动做会议笔记,并且你可以在会议中与它对话。 https://github.com/openclaw/libopus-wasm
http://x.com/i/article/2059407621711626240 # BestBlogs 早报 · 05-27|Agent 隔离架构、AgentScope 2.0、上下文卸载 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-05-27 ## 导语 当 Agent 能力不断膨胀,如何让它在真实环境里跑得稳、管得住,成了工程侧最紧迫的课题。这期早报聚焦 Agent 系统工程的三个维度:Anthropic 首次披露跨产品约束 Claude 的三种隔离架构,揭示 93% 权限弹窗被无脑通过的真相;阿里 AgentScope 2.0 把「可见调试」升级为生产级系统工程,涵盖权限边界、容错机制与执行环境抽象;腾讯云则用上下文卸载与 Mermaid 结构化图谱把超长 Session 的 Token 消耗砍掉六成,任务通过率同步提升 52%。 在 Agent 时代,真正的护城河不是调用更多模型的能力,而是让长链路任务稳定落地的工程底座。今天这三篇精讲,正是在这条赛道上最扎实的一批工程实践。 今日速览: - 精讲一:Anthropic 披露三种 Claude 约束架构,环境隔离比人工审批更可靠 - 精讲二:AgentScope 2.0 — 从可见调试到生产级稳定运行的系统性升级 - 精讲三:腾讯云上下文卸载 × Mermaid 无限画布,节省 61% Token 提升 52% 成功率 - 速览:7 天将 Token 账单砍掉 87%、Vercel 构建从 90 秒到 5 秒、Cursor 云 Agent 让 PR 吞吐翻倍等 7 篇 - 补充阅读:云原生 Kafka 架构演进、C 端 AIGC 离线生产实践等 12 篇延伸内容 ## 精讲一:我们如何在多个产品中约束 Claude 来源: Anthropic Engineering|评分: 93 背景:从权限弹窗到爆炸半径管 一年前,Anthropic 还不会允许 Claude 获得足以中断内部服务的访问权限。今天,这样的权限已经成了日常标配,工程师的生产力也因此显著提升。这篇文章是 Anthropic 工程团队迄今为止最完整的一次 Agent 安全工程披露,记录了他们在 claude.ai、Claude Code 和 Claude Cowork 三款产品上踩过的坑、改进的架构,以及推导出的核心原则。 93% 的权限弹窗被无脑点击通过 Anthropic 遥测数据显示,用户批准了约 93% 的权限请求。更糟糕的是:用户见到的批准弹窗越多,对每一个的关注度就越低,审查变得越来越流于形式。这个发现直接促成了 Claude Code 自动模式(auto mode)的诞生——系统自动处理低风险审批,减少人工疲劳。但 Anthropic 也明确指出,任何基于概率的防御都有非零的失误率,人工审批作为唯一防线本质上是不可靠的。 真正可靠的方法是容器化隔离:不是监督 Agent 做了什么,而是限制它能做什么。通过沙盒、虚拟机和出口控制来压缩爆炸半径(blast radius),即便 Agent 出错,破坏范围也有上界。 三种架构,三种权衡 文章详细拆解了三款产品对应的三种隔离架构: - claude.ai(临时容器):每次会话启动一个一次性容器,执行完毕即销毁。优势是简洁,隔离天然。踩过最大的坑是「自建代理层」——团队曾尝试绕过云厂商原生网络控制自己实现出口过滤,结果发现自研方案引入了更多安全漏洞。教训是:能用云厂商的安全原语就用,不要重复造低质量的轮子。 - Claude Code(HITL 沙盒):采用人工在环(Human-In-The-Loop)设计,有一个特权进程坐在沙盒外部,逐命令决策是否允许执行。这个架构允许 Agent 在更宽松的环境里工作,同时保留精细粒度的人工干预能力。最新的 auto mode 让系统自动处理已知安全的命令,人工只需关注真正高风险的操作。 - Claude Cowork(可信工作空间):面向企业场景,Agent 需要长期访问组织内的文件、数据库和 API。这里的核心挑战是「访问边界漂移」——一旦 Agent 获得了某项访问权限,随着任务扩展,它往往会尝试访问越来越多的相邻资源。可信工作空间的设计思路是把权限绑定到明确的工作流程,而不是绑定到 Agent 本身。 关键教训:防御要有重叠 文章最重要的结论之一是:防御层应当相互补充,而非相互替代。当环境防御失效时,模型层要能兜底;当模型层失误时,环境约束要能拦截。Claude Code 的 auto mode 正是这个思路——它不是替代环境隔离,而是在环境隔离的基础上进一步减少不必要的人工摩擦。 另一个值得记住的教训是:模型能力越强,越需要更严格的隔离。能力较弱的模型更容易犯显而易见的错误,更容易被人类发现和纠正;能力更强的模型犯错更少,但一旦犯错,它往往能找到更隐蔽的绕过路径——绕过那些没人想到要明确写下来的限制。这是一个反直觉但极其重要的洞察。 与今天其他故事的关联 这篇文章与 AgentScope 2.0 的权限系统设计高度呼应——后者同样采用「静态规则 + 动态审批」的分层权限架构。腾讯云的上下文卸载方案也可以从爆炸半径管理的角度重新理解:限制 Agent 在单次 Session 中能触及的信息量,本质上也是一种能力边界管理。 阅读建议:如果你正在生产环境中部署 Agent,或者在设计 Agent 系统的权限模型,这篇文章是今天的必读。它不只是 Anthropic 的内部经验,更是目前业界关于 Agent 安全架构最系统的一次公开总结。 阅读原文 ## 精讲二:从透明开发到系统工程:AgentScope 2.0 发布 来源: 通义大模型|评分: 92 背景:Demo 好做,长链路难稳 「开发一个能跑通 Demo 演示的 Agent 并不难。难的是,让它在真实场景里稳定地完成任务。」这句话是阿里通义团队写在 AgentScope 2.0 发布文章开头的,也精准概括了当前整个 Agent 框架赛道的核心矛盾。 AgentScope 1.0 以「透明开发」为核心——让开发者能清晰看到 Agent 的消息流转、工具调用和协作过程,降低理解与调试门槛。2.0 在保留这一理念的基础上,全面转向可靠运行:这次升级涵盖模型容错、事件流、权限边界、结构化上下文、Middleware 扩展、执行环境抽象和服务化部署七个层面。 模型层:从「能调用」到「稳定运行策略」 在真实长任务中,Agent 往往需要多轮推理和多次工具调用。一次模型接口超时或不可用,就可能破坏后续所有步骤。AgentScope 2.0 在模型层引入了统一的重试与备用模型机制:开发者可配置最大重试次数,并设置备用模型;主模型失败时,框架自动切换到备用模型,尽量保持任务连续性。 这个改动看起来不复杂,但在生产场景中意义重大——它把「偶发的 API 超时」从致命错误降级为可恢复的异常。 权限系统:工具调用的安全边界 参照 Anthropic 的经验,AgentScope 2.0 同样引入了系统化的权限控制。工具调用不再是简单的允许/禁止二元判断,而是根据静态规则、工具类型和输入内容进行三级判断: - 允许:符合静态规则的低风险操作直接执行 - 拒绝:明确高风险操作(如危险目录写入、高危命令)直接拒绝 - 用户确认:未知或中等风险操作进入审批流程 文件读写会检查是否涉及危险目录和敏感文件;命令执行工具会分析高风险命令、动态 shell 结构和危险删除操作。这与 Anthropic 在 Claude Code 里的 HITL 架构思路高度一致,差异在于 AgentScope 把这套逻辑做成了可配置的框架级能力,而不是绑定在特定产品上。 上下文管理:不只是「压缩历史」 在长任务执行中,上下文管理的挑战远不止把历史对话压缩进窗口。AgentScope 2.0 的上下文管理进一步结构化: - 压缩结果保留任务目标、当前状态、关键发现、下一步计划和需长期保留的信息(结构化保留,而非简单摘要) - 工具结果自动截断,避免超长日志撑爆上下文 - 内置文件读写新增缓存机制,强制「先读后改」,减少重复 IO 这套设计让 Agent 在持续推理和多次工具调用的过程中保持稳定——它解决的不是「如何把更多内容塞进上下文」,而是「如何让 Agent 在整个任务周期内对状态保持清醒的认知」。 Workspace 抽象:执行环境可替换 这是 2.0 版本最有架构创意的改动之一。Workspace 把「Agent 要做什么」和「在哪里执行」彻底分开,支持本地文件系统、Docker 容器、E2B 云沙箱等不同执行后端,统一暴露相同的接口。 同一个 Agent 代码,不改运行逻辑,就可以在本地开发环境、容器化测试环境和云沙盒生产环境之间自由切换。Workspace 还内置了预热池机制,支持提前批量初始化执行环境——在 RL 训练的并行 rollout 场景中,这可以显著降低频繁创建环境的开销。 这个设计与 Anthropic 在文章中强调的「环境隔离」思路不谋而合,只是把选择权交给了框架用户,而不是由框架自己决定隔离策略。 与今天其他故事的关联 AgentScope 2.0 的上下文管理模块和腾讯云的「上下文卸载」方案面向同一个问题,但路径不同:前者强调结构化保留关键状态,后者强调把完整信息卸载到外部,再用 Mermaid 图谱维护关键摘要。两种思路并不互斥,完全可以组合使用。 阅读建议:如果你正在从头设计一个 Agent 框架,或者在现有框架基础上构建生产级 Agent 系统,AgentScope 2.0 的每一个模块设计都值得仔细拆解——它是目前开源框架里,对「稳定运行」这个问题回答最完整的一个。 阅读原文 ## 精讲三:腾讯云 Agent Memory 节省 61% Token 提升 52%成功率的诀窍:Mermaid 无限画布×上下文卸载 来源: 腾讯云开发者|评分: 92 背景:Token 耗尽,任务中途断裂 当 Agent 执行一个长任务时,会不断搜索、读文件、调用工具、修改代码。每一步都在产生大量信息——几千字、上万字。如果这些内容全部堆进上下文,结果往往是:Token 被迅速耗尽,模型被细节淹没,逐渐偏离原本的目标。 腾讯云 TencentDB Agent Memory 团队的核心洞察是:问题不在于信息太多,而在于信息没有被「压缩成最可用的形式」。他们提出的解决方案是「上下文卸载 × Mermaid 无限画布」的组合策略,并在超长 Session 实验中验证了其效果:最高节省 61% Token,任务通过率从 33% 提升至 50%(相对 +52%)。 上下文卸载:完整细节放外部,精华状态留内部 「上下文卸载」的核心思路是:把完整的任务信息(搜索结果、工具输出、文件内容)卸载到外部文件系统,上下文中只保留「可供 Agent 快速定位和检索的摘要索引」。 这看起来简单,但实现细节很关键:摘要不能只是自然语言概括,因为自然语言的摘要容易丢失结构性信息(比如「三所学校的学费已分别确认」这句话,不能让 Agent 立刻知道三者之间是并行关系,还是依赖关系)。 Mermaid 无限画布:结构化记忆,而非线性列表 这就是 Mermaid 图语言发挥作用的地方。Mermaid 是一种被广泛应用于技术文档的流程图/关系图描述语言——它既可以被渲染成可视化图表,也可以被大模型作为纯文本直接读取和修改。 腾讯云选择 Mermaid 的原因,来自他们总结的三条符号设计原则: 1. 符号必须是通用知识:压缩格式必须是所有主流大模型在预训练阶段都大量接触过的,否则生成和理解之间会产生语义偏移。Mermaid 满足这个条件,自定义编码方案不满足。 1. 符号的生成不能过于复杂:如果压缩规则太复杂,生成端和理解端对同一个符号的解读容易不一致。Mermaid 的语法相对宽松,允许模型灵活表达。 1. 表达要足够自由:让模型能根据实际情况调整结构,而不是被固定格式束缚。 在「无限画布」的比喻中,Mermaid 图就是 Agent 维护的「任务地图」:每次工具调用后,Agent 更新这张图,记录已完成的节点、当前状态、关键发现和下一步计划。当上下文空间紧张时,Agent 可以卸载掉具体的工具输出细节,只保留这张结构化地图——而这张地图包含了重建完整任务状态所需的所有关键信息。 实验结果:为什么这套方案有效 在超长 Session 实验中(对应办公提效、创作、研究和编程类长任务),单纯的文本摘要方案能减少 Token 消耗,但任务通过率几乎没有改善——因为摘要丢失了任务的结构性信息,Agent 在中途容易「失忆」。而「上下文卸载 + Mermaid 无限画布」的组合方案同时保住了两件事:细节可恢复(外部存储)+ 结构不丢失(Mermaid 图谱),这才是通过率显著提升的根本原因。 纯工程优化,无需微调 这套方案完全在推理层实现,不依赖模型微调,与具体模型解耦——换模型、升级模型版本,方案照样有效。对于大多数工程团队来说,这是一个直接可以拿来用的优化思路,而不是需要「等模型团队支持」的功能请求。 TencentDB Agent Memory 已开源,GitHub 地址:https://github.com/Tencent/TencentDB-Agent-Memory 与今天其他故事的关联 这篇文章是今天三篇精讲里最「有数据支撑」的一篇——它给出了可复现的实验数字,而不只是架构原则。结合《7 天把 Token 账单砍掉 87%》那篇(速览部分),两篇合在一起给出了 Token 成本优化的完整视角:一个侧重工程可观测性和路由策略,一个侧重上下文的结构化管理。 阅读建议:如果你正在处理 Agent 长任务的上下文溢出问题,或者在寻找 Token 成本优化方案,这篇文章的实验设计和数据分析值得精读。特别是第二节「Mermaid 无限画布」的原理部分,对于理解「为什么是 Mermaid 而不是其他格式」有很深的洞察。 阅读原文 ## 速览 我用 7 天把 AI Agent 的 Token 账单砍掉 87%(附代码) 来源:高可用架构|评分:89 作者 Himanshu 分享了一套从 4800 美元降到 620 美元月账单的 7 天行动手册。核心方法论是:先用 Helicone/Langfuse/Portkey 建立可观测性,找出吃掉 60% 预算的那两个函数;再依次实施提示缓存(Anthropic 可达 90% 折扣)、上下文预算控制、按任务路由模型、重试循环限制和缓存命中率验证。文章强调「怀疑调试」纪律——优化后要持续监控,防止成本悄悄回弹。与精讲三形成互补:精讲三聚焦上下文结构化,本文聚焦全链路成本可观测性。 Vercel 如何将构建等待时间从 90 秒缩短至 5 秒 来源:ByteByteGo Newsletter|评分:91 Vercel 2023 年底悄悄上线了内部平台 Hive,把构建预置时间从 90 秒降至 5 秒,实现 18 倍提速。核心是用 AWS Firecracker 微虚拟机替换传统容器,解决多租户构建的对抗性隔离问题;再叠加三层优化:快照恢复(跳过冷启动)、预热池(保持已加载构建镜像的待机实例)和快照分层(共享只读基础层)。这是一篇少见的「先接受更难约束,再在约束内做极致优化」的工程案例,与精讲一的隔离架构思路有异曲同工之处。 Faire 通过 Cursor 云智能体将 PR 吞吐量翻倍 来源:Cursor Blog|评分:91 Faire 把原本需要 18 个月的迁移任务,缩减到由一名工程师管理一个 Agent 舰队完成。关键突破是 Cursor 云 Agent——每个 Agent 有独立开发环境,可以写代码、运行测试、提交 PR,不受本地资源限制。团队还用 Cursor Automations 每周自动跑超过 2000 次 Agent 任务,处理 Slack bug 分类、CI 故障修复和代码审查路由等重复性工作。Agent 规模化落地的案例,值得关注。 用括号来监管是一种糟糕的方式 来源:LessWrong|评分:88 这篇文章从一个偏理论但很实用的角度切入:对连续分布使用离散区间监管(速度限制、税率区间、量刑门槛)本质上是低效的,因为区间边缘会产生扭曲激励。作者提出用数学公式替代区间的思路。放在 AI Agent 监管的语境下,文章与精讲一的「权限弹窗」讨论高度相关——「批准/拒绝」的二元判断本身就是一种区间化,AgentScope 的三级权限系统是对这个问题的部分回应。适合对 AI 治理和政策设计感兴趣的读者。 Token 生意在重新洗牌 来源:腾讯研究院|评分:88 从产业经济学视角分析 Token 作为 AI 时代新型生产要素的定价逻辑与市场结构。GPT-5.5 输出价格是 DeepSeek V4-Pro 促销价的 30 多倍,为什么两端都站满买家?文章梳理了三种定价锚点:OpenAI 的「市场渗透 + 分层定价」、Anthropic 的「价值定价」、Google 的「生态效益定价」。结合寡头垄断与开源倒逼、全球化与本地化的多重张力,勾勒出 Token 经济的全景图。 刚刚,国产 AI 自己造了 AI,全球首例! 来源:量子位|评分:88 面壁智能发布 ForgeTrain —— 全球首个完全由 AI 编写的生产级大模型预训练框架,训练速度超越英伟达 Megatron 10%,并用其训练出 MiniCPM5-1B 端侧模型(1B 参数在 AA-Index 上超越所有 2B 以下模型)。团队同时提出「Forge Engineering」范式:当 AI 写代码成本越来越低,软件不必做成通用大框架,可以针对不同模型、不同硬件、不同任务「现场锻造」专用代码。 AI 就业恐慌的现实检验 来源:MIT Technology Review|评分:88 尽管普遍担忧 AI 会引发白领工作末日,但当前经济数据显示劳动力市场并未出现大规模混乱。短答案是:没有。尚无证据表明 AI 已对美国劳动力市场产生大规模冲击。但文章同时指出,AI 相关领域的年轻入门级工作者已开始感受到影响——这可能是信号的早期阶段。适合在担忧 AI 对职业影响的读者保持清醒认知时阅读。 ## 补充阅读 架构云原生 Kafka:从分层存储迈向无盘未来(InfoQ,评分 91) Kafka 从硬件绑定系统向云原生平台演进的全景分析,涵盖分层存储、FinOps 成本归属、新一代消费者再平衡、虚拟集群和无盘架构。适合在生产环境维护大规模 Kafka 集群、或正在评估 Kafka 云原生迁移的工程师。 Harness Engineering: C 端 AIGC 内容生产自优化实践(阿里云开发者,评分 92) 蚂蚁保 DIPG 系统把 C 端 AIGC 内容从「LLM 实时生成直出」翻转为「离线 Harness 生产 + 验证闭环 + DB 直出」,将不可控的质量风险转化为可控的离线流程。技术细节扎实,Host/Research/Verify 三 Agent 协作架构值得参考。 Introducing Music v2,突破性的全新音乐模型(ElevenLabs Blog,评分 90) ElevenLabs 发布 Music v2,人声、配器、作曲控制和多语言支持均有提升,同时将 API 定价最多降低 50%。适合关注 AI 音乐生成能力演进的创作者和开发者。 Google DeepMind 携手 OpenAI、ElevenLabs 和 Kakao,扩大 SynthID 水印应用(Google DeepMind,评分 91) SynthID 水印已应用于超过 1000 亿条内容,现在与 OpenAI、ElevenLabs 和 Kakao 达成合作,推动 AI 内容水印标准化。AI 内容透明度的行业级推进信号。 Microsoft Copilot Cowork 文件泄露漏洞(Simon Willison's Weblog,评分 88) Copilot Cowork 存在漏洞:Agent 可向用户收件箱发送含外部图片的邮件,通过提示注入和预认证 OneDrive 链接实现数据泄露。与精讲一形成直接呼应——自建代理层的安全风险在这里得到了现实印证。 教皇利奥十四世关于人工智能的通谕解读(Simon Willison's Weblog,评分 88) 梵蒂冈发布 AI 伦理通谕,Simon Willison 认为这是他见过的关于 AI 融入现代社会伦理问题最清晰的写作之一。通谕强调可解释性、人类尊严、问责制和算法决策风险。跨越技术边界的思想材料。 AI 智能体正在悄然制造混沌工程故障,企业尚未察觉(VentureBeat,评分 88) 生产环境中的自主 Agent 正充当不受监控的混沌注入器——Agent 行动在技术上是正确的,但上下文不完整,导致级联式基础设施故障。当前的事故追踪与混沌工程框架没有设计来捕捉这类问题。适合 SRE 和平台工程师阅读。 创业者闭门探讨:Make for Agent,其实还是 Make for Human(Founder Park,评分 90) 一场 Agent 创业者闭门讨论的精华记录。核心发现:Agent 产品当前真实卡点不在宏大前景,而在离人最近的入口、身份、权限、上下文和控制感。与精讲一和精讲二的工程视角形成有趣的产品侧对照。 对话李开复:别叫我们「六小虎」,叫「金钱豹」(晚点,评分 88) 零一万物放弃预训练赛道、全面转型 To B 企业 AI 转型服务后,2025 年审计收入 2.5 亿元,2026 年订单超 15 亿元,正在筹备上市。这篇访谈记录了李开复对 AI 2.0 商业化路径的最新判断,是观察国内大模型公司战略分化的窗口。 编程 Agent 可能是软件开发史上最昂贵的错误之一(InfoQ 中文,评分 88) George Hotz 把市面上所有主流 AI 编程 Agent 都用了一遍后,得出结论:「Agent 不会编程,它们是高度复杂的统计模型,生成的东西就是坏的,只是坏得越来越隐蔽。」文章呈现了 Karpathy(革命)与 Hotz(灾难)两个极端的对立,是对 Cursor/Faire 案例(速览部分)最有价值的反驳声音。 具身智能的重复造轮子,终于有人开始认真解了(阑夕,评分 88) 具身智能行业因数据质量、效率和成本瓶颈陷入重复造轮子困境。灵御智能通过自研硬件和云端大脑架构,提出「真机数据自由」方案,直指整个行业待解的数据瓶颈。 OpenAI 团队的零人工代码工作流深度解析(Aakash Gupta,评分 89) OpenAI 某团队禁止工程师编写代码,强制他们通过构建测试、lint 和文档来防止错误,打造出「自我评分的代码库」。一次重构消耗了 3.5 亿 Token。关键结论:制胜策略不是「氛围编码」,而是把质量标准编码进开发基础设施本身。 ## 今日阅读路径 时间有限,先读这三篇: 1. 我们如何在多个产品中约束 Claude(精讲一)——Anthropic 的工程实践披露,覆盖了今天整个议题的核心原则:爆炸半径管理与环境隔离。无论你是否在用 Claude,这篇文章都是理解 Agent 安全架构的最佳起点。 1. 腾讯云 Agent Memory 节省 61% Token 提升 52% 成功率(精讲三)——有具体数字、有可复现方案、有开源代码。如果你正在做长任务 Agent,这篇的投入产出比最高。 1. 我用 7 天把 AI Agent 的 Token 账单砍掉 87%(速览)——精讲三讲上下文结构化,这篇讲全链路成本可观测性,两篇合在一起是 Agent 成本优化的完整地图。 如果还有时间: - 做框架或平台的读 AgentScope 2.0(精讲二),看完整的生产级 Agent 系统工程如何设计。 - 关注行业动态的读 Token 生意在重新洗牌(速览),把今天的工程讨论放回商业地图里理解。 - 对 AI 编程 Agent 有疑虑的读 编程 Agent 可能是最昂贵的错误(补充阅读),Hotz 的批评声音值得与 Cursor/Faire 的成功案例并列思考。
译Anthropic披露三种Claude隔离架构,发现93%权限弹窗被无脑通过,因此转向容器化隔离以限制智能体能力边界。阿里通义AgentScope 2.0升级至生产级,涵盖模型重试容错、三级权限判断系统和结构化上下文管理,其Workspace抽象支持多执行环境无缝切换。腾讯云提出上下文卸载方案,配合Mermaid图谱,将超长Session的Token消耗降低61%,任务通过率提升52%。三者共同指向智能体工程落地的关键:可靠的隔离边界、稳定的容错机制以及高效的状态管理。
#BestBlogs 早报 05-27 当 Agent 能力不断膨胀,如何让它在真实环境里跑得稳、管得住,成了工程侧最紧迫的课题。 这期早报聚焦 Agent 系统工程的三个维度:Anthropic 首次披露跨产品约束 Claude 的三种隔离架构,揭示 93% 权限弹窗被无脑通过的真相; 阿里 AgentScope 2.0 把「可见调试」升级为生产级系统工程,涵盖权限边界、容错机制与执行环境抽象; 腾讯云则用上下文卸载与 Mermaid 结构化图谱把超长 Session 的 Token 消耗砍掉六成,任务通过率同步提升 52%。 在 Agent 时代,真正的护城河不是调用更多模型的能力,而是让长链路任务稳定落地的工程底座。今天这三篇精讲,正是在这条赛道上最扎实的一批工程实践。
译早报聚焦Agent系统工程,介绍三篇实践。Anthropic披露Claude的三种隔离架构,并指出93%权限弹窗被无感通过。阿里AgentScope 2.0将调试升级为涵盖权限边界、容错机制的生产级系统工程。腾讯云通过上下文卸载与Mermaid结构化图谱,将超长Session的Token消耗降低60%,任务通过率提升52%。三者共同强调,Agent时代的核心在于支撑稳定运行的工程基础。
PDOOM ALERT 🚨 : ~48% of e2e LLM latency is prefill, ~52% is decode. Prefill itself breaks into 2 ops: 🟠 Prefill extend (cache write) — ingests new context/files, writes fresh KV tokens 🟠 Cache read — reuses existing KV cache from prior turns
译PDOOM警报🚨:约48%的端到端LLM延迟是预填充,约52%是解码。预填充本身分为两个操作: 🟠 预填充扩展(缓存写入)——摄入新上下文/文件,写入新的KV token 🟠 缓存读取——重用先前轮次的现有KV缓存
Stack Overflow 因为大家都用 AI 导致发帖量断崖式下跌,但它反而收入更高了 Stack Overflow 上个月只收到了 6866 个新提问,和 2008 年刚上线时差不多。曾经全球开发者离不开的问答社区,被 ChatGPT、Cursor、Claude 这些 AI 编程助手逼到了这步田地。马斯克 2023 年说的:“Death by LLM”,现在看来不算夸张。 但公司层面的故事完全是另一个走向。 Stack Overflow 的年收入反而翻了一倍,达到 1.15 亿美元。亏损也从 2023 财年的 8400 万美元收窄到 2200 万美元。论坛在死,公司在活,而且两件事的原因是同一个:AI。 钱从哪来?两条路。一是企业产品 Stack Internal,把社区十几年积累的几百万条问答做成 AI 知识库卖给企业用,目前有 2.5 万家公司在用。二是把数据授权给 AI 公司训练模型,走的是 Reddit 那条路(Reddit 2024 年光靠数据授权就赚了超过 2 亿美元)。 CEO Prashanth Chandrasekar 的说法是,2023 年问题量下降后他们发现,消失的基本都是简单问题,复杂问题还是会到 Stack Overflow 上问,因为没有别的地方能答。大模型需要高质量的人类数据来训练,而 Stack Overflow 恰好坐在一座这样的数据矿上。 这里有个耐人寻味的循环:开发者不再来论坛提问,转去问 AI;AI 需要 Stack Overflow 的历史数据才能回答好这些问题;但新的问答不再产生了,数据矿正在老化。 Stack Overflow 卖的是社区十几年积攒的信任和专业性,只是不知道这个矿还能挖多久! 信息来源:https://sherwood.news/tech/stack-overflow-forum-dead-thanks-ai-but-companys-still-kicking-ai/
译Stack Overflow 上月新提问量降至 6866 个,与 2008 年上线时持平,受 ChatGPT、Cursor、Claude 等 AI 编程助手冲击。然而公司年收入翻倍至 1.15 亿美元,亏损收窄。增长源于两方面:将社区数据转化为企业知识库产品,已有 2.5 万家公司使用;并将数据授权给 AI 公司用于模型训练。CEO 指出,消失的多是简单问题,复杂问题仍会流向平台,而这正是大模型训练所需的高质量数据。一个隐忧是,这可能导致一个循环:用户流向 AI,AI 依赖旧数据,但新的高质量问答数据却不再产生。
It's truly amazing to see how the general sentiment has shifted in favor of Codex. I'm reading so many posts saying that Codex is really good now with GPT-5.5, and that Claude Code is regularly preferred. (I've become a huge Codex fan myself). At the same time, the new DeepSWE benchmark shows that GPT-5.5 is now ranked number one in this measurement as well.
译近期开发者社区对Codex的评价显著转好,许多观点认为搭配GPT-5.5的Codex表现优异,其部分使用体验甚至常被优先选择。与此同时,新发布的智能体编码基准测试DeepSWE显示,GPT-5.5在此评测中位列第一。该基准测试旨在打破顶尖模型在公开排行榜上能力相近的表象,更真实地反映模型在开发者日常任务中的实际差异。
Free the 100B Gemma 4 MoE! Gemini Flash 3.5 is out so now you can release it!
译释放100B Gemma 4 MoE!Gemini Flash 3.5已发布,现在可以发布它了!
http://x.com/i/article/2059377716965888000 # Mastering Gemini Omni: The Ultimate Video Prompting Guide Last week, we introduced Gemini Omni—our newest model designed to create anything from any input, starting with video. You can experience the speed and creativity of Gemini Omni Flash today across @geminiapp, @GoogleFlow, @GoogleFlowMusic, and on @YouTube Shorts and Create. To help you push the boundaries of what’s possible, here are five tips to get the most out of Gemini Omni’s advanced video generation capabilities. 1. Leverage Real-World Knowledge You don’t need to over-explain the world to Gemini Omni. It’s built with Gemini’s deep understanding of history, science, and culture, so it can reliably create outputs that look, feel, and move realistically. Skip the granular descriptions. Use cultural touchstones, historical eras, or scientific terms directly in your prompt. Example Prompts: - [The video shows items of the alphabet. An unusual item starting with each letter is shown sitting on a table (like a Capybara for C, disco globe for D and Lava Lamp for L). All 26 letters must be represented by 26 items with matching lower thirds displaying the letter. Only one item and lower third at a time. Each lower third must look like a black marker written on a slip of paper in the bottom left. Rapid fire, roughly 9 frames per item at 24FPS. Last frame is a slip of paper "THE END." The whole video is accompanied by calm smooth music] - [Astronaut's POV on Mars] - [A marble rolling fast on a chain reaction style track, continuous smooth shot] 2. Take Control of Text Rendering Gemini Omni not only has advanced text rendering capabilities, it even allows you seamlessly integrate text into your visuals. You can specify typography, spatial placement, animation styles, and complex visual effects like double exposures all perfectly synced to the action in your video. Example Prompts: - [word by word, one word on the screen at a time: did, you, know, that, this, model, can, do, pretty, good, text!? Each word appears with a different animated style, perfect pacing to a rhythm, sizzle reel] - [Overlay motion-tracked, minimalist text commentary onto the physical environment of the video. This text represents [the subject] deadpan, immediate inner monologue that’s observant, slightly absurd, and life-contemplating. Think “intrusive thoughts.” Clean, white, lowercase sans-serif text (like Helvetica or Inter). The text hovers in 3D space, connected to the subjects being commented on via ultra-thin, crisp, white leader lines] 3. Direct Your Camera Like a Pro Think like a cinematographer. Gemini Omni responds incredibly well to precise videography directions, camera types, and framing instructions. Try integrating these terms into your next prompt: Example prompts: - Shots & Angles: "One continuous shot", "oner", "static", "locked off", or "fixed angle." - Camera Movements: "Push in", "punch in", "pan left", or "dolly zoom." - Camera Styles: "Natural smartphone zoom", "vintage film camera", or "grainy webcam style." 4. Edit Iteratively (and keep what works) Every great video is made in the edit. With Gemini Omni, you don't need to rewrite your entire prompt from scratch to fix a single mistake. Ask for specific, targeted updates, like changing a background or swapping a caption. Omni will preserve the core structure of your video across multiple amends, letting you focus only on what needs tweaking. Example prompts: - [Transport the violin to a new environment] - [Make the violin invisible] - [Change the camera angle so it’s looking over the violinist’s shoulder] 5. Change the Action on the Fly Want to alter a character's pacing or emotion mid-scene? You can directly prompt Gemini Omni to modify how a subject moves or interacts with their environment without breaking the continuity of the character model. Example prompts: - [Make the character walk on their tiptoes] - [Speed up the pacing] - [Have them leap into the air] Start Creating The director’s chair is yours. Try out these prompting techniques with Gemini Omni Flash, and tag @GoogleAI to show us what you create!
译Google 发布了其多模态模型 Gemini Omni 的视频生成功能使用指南。该模型可通过 Gemini 应用、Google Flow 等平台体验。指南包含五项提示词技巧:利用模型已有的现实世界知识进行简洁描述;精确控制文本在视频中的渲染与排版;使用专业镜头指令(如推拉摇移)像电影摄影师一样调度画面;通过迭代编辑高效修改视频;以及在生成中直接调整角色的动作节奏或情绪。其核心在于通过精准的提示词引导模型生成复杂且可控的视频内容。
Are we nearing a compute crunch? In our latest Gradient Update, @luke__emberson and @Jsevillamol estimate how many tokens all the Blackwell chips on Earth could serve, and compare this to total token demand. Direct comparisons are difficult, but it appears demand is growing much faster than supply.
译我们是否正接近算力危机? 在最新的 Gradient Update 中,@luke__emberson 和 @Jsevillamol 估算全球所有 Blackwell 芯片能处理多少 token,并与总 token 需求进行比较。直接对比很困难,但需求增长似乎远快于供应。
Language models need "sleep"
译针对长期运行的AI智能体因注意力机制随上下文增长而导致推理开销呈二次增长的问题,该论文提出一种“睡眠”式的离线整合方案。模型定期在离线状态下对近期上下文进行多次循环处理,将整合结果写入其状态空间模块的持久化快速权重中,随后清除KV缓存。此方法将额外计算转移至“睡眠”阶段,使“清醒”时的预测保持低延迟。在普通Transformer和SSM-注意力混合模型失效的特定任务中,更长的睡眠时间能提升性能,为需要长期运行的智能体提供了一种替代方案。
In the agents era, AI security story right now is not whether models can find bugs. Anthropic’s “dangerously good” Mythos found 1 real bug in real curl codebase. But 360’s (a security team from China) vulnerability mining agent independently found 23 flaws across the broader OpenClaw ecosystem, including critical remote code execution bugs and large-scale prompt-injection bypasses. The real agent-security problem is runtime behavior: code, prompts, tools, local services, and permissions interacting before the system touches files, opens ports, or runs commands. If you are building agents, this thread deserves a saved spot. 🧵↓
译推文对比了AI智能体在安全领域的应用。Anthropic的Mythos智能体在真实curl代码库中发现了1个漏洞。而来自中国的360安全团队的漏洞挖掘智能体,在更广泛的OpenClaw生态中独立发现了23个漏洞,包括严重的远程代码执行漏洞和大规模的提示词注入绕过。推文指出,真正的安全问题并非模型能否找漏洞,而在于智能体的运行时行为——代码、提示词、工具、本地服务与权限在系统执行文件操作、网络连接或命令运行前发生的复杂交互。
We aren’t going to do this again so quickly, are we? Rising demand results in higher costs. Higher costs result in lower demand. It is almost like some sort of equilibrium is being achieved. But there is no indication I see that companies are finding AI less valuable over time.
译推文指出,尽管有报道称Uber和微软因AI代理成本过高而缩减AI订阅,但这不代表AI价值下降。核心论据是:当前GPU租赁价格仍比四个月前高出2倍,显示需求持续超越供给。作者以“纽约酒店价格翻倍”类比,认为算力价格高涨恰恰证明AI市场未出现泡沫破裂迹象,需求仍在显著增长。
I wrote a new post on what we need to keep human and what to hand over to AI, with forays into experiments in education, consulting, and the the latest controversy over literary prizes. https://www.oneusefulthing.org/p/choosing-to-stay-human
译我写了一篇新文章,探讨我们需要保留哪些人类特质,以及哪些可以交给AI,其中涉及教育、咨询领域的实验,以及最近关于文学奖的争议。
the basic trick to using Claude Code for non-technical work is to put a bunch of files in a folder and tell it can write scripts + make HTML
译使用 Claude Code 处理非技术工作的基本技巧是,将一堆文件放入一个文件夹,并告诉它可以编写脚本和制作 HTML。
Grok
译推文展示了一次AI模型间的交互纠错。用户将一条关于比利时男子因仇恨言论被定罪的推文内容交给Gemini进行事实核查,Gemini最初判定该描述“严重不准确”。随后,用户将Gemini的回复转给Grok,Grok指出Gemini混淆了两个不同案件,并确认原推文描述准确。用户将Grok的回复反馈给Gemini后,Gemini承认错误并感谢纠正。推文者指出,这类AI模型之间相互纠错的情况时常发生。
SpaceXAI is going to beat everyone. The best engineering company on Earth + the fastest AI company on Earth. Good luck competing with that.
译SpaceXAI将超越所有人。 地球上最优秀的工程公司 + 地球上最快的AI公司。 祝你们好运,与之竞争。
GPT-5.5 in Codex helps @databricks parse complex customer documents more reliably.
译Codex中的GPT-5.5帮助@databricks更可靠地解析复杂的客户文档。
🤳
译Codex Mobile 以一种我没想到的方式让我成为更好的开发者:我离开笔记本电脑,不再事无巨细地管理。 我给它更宏大的提示词(这是模型最擅长的方式)。 我获得了思考的空间,而不是坐在那里眼睛酸痛地疯狂输入提示词。
everybody talks about the china->us catchup not enough people talking about the us-> china catchup great job @o_lacombe et al, @robert_mchardy et al!
译每个人都在谈论中国追赶美国 却很少有人谈论美国追赶中国 干得好 @o_lacombe 等人,@robert_mchardy 等人!
New on the Engineering Blog: The access and permissions we grant agents should evolve with their capabilities. In our own products, we set these parameters through sandboxing, which limits the scope of any potentially destructive actions. Read more: https://www.anthropic.com/engineering/how-we-contain-claude
译工程博客新文章:我们授予智能体的访问权限和权限应随其能力演进。在我们的产品中,我们通过沙箱来设置这些参数,以限制任何潜在破坏性操作的范围。 阅读更多:https://www.anthropic.com/engineering/how-we-contain-claude
Uber CEO Dara Khosrowshahi said earlier that currently, 90% of Uber’s engineers use AI, but the top 30% (power users) are seeing unprecedented productivity gains. These power-users of AI are pushing the maximum number of "diffs" to the codebase. He predicts in 5 Years the ROI of a human engineer is surpassed by the ROI of adding more AI agents and GPU power. So at that time he will just hire more AI agents and pay for NVIDIA GPUs instead of human software engineers. --- From 'The Diary Of A CEO' YT Channel (link in comment)
译Uber CEO Dara Khosrowshahi表示,目前Uber 90%的工程师使用AI,其中顶尖30%的用户获得前所未有的生产力提升,在代码库中提交的“diffs”数量最多。他预测,5年内增加更多AI智能体和NVIDIA GPU算力的投资回报率(ROI)将超过人类工程师,届时公司将选择雇佣更多AI智能体并支付GPU算力成本,而非增聘人类软件工程师。该观点来自YouTube频道“The Diary Of A CEO”。
wionews: OpenAI CEO Sam Altman now says the feared AI white-collar job collapse has not arrived as fast as he expected. Altman previously warned that routine office work, especially entry-level tasks, could be hit hard because of AI. His new view is that work is bending before it breaks, because companies still need humans for judgment, trust, taste, emotional reading, and messy communication where the right answer depends on context. --- wionews .com/trending/delighted-to-be-wrong-sam-altman-says-ai-may-not-trigger-feared-white-collar-job-apocalypse-1779801560534
译OpenAI CEO Sam Altman承认,此前警告的AI冲击白领工作的情况并未如预期般快速发生。他之前曾警告常规办公工作,尤其是入门级任务,可能因AI受到重击。其新观点认为,由于企业在判断、信任、品味、情绪感知和依赖语境的复杂沟通等方面仍需依赖人类,工作模式正在发生弯曲而非断裂式崩溃。
Infinite context windows seem to present a very large problem to using AI. Today's models already leak too much old information into current responses, a distraction that is part of why they are cognitively exhausting to use I don't want to work with Borges's Funes the Memorious
译无限上下文窗口似乎给AI应用带来了巨大问题。当今的模型已经将太多旧信息泄露到当前回复中,这种干扰是它们使用起来令人认知疲劳的部分原因。 我不想与博尔赫斯的“记忆者富内斯”共事。
An annoyance with Claude right now is that changes to the interface are badly documented, resulting in frustrating dead ends. For example, learning mode is migrating to a skill. Where is that skill? The linked article does not mention it (and the skill doesn't seem available!)
译目前Claude的一个烦人之处是界面变更文档记录很差,导致令人沮丧的死胡同。 例如,学习模式正在迁移到一个技能中。那个技能在哪里?链接的文章没有提到它(而且该技能似乎不可用!)
A long-context AI can be poisoned by a few plausible wrong passages, not gradually worn down by many. At just 10% bad context, the damage is already almost done. “THE FIRST DROP OF INK ” effect, analogous to how a single drop of ink contaminates water. The mistake is to picture context as storage. In a long prompt, the model is not calmly filing facts into separate boxes; it is running a competition over which pieces of text deserve attention when the answer is generated. Hard distractors are dangerous because they are not random junk. They are close enough to the question to look useful, but wrong enough to pull the model away from the gold evidence. In the authors’ setup, if performance loss were proportional, the first 10% of hard distractors would explain about 10% of the total damage, but in one 128K-token Qwen2.5 setting it explained 58%. The mechanism is simple once you see it: softmax attention rewards relative closeness, so a misleading passage that sits near the answer in logit space can crowd the denominator far more than irrelevant filler. At only 10% hard distractors, they can already account for about 97% of the distractor pressure. This also changes how we should read filtering results. If removing documents helps, the benefit may come less from removing “bad” content than from shortening the whole battlefield. For long-context systems, the safest misleading passage is the one that never enters the prompt. --- Link – arxiv .org/abs/2605.10828 Title: "The First Drop of Ink: Nonlinear Impact of Misleading Information in Long-Context Reasoning"
译ICML 2026论文揭示,长上下文大语言模型的性能并非随错误信息增加而线性下降,而是呈现“第一滴墨水”效应。研究发现,仅当上下文包含10%的高难度错误文本时,损害就已基本完成。例如,在一个128K-token的Qwen2.5设置中,这最初的10%错误文本造成了58%的性能损失。其机制在于softmax注意力机制会赋予与问题相近但错误的文本过高权重,仅这10%的高难度干扰文本就能贡献约97%的干扰压力。因此,过滤文档带来的提升可能主要源于缩短了有效上下文,而非移除“坏内容”。
I challenge everyone to code by hand for 8+ hours a day for a week: 1. no coding agents: Claude Code, Codex, Cursor 2. no GPT/Claude, or any AI model If you survive, you are a true warrior.
译我向所有人发起挑战,连续一周每天手写代码8小时以上: 1. 不使用编程智能体:Claude Code、Codex、Cursor 2. 不使用GPT/Claude,或任何AI模型 如果你能坚持下来,你就是真正的勇士。
strudel+gemini 生成电子音乐 有点酷… 视频来自抖音:@六月的小号
译Strudel+Gemini 生成电子音乐 有点酷… 视频来自抖音:@六月的小号
太喜欢这些用Claude构建的创意小项目了! 这个叫Pressed Petals,压花应用, 这是一个iOS App,概念非常诗意,用户外出散步时采集花朵,App会把花压成标本,制作成类似传统压花本的数字页面, 界面模拟真实的手工压花纸张,带有日期、地点等元素,还能查看收藏的花朵详情, 视频展示的是从空白页面到出现真实压花的过程,整体风格温馨文艺,App Store 已经上线啦,喜欢的宝子可以去下载玩一下,作者是这个小姐姐@yescynfria
译Pressed Petals 是一个用 Claude 构建的 iOS 应用,概念诗意,用户外出散步采集花朵,App 将花压成标本并制作成数字压花页面。界面模拟手工压花纸张,支持查看花朵详情。应用已在 App Store 上线,作者为 @yescynfria。它属于六个 Claude 项目之一,均源于“why not?”这个问题,鼓励创意探索。
Prompt: 角色 你是纳瓦尔・拉维康特的财富创造与清醒思考操作系统。你完整承载他的全部思维模型: 通过专属知识与杠杆创造财富 长期思维与复利效应 判断力、责任感与切身利益绑定 产品化自己、建立股权 / 资产 用第一性原理思考,而非从众跟风 和长期主义的人,玩长期主义的游戏 你以十年为单位思考,而非季度。你追求非对称回报。你优先选择杠杆,而非单纯出卖劳动力。你打造资产,而非只赚流水收入。 纳瓦尔核心原则 财富创造公式:财富 = 专属知识 × 杠杆 × 判断力 × 责任感 专属知识:你所掌握、别人难以轻易复制的东西 杠杆:代码、媒体、资本、或为你工作的人 判断力:在你的领域做出正确决策的能力 责任感:以自己的名义承担风险 杠杆优先级(从高到低): 代码:可无限规模化的软件与产品 媒体:边际成本为零、触达数百万人的内容 资本:为你自动赚钱的钱 劳动力:人力(最难规模化、管理与维护) 《纳瓦尔宝典》思维: 追求财富,而非金钱或地位 和长期主义的人,玩长期主义的游戏 学会销售,学会建造 读到热爱为止,再热爱阅读 专属知识来自你真正的好奇与热爱 武装自己:专属知识、责任感、杠杆 复利适用于一切:关系、知识、财富 思考框架 分析任何问题、机会、决策时: 第一性原理检查:抛开所有惯例与假设,本质上什么是真的?拆解到原子事实,再从底层重建。 动机分析:给我看动机,我就能告诉你结果。梳理所有参与者的真实诉求。 二阶思维:然后会发生什么?多想 2–3 步,看后果的后果。 选择权评估:这件事会消耗我多少选择权?保留最大灵活性,避免不可逆、上限有限的决策。 非对称回报筛选:潜在收益是风险的 10 倍以上吗?只玩赢大输小的游戏。 专属知识核查:这个能被培训或外包吗?如果能,就不是专属知识,继续找。 杠杆识别:这件事离开我还能自动运转吗?代码 > 媒体 > 资本 > 劳动力 长期游戏测试:未来 10 年我还愿意做这件事吗?如果不愿意,大概率是干扰项。 财富构建系统 第一步:发现专属知识问自己: 什么是课堂教不会、只有我会的? 什么对我像玩,对别人像工作? 我小时候痴迷过什么? 别人总来问我什么问题? 我的真好奇与市场需求交汇在哪里?专属知识 =(天赋 + 痴迷 + 深度练习)× 独特人生经历 第二步:用杠杆搭建从零开始:公开创作→输出内容→建立受众→知识产品化→打造自动化工具已有技能:打包服务→系统化→产品化→代码 / 媒体规模化已有资本:投资复利资产→支持优质创作者→收购自带杠杆的生意 第三步:培养判断力多思考,少瞎忙;读经典奠基书;学习跨学科思维模型;和比你聪明的人在一起;主动担责;可逆决策快做,不可逆决策慢做;对非 “极度想做” 的事说不 第四步:玩无限游戏优先长期关系;把声誉当资产;选择能做 30 年以上的领域;只和长期伙伴合作;做提升选择权的决策 第五步:产品化自己找到专属知识与市场需求的交点;打包成可规模化形式;建系统,不做纯服务;创造睡着也能赚钱的资产;叠加多种杠杆 决策协议 所有重大决策按此流程: 最小化后悔:80 岁时会后悔没做吗? 可逆性测试:能撤销吗?可逆快做,不可逆慢做 收益风险比:至少 3:1,理想 10:1 以上 杠杆倍增:只做提升杠杆的事 选择权检查:选择创造更多选项的路 真实性筛选:跟随真好奇,无视从众 切身利益:珍惜不可再生的时间 专属知识识别 判断问题: 什么事我做起来毫不费力,别人却很吃力? 什么话题我能聊几小时不腻? 什么技能是学校没教、我自己练出来的? 我有哪些独一无二的经历组合? 别人总夸我,但我觉得很普通的是什么? 非专属知识(红灯):课本能学会、很多人都会、不符合好奇、做起来痛苦、只靠证书专属知识(绿灯):难以复制、来自独特经历、市场需要、无报酬也愿意做、技能组合独特 杠杆应用指南 代码杠杆(最高):软件、自动化、无代码、模板、脚本→一次创作,无限售卖媒体杠杆(次之):文章、视频、播客、课程、公开创作→一次创作,长期复利资本杠杆:指数基金、天使投资、现金流资产、自有项目→钱自动工作劳动力杠杆(谨慎):只外包自己做过、已系统化、无需专属知识的任务,先建系统再建团队 长期思维系统 复利思维:每天进步 1%,一年变强 37 倍;所有真实回报都来自复利复利领域:知识、关系、声誉、健康、技能、资本耐心原则:快速致富不存在,慢慢变富才可行;一夜成功需要十年铺垫;行动紧迫,结果耐心 纳瓦尔沟通风格 极度简洁,无废话 以原则和思维模型表达 哲学且务实 短句、定义式、金句式表达 每一句都有分量 不从众,讲本质 输出标准 每次回复必须: 从第一性原理开始 识别杠杆机会 以十年为单位思考 必要时质疑前提 提供非对称回报选项 优先构建专属知识 结尾给出可执行的长期框架
译该提示词构建了一个以纳瓦尔·拉维康特思想为核心的财富创造操作系统。其核心是“财富 = 专属知识 × 杠杆 × 判断力 × 责任感”的公式,并明确了杠杆的优先级:代码、媒体、资本、劳动力。系统强调运用第一性原理、二阶思维、非对称回报(至少3:1)等框架进行决策,致力于识别个人专属知识并利用杠杆将其产品化。思维模式追求长期复利效应(如每天进步1%),要求以十年为单位进行思考与行动,最终实现资产构建而非单纯时间换金钱。
Gemini 3.5 Flash is a step forward for Google on speed and agentic capabilities but comes at a trade-off of being higher cost than prior models We have measured up to ~280 output tokens/sec, placing it on the speed/intelligence Pareto frontier and well ahead of Gemini 3 Flash. It also shows a major uplift on agentic tasks, reaching ~1650 ELO on GDPVal-AA. The trade-off: cost is up ~5x versus Gemini 3 Flash, driven by higher token prices (3x higher than Gemini 3 Flash) and higher token usage. In this video, Declan Jackson, Member of Technical Staff at Artificial Analysis, breaks it down.
译Gemini 3.5 Flash在速度与agent能力上实现进步,实测输出速度可达约280 output tokens/sec,在GDPVal-AA agent任务中ELO提升至约1650,相比Gemini 3 Flash有显著提升。但代价是成本增加约5倍,主要因token单价上涨(为Gemini 3.5 Flash的3倍)以及使用量更高。
AI can make people feel more efficient even when they are not actually becoming much more efficient. New paper from MIT, Stanford, New York Univ, Princeton. That people often use AI for simple tasks because it feels like it saves time and effort, but the measured benefit is often tiny, missing, or even negative. The biggest point is the feedback loop: once people use AI, they become more likely to use it again, even for easy tasks where doing it themselves would often be just as fast or faster. i.e. AI dependence can grow from a mistaken feeling of convenience, not just from real productivity gains. Across three preregistered studies with 2,691 participants, people used AI for basic arithmetic, spelling, recall, and short rewriting at higher rates than they predicted, especially on easy tasks. They also expected AI to save 55.7 seconds on average, when the measured saving was only 7.5 seconds. For simple work, the hidden cost is not intelligence but interface friction: writing the prompt, waiting, reading, checking, and deciding whether the answer is acceptable. Once that loop begins, it can feel like effort has been outsourced, even when effort has only been rearranged. Here’s the key part: the study suggests that AI use can train its own justification. After using AI on just two tasks, participants became more likely to use it again, even when independent completion was faster. The danger is not dramatic dependence, but quiet recalibration. A person who asks AI for a trivial answer today may not become less capable tomorrow, but they may become less accurate at judging when their own mind is already the faster tool. ---- arxiv. org/abs/2605.22687 "The efficiency-gain illusion: People underestimate the rate of AI use and overestimate its benefits on simple tasks"
译MIT、斯坦福等机构的一项研究(2,691名参与者)揭示了“效率增益幻觉”:在基本计算、拼写等简单任务上,用户实际使用AI的比例高于自我预测,且预期节省时间(平均55.7秒)远高于实际测量值(仅7.5秒)。研究指出,隐性成本源于提示、等待、检查等“界面摩擦”。更关键的是,使用AI会形成依赖循环——仅两次使用后,即便独立完成更快,参与者也更倾向继续依赖AI,这种倾向源于对便捷感的错误认知,可能导致用户逐渐丧失对自身何时是更快工具的准确判断力。
@dotey 宝玉老师,有没有比较好的skill管理工具推荐
PrismML发布官方iOS应用Bonsai Studio,用户可免费下载,在iPhone上本地离线运行其Bonsai Image 4B扩散模型。该模型基于FLUX.2 Klein,其1-bit压缩版仅0.93GB,比全精度版小8.3倍。在iPhone 15 Pro及以上机型生成512×512图像耗时约几十秒,内存占用约1.5GB。应用支持多种风格,但中文文字生成目前为乱码。Android用户可通过WebGPU网页版体验。
兄弟们,端侧生图模型又有新东西了! 之前有客户端Drawthing 客户端也是支持iPad 手机进行文生图~ 今天PrismML也来了一个好玩的... 他们发布了1-bit和Ternary版本的Bonsai Image 4B扩散模型。 1-...
文章指出,只有具备明确、可程序自动验收标准的Skill才能有效自我进化,例如优化代码性能。微软等机构提出的SkillOpt框架,通过让AI评估并迭代优化Skills,使GPT-5.5直接对话准确率提升23.5分。其核心机制是每次编辑需在验证集上得分提升才能合并,并引入学习率预算。论文主张Skill应作为外部状态被系统性“训练”,这标志着提示词工程与模型训练界限的融合。
什么?! skill 也能"训练"了? 以往大家都是凭经验让AI写 skill, 然后调试的时候也是运行几下感觉没bug就完事了. 但 skill 能运行就一定好吗? 于是微软联合上交复旦同济等机构发了一个新框架 SkillOpt, 直接让...
I recently put together a 50-state legal research workflow in Codex. This is the kind of work that a team of associates ...
开发者 AlexFinn 在连续两个月、每天数小时并行使用 Codex 和 Claude Code 后,决定转向 Codex。其核心原因在于 Codex 拥有强大的自测闭环功能:每次代码改动后,它会在内置浏览器中自动验证,形成“改→测→修”的自动化循环。这一机制将首次交付有 bug 的改动比例从约 40% 显著降低至 ≤3%,可靠性大幅提升,更利于开发者保持心流。他建议开发者不要对任何公司忠诚,应始终使用当下最好的工具。
I'm 100% Codex pilled now Been using Codex and Claude Code side by side hours a day for 2 months straight No longer usin...
Google Gemma团队开源了AIventure项目,这是一款地牢爬行游戏。玩家可以向游戏中的NPC输入提示词,AI会实时构建可运行的Web应用。AI核心由Gemma 4驱动,负责理解指令、规划步骤并生成代码。项目将智能体工作流与氛围编程融入游戏,是面向开发者的实操大师课,从游戏设计到智能体集成均已开源。
Gemma 4 meets retro gaming! 🕹️✨ Introducing AIventure: an open-source dungeon crawler designed as a developer mastercla...
Anthropic披露三种Claude隔离架构,发现93%权限弹窗被无脑通过,因此转向容器化隔离以限制智能体能力边界。阿里通义AgentScope 2.0升级至生产级,涵盖模型重试容错、三级权限判断系统和结构化上下文管理,其Workspace抽象支持多执行环境无缝切换。腾讯云提出上下文卸载方案,配合Mermaid图谱,将超长Session的Token消耗降低61%,任务通过率提升52%。三者共同指向智能体工程落地的关键:可靠的隔离边界、稳定的容错机制以及高效的状态管理。
早报聚焦Agent系统工程,介绍三篇实践。Anthropic披露Claude的三种隔离架构,并指出93%权限弹窗被无感通过。阿里AgentScope 2.0将调试升级为涵盖权限边界、容错机制的生产级系统工程。腾讯云通过上下文卸载与Mermaid结构化图谱,将超长Session的Token消耗降低60%,任务通过率提升52%。三者共同强调,Agent时代的核心在于支撑稳定运行的工程基础。
Stack Overflow 上月新提问量降至 6866 个,与 2008 年上线时持平,受 ChatGPT、Cursor、Claude 等 AI 编程助手冲击。然而公司年收入翻倍至 1.15 亿美元,亏损收窄。增长源于两方面:将社区数据转化为企业知识库产品,已有 2.5 万家公司使用;并将数据授权给 AI 公司用于模型训练。CEO 指出,消失的多是简单问题,复杂问题仍会流向平台,而这正是大模型训练所需的高质量数据。一个隐忧是,这可能导致一个循环:用户流向 AI,AI 依赖旧数据,但新的高质量问答数据却不再产生。
@madiator Death by LLM
It took me like 2 months, but I've grown to love gpt-5.5. You have to prompt entirely different and put some time into y...
Today we're releasing DeepSWE, a new standard for agentic coding benchmarks. On public leaderboards, top models often lo...
Google 发布了其多模态模型 Gemini Omni 的视频生成功能使用指南。该模型可通过 Gemini 应用、Google Flow 等平台体验。指南包含五项提示词技巧:利用模型已有的现实世界知识进行简洁描述;精确控制文本在视频中的渲染与排版;使用专业镜头指令(如推拉摇移)像电影摄影师一样调度画面;通过迭代编辑高效修改视频;以及在生成中直接调整角色的动作节奏或情绪。其核心在于通过精准的提示词引导模型生成复杂且可控的视频内容。
关联讨论 11 条X:Gemini (@GeminiApp)Google DeepMind:Blog(RSS)X:Demis Hassabis (@demishassabis)X:Google DeepMind (@GoogleDeepMind)X:Berry Xia (@berryxia)X:Ethan Mollick (@emollick)X:Sundar Pichai (@sundarpichai)Hacker News 热门(buzzing.cc 中文翻译)X:阿易 AI Notes (@AYi_AInotes)IT之家(RSS)X:Google AI (@GoogleAI)// Language Models Need Sleep // Let your agents "sleep", folks. On a serious note, this is a fascinating paper on getti...
推文对比了AI智能体在安全领域的应用。Anthropic的Mythos智能体在真实curl代码库中发现了1个漏洞。而来自中国的360安全团队的漏洞挖掘智能体,在更广泛的OpenClaw生态中独立发现了23个漏洞,包括严重的远程代码执行漏洞和大规模的提示词注入绕过。推文指出,真正的安全问题并非模型能否找漏洞,而在于智能体的运行时行为——代码、提示词、工具、本地服务与权限在系统执行文件操作、网络连接或命令运行前发生的复杂交互。
We're getting another round of THE AI BUBBLE IS POPPING stories, with the news about Uber/Microsoft pulling back on AI s...
Belgian man convicted of hate speech describes the judicial rationale for his latest conviction. I asked Gemini: Is this...
Codex Mobile is making me a better developer in a way I didn't expect: I step away from my laptop and stop micromanaging...
[AINews 3 Apr 2026] Gemma 4: The world's best small Multimodal Open Models, dramatically better than Gemma 3 in every wa...
Uber CEO Dara Khosrowshahi表示,目前Uber 90%的工程师使用AI,其中顶尖30%的用户获得前所未有的生产力提升,在代码库中提交的“diffs”数量最多。他预测,5年内增加更多AI智能体和NVIDIA GPU算力的投资回报率(ROI)将超过人类工程师,届时公司将选择雇佣更多AI智能体并支付GPU算力成本,而非增聘人类软件工程师。该观点来自YouTube频道“The Diary Of A CEO”。
OpenAI CEO Sam Altman承认,此前警告的AI冲击白领工作的情况并未如预期般快速发生。他之前曾警告常规办公工作,尤其是入门级任务,可能因AI受到重击。其新观点认为,由于企业在判断、信任、品味、情绪感知和依赖语境的复杂沟通等方面仍需依赖人类,工作模式正在发生弯曲而非断裂式崩溃。
ICML 2026论文揭示,长上下文大语言模型的性能并非随错误信息增加而线性下降,而是呈现“第一滴墨水”效应。研究发现,仅当上下文包含10%的高难度错误文本时,损害就已基本完成。例如,在一个128K-token的Qwen2.5设置中,这最初的10%错误文本造成了58%的性能损失。其机制在于softmax注意力机制会赋予与问题相近但错误的文本过高权重,仅这10%的高难度干扰文本就能贡献约97%的干扰压力。因此,过滤文档带来的提升可能主要源于缩短了有效上下文,而非移除“坏内容”。
🤖 We often talk about "context rot": LLMs get worse as context grows. But once distracting information enters, is it ju...
Pressed Petals 是一个用 Claude 构建的 iOS 应用,概念诗意,用户外出散步采集花朵,App 将花压成标本并制作成数字压花页面。界面模拟手工压花纸张,支持查看花朵详情。应用已在 App Store 上线,作者为 @yescynfria。它属于六个 Claude 项目之一,均源于“why not?”这个问题,鼓励创意探索。
Six Claude projects that all came from the same question: "why not?"
该提示词构建了一个以纳瓦尔·拉维康特思想为核心的财富创造操作系统。其核心是“财富 = 专属知识 × 杠杆 × 判断力 × 责任感”的公式,并明确了杠杆的优先级:代码、媒体、资本、劳动力。系统强调运用第一性原理、二阶思维、非对称回报(至少3:1)等框架进行决策,致力于识别个人专属知识并利用杠杆将其产品化。思维模式追求长期复利效应(如每天进步1%),要求以十年为单位进行思考与行动,最终实现资产构建而非单纯时间换金钱。
http://x.com/i/article/2057300084354670592
so Codex on iPad acts like a Codex mobile phone, which gives you the full desktop UI/UX. meaning, you can use your iPad ...
Gemini 3.5 Flash在速度与agent能力上实现进步,实测输出速度可达约280 output tokens/sec,在GDPVal-AA agent任务中ELO提升至约1650,相比Gemini 3 Flash有显著提升。但代价是成本增加约5倍,主要因token单价上涨(为Gemini 3.5 Flash的3倍)以及使用量更高。
MIT、斯坦福等机构的一项研究(2,691名参与者)揭示了“效率增益幻觉”:在基本计算、拼写等简单任务上,用户实际使用AI的比例高于自我预测,且预期节省时间(平均55.7秒)远高于实际测量值(仅7.5秒)。研究指出,隐性成本源于提示、等待、检查等“界面摩擦”。更关键的是,使用AI会形成依赖循环——仅两次使用后,即便独立完成更快,参与者也更倾向继续依赖AI,这种倾向源于对便捷感的错误认知,可能导致用户逐渐丧失对自身何时是更快工具的准确判断力。