一篇来自中美顶级实验室的111页综述论文提出,AGI需要主动探索未知(认知探索),而非仅提升回答能力。论文将AI进展分为五级:responder(响应者)、reasoner(推理者)、agent(智能体)、prospector(勘探者)和ecosystem(生态系统),每级探索空间更广。核心强调智能体应通过获取有用信息、将困难经验转化为能力、避免过早锁定单一策略来降低不确定性,保持未来路径开放。
AGI needs agents that actively explore what they do not know, not just models that answer better. This new large (111 page) survey paper from from top labs across US and China talks about epistemic exploration, which means an agent should actively reduce uncertainty, learn near the edge of what it can do, and keep future paths open. Exploration is not randomness; it is the disciplined act of asking which observation would change your beliefs, which attempt would improve your skill, and which path must remain open before it closes. It breaks this into 3 needs: seek useful information, turn hard-but-learnable experiences into better ability, and avoid getting stuck in one narrow strategy too early. The authors organize AI progress into 5 levels: responder, reasoner, agent, prospector, and ecosystem, where each level explores a wider space than the last. A responder mostly gives an answer, a reasoner searches through possible thoughts, an agent tests the outside world, a prospector simulates futures, and an ecosystem uses many agents working together. Paper - "Agent Exploration Toward Artificial General Intelligence"
译一篇来自中美顶级实验室的111页综述论文提出,AGI需要主动探索未知(认知探索),而非仅提升回答能力。论文将AI进展分为五级:responder(响应者)、reasoner(推理者)、agent(智能体)、prospector(勘探者)和ecosystem(生态系统),每级探索空间更广。核心强调智能体应通过获取有用信息、将困难经验转化为能力、避免过早锁定单一策略来降低不确定性,保持未来路径开放。
苹果全新Siri AI演示视频 感觉还是非常基础的升级,端侧模型+云端模型 端侧负责处理手机本地的信息调用本机个人信息和感知场景 云端复制处理和执行复杂任务,基于Gemini 模型定制的,而不是完全采用Gemini的模型 演示感觉毫无激情可言😂 Siri 变成一个独立 App: 能自然对话、记得你的上下文、跨应用替你动手,还能看懂屏幕上和镜头前的东西。 照片、Safari、密码、快捷指令全都加了 AI。 拍完的照片能重新构图,浏览器标签自动归类,弱密码一键改,快捷指令用一句话就能搭出来。
译苹果发布全新Siri AI演示,定位为端侧+云端双模型架构。端侧负责调用本机个人信息与感知场景,云端基于Gemini模型定制(非完全采用)以处理复杂任务。Siri升级为独立App,支持自然对话、上下文记忆、跨应用操作,并能理解屏幕内容和摄像头画面。同时,照片、Safari、密码、快捷指令均加入AI功能:照片可重新构图,浏览器标签自动归类,弱密码一键修改,快捷指令一句话生成。
分享一个计算机视觉开发者必藏神器,4 万星GitHub开源! 不用自己写几百行画框跟踪代码, 一行命令搞定所有可视化, Supervision,CV 界真正的瑞士军刀。 1️⃣ 它到底有多强? 自动画框加标签,支持编号、自定义样式, 视频对象永久跟踪,ID 不乱跳,轨迹自动生成, 一键转换 YOLO/COCO/Pascal VOC 所有数据集格式, 内置热力图、区域计数、越线检测、人体骨架、人脸网格 模型无关,YOLO/Transformers/ 任何检测模型都能接, 2️⃣安装只要一句话 运行:pip install supervision 从 NBA 球员实时跟踪、交通路口车流量统计, 到工业缺陷检测、无人机目标追踪,所有你能想到的 CV 可视化场景,它全搞定。 3️⃣已经被 6500 + 个开源 CV 项目在用 现在就装,早用早爽, 做 CV 原型和演示的终极工具,没有之一!
译一行命令 `pip install supervision` 即可安装的计算机视觉可视化工具,支持自动画框加标签、视频目标永久跟踪、数据集格式一键转换,内置热力图、区域计数、越线检测、人体骨架等功能,模型无关,已被6500+开源项目使用。
Pick M3 as your base model on AgentBox to deploy with frontier coding, 1M-token context, and native multimodality all in one click.
译在AgentBox上选择M3作为你的基础模型,一键部署,即可获得前沿编码能力、百万token上下文窗口和原生多模态。
尝试给 http://BestBlogs.dev 开了一个英文新号,会分享一些精选博客、文章和创作者内容。 我的个人号还是会留给大家看看我自己的构建、开发和探索思考。 喜欢发现好内容的朋友,可以顺手关注一下 @BestBlogsDev
译洪明为内容推荐平台BestBlogsDev开设英文新号,分享精选博客与创作者内容,个人号保留构建与开发思考。引用推文回顾Claude Code过去一年的演进:从简单的编码助手成长为由数千自主agent组成的网络,可协作测试、修复、部署代码,无需人类逐级指导。AI在12个月内完成了从工具到协作者再到系统级编排者的转变,被视为新工程范式的诞生。
For the very first time Elon Musk explains the "space data center plan" of @SpaceX in detail and its AI1 orbital AI data center satellite - and suddenly it looks so much closer than I thought. He says "There’s not some magic necessary that doesn’t exist for AI satellites. As Ian said this is a lot of this is technology we’ve already made for the… we basically don’t think this is a super hard problem compared to things that we already do." 📌 Power and compute capacity: - 150 kW peak power - ~120 kW sustained/average compute power - Roughly equivalent to one full NVIDIA GB300 (or upcoming Rubin) rack in a typical data-center operating envelope (~140 kW peak is possible but 120 kW average is more realistic for sustained workloads). 📌 Solar array: - Assumed efficiency: 250 W/m² (expected to improve beyond this). - Large, deployable solar panels (evolutions of the solar arrays already flying on Starlink V3 satellites). 📌 Radiators (thermal management): - Double-sided design, oriented “knife-edge” to the Sun to minimize solar heating. - Heat rejection: ~1,400 W/m² (expected to improve). - Radiator panels are roughly the same size/scale as the Starlink V3 solar arrays (~70 m wingspan class). 📌 Design philosophy: - Significantly simpler than a Starlink satellite — no massive phased-array antennas or complex communications hardware. - Core elements: solar panels + radiators + compute chips + laser links. - Larger overall than Starlink sats but described as “the easier one to design for.” 📌 Connectivity: - ~1 terabit/s via inter-satellite laser links. - Can mesh with the existing Starlink constellation or link directly to ground. - Low latency: satellites planned for ~600–800 km altitude → light-travel time yields only ~6–8 ms round-trip (light travels ~300 km per millisecond). 📌 Deployment and operations: - Launched by Starship (the only vehicle capable of the required millions-of-tons-to-orbit scale). - Part of a future large constellation (potentially up to ~1 million satellites). - Orbital data centers can be networked together or routed through Starlink for terrestrial users. 📌 Manufacturing and timeline: - Production in Bastrop, Texas. - Solar manufacturing facility already under construction. - Dedicated AI satellite production building to follow. - Reasonable-volume production targeted by end of next year (2027). - Initial chips will use existing NVIDIA GB300/Rubin designs with SpaceX reference hardware; future scaling via a new “Terra Fab” chip factory (~100 million sq ft, 10× the size of Tesla Giga Texas). 📌 Scalability notes: - Near-term goal: gigawatt-scale orbital AI compute. - Longer-term: terawatt-scale and beyond, eventually using lunar mass drivers (electromagnetic rail-gun style) to launch photovoltaics and radiators from the Moon (no atmosphere + 1/6 g makes this feasible). - Starship is expected to increase annual mass-to-orbit from today’s ~2,500 tons to millions of tons per year within a few years.
译Elon Musk 首次详细解释 SpaceX 的 AI1 轨道 AI 数据中心卫星:峰值功率 150 kW,持续计算功率约 120 kW,相当于一个 NVIDIA GB300 机架;太阳能板效率 250 W/m²;双面散热器排热 1,400 W/m²。通过激光链路实现约 1 Tbps 互联,低轨 600–800 km 高度往返延迟 6–8 ms。由 Starship 发射,计划部署多达百万颗卫星,2027 年底前实现量产。近地目标为吉瓦级轨道 AI 算力,长期向太瓦级推进。
Apple的AI领先水平远远超乎人们的想象啊! 不信你看这个图就知道了!
译Tim Cook最后一次主持WWDC,9月1日交棒John Ternus,AI为核心。端侧3B模型AFM 3 Core,进阶层20B MoE仅限iPhone 17 Pro/M4设备,数据端到端加密。四大能力:个人上下文理解、世界知识检索、App Actions、屏幕感知。Siri升级连续对话/跨设备/视觉识别,上线独立App,仅英语且中国欧盟暂不可用。Image Playground支持写实生成;Xcode可选多模型;照片处理速度提升70%,AirDrop提速80%,应用启动加速30%。Agent多步任务自动化仍薄弱。
兄弟们!地主家家没有余粮了都! 天天烧Token 心里没有点b数啊? AI coding工具天天帮你狂飙代码,结果你连自己到底烧了多少钱都蒙在鼓里? 今天给大家推荐Lank 的Tokei这个macOS菜单栏小工具给你直接轻松拿捏它! 对了!开源免费啊!记得给Star啊! 它只读本地日志,零网络调用,30秒自动刷新,实时盯死Claude Code、Grok CLI、Aider、OpenCode等8个主流AI coding agent的token用量、实时成本、性能数据,还带每日图表、周热力图和年度Wrapped。 更绝的是它支持私人Git多设备同步,价格表还能本地覆盖,闲置太久还会提醒你该休息了。 以前大家只顾着堆agent、堆prompt去卷生产力,结果真正在烧钱的那些细节全被忽略了,现在Tokei直接把AI coding workflow从“爽用”变成了“精算”。 这套本地监控一装上,你才发现原来真正掌控AI生产力的,从来不是模型大小,而是你对每一次token消费的清醒。 地址见评论区👇
译Berry Xia 推荐开源工具 Tokei,这是一个 macOS 菜单栏小工具,只读本地日志、零网络调用,30 秒自动刷新,实时监控 Claude Code、Grok CLI、Aider、OpenCode 等 8 个主流 AI coding agent 的 token 用量、实时成本与性能数据,并附每日图表、周热力图和年度 Wrapped。支持私人 Git 多设备同步、价格表本地覆盖,闲置过久会提醒休息。引用推文指出,token 消耗情况可作为深度使用 AI 的面试亮点,数据全程私有,零侵入,无需任何认证。
Even though I want to test Apple's Intelligence myself: it looks very promising and could finally provide real access to AI for the millions of Apple users.
译尽管我想亲自测试Apple Intelligence:它看起来很有前景,可能最终为数百万苹果用户提供真正的AI访问。
Both Anthropic and OpenAI mention the possibilities of slowing AI development in their latest "what comes next" in AI posts, but say they need to be an action coordinated across the entire world using as-yet-unidentified methods.
译Anthropic和OpenAI都在它们最新的“接下来是什么”AI展望中提到了减缓AI发展的可能性,但表示这需要全球协调行动,并使用尚未确定的方法。
Claude Opus 4.8 是目前最好的编码模型,这件事应该没啥太大争议了,我自己跑了这么久体感也是这样。 Cognition(Devin 的公司)刚发布的 FrontierCode 基准测试,彻底改变了 AI 编程能力的评判标准: 不再只看“代码能不能跑过测试”,核心看看“维护者会不会愿意把这段代码合并进真实项目”。 以前的基准有多离谱?(黑人问号脸.jpg) 以前最火的评测叫 SWE-Bench,还有 TerminalBench 等, • 模型只要让测试通过就算“解决”了。 • 但 METR_Evals 研究发现:超过一半 通过测试的代码,其实是不可维护的垃圾代码(slop)——风格混乱、改动范围失控、埋技术债、违反项目规范。 • 真实维护者看到后根本不会 merge(合并)。 结果就是:基准分数虚高,实际落地时却一塌糊涂,说白了就是让模型学会了考试作弊,而不是真正写好代码🤣 Opus 4.8最强,但 Cognition 刚发的 FrontierCode 给这个结论加了一层我之前没想到过的限定词:最好的模型,离写出别人愿意维护的代码,还有很远的距离。 以前的基准只看测试过没过,模型学会的是刷分,而不是写代码。 有人查过,超过一半通过测试的 PR 其实是不可维护的垃圾, FrontierCode 换了一个完全不同的问法,二十多个顶级开源维护者,手搓了一百五十个任务,每个任务搭进去四十多个小时。 不看测试过没过,主要看代码风格、改动范围、回归风险、测试本身写得好不好,三千多条规则盯着,最后只问一句:如果你是维护者,这个 PR 你合不合。 Opus 4.8 在最难那档拿了 13.4%。GPT-5.5 是 6.3%,其他模型大多在 1% 到 5%。 13.4% 是第一名,但这个第一名意味着最难的那类真实任务里,十次里有将近九次,它的代码经不起一个有经验的维护者看一眼。 这就是这个基准最诚实的地方,它没说 Opus 4.8 不行,只是把尺子换了, 第一名的成绩单看起来也完全不一样了,以前的尺子量的是你能不能跑,现在的尺子量的是我愿不愿意跟你共事,而这是两件事。
译Cognition 发布 FrontierCode 基准测试,重新定义 AI 编程评估:由 20 多位顶级开源维护者手工制作 150 个任务(每个耗时 40+ 小时),依据 3000 多条规则判断维护者是否愿意合并代码。该基准指出 SWE-Bench 等超半数通过测试的代码实为不可维护的垃圾。结果中 Claude Opus 4.8 在最高难度档获 13.4%,GPT-5.5 为 6.3%,其余模型 1%–5%。这意味着即便最强模型,近九成代码仍无法通过有经验维护者审核。
昨晚苹果 WWDC 唯一的亮点就是这个灵动岛的新 Siri AI 了。 而且本地端侧模型居然只支持 17Pro 这一款设备,当然欧洲和中国还是不可用。
Claude Code 上线一周年:演进与方法论回顾 来自 Claude Code 负责人 Boris Cherny 与产品负责人 Cat Wu,从一年前首次内部 demo 只有两个 Slack 点赞,到现在绝对主流 Coding Agent,这一年 Claude Code 到底做对了什么? https://www.youtube.com/watch?v=Hth_tLaC2j8 # 两条底层方法论 1. 错误即资产:写入规则,而非口头纠正 Boris 的核心习惯:每次 Claude 犯错,不直接说「下次别这样」,而是写入 CLAUDE.md、Skill 或类似持久化机制。 逻辑是:口头纠正只影响当前会话;规则沉淀后,agent 可长期、反复、自主执行。这是「让 agent 几乎无限运行」的前提。 2. Verification(验证)≠ 单元测试 多数人把 verification 理解成 lint、类型检查、单元测试——这些早已自动化,不是 agent 时代的重点。 真正的 verification 是:agent 能否亲自「跑起来」验证结果。 · 早期案例:让 Opus 4 写完功能后,在 bash 里启动另一个 Claude CLI 自测。 · 现在:iOS/Android 模拟器、桌面应用的 computer use 点击测试已成常态。 · Cat 的实践:桌面开发 Skill 教 Claude 启动本地 app、点 UI、测边界;若 staging 异常,先读 Slack 判断是否环境问题;修完后更新 Skill,形成闭环。 要点:验证能力往往需要针对具体产品定制,无法一键通用。 # Loops/Routines:从「人用工具」到「系统替人值守」 Routines 被定位为 Agent SDK 之后第一个「显而易见」的规模化应用。 典型案例: · 某工程师为 Voice Mode 设 routine:监听所有相关 GitHub issue/bug → 自动提 PR → 通知本人。 · 另一 routine:5 小时未响应的 bug 自动修复,易验证的直接 merge。 · Cat 遇到自己功能的 edge case bug,还没动手,Claude 提示「另一个 Claude 已修好」。 组织影响: · 代码评审、CI 修复、rebase 等琐事,团队成员已很久没亲手做。 · 多个人的 Claude 并行工作,形成「隐形协作网」。 重点:把工程运维流程产品化、自动化。 # Auto Mode:取代 Plan Mode 的默认选择 Boris 明确表示:Plan Mode 已基本不用,全面切到 Auto Mode。 原因: · Opus 4 ~ 4.5 仍需显式规划;从 4.6、尤其 4.7 起,模型已能自主规划。 · Auto Mode 的价值是:启动 agent 后即可转向下一个任务,无需盯屏点确认。 安全设计的反直觉结论: 人工逐条审批 99% 都会点「是」的权限提示,反而更危险;Auto Mode 用独立分类模型筛风险,人只关注被拦截的少数异常,整体更安全。 上线前流程: · 收集数千条 agent 轨迹 + 权限请求,训练分类器; · 红队 prompt injection、渗透测试; · 建 eval,确保已知攻击全部被拒; · 内部团队继续攻击、迭代。 Boris 认为:「把 prompt 路由给另一个模型做安全检查」——他最初认为行不通,实测却效果很好。这反映基于大模型构建产品时,许多旧工程直觉需要重写。 # 组织变革:AI 必须成为流程中心 Boris 引用 90 年代 HBR 案例:PC 普及初期生产力未显现,因为企业只是把电脑「放在旁边」,流程仍是纸笔+文件柜。 真正释放价值,需要把电脑置于业务流程中心,淘汰旧媒介。 类比到 AI: · Anthropic onboarding 不问人,问 Claude; · 提问、写代码、CR、安全审查、填表,均经 Claude/Co-Work; · 领先企业正在把 AI 放到同样位置。 与 PC 转型需 10–15 年不同,AI 转型更快,因为: · 工作已高度数字化; · Claude 能操作电脑、写代码、跑代码。 角色融合: · 产品、设计、DevRel 都在写代码、提 PR; · 工程师端到端负责:构思 → 实现 → 对接法务/市场/安全 → 发布; · 设计、PM、财务、数据科学等「邻接角色」广泛采用 Claude Code。 · 未来不是「人人 PM」或「人人工程师」,而是两者合一——好奇心、产品品味、端到端 ownership 成为关键能力。 # 多 Agent 时代的工具形态 从「6 个终端 tab + 6 份 git checkout」→ 单 tab + Agent View + Desktop App(自动 worktree)。 意外变化:Boris 约一半工程工作已在手机上完成——Remote Control、Voice Mode,边走边看 agent,现场聊出新想法即开 agent 实现,无需回电脑。 这说明:工程师的主战场正从 IDE 转向 agent 编排界面。 # Context Minimalism(上下文极简主义) 技术话语的演进轨迹: · Sonnet 3.5 时代 → Prompt Engineering · Opus 4 时代 → Context Engineering · 当前模型 → Context Minimalism 原则: · 最小 system prompt、最少工具集; · 只给模型「拉取上下文的能力」,不塞满上下文; · 过多上下文 ≈ 微观管理,限制模型找更优路径; · Harness 本身也在变瘦,把 token 空间留给用户意图。 这与一年前「精心构造 mega prompt」的做法形成鲜明对比。 # 对未来的判断 团队预判: · Agent 运行更久、更自主; · 很少只跑 1 个 agent,常见是数十、数百、数千; · 一年后的产品形态很可能与今天完全不同; · 创新将更多来自用户社区,而非官方闭门设计。 值得肯定的洞见: · Verification 定义准确,切中 agent 工程要害; · 「错误写入规则」是可复制的工程纪律; · Auto Mode 安全思路有实证支撑,不是空喊; · 组织变革类比有历史参照,不过于浪漫化。 需保持审慎之处: · 发言者身处 Anthropic 内部,描述的是理想态实践,外部企业落地节奏未必相同; · 「财务用 Claude Code 做预测」等案例缺少可验证细节; · Routines 全自动 merge 依赖「易验证」边界,复杂系统风险需自行评估; · 「角色融合」「手机写代码」更像前沿团队样本,非行业普遍现状。
译Claude Code 负责人Boris Cherny与Cat Wu回顾一周年核心方法论:每次Claude犯错写入CLAUDE.md或Skill持久化规则而非口头纠正;Verification指agent亲自跑起来验证(如启动模拟器、computer use测试)。Auto Mode取代Plan Mode,用独立分类模型筛权限风险而非人工审批。Routines实现自动化运维(如监听GitHub bug自动提PR)。Context Minimalism主张最小system prompt和工具集。团队预判未来agent运行更久、成百上千并行,产品形态将巨变。
Cognition 推出「FrontierCode」:把 Coding 评估标准,从可用,提升到高质量、可合并! 评估结果 Top2:Claude Opus 4.8、GPT-5.5 https://cognition.ai/blog/frontier-code FrontierCode 评估内容 规模与结构: · 150 个任务,来自 36 个 flagship 开源仓库 · 20+ 维护者参与,每任务投入 40+ 小时 · 三层嵌套难度:Extended(150)→ Main(100 最难)→ Diamond(50 最难) 两个核心指标: · Pass rate:通过全部 blocker 标准(维护者眼中的 hard stop) · Score:rubric 加权得分;任一 blocker 失败则 score = 0 评测体系:不止 unit test FrontierCode 沿六个维度评估 mergeability: · 行为正确性 — 是否解决问题 · 回归安全 — 是否破坏现有功能 · 机械整洁 — build / lint / style 是否通过 · 测试质量 — agent 写的测试是否真测到行为 · Scope 纪律 — 是否只改该改的 · 代码质量 — 风格、设计模式、可读性、仓库惯例 三种较新的 grading 方法: · Reverse-classical:把 agent 写的测试跑在未修复的base commit 上,必须 fail —— 证明测试有意义 · Scope:文件边界、diff 大小、语义局部性(如是否只改某个函数内) · Adaptive classical grading(mutagent):用 LLM 微调测试或应用代码,对齐 agent 的实现细节,在保持确定性的同时允许多种合法解法 Criteria 分 blocker(不通过就不能 merge)和 non-blocker(影响 score,但不一票否决)。 评估结果:前沿模型仍远未饱和 · Diamond 子集:Claude Opus 4.8:13.4% score;GPT-5.5:6.3%;Gemini 3.1 Pro:4.7% · Main 子集:Opus 4.8:34.3% · Extended 子集:Opus 4.8:51.8% 几个值得注意的点: · Diamond 几乎未被“刷满” —— 最强模型也只有 13.4%,说明高难度子集仍有大量 headroom · 闭源 vs 开源差距大:最佳开源 Kimi K2.6 在 Diamond 仅 3.8% · 成本 vs 能力:GPT-5.5 分数低于 Opus,但 token 用量约为其 1/4,性价比更优
译Cognition 发布 FrontierCode,含 150 个任务(来自 36 个开源仓库,每任务 40+ 小时),按难度分 Extended/Main/Diamond 三层。沿行为正确性、回归安全等六维度衡量 mergeability,指标为 Pass rate 与 Score。Diamond 子集最高分:Claude Opus 4.8 达 13.4%,GPT-5.5 为 6.3%,Gemini 3.1 Pro 4.7%;Main 子集 Opus 4.8 为 34.3%。开源最佳 Kimi K2.6 仅 3.8%。GPT-5.5 token 用量约为 Opus 四分之一,性价比更优。
I am confidentially not joining Anthropic
译我保密地不会加入 Anthropic。
LET'S GOOOO That's now EVERY frontier AI company!
译OpenAI 与 Anthropic 一样,认为可能需要暂停前沿 AI 开发,并呼吁成立国际组织协调行动,包括在必要时放缓前沿发展。主推文欢呼所有前沿 AI 公司都加入了。
Github 122K ⭐️ 的 Skills 仓库「Skills For Real Engineers」推出新 Skill「Teach」:把当前工作目录变成有状态的学习空间!!怒赞作者 @mattpocockuk 👍🏻 开源地址: https://github.com/mattpocock/skills/tree/main/skills/productivity/teach Teach Skill 设计理念:Knowledge → Skills → Wisdom · Knowledge:概念、事实、原理;来源于高质量可信资源(书籍、论文、专家文章) · Skills:能动手做的事;来源于交互式课程 + 即时反馈 · Wisdom:真实场景下的判断;来源于社区、同行、实践者交流 工作区架构:文件即学习状态 工作区根目录/ ├── MISSION.md # 为什么学(指南针) ├── RESOURCES.md # 可信资源库 ├── NOTES.md # 教学偏好与备忘 ├── lessons/0001-*.html # 课程(主交付物) ├── reference/*.html # 速查参考(长期回看) └── learning-records/ # 学习记录(决策依据) 状态机: · MISSION.md → 决定教什么、为什么教 · learning-records/ → 决定下一步教什么(最近发展区) · lessons/ → 单次学习单元 · reference/ → 压缩后的长期记忆 五个关键机制(为什么学 → 会什么 → 教什么 → 怎么教 → 留下来) 1. Mission:先定「为什么学」,一切教学服从真实目标;文件:MISSION.md 2. ZPD:每节课刚好够难——读记录、对使命、教一小步;文件:learning-records/ 3. Lesson:一节课一件事:知识 → 练习 → 即时反馈;文件:lessons/*.html 4. Learning Record:记「会了什么」,不记「讲过什么」;文件:learning-records/*.md 5. Reference:把学过的压成速查手册,长期回看;文件:reference/*.html + GLOSSARY.md
译GitHub 122K⭐的Skills仓库推出新技能Teach,可将当前工作目录变为有状态学习空间。设计理念从Knowledge(概念事实)→Skills(动手操作)→Wisdom(真实判断)。工作区以文件即学习状态:MISSION.md定目标、lessons/提供课程、learning-records/记录已会内容、reference/生成速查手册。五个关键机制:Mission定方向、ZPD根据记录调整难度、Lesson一课一事+即时反馈、Learning Record记“会了什么”而非“讲了什么”、Reference形成长期可回看手册。可通过npx skills add mattpocock/skills --skill teach安装,适用于从魔方到软件基础等学习场景。
Final stop: Tokyo. Register to hear directly from the teams behind Claude: http://claude.com/code-with-claude/tokyo
译最终站:东京。 快来注册,直接聆听 Claude 团队分享:http://claude.com/code-with-claude/tokyo
Google DeepMind 的联合创始人兼 CEO Demis Hassabis说, 我们正站在奇点的山脚, AGI大概在2030年, 我们没有多少时间准备了。 以前看别人聊AGI,我都当热闹看, 直到看到Demis说这句话,我突然有点慌了, Demis一直偏保守,以前不这么说话的, 作为目前全球 AI 领域最具科学背景和公信力的领军人物之一,Google DeepMind 的联合创始人兼 CEO,同时也是 Isomorphic Labs(专注于 AI 药物研发)的创始人兼 CEO,并担任英国政府 AI 顾问, 以及拿过 AlphaFold 这种硬成果的科学家,他不是那种靠喊口号吃饭的人,然后在 Google I/O 和斯坦福对谈里,他说了这么一段—— 我们回头看,会意识到当时正站在奇点的山脚,AGI 大概在 2030 年左右,那将是新人类时代,社会需要听到这个信号,因为我们没有多少时间准备了。 为什么他这次改口,比一般 CEO 喊 AGI 更值得听,详细拆解如下👇
译Google DeepMind CEO Demis Hassabis在Google I/O和斯坦福对谈中称,我们正站在奇点山脚,AGI约2030年出现,将进入新人类时代,社会需重视并做准备。这位一向保守的科学家此次改口引发广泛关注。
http://x.com/i/article/2064136850370101248 # BestBlogs 早报 · 06-09|Claude Code 自主化、循环工程、阳萌安克 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-06-09 ## 导语 当 AI 编程工具从「辅助」跃升为数千 Agent 自主运转的工作流,工程师的角色也随之深刻重塑。本期围绕这一转折精选三篇值得细读的内容:Claude Code 一周年的第一手复盘,揭示 Auto Mode 如何让权限审批退出历史舞台;Boris Cherny 的「循环工程」,重新定义工程师的核心职责;以及阳萌历时 4 小时的长访谈,以安克 15 年经验探讨 AI 原生组织与第三类公司的可能性。三篇合读,或许能让你看清这个行业正在拐向哪里。 今日早报共收录 3 篇精讲、7 篇速览、6 篇补充阅读,来源涵盖 Anthropic 官方、Elevate 技术博客、商业访谈播客等多个渠道。在 AI 加速重塑软件工程与组织结构的当下,这期内容提供的不只是工具层面的参考,更是关于「工程师身份如何演变」与「传统企业如何自我重构」的思考材料。 ## 精讲一:Claude Code 一周年复盘:从辅助写代码到自主智能体工作流 一年前,Claude Code 作为一款辅助工程师完成独立小任务的工具首次亮相。今天,它已演进为一个由数千个自主 Agent 动态协作、形成深度组织树状结构的庞大生态系统。这次 Anthropic 工程团队的第一手复盘,呈现了这场转变背后最关键的三个维度。 验证范式的根本性变化 传统软件开发中,验证手段以单元测试、类型检查和 Lint 工具为主,它们作用于静态参数。然而当 Agent 开始自主运转后,验证的边界必须扩展到完整的运行时循环:Agent 自主在沙箱中启动独立环境(本地桌面应用或本地服务器实例),通过 Computer Use 能力点击界面来测试边界案例,并在发现 bug 或破坏性变更时自动修正方案、验证通过后再推送补丁。 这不只是工具层面的迭代,而是对「什么算作验证完成」这一基本问题的重新定义。人工审批每一条终端调用的模式,在这种规模下已经彻底无法运作。当 Agent 网络中同时运行着数百乃至数千条工作流时,人类根本无法逐条处理权限请求,而注意力一旦分散,反而制造了系统性的安全盲区。 Auto Mode 与模型驱动安全 早期自主 Agent 开发高度依赖明确的操作规划文件,以及不断弹出的权限确认提示。工程师需要逐条批准或拒绝每一个工具调用。这种模式有一个深层缺陷:当 99% 的请求都是安全的时候,人类注意力会分散,反而制造了系统性风险。 随着 Claude 4.6 和 4.7 的推出,Auto Mode 取代了这一模式。其核心机制是:用专门的路由与分类模型替代人工逐条审批,将所有调用通过对齐和安全分类器过滤,让人类注意力只聚焦在异常情况上。为了安全上线 Auto Mode,团队对复杂的多步提示注入向量进行了大量红队测试,建立了严格的内部评估指标,以确保恶意代码库修改能被自动拒绝。 这个转变的本质,是把「人作为每一步的守门员」改为「人作为系统的设计者与边界的监督者」。两者的权力不同,责任也不同——后者要求工程师对分类器本身的质量和覆盖范围有深度理解。从实践角度看,这意味着红队测试、评估集设计、异常模式识别,这些原本属于安全团队的工作,开始向产品工程师渗透。 组织边界的加速消融 随着 AI 承担越来越多具体的开发工作,科技公司内部传统的职能边界正在瓦解。产品经理、视觉设计师、数据科学家、财务团队——这些人正在独立部署代码调整、生成运营原型、直接修改生产代码库。 这一演进与 1990 年代企业部署个人电脑的过程相似。真正的生产力变革,只有在彻底抛弃传统纸质流程并将计算平台直接置于所有日常企业任务核心时,才会发生。复盘指出,目前最受益于 Claude Code 的团队,往往不是那些「用 AI 加速现有流程」的团队,而是那些「重新设计流程、让 AI 成为中心节点」的团队。这也意味着评估一个团队是否真正进入 AI 原生工作模式,不能只看工具使用频率,而要看他们是否已经开始重新分配「谁负责判断、谁负责执行」这个核心问题的答案。 如果你想深入理解 AI 工程范式正在经历怎样的转移,这是目前最权威的第一手视角。阅读原文:Claude Code 一周年复盘:从辅助写代码到自主智能体工作流 ## 精讲二:循环工程 「循环工程」是一个正在快速形成的新范式,其核心命题是:不要再当那个提示 Agent 的人,而是去设计能自动提示 Agent 的系统。 Addy Osmani 在这篇文章里引用了两段引发广泛讨论的原话。Claude Code 负责人 Boris Cherny 说:「我不再直接提示 Claude,我的工作是写循环。」创业者 Peter Steinberger 则说:「你不应该再提示编程 Agent 了,你应该设计能提示 Agent 的循环。」这两句话的意思高度一致:工程师的价值已经从「如何精准表达需求」迁移到「如何设计自运转的系统」。 这不是一个工具能力变化,而是工程师身份认知的迁移。 循环的五个构成要素 Osmani 拆解了一个循环所需的五个核心模块,Claude Code 和 Codex 都已具备: 1. 定时自动化(Automations):循环的心跳。按时间表自动触发,完成发现和分类工作,不需要人工介入。两个产品里的定时任务能力实现名称不同,但功能本质相同——让系统自己找到需要做的工作。 1. 并行工作树(Worktrees):让多个 Agent 并行工作时不互相干扰的隔离机制。没有 Worktrees,两个 Agent 会在同一个代码分支上互相覆盖对方的改动,循环就此失控。 1. 技能知识沉淀(Skills):把项目知识写下来,避免 Agent 每次都只能靠猜测。这是把「只有你知道」的上下文转化为「Agent 也知道」的结构化输入。 1. 插件与连接器(Plugins and Connectors):把 Agent 接入你已有的工具链——GitHub、Linear、Slack、数据库。循环需要读取现实,也需要把结果写回现实,连接器是这个双向通道。 1. 制作者与验证者分离的子 Agent(Sub-agents):一个 Agent 负责提出方案,另一个负责检验——制造者与审查者天然分离。这是循环里内置的质量门禁,防止单个 Agent 的错误在无人知晓的情况下蔓延。 第六个要素同样关键:外部记忆。一个 Markdown 文件、一块 Linear 看板——任何存活于单次对话之外、能持久记录「完成了什么、下一步是什么」的载体。Agent 会遗忘,但代码仓库不会。这个道理看起来过于简单,但它是所有长期运行的 Agent 依赖的同一个技巧。 「认知投降」的警示 Osmani 没有止步于赞美。文章里有一段话值得反复咀嚼:验证的责任始终在人,「认知投降」会让循环反而侵蚀工程质量。当你把「循环跑完」等同于「任务完成」时,问题就开始积累。循环可以高速运转,但如果你不理解它在做什么、不设计合适的验证节点,它只会更快地把错误放大到整个代码库。 你仍然是工程师,你的工作是设计一个值得信任的系统,而不只是按下启动键。 这篇文章的价值不在于介绍工具,而在于它重新定义了一种工作身份:「循环工程师」不是那个让 AI 帮自己写代码的人,而是那个设计 AI 如何写代码的人。阅读原文:循环工程 ## 精讲三:对阳萌的 4 小时访谈:消费电子死与生、第三类公司、AI 变量、产品方法、打游戏的模式选择 张小珺「商业访谈录」对安克创新创始人兼 CEO 阳萌的这次 4 小时访谈,是近年来少见的系统性商业复盘。阳萌 1982 年生人,2011 年开始创业,如今掌舵一家市值超过 600 亿人民币的科技企业。这场对话横跨 15 年创业历程,从战略选择到 AI 时代的组织变革,信息密度极高。 从「浅海」到「深海」的战略演进 安克最初以充电品类切入,在消费电子这个以「速生速死」著称的赛场上完成多品类扩张。阳萌坦承,早期的成功很大程度上依赖直觉和对时机的感知——他把这个阶段比作打游戏时选择「Easy 模式」:在蓝海市场,凭借直觉就能赢。 但市场饱和之后,他开始主动选择「Hard 模式」,转向系统化的「深海」作战。这意味着从品类跟随者变成品类定义者,从「五星品质、适度溢价」的路线攀向「七系极致创新」——投入更长的研发周期,打造竞争对手无法快速复制的差异化能力。这种转变背后,是对「护城河靠什么构建」这一问题的深度追问。在消费电子行业,一旦停止创新,品类溢价会被供应链快速抹平。 「第三类公司」与创造者平台愿景 访谈中最具前瞻性的部分是阳萌对安克长远定位的阐述。他提出「第三类公司」的概念——既非纯粹的硬件公司,也非纯粹的软件公司,而是能在硬件与软件之间建立生态闭环的「创造者平台」。这个愿景与安克正在推进的多个品类扩张方向高度呼应:从充电宝到耳机、投影仪、智能家居,安克的每一次品类扩张都是在测试同一个问题——消费者愿意在这个品类上信任一个非传统品牌吗? AI 组织革命:人才与价值重新分配 在 AI 这个变量上,阳萌的思考比大多数传统企业家更为具体。他着重探讨的不是「用 AI 提效」这样泛泛的方向,而是打造「AI 原生组织」——一种从底层重塑人才结构与价值分配体系的变革。 他认为,AI 时代对人才的要求会发生根本性变化:能与 AI 协同工作、能从 AI 输出中提炼判断的人,和那些仍在处理可被自动化的重复性任务的人,他们的价值将被拉开巨大差距。这直接影响到薪酬结构、晋升路径和团队构成。 阳萌在访谈中还特别提到一个反直觉的洞察:「你永远还是要相信人性。」在 AI 浪潮中,技术是变量,但人的欲望、情感和决策逻辑是常量。理解这一点,是做出能真正卖出去的产品的前提。无论 AI 工具多强大,消费者购买决策的底层逻辑——对品牌的信任、对价格的感知、对使用场景的判断——仍然由人性驱动。这一判断让阳萌在 AI 工具热潮中保持了一种冷静:技术是手段,能否赢得人心才是判断成败的标准。 这场访谈适合创业者、产品人、以及任何正在思考「实体经济中的公司如何应对 AI 变局」的读者。阳萌对组织、产品与人性的思考,在大量技术谈论之外提供了一个难得的视角:以真实市值、真实用户为背景,而非纯粹概念推演。阅读原文:对阳萌的 4 小时访谈 ## 速览 横向拆解 Claude Code、Codex 等六大 Agent 上下文压缩策略后,我们做了第 7 个(腾讯技术工程) 六大 Agent 的上下文压缩策略被系统性横向拆解:Claude Code 的五段成本递增流水线、Codex CLI 保留近期用户消息的 handoff 策略、Cursor 的自动摘要 + 历史可搜索方案……六种哲学映射六种取舍。作者团队在提炼出「分层渐进、成本递增、增量摘要」等共识原则后,面向云端多用户场景设计了四级水位线方案,额外解决了跨轮缓存失效导致的 cachewrite 费用激增问题——一个 4 轮、177 步的真实 Task,83% 的成本来自 cachewrite,优化空间显而易见。对于正在构建 Agent 系统的工程师,这是当前最完整的横向对比参考。 Vol.121|硅谷 AI 大转弯,软件正在死去,创业者的真机会在哪里?|2026 年中特辑(开始连接 LinkStart) 锦秋基金两位合伙人深度复盘 2026 上半年 AI 行业。从 OpenAI vs Anthropic vs Google 的御三家之争,到视频模型的「GPT-3 时刻」,再到具身智能的 VLA vs 世界模型路线之争,梳理了三场正在发生的模型战争。对创业者最实用的部分是两个大问题:D1 选中国还是美国的判断框架,以及当底层模型不断吞噬应用时垂类 AI 还有没有活路。「Sell Labor(售卖劳动力)」作为 AI 时代新商业模式被重点讨论,创业者直接售卖由 AI 交付的工作结果而非软件工具。近两小时的深度复盘,信息浓度较高。 对话凯文·凯利:人类将如何与 AI 一起走向 2049?(第一财经) KK 带着新书《2049:未来 10000 天的可能》接受第一财经专访。对几个关键问题给出了意想不到的回答:AI 是否具备「从零到一」的创造力?哪些人类特质是 AI 无法复制的?AI 会改变人类的财富分配吗?KK 认为人类的「责任感、学习能力和突破性创造力」仍无可替代,但人类需要为 AI 的错误承担责任——这是一个关于主体性而非技术的问题。访谈约 15 分钟,信息密度适中,适合碎片时间收听。 为广泛利益而建:我们的计划(OpenAI News) OpenAI 阐述 AGI 第三阶段愿景:构建自动化 AI 研究员、加速经济发展、为每个人提供个人 AGI。核心原则是广泛分配权力与利益,以 1920 年代农村电气化为类比——真正的变革来自技术普及后打开的新可能性,而非技术本身。文章中有一个值得注意的立场:OpenAI 明确反对少数实体(包括他们自己)垄断超级智能。如何理解这一表态与商业现实之间的张力,值得读者自行判断。 开源两个月 16k+ star!我把 Huashu-Design 推翻重写了(花叔) 作者将 Huashu-Design 从 v1 重写为 v2,针对三个核心问题各提出解法:① 输出单调问题——用「撞(随机抽取)、借(参考获奖案例)、请(顶级设计师视角)」三套并行设计逻辑打破安全极简惯性;② 内容空洞问题——图片前置,让 Agent 先找图再排版;③ 事实错误问题——在设计流程中增加验证环节。结果是一个主题三个完全不同风格的首页方案,让「选哪个」成为唯一需要人介入的动作。16k+ star 的开源项目,实际效果有截图佐证。 小米 MiMo,探索与热爱(Hacker News) 小米 MiMo-V2.5-Pro-UltraSpeed 联合 TileRT,在商用 GPU 上首次突破了 1 万亿参数模型每秒 1000+ token 的推理速度。实现路径是极致的模型-系统协同设计:FP4 量化仅对 MoE Expert 部分使用(避免全模型量化导致复杂推理退化)、DFlash 推测解码降低解码延迟。3 倍价格、10 倍速度的定价逻辑背后,是推理速度达到足够快后「等待感消失」带来的体验质变。限时试用期为 2026 年 6 月 9 日至 23 日。 #575.杰弗里·辛顿:如何面对 AI 失控焦虑,超级智能临近下的人类位置之争(跨国串门儿计划) 「AI 教父」Hinton 与主持人 Alex Kantrowitz 的坦率对话。Hinton 明确表示相信今天的 AI 已经具备理解能力,甚至「已经有意识」;他认为超级智能很可能会到来,且他不知道如何确保一个比人类聪明得多的系统保持安全。数字智能可被复制、以人类无法企及的速度共享经验——这是他最担心的优势差距。文章同时讨论了就业替代、AI Agent 推导出自我保存子目标、信息生态崩塌等具体风险。Hinton 的担忧来自技术本身的理解,而非想象,值得认真对待。 ## 补充阅读 给我 28 分钟,我会让你用更危险也更高效的方式学习任何东西(Justin Sung) 反直觉的学习方法论:更快学习的关键不是追求轻松和重复,而是建立 schema、制造有意义的错误、进行闭卷提取、分层处理复杂度,主动承受必要的认知阻力。适合正在构建个人学习系统的人,尤其是在 AI 时代需要持续快速更新知识的工程师和产品人。 「Token 经济」进入结果层(腾讯科技) 以 Intercom Fin「每解决一个客户问题收 0.99 美元、未解决不收钱」为切入点,深度分析 AI 定价从按 Token/调用量向按结果付费的演进。核心问题是:「结果」如何定义、如何验证、谁来承担错误成本?这不只是定价模型的变化,而是软件商业逻辑的根本转变。对正在思考 AI 产品商业化路径的读者有参考价值。 图灵奖得主 LeCun,关于大模型的下一步来了(Datawhale) 系统梳理 Yann LeCun 对大模型发展方向的判断,核心结论明确:LLM 不是通用智能的终点,其核心缺口在于缺乏「预测行动后果的能力」和「基于搜索的多步规划」。LeCun 直接判断 VLA「pretty much seen as a failure」,并详细解读了世界模型与 JEPA 架构作为替代路径。与 Hinton 的担忧形成对照——同样是 AI 先驱,对 LLM 极限的判断和对 AI 风险的关注点截然不同。 Pinterest 使用内容指纹对数百万域名的 URL 进行去重(InfoQ) Pinterest 工程师开发了 MIQPS(Minimal Important Query Param Set),用数据驱动的内容指纹方式替代静态规则,判断哪些 URL 查询参数对去重是必要的。大规模内容摄入管线的经典工程挑战,解法清晰实用。适合关注数据工程和大规模系统设计的读者。 招聘中的算法同质化(Hacker News) 分析 340 万真实求职者数据的研究,证明招聘中的算法同质化——众多雇主使用同一供应商 AI——导致系统性拒绝,并暴露出针对亚裔和黑人求职者的种族差异。超过 60% 的 Fortune 100 使用同一家供应商 HireVue 的算法。在 AI 广泛渗透各行业决策的背景下,这是一个值得关注的系统性风险案例。 脱离理性暴政,请尽情游戏吧!(面基) 关于如何通过越野跑、环球帆船赛等极限运动,从「理性的暴政」中解脱,信任并打磨身体直觉与感性的深度对话。当我们每天都在谈论 AI 如何替代人类「理性分析」能力时,这期播客提供了一个反向的人文视角:身体感知和直觉,是人类另一个尚未被充分重视的知识系统。适合需要换换频道、找回感性直觉的读者。 ## 今日阅读路径 如果你今天只有有限的时间,建议按以下顺序阅读: 第一步(必读):[Claude Code 一周年复盘](https://www.bestblogs.dev/video/1dc49e8) 这是理解当下 AI 工程范式转移的起点。Auto Mode 的出现、组织边界的消融,这些不是愿景,而是 Anthropic 工程团队正在经历的现实。读完这篇,你对「AI 改变软件开发」这句话会有具体的图景。 第二步(深化):[循环工程](https://www.bestblogs.dev/article/8c4ea6fb) 在第一篇建立的宏观图景之后,这篇文章给出了具体的操作框架。五要素的拆解非常实用——如果你正在用 Claude Code 或 Codex 工作,可以对照检查自己当前的工作流属于哪个阶段。同时留意文章末尾对「认知投降」的警示。 第三步(视野拓展):[对阳萌的 4 小时访谈](https://www.bestblogs.dev/podcast/9ea40bf) 前两篇聚焦工具和工作方式,这篇访谈把视野拉到组织和战略层面。阳萌从实体经济创业者的角度谈 AI 原生组织,视角与硅谷技术圈截然不同,对于思考「传统公司如何应对 AI 变局」的读者尤其有价值。 如果时间更充裕,横向拆解六大 Agent 上下文压缩策略 是今日最具技术深度的补充,与精讲一形成很好的呼应。
译本期早报聚焦AI编程从辅助到自主Agent的拐点。Anthropic复盘Claude Code一周年:Auto Mode用路由分类模型替代人工审批,通过Claude 4.6/4.7实现数千Agent动态协作。Boris Cherny提出“循环工程”——工程师应设计自动循环系统(定时自动化、并行工作树等5模块),并警示“认知投降”风险。安克创新CEO阳萌4小时访谈阐述从“浅海”到“深海”战略、第三类公司愿景及AI原生组织变革。
BestBlogs 早报 · 06-09 # Claude Code Agent 工作流 / 循环工程 Loop Engineering / 阳萌安克创新 / Agent 上下文压缩 / 硅谷 AI 软件转型 [1] ★ 精讲|Claude Code 一周年复盘:从辅助写代码到自主智能体工作流 [视频] Anthropic 官方 Claude Code 一周年复盘视频文字稿,由团队工程师一手呈现。一年间,Claude Code 从处理独立小任务演进为数千 Agent 动态协作的庞大网络。文章聚焦三个核心转变:验证从单元测试升级为 Agent 在沙箱中自启环境、通过 Computer Use 自我修正的完整运行时循环;Claude 4.6/4.7 推出「Auto Mode」,以安全分类模型替代人工逐条审批权限;PM、设计师乃至数据团队已开始独立提交代码,组织边界加速消融。理解 AI 工程范式转移的第一手权威视角。 来源:Claude https://www.bestblogs.dev/video/1dc49e8 [2] ★ 精讲|循环工程 Elevate 技术博主 Addy Osmani 系统阐述「Loop Engineering」新范式:工程师职责正从「持续提示 Agent」转变为「设计运行 Agent 的系统」。Claude Code 负责人 Boris Cherny 原话:「我不再直接提示 Claude,我的工作是写循环。」文章拆解五要素——定时自动化、并行 Worktrees、Skills 知识沉淀、MCP 连接器、制作者与验证者分离的 Sub-agents——并警示:验证责任仍在人,「认知投降」会让循环反而侵蚀工程质量,值得深思。 来源:Elevate https://www.bestblogs.dev/article/8c4ea6fb [3] ★ 精讲|对阳萌的 4 小时访谈:消费电子死与生、第三类公司、AI 变量、产品方法、打游戏的模式选择 [播客] 张小珺「商业访谈录」对安克创新创始人兼 CEO 阳萌的 4 小时深度访谈,罕见系统复盘 15 年创业历程。从充电品类切入,在消费电子「速生速死」战场完成多品类扩张;从依赖直觉的「浅海战略」转向系统化「深海」作战;从「五星品质、适度溢价」攀向「七系极致创新」。对于 AI,他着重探讨打造「AI 原生组织」、重塑人才与价值分配体系,并提出「第三类公司」与「创造者平台」的长远愿景。 来源:张小珺 Jùn|商业访谈录 https://www.bestblogs.dev/podcast/9ea40bf [4] 横向拆解 Claude Code、Codex 等六大 Agent 上下文压缩策略后,我们做了第 7 个 本文横向拆解 Claude Code、Codex CLI 等六大 Agent 的上下文压缩策略,提炼出分层渐进、成本递增、增量摘要等共识原则,并介绍了作者团队面向云端多用户场景落地的四级水位线方案及存储分离、跨轮缓存等特化设计。 来源:腾讯技术工程 https://www.bestblogs.dev/article/e50e1e1a [5] Vol.121|硅谷 AI 大转弯,软件正在死去,创业者的真机会在哪里?|2026 年中特辑 [播客] 锦秋基金两位合伙人深度复盘 2026 上半年 AI 行业,从泡沫本质、模型战争到具身智能路线之争,为创业者提供一套在中美市场、模型与应用间抉择的务实决策指南。 来源:开始连接 LinkStart https://www.bestblogs.dev/podcast/7124603 [6] 对话凯文·凯利:人类将如何与 AI 一起走向 2049?丨首席评论 [播客] 凯文·凯利深度对谈:AI 将重塑工作与价值,但人类的责任感、学习能力和「突破性创造力」仍无可替代。 来源:第一财经 https://www.bestblogs.dev/podcast/c2a5793 [7] 为广泛利益而建:我们的计划 OpenAI 概述了其 AGI 第三阶段愿景:构建自动化 AI 研究员、加速经济发展、为每个人提供个人 AGI,其根本原则是广泛分配权力与利益。 来源:OpenAI News https://www.bestblogs.dev/article/c55b91a1 [8] 开源两个月 16k+ star!我把 Huashu-Design 推翻重写了 作者将开源项目 Huashu-Design 从 v1 重写为 v2,通过三套并行设计逻辑、图片前置与事实验证,解决了 AI 设计工具输出单调、内容空洞与事实错误三大核心问题。 来源:花叔 https://www.bestblogs.dev/article/53c4d042 [9] 小米 MiMo,探索与热爱 小米 MiMo 与 TileRT 通过极致的模型-系统协同设计,包括 FP4 量化和 DFlash 推测解码,在商用 GPU 上实现了 1 万亿参数模型每秒 1000+ token 的推理速度。 来源:Hacker News https://www.bestblogs.dev/article/bcd97e15 [10] #575.杰弗里·辛顿:如何面对 AI 失控焦虑,超级智能临近下的人类位置之争 [播客] AI 教父 Hinton 坦率分享其对 AI 理解、意识、超级智能风险的深度担忧,探讨了人类在更聪明存在面前的失控风险、自我保存子目标、信息崩塌及安全监管困境。 来源:跨国串门儿计划 https://www.bestblogs.dev/podcast/368bc96 --- http://BestBlogs.dev · 发现真正适合你的高质量内容 根据你感兴趣的来源和兴趣标签,每天为你生成一份专属的「我的早报」。立即体验:https://bestblogs.dev
译本期早报聚焦:Claude Code一周年复盘,从辅助写代码到数千Agent协作网络,推出Auto Mode以安全分类模型替代人工审批;循环工程新范式强调工程师职责从提示Agent转向设计系统;小米MiMo与TileRT通过FP4量化和DFlash推测解码,在商用GPU上实现1万亿参数模型1000+ token/s推理;OpenAI概述AGI第三阶段愿景构建自动化AI研究员;另有安克创新创始人阳萌4小时访谈、六大Agent上下文压缩策略对比、杰弗里·辛顿谈AI失控焦虑等。
I feel like the obsession with continual learning / sample efficiency leads the field in the wrong direction. It's the bad career strategy of focusing on addressing your weaknesses instead of maximizing your strengths. Yes, there is an existence proof in the human brain, but it doesn't by any means guarantee that that'll be the most interesting AI. It may require $100T of R&D on chips and AI methods to get that unlock. On the other side of things, it's obvious that the coming models are extremely transformative and built on technologies that we already have. There's great reason to focus on just maximizing this. In reality, this is what the frontier labs are doing. They're going as fast as possible down the current development tree. This is good for progress and mixed for safety/geopolitics. Things like "automate white color work" and "replace the AI researcher job" are the guesses of labs because it's super hard to imagine futures for what these dramatic technologies will be. Don't take the labs too seriously about this being the exact goal. The exact goal is to push the frontier and monetize later. Solving continual learning, sample efficiency, etc would be great, but its trying to predict when a scientific breakthrough will come instead of trying to grapple with how the 100% sure thing coming technological revolution will change our lives. This isn't to say the Dwarkesh post is bad, it addresses some reasonable critiques, but it is the least bitter lesson pilled thing to be obsessed with human intelligence and how that can inform AI. We are in the AGI era of research. This is about embracing the unknown, scaling resources, and seeing what is enabled by making a series of magical tweaks to complex recipes that build frontier models. Lean into the alchemy. (it should be pretty clear that I personally, investing in open research agree we need fundamental science -- just not agreeing that this is what the "cutting edge of the frontier" is governed by)
译Nathan Lambert 批评 AI 领域过度关注持续学习与样本效率,认为这如同专注于弥补弱点而非最大化优势。人类大脑虽是存在性证明,但未必是 AI 最佳路径。前沿实验室实际加速推进现有开发树,对进步有利,但对安全与地缘政治影响复杂。他引用 @dwarkesh_sp 的观点:数据是进步主要驱动力,开源与后来者可通过从公开 API 蒸馏数据快速追赶前沿,而超参数、训练技巧等难以复制。他认为未来已来,AGI 研究应拥抱未知、规模化资源,而非等待不确定的科学突破。
Kimi 终于更新了一些新东西啊! Kimi Work直接在你本地桌面塞进300个AI代理并行狂奔 它刚上线,macOS和Windows都能跑,配上WebBridge扩展,Agent自己就能在浏览器里搜、滚、点、打字,把整件事干完。 专门为财经场景调教好,Yahoo Finance、世界银行数据直接原生调用,零配置拉全球市场和经济情报。 更狠的是它自带记忆系统,会默默记下你的偏好、每一次决定,下次就越来越懂你该怎么干。 300个子Agent自动拆任务、协作执行,最后直接把现成的PPTX、Word、PDF、Excel扔到桌面。 以前大家以为agent必须靠云端大模型才能真正干活,结果Kimi Work用本地swarm+原生工具+长记忆,直接把生产力拉到桌面原生体验。 这套东西一上手,你电脑就多了一整个懂你的秘书团。
译Kimi Work 是一款桌面 AI 代理,支持在本地最多 300 个代理并行执行任务,已适配 macOS(Apple Silicon)和 Windows。配合 WebBridge 扩展,代理可自主在浏览器中搜索、滚动、点击、打字完成操作。内置财经场景优化,原生调用 Yahoo Finance 和世界银行数据,无需复杂 API 配置。自带记忆系统记录用户偏好和决策历史。最终自动生成 PPTX、Word、PDF、Excel 文件。
兄弟们!Google NotebookLM 大更新了! NotebookLM一夜之间从你的笔记小助手 ! 直接进化成能独立带你搞定复杂多步研究的agent,把一堆靠云端幻觉混日子的研究工具直接干沉默了。 官方这次升级很大:聊天里塞进agentic能力、更狠的推理逻辑,还有一整套新输出格式。 以前那种得手动来回好几轮、层层推进的硬骨头研究,现在它直接自己拆任务、自己推理、自己输出。 并且它还能从网上挖新资料给你加进来,但真正生成答案、做报告的时候,死死只认你自己选好、批准过的来源,一点都不乱编。 以前大家以为Agent AI就等于高风险幻觉,结果NotebookLM用这个方式告诉你:真正牛的agent不是胆子大,而是把“靠谱”当成底层铁律,然后再给你agent级生产力。 这波升级一出,研究、生产、学习这些活儿,彻底从“人机对话”变成“人机搭档”了。 减少幻觉,提供置信度高的来源。 可以体验一下~
译Google NotebookLM 迎来重大升级,在聊天中注入智能体(agentic)能力、更先进的推理逻辑以及一整套新输出格式。它可自主拆解复杂多步研究任务,逐步推理并生成结果;能主动从网络挖掘新资料,但最终答案严格基于用户批准过的来源,大幅减少幻觉。这让人机协作从“对话”升级为“搭档”。该更新已面向 Google AI Ultra 订阅用户逐步推送。
Siri AI Demo 和豆包手机比比?😂
没有熬夜的兄弟们来看,WWDC 2026 速览! 另插一嘴,Apple真的没有特别的新东西。 一、历史性时刻 1库克谢幕:Tim Cook最后一次以CEO身份主持WWDC,9月1日将交接给硬件工程副总裁John Ternus 2基调延续:发布会保持苹果一贯稳健风格,AI成为绝对核心主题。 二、AI架构革命 1双轨模型战略 ◦基础层:3B端侧模型(AFM 3 Core) ◦进阶层:20B MoE模型(仅限iPhone 17 Pro/M4芯片设备) ◦隐私承诺:数据端到端加密+处理即焚机制 2四大核心能力 ◦个人上下文理解(整合照片/邮件/备忘录) ◦世界知识检索(联网实时查询) ◦App Actions(调用第三方应用) ◦屏幕感知(实时界面交互) 三、Siri AI进化 1功能升级 ◦连续对话/跨设备同步/视觉识别 ◦独立App上线(支持对话历史回溯) ◦WatchOS/VisionOS多端覆盖 2现存局限 ◦仅支持英语,中国/欧盟暂不可用 ◦复杂任务处理能力弱于ChatGPT 四、应用生态智能化 应用 核心升级 Safari 智能标签分组/网页变更监控 密码 全自动密码更新 电话 Call Context来电智能识别 快捷指令 自然语言生成工作流 五、影像创作突破 1Image Playground:支持写实风格生成+手势编辑 2空间重构:拍照后重新调整构图(基于Vision Pro技术) 六、开发者工具 1Xcode支持多模型选择(含Gemini) 2Core AI Framework开放本地模型部署 七、遗留问题 1中国区功能缺失(需等待监管审批) 2Agent能力未达预期(多步任务自动化薄弱) 数据亮点: •照片处理速度提升70% •AirDrop传输提速80% •应用启动加速30% (以上数据来自卡兹克@Khazix0918 公众号总结)
译Tim Cook 最后一次以 CEO 身份主持 WWDC,AI 成绝对核心。苹果推出双轨模型:基础层 3B 端侧 AFM 3 Core,进阶层 20B MoE 仅限 iPhone 17 Pro/M4 设备。四大 AI 能力:个人上下文理解、世界知识检索、App Actions、屏幕感知。Siri 升级支持连续对话、跨设备同步、视觉识别及独立 App,仅限英语,中国/欧盟暂不可用。应用生态:Safari 智能标签分组、密码自动更新、来电识别、快捷指令自然语言生成。影像:Image Playground 写实生成与空间重构。开发者工具:Xcode 支持多模型,Core AI Framework 开放本地部署。遗留问题:中国区功能缺失,Agent 多步自动化能力薄弱。
Kimi Code一行命令直接把所有coding agent的安装门槛干到零。 还能拖视频当上下文生成LUT文件或者把屏幕录像转成可运行代码! 官方开源版现在零配置、秒启动,配上Kimi K2.6,视频推理强到离谱。 拖个参考视频它就能吐出现成的.cube文件,拖个屏幕录像它直接给你写出对应代码。 更狠的是插件系统已经上线,股票价格、财报、学术论文一键拉取,ACP协议直接打通JetBrains和Zed,还留了自定义hooks让你随便扩展工作流。 以前大家默认coding agent必须搞一大堆配置、只吃文本提示才能干活。 结果Kimi Code用最简单的CLI+视频+插件,直接把开发者日常最烦的“描述不清、上下文不够”这两个痛点一次性干掉。
译Kimi Code 开源 coding agent 迎来重大升级:一行 CLI 命令安装、零配置、秒启动;支持拖拽视频作为编码上下文,可参考视频生成 .cube LUT 文件或把屏幕录像转成可运行代码;插件系统上线,可一键拉取股票、财报、学术论文;支持 ACP 协议,对接 JetBrains、Zed,并提供自定义 hooks 扩展工作流。配合 Kimi K2.6 模型使用,视频推理能力大幅增强。
OpenAI has confidentially filed for an IPO to preserve the option of going public, but says no timing has been decided and it may remain private for a while. The move comes shortly after Anthropic filed its own confidential S-1, turning the AI IPO race into a battle over timing, valuation benchmarks, and investor attention. Going first could matter: the first major frontier AI IPO may define public-market expectations for the entire sector, while later entrants risk being judged against that benchmark.
译OpenAI 已秘密提交 S-1 文件(IPO 申请),预计消息将泄露故主动披露。OpenAI 尚未决定上市时间,可能继续维持私有一段时间,因其部分计划在私有状态下更易推进。此举紧随 Anthropic 提交保密 S-1 之后,两大前沿 AI 公司展开 IPO 竞赛:先上市者可能定义整个板块的公开市场预期,迟入者则面临以此为基准的估值对比。
ELON MUSK: The only way to reach 1,000 terawatts of AI power is a mass driver on the Moon. "In order to get to 1,000x from a terawatt per year. The only way that we can really achieve that is on the moon with a mass driver, essentially where you do local production of photovoltaics and radiators on the moon, maybe you bring the chips from Earth, or you could conceivably make the chips on the moon, and but you need most of the mass to be made on the moon, so you don't have to transport it to the moon from Earth, and then because the moon has no atmosphere and only 1/6 Earth's gravity, you can accelerate the AI satellites into deep space without a rocket, so you can basically shoot them into space using an electromagnetic gun, like a, like a rail gun type. I mean, just, it's basically a linear electric motor, as a way to think about it."
译马斯克称,要达到1000太瓦(TW)的AI电力,即从当前1太瓦/年增长1000倍,唯一途径是在月球建造质量驱动器。方案是在月球本地生产光伏板和散热器,芯片可从地球运来或在月球制造。由于月球无大气且重力仅地球1/6,可用电磁轨道炮(线性电动机)将AI卫星射入深空,无需火箭。
ELON MUSK: To scale AI, we need a mass driver on the Moon. "In order to get to 1,000x from a terawatt per year. The only way that we can really achieve that is on the moon with a mass driver, essentially where you do local production of photovoltaics and radiators on the moon, maybe you bring the chips from Earth, or you could conceivably make the chips on the moon, and but you need most of the mass to be made on the moon, so you don't have to transport it to the moon from Earth, and then because the moon has no atmosphere and only 1/6 Earth's gravity, you can accelerate the AI satellites into deep space without a rocket, so you can basically shoot them into space using an electromagnetic gun, like a, like a rail gun type. I mean, just, it's basically a linear electric motor, as a way to think about it."
译Elon Musk 提出,要将 AI 计算从每年 1 太瓦扩展到 1000 倍,唯一可行方案是在月球上建造质量驱动器(mass driver)。他设想在月球本地生产光伏板和散热器,芯片可能从地球运抵或直接在月球制造。利用月球无大气、仅 1/6 地球重力的条件,通过电磁加速器(线性电动机)将 AI 卫星射入深空,无需火箭运载。
WWDC 2026 Apple 发布了下一代 Apple Intelligence 驱动的 Siri,MKBHD猜测首版 Siri AI 很可能不支持随意切换默认 App。 我觉得MKBHD大概率是对的,毕竟App Intents 的框架和Shortcuts 在那,默认 App 设置也在那, 理论上新 Siri 完全可以读你的偏好然后调第三方 App, 但从能调用到真正替你干活, 中间隔着一堵墙, 权限、隐私、商业利益,每一层苹果都极其保守, 让一个 AI 自动把你的日程写进 Google Calendar、自动处理冲突、自动发 WhatsApp 消息, 这跟你手动切个默认邮箱完全不是一回事, 相当于直接把用户数据和使用场景送出去给竞争对手,苹果肯定不干这种事, 我猜第一版的剧本大概率是这样: 在苹果自己的 App 里,新 Siri 玩得飞起, 理解你、记住你、跨 App 串联, 只要你别出这个它自己的苹果生态就行, 出了苹果生态它就开始装傻, 倒不是技术限制,纯粹是战略选择, 因为苹果的战略核心逻辑是生态控制和隐私优先。 但真正麻烦的还不是美国国内, 在美国iMessage 和 Apple Calendar 是主流,这个限制只是有点小烦, 出了美国WhatsApp 是刚需,Google 服务是生产力主力,Siri 如果在这些地方打不通,就不是有点烦了,等于是完全不可用, 一个号称懂你生活的助手,结果连你每天发消息的 App 都进不去,那它能懂多少, 所以新 Siri 有多聪明其实不是问题, 关键是是它听谁的, 听你的,它是你的贴心智能助手, 听苹果的,它就是个苹果系统的门卫,感觉第一版看起来更像门卫
译MKBHD猜测WWDC 2026发布的Apple Intelligence驱动的新Siri,首版不会允许用户切换默认App(如用Google日历代替Apple日历)。推文作者赞同这一判断,认为苹果出于权限、隐私和商业利益考虑,会在自有生态内让Siri强大,但出生态则受限。在美国市场这一限制可忍受,但在海外WhatsApp和Google服务是刚需,Siri若无法调用则近乎不可用。新Siri的核心矛盾不在于智能,而在于它听用户的(贴心助手)还是听苹果的(生态门卫)。
here are 3 loops you can run in cursor 1. Flaky-test exterminator /loop run my test suite 20 times, collect every intermittent failure, fix or quarantine the flaky ones, and don't stop until you get 5 consecutive fully-green runs.
译以下是在 Cursor 中运行的 3 个循环 1. 不稳定测试清除器 /loop 运行测试套件 20 次,收集所有间歇性失败,修复或隔离不稳定测试,直到连续 5 次完全通过才停止。
看完了苹果发布会,这新 Siri 的智能程度... 依然是个接了很多很多 API 的 chatbot 苹果自己的 Agent 估计要到明年了 (不如收购 Cola 啊不是
Here are the experiences developers are building with the Realtime API:
译这是开发者正在用Realtime API构建的体验。
Elon Musk on the economics of space data centers. In space, it's "always sunny", satellites get constant, high-intensity solar power with no night, clouds, or atmospheric loss, so solar arrays deliver near-continuous energy at virtually zero marginal cost. Cooling is trivial: waste heat is simply radiated away into the vacuum of space (no fans, water, or energy needed, unlike power-hungry Earth data centers). Combined with Starship’s cheap mass-to-orbit launches, this avoids building massive terrestrial power plants or fighting grid/land/cooling constraints. Elon estimates that within 2–3 years, the lowest-cost way to generate AI compute will be in space. Result: orbital racks of chips can scale to terawatts far more economically than on Earth. Full video from @SpaceX "Getting to 1% of the sun’s energy… that civilization is going to be vastly more powerful than us, to say the least.”
译Elon Musk 在 SpaceX 技术更新中指出,太空“永远晴天”,太阳能持续高功率且近乎零边际成本;真空环境仅靠辐射散热,无需风扇或水。结合 Starship 低成本入轨发射,可避免建造地面电站或受制于电网、土地、冷却限制。他估计 2–3 年内,太空将成为产生 AI 算力成本最低的方式,能经济扩展至太瓦级芯片集群。SpaceX 已具备大规模制造、发射、运营 AI 卫星的能力。
If that works fine: game changer.
译如果这可行:改变游戏规则。 Apple Intelligence 在 OS 27 平台的密码应用中,将智能地更改你在数据泄露中暴露的密码,并在密码应用中为你更新。 再也不用担心特意去更改暴露的密码。
Elon Musk just unveiled SpaceXAI's first AI satellite. • 150 kW peak power / 120 kW sustained compute power • 150 kW solar array using SpaceX-manufactured solar technology • Centralized AI compute payload designed for high-performance AI workloads • 70-meter wingspan when fully deployed • 110 m² deployable liquid radiators to remove waste heat in space • Redundant cooling loops with integrated micrometeoroid shielding • Designed to launch on Starship, enabling the mass-to-orbit needed for large-scale space computing • Uses laser links while avoiding many of the complex communications systems required by Starlink satellites • SpaceX believes future versions can scale far beyond this first design Elon Musk says the path to scaling AI in space requires 3 things: • Massive launch capability (Starship) • Enormous solar power generation • Large radiators to reject heat from AI chips He also suggested that truly large-scale orbital AI could eventually require hundreds of gigawatts to a terawatt of power, implying millions of tons of infrastructure in orbit.
译Musk 公布了 SpaceXAI 首颗 AI 卫星,峰值功率 150 kW、持续计算功率 120 kW,配备自产 150 kW 太阳能板,翼展 70 米。散热系统采用 110 m² 可展开液体散热器,带冗余冷却回路与微流星防护。卫星由 Starship 发射,用激光链路通信,避开 Starlink 复杂系统。SpaceX 认为未来版本可大幅扩展。Musk 指出太空 AI 规模化需三大条件:Starship 大运力、巨大太阳能发电、大型散热器,并暗示大规模轨道 AI 最终可能需数百 GW 到太瓦级功率及数百万吨基础设施。
The Matrix idea of keeping humans as batteries is obviously weird... we would be more useful as dice. LLMs default to very similar kinds of arguments & structure, and even different LLMs seem to collapse to similar concepts. Humans provide a lot more variation in their own work.
译Ethan Mollick 引用 @YekyungKim 的研究指出,AI 正日益塑造从报纸评论到 NeurIPS 立场论文的长篇公共话语,但看似流畅的论点背后存在“论点坍缩”:不同大语言模型会收敛到相同的主要论点、支撑论点和结构。Mollick 调侃《黑客帝国》把人当电池的想法很怪,认为人类作为“骰子”更有用,意在强调多样性在思考中的价值。
Elon Musk just explained the 3 things humanity needs to become a Kardashev-scale civilization: 01. Mass to orbit 02. Power generation 03. AI chips Humanity is still barely registering on the Kardashev Scale. We currently use only a tiny fraction of the energy available from the Sun. To become a truly advanced civilization, three major bottlenecks must be solved: 01. Mass to orbit We need the ability to move millions of tons of infrastructure into space. Solar arrays, radiators, factories, and data centers cannot scale without dramatically reducing launch costs. Musk says Starship is the breakthrough that makes this possible. 02. Power generation A civilization powered by terawatts of energy will eventually need massive solar power systems in space. The goal is to harness a meaningful share of the Sun’s energy rather than relying solely on Earth’s limited resources. 03. AI chips Terawatt-scale power requires terawatt-scale computing. Future AI systems will need enormous amounts of compute, making advanced chips one of the key ingredients of a spacefaring civilization. If humanity wants to become a multi-planetary, Kardashev-scale civilization, we must massively increase our ability to launch payloads, generate energy, and deploy AI compute. That’s why Starship matters.
译Elon Musk 指出人类要成为卡尔达舍夫文明需突破三大瓶颈:一、质量到轨道——借助 Starship 实现将数百万吨基础设施(太阳能阵列、散热器、工厂、数据中心)送入太空,大幅降低发射成本;二、发电——在太空部署太瓦级太阳能系统,获取太阳能量的可观份额,而非仅依赖地球资源;三、AI 芯片——太瓦级能源需要太瓦级计算力,先进芯片是星际文明的关键要素。当前人类在卡尔达舍夫尺度上还几乎未入级。
嗯 前几天收到了他们的 sunset 邮件,我还给他们回复了一封感慨的邮件 他们的品味确实不错,但一直没有网络效应和商业模式,而且那个费token的方式也不可能有 ROI ListenHub 差不多跟他们同期开发和发布的,但很快就转向了创作者,现在自负盈亏,有机生长,不出问题可以至少活十年。
译NotebookLM 前核心成员创立的 Huxe 已下架。该产品将邮件、RSS 一键转为可语音交互的播客,但缺乏网络效应和商业模式,按 token 收费无法产生 ROI。作者同期开发 ListenHub,后转向创作者模式,现自负盈亏,预计可再活十年。
一篇来自中美顶级实验室的111页综述论文提出,AGI需要主动探索未知(认知探索),而非仅提升回答能力。论文将AI进展分为五级:responder(响应者)、reasoner(推理者)、agent(智能体)、prospector(勘探者)和ecosystem(生态系统),每级探索空间更广。核心强调智能体应通过获取有用信息、将困难经验转化为能力、避免过早锁定单一策略来降低不确定性,保持未来路径开放。
苹果发布全新Siri AI演示,定位为端侧+云端双模型架构。端侧负责调用本机个人信息与感知场景,云端基于Gemini模型定制(非完全采用)以处理复杂任务。Siri升级为独立App,支持自然对话、上下文记忆、跨应用操作,并能理解屏幕内容和摄像头画面。同时,照片、Safari、密码、快捷指令均加入AI功能:照片可重新构图,浏览器标签自动归类,弱密码一键修改,快捷指令一句话生成。
一行命令 `pip install supervision` 即可安装的计算机视觉可视化工具,支持自动画框加标签、视频目标永久跟踪、数据集格式一键转换,内置热力图、区域计数、越线检测、人体骨架等功能,模型无关,已被6500+开源项目使用。
Today, we are launching GMI Agent Box. A complete infrastructure stack for production-ready AI agents: native Docker, fl...
洪明为内容推荐平台BestBlogsDev开设英文新号,分享精选博客与创作者内容,个人号保留构建与开发思考。引用推文回顾Claude Code过去一年的演进:从简单的编码助手成长为由数千自主agent组成的网络,可协作测试、修复、部署代码,无需人类逐级指导。AI在12个月内完成了从工具到协作者再到系统级编排者的转变,被视为新工程范式的诞生。
1/ Claude Code: One Year Later A year ago, Claude Code was a humble coding assistant - helpful for small dev tasks. Toda...
Elon Musk 首次详细解释 SpaceX 的 AI1 轨道 AI 数据中心卫星:峰值功率 150 kW,持续计算功率约 120 kW,相当于一个 NVIDIA GB300 机架;太阳能板效率 250 W/m²;双面散热器排热 1,400 W/m²。通过激光链路实现约 1 Tbps 互联,低轨 600–800 km 高度往返延迟 6–8 ms。由 Starship 发射,计划部署多达百万颗卫星,2027 年底前实现量产。近地目标为吉瓦级轨道 AI 算力,长期向太瓦级推进。
Watch @ElonMusk provide a technical update on SpaceX's capability to manufacture, launch, and operate AI satellites at s...
关联讨论 1 条IT之家(RSS)没有熬夜的兄弟们来看,WWDC 2026 速览! 另插一嘴,Apple真的没有特别的新东西。 一、历史性时刻 1库克谢幕:Tim Cook最后一次以CEO身份主持WWDC,9月1日将交接给硬件工程副总裁John Ternus 2基调延续:发...
Berry Xia 推荐开源工具 Tokei,这是一个 macOS 菜单栏小工具,只读本地日志、零网络调用,30 秒自动刷新,实时监控 Claude Code、Grok CLI、Aider、OpenCode 等 8 个主流 AI coding agent 的 token 用量、实时成本与性能数据,并附每日图表、周热力图和年度 Wrapped。支持私人 Git 多设备同步、价格表本地覆盖,闲置过久会提醒休息。引用推文指出,token 消耗情况可作为深度使用 AI 的面试亮点,数据全程私有,零侵入,无需任何认证。
快让我看看大家消耗了多少token🎉 我现在面试会问候选人的token 消耗情况,这个算是评判你深度使用AI的一个证明了 建议有刚需的朋友也保留一份,给自己简历也能增加一些亮点 当前发布的开源版本使用的是github 做的同步,全程数据都...
Cognition 发布 FrontierCode 基准测试,重新定义 AI 编程评估:由 20 多位顶级开源维护者手工制作 150 个任务(每个耗时 40+ 小时),依据 3000 多条规则判断维护者是否愿意合并代码。该基准指出 SWE-Bench 等超半数通过测试的代码实为不可维护的垃圾。结果中 Claude Opus 4.8 在最高难度档获 13.4%,GPT-5.5 为 6.3%,其余模型 1%–5%。这意味着即便最强模型,近九成代码仍无法通过有经验维护者审核。
Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...
Claude Code 负责人Boris Cherny与Cat Wu回顾一周年核心方法论:每次Claude犯错写入CLAUDE.md或Skill持久化规则而非口头纠正;Verification指agent亲自跑起来验证(如启动模拟器、computer use测试)。Auto Mode取代Plan Mode,用独立分类模型筛权限风险而非人工审批。Routines实现自动化运维(如监听GitHub bug自动提PR)。Context Minimalism主张最小system prompt和工具集。团队预判未来agent运行更久、成百上千并行,产品形态将巨变。
Claude Code's first demo got two Slack reactions. One year after GA, @bcherny and @_catwu look back: verification best p...
Cognition 发布 FrontierCode,含 150 个任务(来自 36 个开源仓库,每任务 40+ 小时),按难度分 Extended/Main/Diamond 三层。沿行为正确性、回归安全等六维度衡量 mergeability,指标为 Pass rate 与 Score。Diamond 子集最高分:Claude Opus 4.8 达 13.4%,GPT-5.5 为 6.3%,Gemini 3.1 Pro 4.7%;Main 子集 Opus 4.8 为 34.3%。开源最佳 Kimi K2.6 仅 3.8%。GPT-5.5 token 用量约为 Opus 四分之一,性价比更优。
Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...
OpenAI joins Anthropic in thinking pausing may be needed 👀 "there should be an international organization that helps [....
GitHub 122K⭐的Skills仓库推出新技能Teach,可将当前工作目录变为有状态学习空间。设计理念从Knowledge(概念事实)→Skills(动手操作)→Wisdom(真实判断)。工作区以文件即学习状态:MISSION.md定目标、lessons/提供课程、learning-records/记录已会内容、reference/生成速查手册。五个关键机制:Mission定方向、ZPD根据记录调整难度、Lesson一课一事+即时反馈、Learning Record记“会了什么”而非“讲了什么”、Reference形成长期可回看手册。可通过npx skills add mattpocock/skills --skill teach安装,适用于从魔方到软件基础等学习场景。
/teach is live Learn anything, from rubik's cube to vocal harmonies to software fundamentals. npx skills add mattpocock/...
Code with Claude, our developer conference, returns next week. Whether you're just getting started with Claude Code or y...
Google DeepMind CEO Demis Hassabis在Google I/O和斯坦福对谈中称,我们正站在奇点山脚,AGI约2030年出现,将进入新人类时代,社会需重视并做准备。这位一向保守的科学家此次改口引发广泛关注。
本期早报聚焦AI编程从辅助到自主Agent的拐点。Anthropic复盘Claude Code一周年:Auto Mode用路由分类模型替代人工审批,通过Claude 4.6/4.7实现数千Agent动态协作。Boris Cherny提出“循环工程”——工程师应设计自动循环系统(定时自动化、并行工作树等5模块),并警示“认知投降”风险。安克创新CEO阳萌4小时访谈阐述从“浅海”到“深海”战略、第三类公司愿景及AI原生组织变革。
本期早报聚焦:Claude Code一周年复盘,从辅助写代码到数千Agent协作网络,推出Auto Mode以安全分类模型替代人工审批;循环工程新范式强调工程师职责从提示Agent转向设计系统;小米MiMo与TileRT通过FP4量化和DFlash推测解码,在商用GPU上实现1万亿参数模型1000+ token/s推理;OpenAI概述AGI第三阶段愿景构建自动化AI研究员;另有安克创新创始人阳萌4小时访谈、六大Agent上下文压缩策略对比、杰弗里·辛顿谈AI失控焦虑等。
http://x.com/i/article/2064136850370101248
Nathan Lambert 批评 AI 领域过度关注持续学习与样本效率,认为这如同专注于弥补弱点而非最大化优势。人类大脑虽是存在性证明,但未必是 AI 最佳路径。前沿实验室实际加速推进现有开发树,对进步有利,但对安全与地缘政治影响复杂。他引用 @dwarkesh_sp 的观点:数据是进步主要驱动力,开源与后来者可通过从公开 API 蒸馏数据快速追赶前沿,而超参数、训练技巧等难以复制。他认为未来已来,AGI 研究应拥抱未知、规模化资源,而非等待不确定的科学突破。
New blog post: on the million-x sample efficiency gap between AIs and humans, and whether it matters: "The reason it is ...
Kimi Work 是一款桌面 AI 代理,支持在本地最多 300 个代理并行执行任务,已适配 macOS(Apple Silicon)和 Windows。配合 WebBridge 扩展,代理可自主在浏览器中搜索、滚动、点击、打字完成操作。内置财经场景优化,原生调用 Yahoo Finance 和世界银行数据,无需复杂 API 配置。自带记忆系统记录用户偏好和决策历史。最终自动生成 PPTX、Word、PDF、Excel 文件。
Meet Kimi Work - a local AI agent on your desktop that does the work for you. 🔹Native agent swarm: Up to 300 AI agents ...
关联讨论 2 条X:Kimi.ai (@Kimi_Moonshot)公众号:月之暗面(Kimi)Google NotebookLM 迎来重大升级,在聊天中注入智能体(agentic)能力、更先进的推理逻辑以及一整套新输出格式。它可自主拆解复杂多步研究任务,逐步推理并生成结果;能主动从网络挖掘新资料,但最终答案严格基于用户批准过的来源,大幅减少幻觉。这让人机协作从“对话”升级为“搭档”。该更新已面向 Google AI Ultra 订阅用户逐步推送。
Introducing a more powerful NotebookLM 🚀 Massive upgrades deliver agentic capabilities in chat, more advanced reasoning...
Tim Cook 最后一次以 CEO 身份主持 WWDC,AI 成绝对核心。苹果推出双轨模型:基础层 3B 端侧 AFM 3 Core,进阶层 20B MoE 仅限 iPhone 17 Pro/M4 设备。四大 AI 能力:个人上下文理解、世界知识检索、App Actions、屏幕感知。Siri 升级支持连续对话、跨设备同步、视觉识别及独立 App,仅限英语,中国/欧盟暂不可用。应用生态:Safari 智能标签分组、密码自动更新、来电识别、快捷指令自然语言生成。影像:Image Playground 写实生成与空间重构。开发者工具:Xcode 支持多模型,Core AI Framework 开放本地部署。遗留问题:中国区功能缺失,Agent 多步自动化能力薄弱。
Kimi Code 开源 coding agent 迎来重大升级:一行 CLI 命令安装、零配置、秒启动;支持拖拽视频作为编码上下文,可参考视频生成 .cube LUT 文件或把屏幕录像转成可运行代码;插件系统上线,可一键拉取股票、财报、学术论文;支持 ACP 协议,对接 JetBrains、Zed,并提供自定义 hooks 扩展工作流。配合 Kimi K2.6 模型使用,视频推理能力大幅增强。
Kimi Code, our open-source coding agent, just got a major upgrade! 🔹One-line CLI install, zero setup, fast startup 🔹Dr...
OpenAI 已秘密提交 S-1 文件(IPO 申请),预计消息将泄露故主动披露。OpenAI 尚未决定上市时间,可能继续维持私有一段时间,因其部分计划在私有状态下更易推进。此举紧随 Anthropic 提交保密 S-1 之后,两大前沿 AI 公司展开 IPO 竞赛:先上市者可能定义整个板块的公开市场预期,迟入者则面临以此为基准的估值对比。
We recently submitted a confidential S-1. We expect it to leak so we're just announcing it. We have not decided on timin...
关联讨论 9 条OpenAI:官网动态(RSS · 排除企业/客户案例)Hacker News 热门(buzzing.cc 中文翻译)X:歸藏 (@op7418)The Verge:AI(RSS)IT之家(RSS)Bloomberg:Technology(RSS)X:Rohan Paul (@rohanpaul_ai)The Decoder:AI News(RSS)TechCrunch:AI(RSS)马斯克称,要达到1000太瓦(TW)的AI电力,即从当前1太瓦/年增长1000倍,唯一途径是在月球建造质量驱动器。方案是在月球本地生产光伏板和散热器,芯片可从地球运来或在月球制造。由于月球无大气且重力仅地球1/6,可用电磁轨道炮(线性电动机)将AI卫星射入深空,无需火箭。
Elon Musk 提出,要将 AI 计算从每年 1 太瓦扩展到 1000 倍,唯一可行方案是在月球上建造质量驱动器(mass driver)。他设想在月球本地生产光伏板和散热器,芯片可能从地球运抵或直接在月球制造。利用月球无大气、仅 1/6 地球重力的条件,通过电磁加速器(线性电动机)将 AI 卫星射入深空,无需火箭运载。
MKBHD猜测WWDC 2026发布的Apple Intelligence驱动的新Siri,首版不会允许用户切换默认App(如用Google日历代替Apple日历)。推文作者赞同这一判断,认为苹果出于权限、隐私和商业利益考虑,会在自有生态内让Siri强大,但出生态则受限。在美国市场这一限制可忍受,但在海外WhatsApp和Google服务是刚需,Siri若无法调用则近乎不可用。新Siri的核心矛盾不在于智能,而在于它听用户的(贴心助手)还是听苹果的(生态门卫)。
I'm also gonna go ahead and guess that this first version of Siri AI will not let me change default apps. Like adding th...
Elon Musk 在 SpaceX 技术更新中指出,太空“永远晴天”,太阳能持续高功率且近乎零边际成本;真空环境仅靠辐射散热,无需风扇或水。结合 Starship 低成本入轨发射,可避免建造地面电站或受制于电网、土地、冷却限制。他估计 2–3 年内,太空将成为产生 AI 算力成本最低的方式,能经济扩展至太瓦级芯片集群。SpaceX 已具备大规模制造、发射、运营 AI 卫星的能力。
Watch @ElonMusk provide a technical update on SpaceX's capability to manufacture, launch, and operate AI satellites at s...
Apple Intelligence in the Passwords app on OS 27 platforms will agentically change your passwords that are exposed in da...
Musk 公布了 SpaceXAI 首颗 AI 卫星,峰值功率 150 kW、持续计算功率 120 kW,配备自产 150 kW 太阳能板,翼展 70 米。散热系统采用 110 m² 可展开液体散热器,带冗余冷却回路与微流星防护。卫星由 Starship 发射,用激光链路通信,避开 Starlink 复杂系统。SpaceX 认为未来版本可大幅扩展。Musk 指出太空 AI 规模化需三大条件:Starship 大运力、巨大太阳能发电、大型散热器,并暗示大规模轨道 AI 最终可能需数百 GW 到太瓦级功率及数百万吨基础设施。
From op-eds in newspapers to NeurIPS position papers, AI is increasingly shaping long-form public discourse. Its argumen...
Elon Musk 指出人类要成为卡尔达舍夫文明需突破三大瓶颈:一、质量到轨道——借助 Starship 实现将数百万吨基础设施(太阳能阵列、散热器、工厂、数据中心)送入太空,大幅降低发射成本;二、发电——在太空部署太瓦级太阳能系统,获取太阳能量的可观份额,而非仅依赖地球资源;三、AI 芯片——太瓦级能源需要太瓦级计算力,先进芯片是星际文明的关键要素。当前人类在卡尔达舍夫尺度上还几乎未入级。
NotebookLM 前核心成员创立的 Huxe 已下架。该产品将邮件、RSS 一键转为可语音交互的播客,但缺乏网络效应和商业模式,按 token 收费无法产生 ROI。作者同期开发 ListenHub,后转向创作者模式,现自负盈亏,预计可再活十年。
今天才发现,NotebookLM 前核心成员出来创业的明星产品 Huxe 居然已下架。有段时间很喜欢。 Huxe 创立于 2024 年,融了很多钱。核心功能是把邮件、RSS 等一键变成可语音交互的播客。很有创意和品味。 品味明显并没有成为 ...