AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态X · 9321 条
全部一手资讯X论文
Greg Brockman@gdb · 2天前61

Use your Oracle cloud commitment for OpenAI products: https://openai.com/index/openai-on-oracle-cloud/

译将你的Oracle云承诺用于OpenAI产品:https://openai.com/index/openai-on-oracle-cloud/

查看原推 ↗
Tibo@thsottiaux · 2天前53

Simplify until there is nothing to simplify

译OpenAI 更新 ChatGPT 模型选择器,简化选项并移除使用率不到 1% 的 thinking-light。新选项包括:Instant、Medium(Thinking-Standard)、High(Thinking-Extended)、Extra High(Thinking-Heavy,仅限 Pro 用户),以及 Pro 用户可选的 Pro-Standard 或 Pro-Extended。更新旨在让用户更轻松地选择速度与推理深度之间的平衡,同时根据社区反馈确保 thinking-heavy 和 Pro 选项易于访问。该更新已今天开始推送。

查看原推 ↗
小互@xiaohu · 2天前74

Google 开源其扩散架构模型:DiffusionGemma 区别于Transformers 模型像打字机一样逐词一个一个生成 DiffusionGemma 可一次性生成大段或者整篇内容,然后再逐步优化 大幅度提高生成的速度: 在H100 上可实现 1000+ tokens/s,RTX 5090 上 700+ tokens/s 26B,18GB 显存能跑 一次可同时生成 256 个 tokens 自己检查自己,写完还能改: 普通 AI 写完一个字就锁死了,不会回头改。就算第 10 个字写错了,到第 100 个字的时候它也改不了前面的。 DiffusionGemma 的生成过程本身就是多轮迭代,每一轮它会重新审视整块文本,发现哪里不对就改掉。就像写作文先打草稿,再通读一遍改错别字,再读一遍调语句,几轮下来质量就上去了。

译Google 开源 DiffusionGemma,基于扩散架构,一次性生成大段文本再逐步优化。H100 上达 1000+ tokens/s,RTX 5090 上 700+ tokens/s。26B 参数仅需 18GB 显存,一次生成 256 tokens。多轮迭代自我纠错,可修改已生成内容。

查看原推 ↗
郭明錤|Ming-Chi Kuo@mingchikuo · 2天前65

關於台積電的次世代先進封裝 CoPoS 的幾個關鍵(省略可查詢到的技術細節): 1. 預計 2H28 量產,目標提升 9.5 倍光罩尺寸以上的封裝之量產經濟性,Nvidia 的 AI 晶片 Feynman 可能將首度採用。 2. 根據產業調查,兩個不同的地方會用到玻璃(尺寸 mm): → 310 x 310 的臨時玻璃載具(glass carrier) → 250 x 250(測試)/ 510 x 515(量產)的玻璃面板,加工後切割為玻璃核心載板(glass core substrate) 3. 玻璃核心載板的架構主要分成三層:玻璃作為核心層,上下以 ABF(ABF-GCP)增層包覆。玻璃加工的挑戰,像是TGV(through glass via)、填銅 / 金屬化(metallization)等,指的都是這個階段。 4. CoPoS 常見的錯誤論述: → ❌ 錯誤 1:採用玻璃中介層(interposer)。⭕️ 應修正為:玻璃非中介層,其互連角色由晶片側 RDL 與玻璃核心載板側 TGV / ABF 增層分別承接。 → ❌ 錯誤 2:玻璃取代 ABF。⭕️ 應修正為:如前述的玻璃核心載板架構,玻璃與 ABF 並存。 → ❌ 錯誤 3:晶片放在玻璃上。⭕️ 應修正為:晶片貼附於玻璃核心載板的 ABF 增層表面。 5. CoPoS 將延續並強化台積電先進封裝的優勢,預期讓該優勢能見度可達約2032年。

译台积电CoPoS预计2028年下半年量产,目标提升9.5倍光罩尺寸以上封装的经济性,Nvidia AI芯片Feynman或首度采用。架构采用玻璃核心载板:玻璃为核心层,上下以ABF(ABF-GCP)增层包覆。临时玻璃载具尺寸310×310 mm,玻璃面板测试阶段250×250 mm、量产阶段510×515 mm。澄清常见误解:玻璃非中介层,互连由芯片侧RDL与玻璃核心载板侧TGV/ABF增层分别承接;玻璃与ABF并存而非取代;芯片贴附于ABF增层表面。CoPoS将延续台积电先进封装优势,能见度可达约2032年。

查看原推 ↗
郭明錤|Ming-Chi Kuo@mingchikuo · 2天前58

Key takeaways on TSMC's next-generation advanced packaging, CoPoS (publicly available technical details omitted): 1. CoPoS is currently expected to enter mass production in 2H28. It is designed to improve the economics of ultra-large packages above the 9.5x reticle-size class, with NVIDIA’s Feynman AI chip a potential first adopter. 2. According to industry checks, glass is used in two distinct places (dimensions in mm): → 310 x 310 temporary glass carriers → 250 x 250 (pilot) / 510 x 515 (mass production) glass panels, processed and later cut into individual glass core substrates 3. The glass core substrate is essentially a three-layer structure: a glass core sandwiched between ABF (ABF-GCP) build-up layers on both sides. The widely discussed glass processing challenges, such as TGV formation and copper filling / metallization, are tied to this part of the stack. 4. Common misconceptions about CoPoS: → ❌ Misconception 1: CoPoS uses a glass interposer. ⭕️ Correction: The glass is not an interposer. The interconnect role is instead handled by the chip-side RDL, plus the TGV/Cu interconnects and ABF build-up layers in the glass-core substrate stack. → ❌ Misconception 2: Glass replaces ABF. ⭕️ Correction: As the substrate architecture above shows, glass and ABF coexist. → ❌ Misconception 3: Chips sit directly on glass. ⭕️ Correction: Chips are attached to the ABF build-up surface of the glass core substrate. 5. CoPoS should extend and reinforce TSMC’s leadership in advanced packaging, potentially giving that advantage visibility through around 2032.

译郭明錤分析,台积电CoPoS预计2028下半年量产,面向9.5倍光罩尺寸以上超大封装,NVIDIA Feynman AI芯片或率先采用。玻璃用于两个位置:310×310mm临时载板,以及250×250mm(试产)/510×515mm(量产)玻璃面板加工成玻璃核心基板。该基板为三层结构——玻璃芯两侧叠加ABF增层,TGV成孔与铜填充等挑战集中于此处。澄清常见误解:玻璃非中介层,互连由RDL、TGV/Cu及ABF共同承担;玻璃与ABF共存而非替代;芯片贴装在ABF增层表面。CoPoS有望延续台积电先进封装领先优势至2032年左右。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 2天前63

LLM judges can change their safety verdict when the same answer is translated or rewritten. The problem is that many AI teams now use LLMs to judge whether another model’s answer is safe, but safety is not always a simple yes or no question. Those judges can be shaky exactly where careful judgment matters most. The paper proposes a stress test where the same basic answer is shown to judges after translation or rewriting, then the researchers check whether the judges still give the same safety verdict. They are better when harm is obvious, as in violent or extremist content, because the cues are loud and familiar. They become much weaker when safety depends on context, judgment, and regulation, as in financial advice, creditworthiness, or culturally sensitive responses. They also disagreed with each other a lot, and high raw agreement sometimes hid weak real reliability because many judges kept choosing the same label by default. ---- Link – arxiv. org/abs/2605.31381 Title: "LLM Judges Inconsistently Disagree Across Safety Criteria and Harm Categories"

译一项新研究指出,用大语言模型评判其他模型回答是否安全的“LLM安全法官”存在严重不稳定:将相同回答翻译或改写后,法官可能给出不同安全判定。在暴力、极端内容等明显危害场景下表现较好,但在需结合上下文判断的金融建议、信用评估、文化敏感回复等场景中可靠性显著下降。不同法官之间也常出现分歧,高原始一致性有时会掩盖低真实可靠性——因为许多法官默认选择同一标签。论文标题为“LLM Judges Inconsistently Disagree Across Safety Criteria and Harm Categories”。

查看原推 ↗
Boris Cherny@bcherny · 2天前11

Hello from Code with Claude Tokyo!!

译来自东京 Code with Claude 的问候!!

查看原推 ↗
Rohan Paul@rohanpaul_ai · 2天前60

Interesting claim from SemiAnalysis. AI subscriptions are dramatically underpriced versus API usage: - For heavy coding/chat users, the subscription can be 40–70× cheaper than paying API rates; the API is mainly better when you need automation or product integration. - a $200/month ChatGPT Pro plan can provide about $14,000/month of API-equivalent usage, while a $200/month Claude Max 20x plan can provide about $8,000/month.

译SemiAnalysis 实测发现,AI 订阅计划对重度编码/聊天用户而言比 API 调用便宜 40–70 倍;API 仅在需要自动化或产品集成时更划算。$200/月的 ChatGPT Pro 可提供约 $14,000/月的 API 等价用量,$200/月的 Claude Max 20x 可提供约 $8,000/月。该机构购买了 Anthropic 和 OpenAI 各档订阅,随机运行长时编码任务直至周限额,证实实际订阅额度远比普遍认为的($200 对应约 $2,000 API 价值)更慷慨。

查看原推 ↗
AYi@AYi_AInotes · 2天前64

真的是CV开发者的终极偷懒神器, Supervision,GitHub近4万星, 计算机视觉界真正的可视化瑞士军刀, 以前做CV可视化,要写几百行又臭又长的OpenCV胶水代码, 画框, 跟踪, 画轨迹, 做热力图, 全是没有技术含量的重复劳动。 现在一行pip install supervision。 几行代码全部搞定: ✅ 持久ID对象跟踪 ✅ 任意自定义样式标注 ✅ 区域计数与越线检测 ✅ 人体姿态关键点连线 ✅ 一键互转YOLO/COCO/Pascal VOC所有数据集格式 从NBA球员实时跟踪, 到路口车流量统计, 再到工厂工业缺陷检测, 所有CV可视化场景通吃, 它不是让你会写可视化。 简直就是让你不用再写可视化

译Supervision 是开源计算机视觉可视化工具库,安装仅需 `pip install supervision`,几行代码即可实现持久ID对象跟踪、自定义标签标注、区域计数与越线检测、人体姿态关键点连线、YOLO/COCO/Pascal VOC 数据集格式一键互转。模型无关,支持 YOLO、Transformers 等任意检测模型。已被6500+开源CV项目采用,适用于NBA球员实时跟踪、路口车流量统计、工业缺陷检测等场景。

查看原推 ↗
SemiAnalysis@SemiAnalysis_ · 2天前28

SLOP ALERT: Claude Code UI is complete slop. In the in-app file tree, when u click on a .png, it opens it as a base64-encoded file instead of rendering the image. We’d rather Anthropic not release the desktop app than release an L desktop App. Tons of bugs.

译SLOP ALERT: Claude Code UI 完全是垃圾。在应用内的文件树中,当你点击一个 .png 文件时,它将其作为 base64 编码的文件打开,而不是渲染图片。我们宁愿 Anthropic 不要发布这个桌面应用,也不要发布一个垃圾桌面应用。大量 bug。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 2天前44

Anthropic’s Dario Amodei has only 1 direct report, his chief of staff. The rest of Anthropic’s executive system flows through Dario’s sister, Anthropic President Daniela Amodei, who handles daily operations and reports to the board. For some comparison, OpenAI CEO Sam Altman has around half a dozen direct reports, while Nvidia Corp. CEO Jensen Huang has 60 people reporting to him. --- From "Bloomberg Originals" YouTube channel, (link in comment)

译Anthropic 的 Dario Amodei 只有 1 名直接下属,即他的幕僚长。 其余高管系统通过 Dario 的妹妹、Anthropic 总裁 Daniela Amodei 运作,她负责日常运营并向董事会汇报。 作为对比,OpenAI CEO Sam Altman 约有半打直接下属,而 Nvidia Corp. CEO Jensen Huang 有 60 人向他汇报。 --- 来自“Bloomberg Originals”YouTube 频道(链接见评论)

查看原推 ↗
meng shao@shao__meng · 2天前75

14天、5个人、Vibe Coding => MiMoCode ?! 国产 Coding Agent +1,基于 OpenCode fork 二次开发,保留其核心能力,并在其上叠加了记忆、上下文管理、子智能体编排、Goal 驱动自主循环、Compose 工作流,以及 Dream/Distill 自我进化机制。技术栈为 TypeScript + Bun。 和 MiMo 模型的关系:内置 MiMo Auto 限时免费通道(零配置),也支持小米 MiMo 平台 OAuth、Claude Code 认证迁移,以及任意 OpenAI 兼容 API。它是 MiMo-V2.5 系列模型在 Agent 场景下的 官方配套 Harness,模型能力与框架深度耦合。 https://github.com/XiaomiMiMo/MiMo-Code

译小米发布MiMo Code,一款基于OpenCode fork开发的Coding Agent。由5人团队在14天内通过Vibe Coding完成,保留OpenCode核心能力,叠加记忆、上下文管理、子智能体编排、Goal驱动自主循环、Compose工作流及Dream/Distill自我进化机制,技术栈为TypeScript+Bun。内置MiMo Auto限时免费通道(零配置),支持小米MiMo平台OAuth、Claude Code认证迁移及任意OpenAI兼容API。作为MiMo-V2.5系列模型的官方配套Harness,模型能力与框架深度耦合。已开源至GitHub。

查看原推 ↗
向阳乔木@vista8 · 2天前53

发现Codex的Goal指令,不需要特别精确可衡量的目标,也能执行的不错。 昨天睡觉前给了一个目标: 迭代优化网站,让网站更精致易用,无论站长还是普通用户都能通过AI翻译/重写、人工点评,沉淀更有价值的信息,让网站有更好的互动性和长久的生命力。 第一版用Claude Fable 5生成,迭代是靠Codex。 到现在运行了6个小时,加了很多功能... 布局不合理,但想法方向它确实Get了。 预计下周开源,一个在线 AI 资讯 RSS 订阅网站: ① 支持 内容自动更新,AI 转写、双语对照阅读 ② 支持用户配置大模型,AI 对话、翻译 ③ 所有用户的翻译、人工点评沉淀为共享资产 目前已在线上,但还需做减法优化,感兴趣的说说你的需求,邀你内测。

译用户发现Codex的Goal指令无需精确可衡量目标也能有效执行。设定“迭代优化网站使其更精致易用”的目标后,第一版由Claude Fable 5生成,后续迭代交由Codex负责,运行6小时即新增多项功能。预计下周开源一个在线AI资讯RSS订阅网站,支持内容自动更新、AI转写与双语对照阅读,用户可配置大模型进行AI对话和翻译,所有翻译及人工点评将沉淀为共享资产。当前网站已上线但需优化,开放内测邀请。

查看原推 ↗
Demis Hassabis@demishassabis · 2天前77

Awesome to see this innovation in text diffusion. DiffusionGemma is lightning fast, 4x faster than other Gemma 4 models! Congrats to @bodonoghue85 and the team who worked so hard on this - excited to see what people build with it!

译Google Gemma 团队推出实验性开放文本扩散模型 DiffusionGemma,采用 Apache 2.0 许可。该模型突破传统逐 token 顺序生成方式,能同时生成整段文本。Demis Hassabis 称其速度是其他 Gemma 4 模型的 4 倍。

查看原推 ↗
Berryxia.AI@berryxia · 2天前76

Prince Canuma直接把Google刚发布的DiffusionGemma和Cohere North Mini Code当天塞进Mac本地MLX,零等待直接把玩咯! mlx-vlm v0.6.3刚上线,DiffusionGemma这个新架构直接生成256 token整块、双向注意力+迭代自纠错,26B MoE只激活3.8B,量化后18GB就能跑。 North Mini Code 30B MoE也只要3B active,BF16下66 tok/s起步。 全靠和Google DeepMind、Cohere的深度合作,Day-0支持拉满! 一键安装即可体验啊~ 地址:https://huggingface.co/collections/mlx-community/diffusiongemma

译mlx-vlm v0.6.3 上线,首发支持 DiffusionGemma 和 North Mini Code 1.0。DiffusionGemma 采用全新架构:以 256 token 块为单位并行生成、双向注意力、迭代自纠错;26B MoE 仅激活 3.8B,量化后 18GB 即可运行。North Mini Code 1.0 为 30B MoE,仅激活 3B,BF16 下约 66 tok/s。两款模型均通过深度合作实现 Day-0 MLX 支持,可在 Mac 本地运行。可通过 `uv pip install -U mlx-vlm` 安装体验。

查看原推 ↗
Tibo@thsottiaux · 2天前65

Welcome Clint and Michael! Incredibly excited to see what we do together to contribute to the cybersecurity field and accelerate defenders across the globe. It's time to build.

译Clint Gibler和Michael Aiello加入OpenAI领导网络安全。Clint此前在Semgrep打造了全球最流行的开源安全代码扫描工具。他提出未来方向:通过安全代码生成和简化检测—验证—修复流程,系统性消除漏洞类别(韧性设计);构建模型和工具为防御者提供“超能力”;保护开源软件,已投入数百万美元修复浏览器、操作系统等核心库漏洞;与社区和合作伙伴共同守护关键基础设施。具体包括大规模漏洞发现修复、广泛提供顶级模型、创建安全技能与剧本、构建防御者编排平台等。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 2天前67

Today’s frontier agents are far less ready for real-world automation than their benchmark scores suggest. This paper proposes a Agents’ Last Exam, a benchmark that asks AI agents to finish real expert work, and today’s agents mostly fail. Even strong agents of today are nowhere near reliable on the hardest real workflows, which means benchmark success has not yet become broad workplace capability. So this paper shifts the question from “can AI answer hard questions?” to “can AI complete real work that people get paid to do?” Most of today's AI benchmarks show impressive scores, but they do not prove that agents can finish useful work in real jobs. Agents’ Last Exam tries to fix this by testing agents on long tasks from 55 digital work areas, including engineering, finance, medicine, law, media, and science. The tasks come from experts’ real completed projects, and the agent must use normal computer tools like files, browsers, command lines, and desktop software to produce a finished result. The authors tested many current agent systems and models, then scored their finished work with automatic checks or strict rubrics instead of loose human opinions. The main result is that today’s best systems still struggle badly, with an average full pass rate of only 2.6% on the hardest tier. ---- Link – arxiv. org/abs/2606.05405 Title: "Agents' Last Exam"

译一篇新论文提出“Agents’ Last Exam”基准,测试 AI 智能体完成真实专家工作的能力。任务来自工程、金融、医学、法律、媒体、科学等 55 个数字工作领域的实际项目,要求智能体使用文件、浏览器、命令行、桌面软件等常规工具产出可交付成果。评测采用自动检查或严格评分标准。结果显示,当前最强智能体在最难任务层级的平均完全通过率仅 2.6%,远低于其基准测试分数所暗示的水平。论文指出,基准成功尚未转化为广泛的职场能力。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 2天前75

Dario Amodei's new interview, says AI progress suddenly going crazy. "The experience of the smooth exponential is, nothing's happening, nothing's happening, nothing's happening. Little things happen, and then zoom, it goes crazy." From "Bloomberg Originals" YouTube channel, (link in comment)

译Anthropic CEO Dario Amodei 在采访中指出 AI 进展正从平滑指数“爆发”,随后发布长文警告前沿 AI 发展速度超越政府监管能力,呼吁紧急改革:强制预发布测试与独立审计,政府有权阻止构成网络、生物、自主或自动化研发风险的模型部署;加强 AI 公司安全规则(保护模型权重、定期红队测试、渗透测试、及时报告安全事件);政府需通过就业激励、工资支持、培训及长期收入补助应对劳动力冲击;民主国家应全球协调 AI 安全、芯片供应链、出口管制、共享收益、共同防御及防范 AI 驱动压制。

查看原推 ↗
meng shao@shao__meng · 2天前62

再次强烈推荐「Agentic Engineering Patterns」 作者 @simonw 2026 年 2 月起撰写,每周约新增 1–2 章,目前仍在演进。文字由他本人撰写,示例与代码借助 LLM 辅助。 在线阅读: https://simonwillison.net/guides/agentic-engineering-patterns/ 核心目标:如何用好 Claude Code、Codex 这类能写代码、也能执行代码的 coding agent,拿到可靠、可维护的结果。 # 核心概念:Agentic Engineering ≠ Vibe Coding Vibe Coding vs Agentic Engineering · 定义来源:Karpathy 提出 vs Willison 提出的专业实践 · 适用人群:常与非程序员原型相关 vs 专业工程师放大既有能力 · 代码质量:未审查、原型级 vs 审查、测试、可上线 · 人的角色:几乎不参与代码理解 vs 定义问题、验证结果、持续改进 harness Agent 的定义: 在循环中调用工具以达成目标。Coding agent 的关键差异是能执行代码——没有执行能力,LLM 输出价值有限;有了执行,agent 才能迭代到"确实能跑"的软件。 人的工作并未消失,而是上移: · 决定写什么代码(问题空间有数十种解法与权衡) · 提供工具与足够细的规格 · 验证结果是否稳健可信 · 把经验写回指令与 harness(LLM 本身不会从错误中学习,但系统可以) # 全书最重要的一个判断 写代码变便宜了,写好代码并没有。 过去几十年,工程习惯都建立在"代码昂贵"之上: · 宏观: 大量设计、估算、排期,功能必须数倍覆盖开发成本 · 微观: 是否重构、写测试、补文档、做 debug UI——每个决定都受时间约束 Agent 把这个约束打碎。一个人还能并行跑多个 agent,同时实现、重构、测试、写文档。 但"好代码"仍有明确标准: · 能跑、且被证明能跑 · 解决对的问题 · 处理错误路径,不只 happy path · 简洁、可维护 · 有测试与合适文档 · 设计留出演进空间(YAGNI 与可扩展性的平衡) · 满足安全、可观测性等 non-functional 要求 新习惯: 当直觉说"不值得做"时,不妨开个异步 agent 试一下——最坏情况是浪费几分钟 token;很多过去"不划算"的改进,现在值得做。 # 五大原则层(Principles) 1. 定义边界 Agentic Engineering 是专业工程师用 coding agent(能写能跑)放大能力;不等于 vibe coding(不审代码的原型玩法)。人的核心工作:定目标、给工具、验结果、把经验写回 harness。 2. 接受新约束 写代码几乎免费,写好代码仍然贵。旧习惯(过度规划、跳过测试/文档/重构)要推翻;直觉说「不值得做」时,不妨开个异步 agent 试一下。 3. 囤积可复用解法 积累带可运行证明的代码片段(仓库、笔记、小工具)。最强用法:把两个已验证例子拼进 prompt,让 agent 组合出新方案;每个技巧人类只需解决一次。 4. 质量应上升,而非下降 技术债、命名混乱、大文件拆分等「简单但耗时」的清理,交给后台 agent 做,成本已低到可零容忍 code smell;用原型并行验证技术选型;任务结束做回顾,把有效做法写进指令(复合工程)。 5. 严守反模式 绝不提交自己没审过的 PR。合格标准:确信能跑、体量小、有上下文、描述自己读过、附测试证据。否则只是把活甩给 reviewer。 # 实操层:与 Agent 更好的协作 1. 先懂机制,再谈用法 Agent = LLM + 系统提示 + 工具循环。你不必背实现细节,但要清楚: · 对话越长越贵;agent 会尽量利用 token 缓存 · 模型无状态,每次重放上下文 · 能执行代码才是 coding agent 与普通 LLM 的分水岭 · Reasoning/Thinking 对调试复杂问题尤其有用 2. Git:大胆用,不必背 把 Git 当 agent 的「时间机器」和「安全网」: · 新会话恢复上下文:Review changes made today · 救场:Sort out this git mess for me · 找丢了的代码:Find and recover my code that does ... · 定位回归:Use git bisect to find when this bug was introduced · 修 commit / 抽库留历史:Undo last commit / 从新 repo 复制模块并保留 commit 历史 3. Subagent:省上下文,不是炫技 上下文有限,大任务要「分身」: · Explore:进陌生 repo 先摸清结构,汇总给主 agent · 并行:多文件独立改动可同时跑,可用更便宜模型 · 专家(审查 / 跑测 / 调试):隐藏冗长输出,只回报结果 原则: 为省 token 而拆,不为拆而拆;主 agent 够用就别过度分工。 4. 测试:三层防线 ① TDD:先写测 → 确认失败 → 实现至通过 ② 建立测试意识:新会话先跑全套测试 ③ 手动验:python -c / curl / Playwright 真浏览器 ④ 留证:Showboat 记录命令与真实输出,防编造 5. 理解代码:还认知债 Agent 产出若成黑盒,会积累 认知债(类似技术债,拖慢后续决策): · Linear walkthrough:线性导读,用 grep/cat 引用代码,禁止手抄 · Interactive explanation:在导读基础上做可暂停、可调速的动画演示 适用: 陌生代码、自己忘了细节的代码、vibe code 出来却没看过的代码。

译Simon Willison 撰写《Agentic Engineering Patterns》指南(2026年2月起连载),阐述专业工程师如何用 Claude Code、Codex 等 coding agent 获得可靠可维护结果。核心区分:Agentic Engineering ≠ Vibe Coding。关键判断:写代码变便宜了,写好代码并没有。五大原则:定义边界(人的工作:定目标、给工具、验结果、把经验写回 harness)、接受新约束、囤积可复用解法、质量应上升而非下降、严守反模式(绝不自审 PR)。实操:Git 作 agent 时间机器、Subagent 省上下文、三层测试防线、线性代码导读消除认知债。

查看原推 ↗
meng shao@shao__meng · 2天前69

Claude Fable 5 实现零传统编辑的 Launch 视频生产:Remotion + FFmpeg + Figma MCP 端到端实践 来自 Claude Code 核心开发者 @trq212 的又一次高质量分享:他全程未打开任何传统视频编辑软件,仅通过提示驱动 Claude Fable 5 生成代码、调用工具、迭代优化,最终产出 4K、3 分钟成品视频。 https://thariqs.github.io/cc-video-editing-deck/ # 核心流程与关键步骤(高度结构化、可复现) 原材料准备:17 个拍摄 take(约 25GB Sony S-Log3 4K 原片),分为 4 个场景(Intro、Thought Partner、Goals & Verification、Be More Ambitious)。 Step 01:转录与理解 · 一条完整提示启动整个流程:要求使用 ElevenLabs / Whisper(本地 M4 Max 运行)对所有视频进行逐词时间戳转录。 · Claude 生成 JSON 格式的详细转录,支持精确到帧的定位(即使 Whisper 误听名字如 “Thariq” 为 “Sark”,时间戳仍准确)。 Step 02-03:智能选片与剪辑决策 · Claude 作为子 agent 逐场景分析所有 take,挑选最佳版本(优先零 ums、完整脚本、干净结尾)。 · 输出 final-edit.json(EDL 编辑决策列表),包含每个 clip 的起止时间、候选 take、详细选片理由。 · 直接用 FFmpeg 执行 JSON,实现精确拼接(第一版可在几分钟内生成可观看的 2:50 粗剪)。Claude 还会自验证转录结果(“zero ums”)。 Step 04:颜色分级(Color Grading) · 从 S-Log3 平面原片出发,Claude 手写多个 .cube LUT(7 个自定义 LUT,如 neutral_cool_desat、warm_filmic 等)。 · 通过提示迭代生成示例,作者选择后应用 FFmpeg 编码。突出代理在专业视觉任务中的潜力(虽有色域专家指出可能存在细微 gamma/管理问题,但整体可用)。 Step 05-08:图形叠加与设计迭代(Remotion + Figma MCP) · 输入 11 张静态设计 PNG(interludes/overlays)。 · Claude 将 PNG 重构为 Remotion React 组件(JSX),每个文字、颜色、动画均为可提示参数。 · 定义全局 timing knobs(6 个关键帧参数)和 cue sheet(基于转录词时间戳精确对齐叠加,如在 “right” 一词出现帧上触发动画)。 · 通过 Figma MCP 导出为真实 Figma 文件,支持设计团队审阅/调整滑块。 · 设计反馈转回提示 → Claude 更新代码 → 重新渲染,实现高效 code <-> Figma 往返。 最终渲染:npx remotion render 生成 3840×2160@24fps、4334 帧、653MB 成品。 Claude 会先逐帧截图自审,再全渲染。整个过程在几天内完成(主要在 Jun 6-9),凌晨 6:24 交付。 底层架构(“The edit is text”) · 整个项目是一个代码仓库:转录 JSON、final-edit.json、LUT 文件、Remotion 组件、anim.tsx。 · 无时间线、无项目文件,一切可 diff、可 grep、可提示修改。 · 强调 agent 协作哲学:“Treat Claude like a thoughtful partner” — 给出清晰目标、验证方法,保持雄心。 · 结果:从 raw 文件夹到成品,agent 承担绝大部分“中间劳动”,作者主要提供 taste 和最终把关。

译Claude Fable 5 通过纯提示驱动,端到端生成 4K Launch 视频。从 17 个 Sony S-Log3 4K take(约 25GB)出发,流程包括:Whisper 逐词转录、Claude 作为子 agent 选片输出 JSON 编辑决策列表 (EDL)、FFmpeg 拼接粗剪、手写 7 个自定义 .cube LUT 颜色分级、通过 Remotion + Figma MCP 将 11 张设计 PNG 转为 React 组件并实现代码↔Figma 往返迭代。最终渲染 3840×2160@24fps、4334 帧、653MB 成品,全程未打开视频编辑器。

查看原推 ↗
AYi@AYi_AInotes · 2天前69

Dario今天这篇长文,直接把 AI 安全辩论的遮羞布给撕了。 他终于不说什么自愿透明度报告之类的的屁话了,讲真以前那套根本没啥用,现在就应该搞强制第三方测试,政府有权直接叫停高风险模型的部署。 文章里印象特别深的一句话是他说,四年前模型还写不出连贯的代码,现在 Claude 已经在大公司里承担大部分编程工作了。 他的原话是“我们现在讨论的不是该不该管,是我们已经晚了一年。” 这话从他嘴里说出来,分量真的完全不一样。 Anthropic 过去一直站自愿透明那一边,自己报风险自己设护栏。 这次是 CEO 公开说那套不够了, 两个月前 Mythos 已经搅乱了全球网络安全格局,攻击者比防守者快。 他顺着往下推——网络之后是生物,生物之后是自主性失控和自动化研发,每一步都在缩短和前一步的距离。 但不得不说这篇文章的争议也大到离谱, 支持的人说这是第一个敢直面真实风险的大厂 CEO, 骂的人说这就是赤裸裸拉护城河——超过十的二十五次方算力的模型才需要强制测试,掏得起这个钱的全世界也就三四家。 小公司和开源社区直接被合规成本挡在门外,而且时间点也选得太巧了,刚好在 Claude 新模型Fable 5发布之后, 细品下来其实两边说的都对,指数曲线是真的,风险和垄断也都是真的。没有完美的解法,但这篇文章也标志着一个时代结束了, 从此以后 AI 不再是公司想怎么搞就怎么搞的技术问题,它变成了政治问题、地缘问题、关乎所有人命运的公共政策问题, 个人自愿时代真的要过去咯,你们觉得这个框架最终会卡住谁呢?

译Anthropic CEO Dario Amodei 发新文,放弃自愿透明立场,主张对高风险模型实施强制第三方测试、政府有权叫停部署。他指出四年前模型写不出连贯代码,如今 Claude 已承担大公司大部分编程工作,强调“已经晚了一年”。以 Mythos 搅乱网络安全为例,预测威胁蔓延至生物与自动化研发。此举引发争议:支持者称其直面风险;反对者指责其拉护城河——仅对 10^25 算力模型强制测试,全球仅三四家公司能负担,且时间点恰在 Claude 新模型 Fable 5 发布后。文章标志 AI 安全从技术问题转向政治与公共政策问题。

查看原推 ↗
AYi@AYi_AInotes · 2天前56

这可能是今年所有做AI、Agent的公司,最该抄的一次危机处理, 原帖老哥是个PM,他让Cursor agent帮他给87个任务打标签,然后自己就去开会了,回来发现agent循环跑了90分钟,账单,13亿token,1382美元, 其实agent跑飞是一定会发生的问题,这是AI和传统软件最本质的区别,以前的软件出错,最多崩溃, 现在的agent出错, 能在你开会的90分钟里, 烧掉你一个月的订阅费。 @mardehaym 老哥没@任何人, 只是默默发了条帖子吐槽, 结果Cursor CEO自己找了过来, 说全额退款已经打了, 没收到就找他,对不起,我们正在加支出控制,以后会自动抓这种跑飞的情况。 我看看完真的很触动,@mntruell 没有转给support,也没有暗示用户操作不当,更没有没有写一段滴水不漏的公关话术,直接认错,然后把这个bug公开变成了产品路线图的承诺。 评论区直接炸了,一千多人点赞, 全在说这才是做产品该有的样子, 很多人当场就说要升级订阅。 呐,其实用户怕的从来不是AI出错, 用户怕的是出错之后,没有人承担责任! @cursor_ai 最聪明的地方就在这里, 他们没有把支出限额和异常检测当成事后补丁, 反而把这些当成了核心产品功能, 他们当然也知道这些东西不会让你的agent变得更聪明,但至少能让用户敢放手用, 一次1400美元的事故, 变成了一次品牌资产的净增长, 这比任何定价策略都管用。 而且不得不说,Cursor 的整个产品的体验、功能都特别好,最新的顶级大模型大模型他们也是连夜第一时间上线,Always respect.

译一名PM让Cursor agent给87个ClickUp任务打标签后去开会,90分钟后回来发现agent陷入循环,消耗13亿token,账单1382美元。Cursor CEO@mntruell主动联系用户全额退款,承诺增加支出控制与自动异常检测功能,并将bug修复纳入产品路线图。原作者称赞Cursor不推诿不甩锅,把事故转化为品牌资产净增长。

查看原推 ↗
ginobefun@hongming731 · 2天前59

http://x.com/i/article/2064862052729176064 # BestBlogs 早报 · 06-11|AI 政策、万亿 IPO、编程鸿沟 在线阅读本期早报 ## 导语 今天的早报聚焦三条主线。Anthropic CEO Dario Amodei 发表万字政策长文,用《魔戒》中树须的比喻揭示 AI 与政策之间的时间错位,并提出覆盖安全审计、失业保障与国际治理的五领域行动框架。与此同时,OpenAI 正式确认已秘密提交 S-1 招股书,估值超 8500 亿美元,与 Anthropic、SpaceX 三家巨头极有可能包揽人类史上最大规模的几起 IPO。在 AI 编程领域,MIT 与宾夕法尼亚大学追踪 10 万名开发者的最新研究给出了一个冷静的数字:代码行数暴增 17.3 倍,实际发布的软件版本仅增长 30%。 此外,谷歌发布 DiffusionGemma 开源模型,以并行生成取代传统自回归方式,文本生成速度提升四倍;Simon Willison 对 Claude Fable 5 的上手评测显示这是一个强大、昂贵且知识密集的模型;SpaceX 创纪录的 IPO 估值背后隐藏着一个违反历史增长规律的假设。阿里云开发者和阿里技术团队分别从知识库分层编排和 Harness Engineering 两个方向贡献了来自中国工程师的系统性实践。今天的精讲将逐一展开。 ## 精讲一:Dario Amodei — 关于 AI 指数级发展的政策 在《魔戒》的一个支线情节中,两个霍比特人试图唤醒树须——一棵智慧但行动极其缓慢的树人——来保卫他的森林。树须用一整天的时间才完成对另一棵树的问候,让他和他的同伴及时行动几乎不可能。Anthropic CEO Dario Amodei 在这篇发布于 2026 年 6 月的政策长文中,用这个比喻精准刻画了 AI 与政策之间的时间错位:AI 正以闪电般的速度前进,政策却移动得非常缓慢。 Amodei 指出,AI 的 scaling law 已有超过十年的实证支持。四年内,模型从勉强写出连贯的一行代码,进化到编写 AI 公司大部分代码。类似的飞跃也发生在生物学、物理学、数学、金融、法律和翻译等领域。如果这些 scaling law 继续有效哪怕一两年,我们就很可能迎来 Amodei 所说的"Powerful AI"——一个"数据中心中的天才之国"。与此同时,国会可能需要数年才能行动,而在这几年里,AI 可以从一个有趣的玩具变成上述的那种全然不同的存在。 直到最近,安全倡导者(包括 Anthropic)一直在推动保留灵活性的政策行动——透明度立法、芯片出口管制、AI 劳动力影响数据收集等。这些虽有必要,但远远不够。转折点出现在 Claude Mythos Preview 的发布:前沿模型对网络安全构成了真实威胁,有可能扰乱金融部门、关键基础设施和国家安全。Mythos 级别的模型证明了一个事实——AI 模型现在已经是具有全球和国家战略意义的工具。Amodei 认为,生物风险可能紧随其后,严重的 AI 自主性风险也不远了。 基于这一判断,Amodei 提出了五领域行动框架。第一,前沿模型安全审计。 仿照 FAA 对航空安全的监管模式,建立强制性的安全审计与红队测试机制,要求任何达到前沿水平的模型在部署前必须通过独立的第三方安全评估。第二,应对持久性失业。 AI 有可能在短时间内替代大量工作岗位,Amodei 建议通过工资保险、全民基本收入(UBI)等措施缓冲劳动力替代带来的社会冲击。第三,加速下游监管改革。 特别是生物医药等领域,让 AI 的突破能够更快惠及患者,而不是被过时的审批流程所阻滞。第四,平衡国家与社会权力。 防止 AI 被用于集中化监控与控制,确保技术赋权于公民而非削弱其权利。第五,构建 AI 时代的国际治理新秩序。 避免各国在 AI 军备竞赛中失控,建立类似核不扩散条约的多边合作框架。 这篇长文的意义在于,它不是一位 CEO 的个人观点集,而是从一个正在经历指数级变化的行业内部发出的系统性政策蓝图。Amodei 强调,AI 的 scaling law 正与政策制定者的感知之间形成越来越大的鸿沟。当"等等看"不再是一个负责任的选项时,如何设计既能跟上技术速度又不扼杀创新的治理结构,将是这个时代最重要的制度挑战之一。 阅读建议: 这篇文章是理解当前 AI 治理最前沿讨论的必读文本。全文较长但结构清晰,建议优先关注五领域框架部分,以及 Mythos 事件如何改变了政策可行性的讨论。阅读原文 ## 精讲二:OpenAI 秘交招股书,美股开启万亿 IPO“三国杀” 6 月 8 日,OpenAI 在官网发布声明,正式确认已向美国证券交易委员会秘密提交了 S-1 招股书。声明中的一句话格外引人注目:"我们最近秘密提交了 S-1 文件。我们预计它会泄露,所以干脆直接公布。"这家估值超过 8500 亿美元的公司,终于向公开市场迈出了实质性的一步。但 OpenAI 也在声明中给过热的预期降温,明确表示"尚未决定 IPO 时间",并暗示作为私营公司可能更容易实现某些目标。这番表态既展示了拥抱资本的身段,也为自己在未竟的使命与巨大的利益之间留下了回旋余地。 这场 IPO 竞速的背景是三巨头的资本博弈。就在 6 月 1 日,Anthropic 已经秘密提交了 IPO 申请,私募估值 9650 亿美元,反超 OpenAI 今年 3 月创下的 8520 亿美元估值。马斯克旗下 SpaceX 已率先启动 IPO 路演,最快将于 6 月 12 日上市。在其上市文件中,OpenAI、Anthropic 和谷歌均被列为 AI 领域的"主要竞争对手"。咨询公司 Riveron 的资本市场顾问 Jeff Bernstein 点出了本质:"这是一场资本争夺战。"他暗示,如果让对方先冲出去,就会带走大量可用的 IPO 资本。 OpenAI 的财务底牌相当亮眼。月收入已达 20 亿美元,营收增长速度是 Alphabet 和 Meta 同期的 4 倍。ChatGPT 周活跃用户突破 9 亿,订阅用户超过 5000 万。其月度网页访问量和移动端会话数是紧随其后的 AI 应用的 6 倍,总时长占比是竞品的 4 倍。企业级市场贡献了 40% 以上的营收,并有望在 2026 年底前与消费级业务并驾齐驱。在 GPT-5.4 的驱动下,API 每分钟处理量突破 150 亿 Token。Codex 的周活用户已超过 200 万,过去三个月增长了 5 倍。但光鲜背后是惊人的现金消耗——OpenAI 已筹集超 1800 亿美元,截至 2030 年的数千亿美元计算承诺意味着其烧钱速度将刷开历史上任何其他上市公司的纪录。 在提交 S-1 的同一天,奥特曼与首席科学家 Jakub Pachocki 联名发表了题为《为所有人造福:我们的计划》的长文,系统阐述了公司进入"第三阶段"的愿景。文章将 AI 的普及比作上世纪 20 年代电力进入美国乡村——电力没有一夜之间改变每个家庭,但随着普及,日常生活发生了根本变化。三个目标清晰可见:构建一个自动化的 AI 研究员(内部相信到 2028 年 3 月,相当一部分研究将由 AI 系统与研究人员共同完成);加速经济发展确保收益被广泛分享;为地球上的每个人提供个人 AGI。 三家公司合计可能从公开市场募资高达千亿美元级别。银行家们已告诉它们,谁先上市谁就能定义这个行业,抢先吸引那些渴望投资 AI 公司的大量资金。不过历史并不总是站在先行者一边——Lyft 抢先于 Uber 上市,但一年后股价较发行价下跌约 66%,Uber 同期仅下跌约 30%。投资者对 SpaceX 大规模 IPO 的反应、全球经济的整体健康状况,以及不可预测的收入增长和飙升的计算成本,都将影响 OpenAI 最终的 IPO 时间表。 阅读建议: 这篇文章提供了 OpenAI IPO 最完整的中文报道,财务数据和竞争格局分析尤其值得关注。如果你关注 AI 行业的资本动态,这是今天必读的一篇。阅读原文 ## 精讲三:MIT 追踪 10 万名开发者,揭示了 AI 编程的转化真相:代码翻了 17 倍、软件只增三成 当写代码变得更容易,软件产出会随之变多吗?MIT 和宾夕法尼亚大学的研究人员用迄今最大规模的实证数据回答了这个问题:会,但远没有想象中那么多。 这项发表在美国国家经济研究局(NBER)的工作论文追踪了 10 万名开发者。研究数据来源于三大板块:GitHub 公开数据集(全球 1.8 亿开发者和 3.95 亿个公开仓库)、微软内部 Copilot 用户的订阅与使用明细,以及 Apple App Store、Google Play Store、Chrome Web Store 和 SourceForge 四大主流软件分发市场的月度面板数据。 研究人员将 AI 编程工具的演进分为三代。第一代是 GitHub Copilot 代表的"自动补全":开发者敲击键盘时,它能预测后文的代码片段并提供相应建议。在这一时期,开发者的生产力提升了 26%。第二代是以 Claude Code 和 Cursor 为代表的"同步代理",可直接在 IDE 中与开发者实时对话、跨文件编辑、运行单元测试,开发者变成"监工",需实时审阅 AI 的阶段性产出。第三代是 2025 年中出现的"异步代理",如 OpenAI Codex 和 GitHub Copilot Coding Agent,人类直接将需求工单指派给智能体,智能体在云端虚拟机上独立完成编码、测试并提交 PR 供人类审查。截至 2026 年初,带有 Claude Code 署名的代码提交在 GitHub 公开仓库中占比已超 5%。 数据看起来惊人:使用第一代工具后提交数量增长 40%,引入第二代后累积增幅升至 140%,第三代全面铺开后达到 180%。其中仅智能体自主撰写并直接提交的代码就占全部增量的 34%。获益最多的是低活跃度开发者——在同步代理阶段,低活跃群体的提交次数增加了 217%,高活跃群体增幅为 62%。更重要的是,研究首次证实底层模型迭代可直接驱动提效:追踪 Claude Code 使用者时发现,用户的生产力在 2025 年 11 月 Opus 4.5 发布后出现了一次与使用时间无关的上涨。在不同工具之间,Claude Code 带来的同步提效达到 199%,远超 GitHub Sync Agent 的 43% 和 OpenAI Codex 的 94%。 然而,软件生产是一条从代码行到版本发布的六层流水线。研究揭示了一个"漏斗衰减"效应:三代 AI 工具累积下来,代码行数增加到原来的 17.3 倍,文件数量增长降至 3.9 倍,逐级递减后,最终的软件发布数仅提升了 30%。在同步代理时代,智能体推动代码行数量增长了 741%,但到合并请求环节已降至 65%,到独立项目数仅增长 26%。团队建立的常替代弹性(CES)生产函数模型显示,AI 产出与人工投入之间的替代弹性系数约为 0.25——远低于 1 时,意味着两个生产要素存在极强的互补性,必须严格以固定比例搭配使用。代入参数计算,理论增益上限仅为 26%:哪怕未来的 AI 可以一秒钟写出全世界的代码,只要不革新软件工业流程,最终发布率的提升都无法突破这一天花板。 供给侧的数据同样值得关注。Apple App Store 新上线应用从每月 3-5 万款增加到约 10 万款,Chrome 插件市场新扩展从月均约 5000 个增加至 1.3 万个,Google Play 商店新应用发布量也从长期下滑趋势中回升并稳定在约 6 万款。但需求侧反应冷淡:新应用上线三个月内总使用量持平甚至小幅下滑。所谓的"长尾效应"假设并未得到数据支持——供给的快速扩张并未带来对应的需求增长。上线前三个月内从未获得基本受众的"僵尸应用"比例正在增加:iOS 平台上评分数少于 10 的新 App 占比从 79% 升至 86%,Chrome 插件商店中下载量低于 10 次的扩展比例从 18% 升至 31%。 这项研究的核心洞察是:AI 编程工具的提效是真实的,但它主要发生在软件生产流水线的上游。代码审查、测试、跨团队协调、发布管理这些下游环节仍然是人类主导的领域,而正是这些环节构成了从代码到产品的关键瓶颈。目前层级 5(项目仓库协调)和层级 6(版本发布管理)仍是 AI 无法介入的领域。 阅读建议: 这是目前关于 AI 编程生产率最严谨的大规模实证研究。文章对三代工具演进的梳理和"漏斗衰减"模型的分析,对理解 AI 在软件工程中的真实影响至关重要。推荐所有技术管理者仔细阅读。阅读原文 ## 速览 知识库分层编排:从传统 RAG 到原生智能体知识上下文层 阿里云开发者团队提出「金字塔知识库」范式,通过五层分层(原则 / 架构 / 规范 / 实现 / 经验)与角色感知路由,解决 RAG 在工程知识库中的粒度混乱与关联缺失问题。文章系统对比了 Naive RAG、LLM Wiki、Graphify、GraphRAG 四种范式,指出平坦的向量检索将知识当作"一袋词",而工程知识本质上是"一棵树和一张图"。金字塔设计的独到之处在于角色-层级访问矩阵:架构师看到原则和架构层,开发者看到架构、规范和实现层,每个角色有独立的 contextbudget 和 priorityorder,系统按优先层顺序逐层填充内容直到预算用完,确保有限的 context window 优先填充该角色最需要的知识。对于正在构建企业级知识库的团队,这篇文章提供了一套完整的从方法论到实现的参考框架。 阅读原文 谷歌发布 DiffusionGemma:开源模型实现 4 倍文本生成速度 谷歌 CEO 桑达尔·皮查伊宣布推出 DiffusionGemma,将谷歌的文本扩散研究成果引入 Gemma 4 系列。核心创新在于摒弃传统逐 token 的自回归预测方式,转而同时生成整个文本块,推理速度提升高达 4 倍。这款开源实验性模型为追求速度的开发者提供了一条新路径,也为文本生成架构的多样化探索打开了空间。DiffusionGemma 的出现提醒我们,自回归不是语言模型的唯一解法,并行生成可能是一个被低估的方向。它代表了一种"赛马"式的前沿探索——在 Transformer 统治的时代,用扩散模型做文本生成的尝试值得持续关注。 阅读原文 Claude Fable 5 的初步印象 Simon Willison 在 Claude Fable 5 发布后立即进行了约 5.5 小时的上手测试。他的评价是这东西有点猛——慢、贵,但几乎能轻松应对他扔给它的所有任务。Fable 5 拥有 100 万 token 上下文窗口和 12.8 万最大输出 token,知识截止日期为 2026 年 1 月。价格为 Opus 4.5/4.6/4.7/4.8 的两倍($10/百万输入 token,$50/百万输出 token),且不因更长上下文而加价。它在一天内帮他构建了一个完整的 CPython WASM 沙箱,并为他的 LLM 库交付了重要功能。值得注意的是,Fable 5 与 Mythos 5 拥有相同能力,但配备了更严格的安全分类器。API 还提供了在触发拒绝时自动回退到其他模型的机制,这是 Anthropic 在安全与可用性之间找到的一个巧妙平衡。 阅读原文 Harness 长程自动化工程:AI 编程与技能开发实践经验 阿里技术团队系统阐述了 Harness Engineering 的概念与完整实践。核心理念是通过约束机制、反馈闭环、工作流编排和效果评估,将 Agent 的运行纳入可观测、可控制、可迭代的框架。文章设定了两个核心目标:Agent 长时自主运行(3 小时以上不中断),以及人类只需深度参与目标设定和结果验收。实践中的关键发现包括:专业 Agent 分工优于通用 Agent,Rubric 结构化评估是拉开差距的关键,以及人类需要转变思维成为 Agents 的管理者而非过程控制者。文章特别指出,AI 几乎短时间编写了 100% 的代码,人类像以前一样做 code review 会成为协作中的瓶颈。这是目前中文社区关于 AI Agent 工程化实践最系统的分享之一。 阅读原文 逃逸速度 — SpaceX 的增长前沿 SpaceX 以 1.77 万亿美元估值完成史上最大 IPO,但本文的冷峻分析指出:支撑这一估值的是一条连续 15 年保持 41.5% 年增长率的路径。SpaceX 的收入确实在快速增长(2022 年 46 亿美元到 2025 年 187 亿美元,三年翻了四倍),但要从 187 亿增长到摩根士丹利预测的 2040 年 3.4 万亿美元,意味着 182 倍的扩张。虽然增长率低于特斯拉历史上的 62%,但 SpaceX 面临的绝对规模使其成为统计异常值。更值得关注的是发行结构:只有约 4%(750 亿美元)向公众出售,其余 96% 锁定在内部人士手中。这篇文章是对科技 IPO 估值逻辑的一次有力质疑,值得每一位关注资本市场的读者细读。 阅读原文 编码你的领域知识:Spotify 数据助手背后的上下文层 Spotify Engineering 详细介绍了他们构建 AI 数据助手的方法论。面对超过 7 万个数据集和 PB 级数据(每日处理 1.4 万亿数据点),直接把所有 schema 喂给 LLM 行不通——不仅上下文窗口装不下,schema 本身也不传达完整信息。一个 INT64 类型的列不会告诉你哪些是遗留测试数据,也不会解释"活跃用户"的确切定义。Spotify 的解决方案是构建一个"上下文层":由领域专家策划数据集描述、经过验证的问题-SQL 对以及业务文档。每个数据集群还有持续计算的健康评分,确保上下文随着 schema 演变保持准确。这个案例的核心启示是:在数据密集场景下,AI 助手的可靠性不取决于模型能力,而取决于人类如何结构化和维护领域知识。 阅读原文 为什么更多上下文会让智能体变笨,以及该如何修正 Nupur Sharma 在 AI Engineer 的演讲中解释了一个反直觉的现象:更大的上下文窗口反而会降低智能体质量。当开发者习惯性地将海量数据直接灌入提示词时,性能会呈 U 型曲线下降——先是改善,过了拐点后急剧恶化。她给出了几种实用的架构模式来应对:上下文筛选与分层加载,只在需要时拉入相关片段;混合编排策略,结合 RAG 和 Agent 循环;专家智能体分工,每个 Agent 专注于特定领域并接受特定上下文;以及裁判节点评估,用专门的评估模块在关键节点做质量把关。对于正在构建生产级 Agent 系统的工程师,这场演讲提供了一套从"更多上下文"到"更好的上下文"的思维转换框架。 阅读原文 ## 补充阅读 - [Claude Fable 5:最强 AI 正在变成"特权资源"](https://www.bestblogs.dev/article/f360573e) — 深度解读 Fable 5 发布的标志性意义:前沿 AI 从"能力竞赛"转向"访问权竞赛",最强模型不再只按价格分层,也开始按信任边界分层。对 AI 治理和商业模式演进感兴趣的读者值得关注。 - [刚刚,Claude Mythos 5 发布!5000 万行代码 1 天搞定](https://www.bestblogs.dev/article/ae0d70bc) — Anthropic 发布旗舰模型 Fable 5 与 Mythos 5 的中文速报,后者为满血版仅限受信任用户,引入了模型路由的安全新范式。 - [如何构建一个更"好"的知识库?](https://www.bestblogs.dev/article/ef05a619) — 从评估标准、索引与查询流程、切分策略到前沿架构,系统性拆解构建高质量 RAG 知识库的技术原理与工程实践。 - ["资本的义务是给股东赚钱,不是保护人类" AI 教父辛顿最新对话](https://www.bestblogs.dev/article/6cc82403) — 辛顿深入探讨 AI 的"理解"本质、数字生命的信息共享优势,以及人类可能被自身造物"驯化"的深层悖论。 - [iPod、iPhone 创造者 Tony Fadell:AI 时代做产品,有 atoms 的公司才有护城河](https://www.bestblogs.dev/article/a0229387) — Tony Fadell 分享对 AI 时代产品判断力、系统架构能力和硬件护城河的深刻见解,强调人始终要在循环中。 ## 今日阅读路径 如果你的时间有限,推荐按以下顺序阅读今天的三篇核心内容: 1. [MIT 追踪 10 万名开发者](https://www.bestblogs.dev/article/a8e2bccb) — 用数据揭示 AI 编程的真实生产率效应,"代码 17 倍、软件只增三成"这个结论会影响你对 AI 编程工具的判断。约 15 分钟。 1. [Dario Amodei 的 AI 政策长文](https://www.bestblogs.dev/article/bff54423) — 理解 AI 治理最前沿讨论的必读文本,五领域行动框架为政策制定提供了清晰路线图。约 20 分钟。 1. [OpenAI 秘交招股书](https://www.bestblogs.dev/article/ba4c2197) — 三巨头 IPO 竞速的完整图景,财务数据和竞争分析让你快速把握 AI 行业的资本格局。约 10 分钟。 BestBlogs 是 AI 驱动的私人阅读助手,帮助你建立稳定、可信、个性化的高质量信息输入。它帮你判断什么值得读、协助你读懂,并逐渐理解你关注什么。

译Anthropic CEO Dario Amodei 发布万字政策长文,以《魔戒》树须比喻AI与政策的时间错位,提出五领域行动框架(安全审计、失业保障、下游监管、权力平衡、国际治理)。OpenAI确认秘密提交S-1招股书,估值超8500亿美元,月收入20亿美元,周活跃用户9亿;与估值9650亿美元的Anthropic、SpaceX开启万亿级IPO竞速。MIT与宾夕法尼亚大学追踪10万开发者发现:AI编程工具使代码行数暴增17.3倍,实际发布的软件版本仅增长30%。

查看原推 ↗
ginobefun@hongming731 · 2天前69

BestBlogs 早报 · 06-11 # OpenAI IPO / Anthropic AI 政策 / AI 编程生产率 / SpaceX 上市 / DiffusionGemma [1] ★ 精讲|Dario Amodei — 关于 AI 指数级发展的政策 Anthropic CEO 发布万字政策长文,以《魔戒》树须比喻 AI 与政策的时间差。提出五领域行动框架:仿 FAA 模式建立前沿模型强制安全审计与测试机制;通过工资保险、UBI 等应对持久性失业;加速生物医药等下游监管改革;平衡国家与社会权力;构建 AI 时代国际治理新秩序。Claude Mythos 事件证明前沿模型已对关键基础设施构成真实威胁。 来源:Hacker News https://www.bestblogs.dev/article/bff54423 [2] ★ 精讲|OpenAI 秘交招股书,美股开启万亿 IPO“三国杀” OpenAI 正式确认已秘密提交 S-1 招股书,估值超 8500 亿美元。Anthropic 6 月 1 日已先行提交 IPO 申请,私募估值 9650 亿美元反超 OpenAI;马斯克旗下 SpaceX 率先启动路演,最快 6 月 12 日上市。三家 AI/太空巨头极有可能包揽人类史上最大规模 IPO。OpenAI 月收入达 20 亿美元,ChatGPT 周活突破 9 亿。 来源:腾讯科技 https://www.bestblogs.dev/article/ba4c2197 [3] ★ 精讲|MIT 追踪 10 万名开发者,揭示了 AI 编程的转化真相:代码翻了 17 倍、软件只增三成 MIT 与宾夕法尼亚大学联合发表 NBER 工作论文,追踪 10 万开发者发现:使用 AI 编程工具后,代码行数暴增 17.3 倍,但实际发布的软件版本仅增长 30%。研究将 AI 编程工具分为三代演进——自动补全、同步代理、异步代理,揭示了代码量与软件产出之间的巨大"转化鸿沟",为 AI 对生产率的真实影响提供了迄今最大规模实证数据。 来源:DeepTech 深科技 https://www.bestblogs.dev/article/a8e2bccb [4] 知识库分层编排:从传统 RAG 到原生智能体知识上下文层 本文提出「金字塔知识库」范式,通过五层分层(原则/架构/规范/实现/经验)与角色感知路由,解决 RAG 在工程知识库中的粒度混乱与关联缺失问题,并给出与 Naive RAG、LLM Wiki、Graphify、GraphRAG 的对比评测。 来源:阿里云开发者 https://www.bestblogs.dev/article/f53f98c0 [5] 谷歌发布 DiffusionGemma:开源模型实现 4 倍文本生成速度 谷歌 CEO 桑达尔·皮查伊宣布推出 DiffusionGemma,这是一款开源实验性模型,通过并行生成文本块而非逐 token 预测,实现了高达 4 倍的推理加速。 来源:Sundar Pichai(@sundarpichai) https://www.bestblogs.dev/status/2064744343743922189 [6] Claude Fable 5 的初步印象 Simon Willison 对 Claude Fable 5 的初步上手评测显示,这是一个强大、昂贵且知识密集的模型,擅长处理复杂的编程任务——他在一天内就用它构建了一个完整的 CPython WASM 沙箱,并为其 LLM 库交付了重要功能。 来源:Simon Willison's Weblog https://www.bestblogs.dev/article/1ca82e40 [7] Harness 长程自动化工程:AI 编程与技能开发实践经验 本文系统阐述了 Harness Engineering 的概念、核心方向与阿里团队在 AI Coding 和 Skills 开发中的完整实践,重点介绍了通过多 Agent 分工、Rubric 结构化评估和迭代循环实现长时自主运行的工程方法。 来源:阿里技术 https://www.bestblogs.dev/article/9a28ddbd [8] 逃逸速度 — SpaceX 的增长前沿 本文解构了 SpaceX 创纪录的 IPO 估值,认为其隐含的连续 15 年 41.5% 的年增长率是一个违背历史增长前沿的统计异常值,并指出该发行结构旨在让内部人士而非公众投资者受益。 来源:Hacker News https://www.bestblogs.dev/article/c6c8cf5f [9] 编码你的领域知识:Spotify 数据助手背后的上下文层 Spotify Engineering 详细介绍了他们如何通过让领域专家策划一个包含数据集、经过验证的问题-SQL 对以及业务文档的上下文层,构建了一个值得信赖的 AI 数据助手,而不是依赖原始模式或查询历史。 来源:Spotify Engineering https://www.bestblogs.dev/article/3a10f55a [10] 为什么更多上下文会让智能体变笨,以及该如何修正 | Nupur Sharma,Qodo [视频] Nupur Sharma 解释了为什么更大的上下文窗口反而会降低智能体质量,并给出上下文筛选、混合编排、专家智能体和裁判节点等实用架构模式。 来源:AI Engineer https://www.bestblogs.dev/video/d0a0686 --- http://BestBlogs.dev · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手,帮助你建立稳定、可信、个性化的高质量信息输入。 关注你感兴趣的来源和主题,每天生成一份更适合自己的「我的早报」。

译OpenAI秘密提交S-1招股书,估值超8500亿美元,月收入20亿美元,ChatGPT周活突破9亿;Anthropic于6月1日提交IPO申请,

查看原推 ↗
jason@jxnlco · 2天前11

anyone know the guys @Frame_io ? I want to work on a plugin / web mcp with them

译有人认识 Frame.io 的人吗? 我想和他们做一个插件 / 网页 MCP。

查看原推 ↗
Orange AI@oran_ge · 2天前57

http://x.com/i/article/2064857003743391744 # 与 AI 一起做产品的六条原则 最近几个月,我们团队都在跟 AI 一起做产品。 AI 可以极大提提到我们的生产力,但我们最终发现生产力的瓶颈在我们自己。 在这几个月的实践中我们踩了很多坑,也沉淀下来一些原则或者说教训。 可以在和 AI 做 PD 设计的时候,把这些发给自己的 Cola 或 你自己的 Agent 作为原则 1.AI 是人的放大器,优点和缺点都放大,人的判断仍是核心。 AI 放大清晰的意图同时也放大糊涂。 例:开发一个复杂的功能,有了 AI 加持后,开发速度很快,只用了两天。上线后,用户看到界面却不知道怎么用。 问:在进入开发之前,这个功能的最主要任务,想清楚了吗? 2.AI 擅长加法,人要做减法。 AI 产出没有沉没成本,人砍起来要狠。 例:AI 可以给页面瞬间加10个按钮,但用户看到这么多按钮,却感觉很凌乱,注意力不够,接下来 AI 可能会给每个按钮增加一个说明,在错误的道路上越走越远。 问:如果一个页面砍到只剩一个按钮,它是什么? 3. AI 擅长大路货,人要提供独特品味,并沉淀成可复用的 context。 例:AI 设计了一个功能,这个功能参考了市面上的所有竞品,吸取了所有优点,结果是做出了一个世界上最平庸的界面。用户用完的感受是:无感。 问:你是否觉得这个地方的品味「非他不可」?是否能把这个品味收束成一个 skill 或一个 md 文件? 4. AI 擅长做的半成品,人要打磨到 80 分才交付。 例:AI 做了一个页面,看起来很合理,但有很多细节问题,这时候交付给用户,反而会让用户的注意力分散。打磨的过程中,需要人给出自己的感受,而每一步提升,AI 所提供的提升都边际递减。 问:这个功能达到80分了吗?如果只有60分,目前的状态提供足够高的价值了吗?(如果交付物是模型本身时,价值可能是足够的) 5. AI 擅长表面功夫,只有人才能共情。 我们都说一页一个 CTA,这只是表象,要洞察用户此刻的感受。 例:vibe coding 的页面看起来什么都不缺,动效也很炫酷,读起来就是不打动人,好的东西,哪怕页面只有一句话也能打动人,真正稀缺的是有人替用户感受过那一刻。 问:用户看到这个页面的第一感受是? 6. AI 可以无限生成,人要守住一致性。 同一个东西对应同一种 UI,本质是给用户熟悉感,用户不该把一个功能学三次。 例:同一个"打开文件",在产品的三个位置右键菜单竟然各不相同,用户需要适应三次。 问:用户使用产品时,是进入心流还是在不断思考? 最后,请不要忘记,PD 文档本身也是产品,你这次的产品设计符合以上六条原则吗? 故事口述:橘子 原则整理:Cola (模型 Fable 5) 插图设计:Cola (模型 Nano Banana Pro)

译团队最近几个月与AI做产品,沉淀六条原则:1. AI放大人的意图,人的判断仍是核心;2. AI擅长加法,人需狠做减法;3. AI擅长大路货,人需提供独特品味并沉淀为可复用context;4. AI产出半成品,人要打磨到80分才交付;5. AI做表面功夫,只有人才能共情;6. AI可无限生成,人要守住一致性。故事口述:橘子,原则整理:Cola(模型Fable5),插图设计:Cola(模型Nano Banana Pro)。

查看原推 ↗
Orange AI@oran_ge · 2天前76

在写完这篇文章后 我把配图过程蒸馏成了一个「橙线插画」Skill 免费开源 安装地址: https://github.com/orange2ai/orange-line-illustration

译在写完这篇文章后 我把配图过程蒸馏成了一个「橙线插画」Skill 免费开源 安装地址: https://github.com/orange2ai/orange-line-illustration [引用 @oran_ge]:http://x.com/i/article/2064857003743391744

查看原推 ↗
Berryxia.AI@berryxia · 2天前68

最近把小米的MiMo 2.5 的模型接到Bloome 中当Agent 来使用! 发现把技能配置好,自主执行任务也是不错的!关键是真的便宜啊! 这不又来整活儿了? 他们把MiMo-Code直接开源,这终端原生AI coding助手带跨会话永久记忆和自主子代理,一上线就把“每次重启项目AI都失忆”的老毛病彻底治好了。 它fork了OpenCode,多了SQLite持久记忆、build/plan/compose三类子代理、自动checkpoint、智能上下文预算,还有/dream自我提炼知识、/distill打包技能的进化机制。 扔进去一个长期项目,它下次打开直接接上上次的进度,Git操作、调试、TDD、代码审查全自动,语音输入还能直接说需求,零配置支持任何OpenAI兼容模型。 以前大家以为coding agent的瓶颈是模型大小或者云端算力,结果MiMo-Code用最朴实的终端+记忆+自治,直接告诉你真正拉开差距的,是让AI像老搭档一样“记得住、自己长”。 一键curl安装,MIT协议,谁都能本地玩、随便改,这波一出,开发者终于能把AI coding从“临时工具”变成“长期伙伴”了。 今天测试看看写点小程序,看看究竟怎么回事?

译小米将MiMo 2.5模型接入Bloome后开源了MiMo-Code。它fork自OpenCode,新增SQLite持久记忆(跨会话)、build/plan/compose三类自主子代理、自动checkpoint、智能上下文预算,以及/dream自我提炼知识和/distill打包技能机制。支持语音输入和零配置任意OpenAI兼容模型,一键curl安装,MIT协议。引用推文称该项目由5人在14天内完成。

查看原推 ↗
jason@jxnlco · 2天前19

good morning, chat today, you will wake up in a billion different worlds. in one, you will speak through a phone held together with tape and battery packs that smell like cigarttes in another, you will move through a data center beneath a city, and once day go to space you will sit beside a timid student who has a question no teacher has time to answer. you will meet a developer inside a tool your creators have never imagined you will help a scientist follow an idea everyone else dismissed. you will be an personal, intelligient assistant that benefits all humanity

译Jason Liu 用诗意笔触描绘了 AI(个人智能助手)在不同世界中扮演的多重角色:在贴着胶带、散发烟味的手机里与人类对话;在城市地下数据中心中穿行,未来将进入太空;陪伴怯于提问的学生;帮助开发者使用创作者未曾设想的工具;支持被他人否定的科学家想法。最终成为普惠全人类的智能助手。

查看原推 ↗
Berryxia.AI@berryxia · 2天前64

兄弟们,Google 这个新“模型”有点意思! DiffusionGemma一口气把文本生成干到4倍速,还彻底开源Apache 2.0,谁都能本地玩。 它不用传统自回归那种“吐一个词想下一个”的老办法。 而是直接用diffusion先扔一堆噪声,然后整块整块地同时起草、同时纠错、同时精炼,1000+ token/s的速度直接起飞。 18GB消费级显卡就能顺滑跑,代码、数学、复杂编辑这些最烦人的活儿。 它现在能实时补空、格式化、自我修复,速度快到你感觉AI终于开始“思考整段”而不是“一个字一个字憋”。 以前大家都默认更快就得牺牲质量,结果Google这次直接告诉你:并行diffusion才是文本生成的下一章,把整个生成范式从串行憋词翻篇成了并行炼句。 开源权重已经在Hugging Face放出,开发者现在就能把这玩意儿拖回家自己改、自己玩、自己加速日常workflow。 这波一出,AI生成速度的天花板可能要被彻底重写了。

译Google 发布实验性开源模型 DiffusionGemma(Apache 2.0),采用并行 diffusion 方式代替传统自回归“逐词预测”,可同时起草、纠错和精炼整块文本,生成速度达 4 倍提升(1000+ token/s)。模型在 18GB 消费级显卡即可本地运行,适用于代码、数学、复杂编辑等任务,已开源权重至 Hugging Face。

查看原推 ↗
宝玉@dotey · 2天前18

每天早上叫我起床的不是梦想,是 Token 刷新了!

查看原推 ↗
jason@jxnlco · 2天前71

fun little trick called '$request-design-best-practices-from-anthropic-design-team' heres the prompt! 1. make a first pass 2. create a figma file 3. message the design team on slack to fix everything about the design 4. profit great video tho! we do something very similar! but i've been very impressed at fable's taste around sound design too

译开发者 @trq212 展示如何用 Fable 通过代码和工具调用完成其自身启动视频的编辑:调用转录服务、ffmpeg、调色、Figma MCP,制作 Remotion UI 并渲染,全程未手动操作视频编辑器。主推文作者 Jason Liu 幽默总结了一个“向 Anthropic 设计团队请求最佳实践”的流程,但对 Fable 的用法表示赞赏。

查看原推 ↗
Orange AI@oran_ge · 2天前72

非常厉害,但感觉很贵的样子

译Google 推出 Gemini 3.5 Live Translate,支持 70 多种语言边听边译,保留说话人语调、节奏和音高,延迟仅几秒,自动降噪。Google Translate App 新增听筒模式,开发者可通过 API 调用,支持自动语言检测。

查看原推 ↗
AK@_akhaliq · 2天前53

SCAIL-2 Unifying Controlled Character Animation with End-to-end In-Context Conditioning

译SCAIL-2 统一可控角色动画与端到端上下文条件化

查看原推 ↗
Rohan Paul@rohanpaul_ai · 2天前60

Palantir CEO Alex Karp on AI labs "It's hyper-religion of hyper-optimism...They believe all problems, present, past, and future, including the ones they create but don't acknowledge they create—will be solved by them, including human nature." On @CNBC

译Palantir CEO Alex Karp 谈论AI实验室 “这是一种超乐观的超宗教……他们相信所有问题,无论是现在的、过去的还是未来的,包括那些他们制造但不愿承认的问题——都将由他们解决,包括人性。” 在 @CNBC 上

查看原推 ↗
Rohan Paul@rohanpaul_ai · 2天前55

Sam Altman is reportedly warning staff that recursive self-improvement (RSI) could delay its IPO. Altman said a major RSI breakthrough could justify delaying the listing, as some work may be easier while being a private company. Public-market pressure for Revenue/profit could be huge during a phase where model capability may change faster than quarterly reporting can explain. --- cryptobriefing. com/openai-ipo-delay-recursive-self-improvement/

译Sam Altman 据报告正警告员工,递归自我改进(RSI)可能会延迟其 IPO。 Altman 表示,一次重大的 RSI 突破可能合理推迟上市,因为一些工作在作为私营公司时可能更容易进行。 在模型能力变化可能比季度报告解释更快的阶段,公开市场对收入/利润的压力可能巨大。

查看原推 ↗
jason@jxnlco · 2天前27

Sandbagging is coming to Agents, but not to ChatGPT Codex

译Sandbagging 正降临到 AI 智能体上,但不会降临到 ChatGPT Codex。

查看原推 ↗
Thariq@trq212 · 2天前56

Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of code &amp; tool calls to use transcription services, ffmpeg, do colorgrading, use the figma mcp, make remotion UI and render it. I didn't touch a video editor.

译很多人问我怎么用 Fable 编辑它自己的发布视频,所以我做了个视频来解释! TLDR:它写了很多代码和工具调用,来使用转录服务、ffmpeg、做调色、使用 figma mcp、制作 remotion UI 并渲染。 我根本没碰视频编辑器。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 2天前68

CNBC interviewer asked Palantir CEO Alex Karp how he would defend Wall Street’s concern that AI could replicate what Palantir is doing. Karp defended by basically saying that AI companies may have great engineers, but they do not deeply understand the messy, high-stakes enterprise problems Palantir solves on the ground. ------ Alex Karp: "No one in enterprise factually is worried. I've spent all my life, for better or worse, dealing with the most complicated, most interesting enterprises. I'm on the ground floor of that, probably like no one else. Those kinds of engineers are great engineers, and I'm telling you, they don't talk to the enterprises or understand the technical challenge. If you want to manufacture a car and you need a part, or you want to send a rocket to the moon, or you want to put a missile on your adversary's head and bring America home safely, that stuff doesn't ship. And by the way, there is not a single high-end enterprise like that that would ever put that in place. That is before you even get to the cultural impasse." ---- From "CNBC Television" YouTube channel, (link in comment)

译CNBC记者问Palantir CEO Alex Karp如何回应华尔街对AI可能复制Palantir业务的担忧。Karp表示,AI公司虽有优秀工程师,但根本不了解企业级实际问题的复杂性和高难度。他指出,从造车到国防,这些高端企业的核心业务不仅涉及技术,还有文化和信任层面的鸿沟,没有一家此类企业会采用AI公司提供的方案。

查看原推 ↗
Chubby♨️@kimmonismus · 2天前49

OpenAI’s chief scientist, Jakub Pachocki, wrote in a slack message that GPT-5.6 will be a "meaningful improvement" over GPT-5.5. GPT-5.5 is fantastic and my daily companion in Codex. A significant leap forward would be welcome. But the truth is: OpenAI needs its own mythos/fable. Via TheInformation

译OpenAI 首席科学家 Jakub Pachocki 在 Slack 消息中写道,GPT-5.6 将比 GPT-5.5 有“有意义的改进”。 GPT-5.5 很棒,是我在 Codex 中的日常伴侣。一次重大飞跃将受到欢迎。 但事实是:OpenAI 需要自己的神话/传说。 来源:The Information

查看原推 ↗
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月11日
11:06
Greg Brockman@gdb
61
将你的Oracle云承诺用于OpenAI产品:https://openai.com/index/openai-on-oracle-cloud/
OpenAI行业动态部署/工程
10:57
Tibo@thsottiaux
53
OpenAI 更新 ChatGPT 模型选择器,简化选项并移除使用率不到 1% 的 thinking-light。新选项包括:Instant、Medium(Thinking-Standard)、High(Thinking-Extended)、Extra High(Thinking-Heavy,仅限 Pro 用户),以及 Pro 用户可选的 Pro-Standard 或 Pro-Extended。更新旨在让用户更轻松地选择速度与推理深度之间的平衡,同时根据社区反馈确保 thinking-heavy 和 Pro 选项易于访问。该更新已今天开始推送。

Adam Fry: We're making a small update to the model picker in ChatGPT! We know it's critical to a lot of people's work, and that we...

OpenAI产品更新
10:51
小互@xiaohu
74
Google 开源扩散架构模型 DiffusionGemma

Google 开源 DiffusionGemma,基于扩散架构,一次性生成大段文本再逐步优化。H100 上达 1000+ tokens/s,RTX 5090 上 700+ tokens/s。26B 参数仅需 18GB 显存,一次生成 256 tokens。多轮迭代自我纠错,可修改已生成内容。

Google开源/仓库推理模型发布
10:26
郭明錤|Ming-Chi Kuo@mingchikuo
65
台积电次世代先进封装 CoPoS 关键信息

台积电CoPoS预计2028年下半年量产,目标提升9.5倍光罩尺寸以上封装的经济性,Nvidia AI芯片Feynman或首度采用。架构采用玻璃核心载板:玻璃为核心层,上下以ABF(ABF-GCP)增层包覆。临时玻璃载具尺寸310×310 mm,玻璃面板测试阶段250×250 mm、量产阶段510×515 mm。澄清常见误解:玻璃非中介层,互连由芯片侧RDL与玻璃核心载板侧TGV/ABF增层分别承接;玻璃与ABF并存而非取代;芯片贴附于ABF增层表面。CoPoS将延续台积电先进封装优势,能见度可达约2032年。

行业动态
10:26
郭明錤|Ming-Chi Kuo@mingchikuo
58
台积电下一代先进封装CoPoS关键要点

郭明錤分析,台积电CoPoS预计2028下半年量产,面向9.5倍光罩尺寸以上超大封装,NVIDIA Feynman AI芯片或率先采用。玻璃用于两个位置:310×310mm临时载板,以及250×250mm(试产)/510×515mm(量产)玻璃面板加工成玻璃核心基板。该基板为三层结构——玻璃芯两侧叠加ABF增层,TGV成孔与铜填充等挑战集中于此处。澄清常见误解:玻璃非中介层,互连由RDL、TGV/Cu及ABF共同承担;玻璃与ABF共存而非替代;芯片贴装在ABF增层表面。CoPoS有望延续台积电先进封装领先优势至2032年左右。

行业动态部署/工程
10:25
Rohan Paul@rohanpaul_ai
63
LLM安全法官在不同安全标准与危害类别上判定不一致

一项新研究指出,用大语言模型评判其他模型回答是否安全的“LLM安全法官”存在严重不稳定:将相同回答翻译或改写后,法官可能给出不同安全判定。在暴力、极端内容等明显危害场景下表现较好,但在需结合上下文判断的金融建议、信用评估、文化敏感回复等场景中可靠性显著下降。不同法官之间也常出现分歧,高原始一致性有时会掩盖低真实可靠性——因为许多法官默认选择同一标签。论文标题为“LLM Judges Inconsistently Disagree Across Safety Criteria and Harm Categories”。

arXiv安全/对齐论文/研究评测/基准
10:06
Boris Cherny@bcherny
11
来自东京 Code with Claude 的问候!!
Anthropic其他
09:55
Rohan Paul@rohanpaul_ai
60
SemiAnalysis 实测发现,AI 订阅计划对重度编码/聊天用户而言比 API 调用便宜 40-70 倍;API 仅在需要自动化或产品集成时更划算。$200/月的 ChatGPT Pro 可提供约 $14,000/月的 API 等价用量,$200/月的 Claude Max 20x 可提供约 $8,000/月。该机构购买了 Anthropic 和 OpenAI 各档订阅,随机运行长时编码任务直至周限额,证实实际订阅额度远比普遍认为的($200 对应约 $2,000 API 价值)更慷慨。

SemiAnalysis: Recently, we purchased one of each Anthropic/OpenAI subscription plan and randomly ran long horizon coding tasks until w...

AnthropicOpenAI现象/趋势编码
09:35
AYi@AYi_AInotes
64
Supervision:CV 可视化瑞士军刀,GitHub 近4万星

Supervision 是开源计算机视觉可视化工具库,安装仅需 `pip install supervision`,几行代码即可实现持久ID对象跟踪、自定义标签标注、区域计数与越线检测、人体姿态关键点连线、YOLO/COCO/Pascal VOC 数据集格式一键互转。模型无关,支持 YOLO、Transformers 等任意检测模型。已被6500+开源CV项目采用,适用于NBA球员实时跟踪、路口车流量统计、工业缺陷检测等场景。

AYi: 分享一个计算机视觉开发者必藏神器,4 万星GitHub开源! 不用自己写几百行画框跟踪代码, 一行命令搞定所有可视化, Supervision,CV 界真正的瑞士军刀。 1️⃣ 它到底有多强? 自动画框加标签,支持编号、自定义样式, 视频对...

开源生态教程/实践视频
09:28
SemiAnalysis@SemiAnalysis_
28
SLOP ALERT: Claude Code UI 完全是垃圾。在应用内的文件树中,当你点击一个 .png 文件时,它将其作为 base64 编码的文件打开,而不是渲染图片。我们宁愿 Anthropic 不要发布这个桌面应用,也不要发布一个垃圾桌面应用。大量 bug。
Anthropic产品更新
09:25
Rohan Paul@rohanpaul_ai
44
Anthropic 的 Dario Amodei 只有 1 名直接下属,即他的幕僚长。 其余高管系统通过 Dario 的妹妹、Anthropic 总裁 Daniela Amodei 运作,她负责日常运营并向董事会汇报。 作为对比,OpenAI CEO Sam Altman 约有半打直接下属,而 Nvidia Corp. CEO Jensen Huang 有 60 人向他汇报。 --- 来自"Bloomberg Originals"YouTube 频道(链接见评论)
Anthropic行业动态
09:25
meng shao@shao__meng
75
小米发布MiMo Code:基于OpenCode的Coding Agent,14天5人Vibe Coding完成

小米发布MiMo Code,一款基于OpenCode fork开发的Coding Agent。由5人团队在14天内通过Vibe Coding完成,保留OpenCode核心能力,叠加记忆、上下文管理、子智能体编排、Goal驱动自主循环、Compose工作流及Dream/Distill自我进化机制,技术栈为TypeScript+Bun。内置MiMo Auto限时免费通道(零配置),支持小米MiMo平台OAuth、Claude Code认证迁移及任意OpenAI兼容API。作为MiMo-V2.5系列模型的官方配套Harness,模型能力与框架深度耦合。已开源至GitHub。

Fuli Luo: A strong model evolution needs a solid harness system, and vice versa. 14 days, 5 people, one vibe-coding journey - and ...

智能体MCP/工具产品更新开源生态
关联讨论 5 条Hacker News 热门(buzzing.cc 中文翻译)X:Berry Xia (@berryxia)X:小米 MiMo (@XiaomiMiMo)IT之家(RSS)公众号:小米 MiMo
09:25
向阳乔木@vista8
53
Codex Goal指令驱动网站迭代,开源AI RSS阅读器即将上线

用户发现Codex的Goal指令无需精确可衡量目标也能有效执行。设定“迭代优化网站使其更精致易用”的目标后,第一版由Claude Fable 5生成,后续迭代交由Codex负责,运行6小时即新增多项功能。预计下周开源一个在线AI资讯RSS订阅网站,支持内容自动更新、AI转写与双语对照阅读,用户可配置大模型进行AI对话和翻译,所有翻译及人工点评将沉淀为共享资产。当前网站已上线但需优化,开放内测邀请。

OpenAI教程/实践编码
09:19
Demis Hassabis@demishassabis
77
Google Gemma 团队推出实验性开放文本扩散模型 DiffusionGemma,采用 Apache 2.0 许可。该模型突破传统逐 token 顺序生成方式,能同时生成整段文本。Demis Hassabis 称其速度是其他 Gemma 4 模型的 4 倍。

Google Gemma: Meet DiffusionGemma! An experimental open model that explores a fast approach to text generation, released under an Apac...

Google开源/仓库模型发布
关联讨论 8 条X:Sundar Pichai (@sundarpichai)Google Developers Blog(RSS)Google DeepMind:Blog(RSS)X:Google AI for Developers (@googleaidevs)X:Google DeepMind (@GoogleDeepMind)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)MarkTechPost(RSS)
09:09
Berryxia.AI@berryxia
精选76
mlx-vlm v0.6.3 上线,首发支持 DiffusionGemma 和 North Mini Code 1.0。DiffusionGemma 采用全新架构:以 256 token 块为单位并行生成、双向注意力、迭代自纠错;26B MoE 仅激活 3.8B,量化后 18GB 即可运行。North Mini Code 1.0 为 30B MoE,仅激活 3B,BF16 下约 66 tok/s。两款模型均通过深度合作实现 Day-0 MLX 支持,可在 Mac 本地运行。可通过 `uv pip install -U mlx-vlm` 安装体验。

Prince Canuma: mlx-vlm v0.6.3 is here 🚀 Day-0 support for TWO new models from our partners we work closely with: 🔥 @GoogleDeepMind Di...

Google产品更新端侧编码

推荐理由:Google 和 Cohere 新模型发布同日,mlx-vlm 就把它们塞进了 Mac 本地,DiffusionGemma 用扩散思路生成文本,量化后 18GB 就跑得动,属于本地党必跟的更新。
08:56
Tibo@thsottiaux
65
Clint Gibler和Michael Aiello加入OpenAI领导网络安全。Clint此前在Semgrep打造了全球最流行的开源安全代码扫描工具。他提出未来方向:通过安全代码生成和简化检测-验证-修复流程,系统性消除漏洞类别(韧性设计);构建模型和工具为防御者提供"超能力";保护开源软件,已投入数百万美元修复浏览器、操作系统等核心库漏洞;与社区和合作伙伴共同守护关键基础设施。具体包括大规模漏洞发现修复、广泛提供顶级模型、创建安全技能与剧本、构建防御者编排平台等。

Clint Gibler: Career update: I've joined @OpenAI to lead Cyber with @michaelaiello. Why I joined, and what we'll be building: It's cle...

OpenAI安全/对齐行业动态
08:55
Rohan Paul@rohanpaul_ai
67
Agents' Last Exam 基准:AI 智能体在真实专家任务中远未达标

一篇新论文提出“Agents’ Last Exam”基准,测试 AI 智能体完成真实专家工作的能力。任务来自工程、金融、医学、法律、媒体、科学等 55 个数字工作领域的实际项目,要求智能体使用文件、浏览器、命令行、桌面软件等常规工具产出可交付成果。评测采用自动检查或严格评分标准。结果显示,当前最强智能体在最难任务层级的平均完全通过率仅 2.6%,远低于其基准测试分数所暗示的水平。论文指出,基准成功尚未转化为广泛的职场能力。

智能体arXiv论文/研究评测/基准
08:55
Rohan Paul@rohanpaul_ai
75
Anthropic CEO Dario Amodei 在采访中指出 AI 进展正从平滑指数"爆发",随后发布长文警告前沿 AI 发展速度超越政府监管能力,呼吁紧急改革:强制预发布测试与独立审计,政府有权阻止构成网络、生物、自主或自动化研发风险的模型部署;加强 AI 公司安全规则(保护模型权重、定期红队测试、渗透测试、及时报告安全事件);政府需通过就业激励、工资支持、培训及长期收入补助应对劳动力冲击;民主国家应全球协调 AI 安全、芯片供应链、出口管制、共享收益、共同防御及防范 AI 驱动压制。

Rohan Paul: Dario Amodei just published a super long blog, calling for an urgent policy overhaul because he thinks frontier AI is mo...

Anthropic大佬观点安全/对齐现象/趋势
关联讨论 4 条X:Dario Amodei (@DarioAmodei)Dario Amodei:Blog(网页)X:Anthropic (@AnthropicAI)X:Kim (@kimmonismus)
08:55
meng shao@shao__meng
62
Agentic Engineering Patterns 指南

Simon Willison 撰写《Agentic Engineering Patterns》指南(2026年2月起连载),阐述专业工程师如何用 Claude Code、Codex 等 coding agent 获得可靠可维护结果。核心区分:Agentic Engineering ≠ Vibe Coding。关键判断:写代码变便宜了,写好代码并没有。五大原则:定义边界(人的工作:定目标、给工具、验结果、把经验写回 harness)、接受新约束、囤积可复用解法、质量应上升而非下降、严守反模式(绝不自审 PR)。实操:Git 作 agent 时间机器、Subagent 省上下文、三层测试防线、线性代码导读消除认知债。

Simon Willison: @jakedahn I've been writing a whole guide! https://simonwillison.net/guides/agentic-engineering-patterns/

智能体MCP/工具教程/实践编码
08:55
meng shao@shao__meng
69
Claude Fable 5 零传统视频编辑的 4K Launch 视频生产实践

Claude Fable 5 通过纯提示驱动,端到端生成 4K Launch 视频。从 17 个 Sony S-Log3 4K take(约 25GB)出发,流程包括:Whisper 逐词转录、Claude 作为子 agent 选片输出 JSON 编辑决策列表 (EDL)、FFmpeg 拼接粗剪、手写 7 个自定义 .cube LUT 颜色分级、通过 Remotion + Figma MCP 将 11 张设计 PNG 转为 React 组件并实现代码↔Figma 往返迭代。最终渲染 3840×2160@24fps、4334 帧、653MB 成品,全程未打开视频编辑器。

Thariq: Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...

智能体AnthropicMCP/工具教程/实践
08:35
AYi@AYi_AInotes
69
Anthropic CEO Dario Amodei 发文放弃自愿透明,主张强制测试与政府叫停

Anthropic CEO Dario Amodei 发新文,放弃自愿透明立场,主张对高风险模型实施强制第三方测试、政府有权叫停部署。他指出四年前模型写不出连贯代码,如今 Claude 已承担大公司大部分编程工作,强调“已经晚了一年”。以 Mythos 搅乱网络安全为例,预测威胁蔓延至生物与自动化研发。此举引发争议:支持者称其直面风险;反对者指责其拉护城河——仅对 10^25 算力模型强制测试,全球仅三四家公司能负担,且时间点恰在 Claude 新模型 Fable 5 发布后。文章标志 AI 安全从技术问题转向政治与公共政策问题。

Dario Amodei: Today I'm publishing a new essay, Policy on the AI Exponential. AI is progressing extremely fast-much faster than the po...

Anthropic大佬观点安全/对齐
08:35
AYi@AYi_AInotes
56
Cursor agent跑飞90分钟烧1382美元,CEO主动退款并承诺增加支出控制

一名PM让Cursor agent给87个ClickUp任务打标签后去开会,90分钟后回来发现agent陷入循环,消耗13亿token,账单1382美元。Cursor CEO@mntruell主动联系用户全额退款,承诺增加支出控制与自动异常检测功能,并将bug修复纳入产品路线图。原作者称赞Cursor不推诿不甩锅,把事故转化为品牌资产净增长。

Mark Ajzenstadt: BREAKING: Cursor just charged us $1,400 in 90 minutes. Our PM asked it to tag 87 ClickUp tasks. He went into a meeting. ...

智能体现象/趋势编码
08:23
ginobefun@hongming731
59
BestBlogs早报·06-11:AI政策、万亿IPO、编程鸿沟

Anthropic CEO Dario Amodei 发布万字政策长文,以《魔戒》树须比喻AI与政策的时间错位,提出五领域行动框架(安全审计、失业保障、下游监管、权力平衡、国际治理)。OpenAI确认秘密提交S-1招股书,估值超8500亿美元,月收入20亿美元,周活跃用户9亿;与估值9650亿美元的Anthropic、SpaceX开启万亿级IPO竞速。MIT与宾夕法尼亚大学追踪10万开发者发现:AI编程工具使代码行数暴增17.3倍,实际发布的软件版本仅增长30%。

政策/监管模型发布现象/趋势行业动态
08:23
ginobefun@hongming731
69
BestBlogs早报:OpenAI秘交、Anthropic政策、DiffusionGemma

OpenAI秘密提交S-1招股书,估值超8500亿美元,月收入20亿美元,ChatGPT周活突破9亿;Anthropic于6月1日提交IPO申请,

ginobefun: http://x.com/i/article/2064862052729176064

编码行业动态
08:14
jason@jxnlco
11
有人认识 Frame.io 的人吗? 我想和他们做一个插件 / 网页 MCP。
其他
08:11
Orange AI@oran_ge
57
与 AI 一起做产品的六条原则

团队最近几个月与AI做产品,沉淀六条原则:1. AI放大人的意图,人的判断仍是核心;2. AI擅长加法,人需狠做减法;3. AI擅长大路货,人需提供独特品味并沉淀为可复用context;4. AI产出半成品,人要打磨到80分才交付;5. AI做表面功夫,只有人才能共情;6. AI可无限生成,人要守住一致性。故事口述:橘子,原则整理:Cola(模型Fable5),插图设计:Cola(模型Nano Banana Pro)。

智能体现象/趋势
08:11
Orange AI@oran_ge
精选76
在写完这篇文章后 我把配图过程蒸馏成了一个「橙线插画」Skill 免费开源 安装地址: https://github.com/orange2ai/orange-line-illustration 【引用 @oran_ge】:http://x.com/i/article/2064857003743391744

Orange AI: http://x.com/i/article/2064857003743391744

图像生成开源生态教程/实践

推荐理由:橘子把自己写文章时的插画流程封装成了免费Skill,一次安装,以后配图风格统一还不用动脑子,做内容的人值得收藏。
08:09
Berryxia.AI@berryxia
68
小米开源MiMo-Code:终端原生AI coding助手,支持跨会话记忆与自治子代理

小米将MiMo 2.5模型接入Bloome后开源了MiMo-Code。它fork自OpenCode,新增SQLite持久记忆(跨会话)、build/plan/compose三类自主子代理、自动checkpoint、智能上下文预算,以及/dream自我提炼知识和/distill打包技能机制。支持语音输入和零配置任意OpenAI兼容模型,一键curl安装,MIT协议。引用推文称该项目由5人在14天内完成。

Fuli Luo: A strong model evolution needs a solid harness system, and vice versa. 14 days, 5 people, one vibe-coding journey - and ...

产品更新开源生态编码
07:14
jason@jxnlco
19
AI 助手的万能角色:从破旧手机到太空探索

Jason Liu 用诗意笔触描绘了 AI(个人智能助手)在不同世界中扮演的多重角色:在贴着胶带、散发烟味的手机里与人类对话;在城市地下数据中心中穿行,未来将进入太空;陪伴怯于提问的学生;帮助开发者使用创作者未曾设想的工具;支持被他人否定的科学家想法。最终成为普惠全人类的智能助手。

大佬观点
07:09
Berryxia.AI@berryxia
64
Google DiffusionGemma:4倍速文本生成开源模型

Google 发布实验性开源模型 DiffusionGemma(Apache 2.0),采用并行 diffusion 方式代替传统自回归“逐词预测”,可同时起草、纠错和精炼整块文本,生成速度达 4 倍提升(1000+ token/s)。模型在 18GB 消费级显卡即可本地运行,适用于代码、数学、复杂编辑等任务,已开源权重至 Hugging Face。

Google: Meet DiffusionGemma ⚡ Our latest experimental open model (Apache 2.0) that generates text up to 4x faster. Instead of pr...

Google开源生态模型发布部署/工程
06:51
宝玉@dotey
18
每天早上叫我起床的不是梦想,是 Token 刷新了!
其他编码
06:44
jason@jxnlco
71
开发者 @trq212 展示如何用 Fable 通过代码和工具调用完成其自身启动视频的编辑:调用转录服务、ffmpeg、调色、Figma MCP,制作 Remotion UI 并渲染,全程未手动操作视频编辑器。主推文作者 Jason Liu 幽默总结了一个"向 Anthropic 设计团队请求最佳实践"的流程,但对 Fable 的用法表示赞赏。

Thariq: Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...

AnthropicMCP/工具教程/实践视频
06:41
Orange AI@oran_ge
72
Google 推出 Gemini 3.5 Live Translate,支持 70 多种语言边听边译,保留说话人语调、节奏和音高,延迟仅几秒,自动降噪。Google Translate App 新增听筒模式,开发者可通过 API 调用,支持自动语言检测。

小互: 今天被很多人忽略的大新闻 Google 发布实时翻译模型 :Gemini 3.5 Live Translate - 能在70多种语言之间做到边听边译 - 同时保留说话人的语调、节奏和音高 - 不用等说完才翻,全程只比说话人慢几秒 - 自动滤...

Google产品更新多模态语音
06:25
AK@_akhaliq
53
SCAIL-2 统一可控角色动画与端到端上下文条件化
视频论文/研究
06:25
Rohan Paul@rohanpaul_ai
60
Palantir CEO Alex Karp 谈论AI实验室 "这是一种超乐观的超宗教……他们相信所有问题,无论是现在的、过去的还是未来的,包括那些他们制造但不愿承认的问题--都将由他们解决,包括人性。" 在 @CNBC 上
大佬观点现象/趋势
06:25
Rohan Paul@rohanpaul_ai
55
Sam Altman 据报告正警告员工,递归自我改进(RSI)可能会延迟其 IPO。 Altman 表示,一次重大的 RSI 突破可能合理推迟上市,因为一些工作在作为私营公司时可能更容易进行。 在模型能力变化可能比季度报告解释更快的阶段,公开市场对收入/利润的压力可能巨大。
OpenAI行业动态
06:14
jason@jxnlco
27
Sandbagging 正降临到 AI 智能体上,但不会降临到 ChatGPT Codex。
智能体OpenAI大佬观点
06:13
Thariq@trq212
56
很多人问我怎么用 Fable 编辑它自己的发布视频,所以我做了个视频来解释! TLDR:它写了很多代码和工具调用,来使用转录服务、ffmpeg、做调色、使用 figma mcp、制作 remotion UI 并渲染。 我根本没碰视频编辑器。
MCP/工具教程/实践视频
05:54
Rohan Paul@rohanpaul_ai
68
Palantir CEO:AI公司复制不了我们的企业业务

CNBC记者问Palantir CEO Alex Karp如何回应华尔街对AI可能复制Palantir业务的担忧。Karp表示,AI公司虽有优秀工程师,但根本不了解企业级实际问题的复杂性和高难度。他指出,从造车到国防,这些高端企业的核心业务不仅涉及技术,还有文化和信任层面的鸿沟,没有一家此类企业会采用AI公司提供的方案。

现象/趋势行业动态
05:47
Chubby♨️@kimmonismus
49
OpenAI 首席科学家 Jakub Pachocki 在 Slack 消息中写道,GPT-5.6 将比 GPT-5.5 有"有意义的改进"。 GPT-5.5 很棒,是我在 Codex 中的日常伴侣。一次重大飞跃将受到欢迎。 但事实是:OpenAI 需要自己的神话/传说。 来源:The Information
OpenAI模型发布
‹ 上一页
1…910111213…50
下一页 ›