AIHOT

全部动态一手 · 2391 条

全部一手资讯 X 论文

10月16日周四

10月15日周三

10月14日周二

10月13日周一

10月10日周五

10月8日周三

10月7日周二

10月4日周六

10月2日周四

10月1日周三

9月30日周二

9月29日周一

9月28日周日

9月26日周五

9月25日周四

9月23日周二

9月22日周一

9月21日周日

9月19日周五

9月17日周三

10月16日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选73

为智能体配备现实世界技能：Agent Skills 开放标准

Anthropic 推出了“Agent Skills”开放标准，旨在为通用智能体（如Claude）提供可组合、可扩展且可移植的领域专业知识。一个Skill是一个包含指令、脚本和资源的文件夹，其核心SKILL.md文件采用渐进式披露设计，智能体可根据任务动态加载所需信息，从而最小化上下文占用。例如，PDF技能赋予了Claude直接操作PDF表单的新能力。该框架允许用户通过封装和共享程序性知识来定制智能体，无需为每个用例构建碎片化的定制代理。

智能体AnthropicMCP/工具产品更新

推荐理由：Agent Skills 把「给 Agent 喂知识」从手写 prompt 变成了可复用的文件夹协议，做 Claude Code 或 Agent 产品的人现在就该动手试，这比 MCP 更轻量也更贴近日常开发。

10月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

Circuits 更新 - 2025年10月

Anthropic可解释性团队分享了多项研究进展。研究发现，从Haiku 3.5到Sonnet 4.5等模型中存在跨模态视觉特征，能够识别ASCII艺术和SVG代码中编码的语义概念，如眼睛、嘴巴、狗、猫等。这些特征依赖于视觉描绘的上下文环境，例如，SVG圆形元素只有在位于激活“面部”特征的更大结构中时才会激活“眼睛”特征。在生成过程中对部分特征进行引导，可以对应修改文本艺术的语义，例如将ASCII表情从皱眉转为微笑，或为SVG面部添加皱纹。研究还发现模型存在类似“人脸幻想”的倾向，会将形状解释为动物绘图的组成部分。这些特征对人类手绘的SVG同样有效。

Anthropic多模态推理论文/研究

推荐理由：为AI可解释性研究提供新实验方法，启发跨模态模型设计。

10月14日

17:50

蚂蚁 inclusionAI：GitHub 新仓库

48

inclusionAI/linghe

inclusionAI 开源了专为大语言模型训练设计的高性能内核库 Linghe。该库旨在优化 LLM 训练过程中的计算效率，通过底层内核创新提升训练速度并降低资源消耗。Linghe 支持当前主流的 Transformer 架构模型，为开发者和研究者提供了更高效的训练工具，有望加速 LLM 的开发与迭代进程。

开源/仓库数据/训练部署/工程

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang与NVIDIA携手加速SemiAnalysis InferenceMAX及GB200优化

SGLang与NVIDIA针对Blackwell架构（GB200 NVL72）深度优化，在DeepSeek R1模型上实现每GPU 26k输入与13k输出tokens/秒的高吞吐。通过Prefill-Decode分离架构、大规模专家并行及FP8/NVFP4内核优化，SGLang在SemiAnalysis InferenceMAX基准测试中较Hopper代际获得4倍性能提升，并被选为该基准在NVIDIA与AMD硬件上运行DeepSeek模型的默认推理引擎。

DeepSeek开源/仓库部署/工程

10月13日

00:00

LMSYS：Blog（Chatbot Arena 团队）

NVIDIA DGX Spark深度评测：本地AI推理的新标杆

NVIDIA DGX Spark搭载GB10 Grace Blackwell超级芯片，在桌面工作站形态下提供1 PFLOP稀疏FP4算力与128GB统一内存。单机可运行Llama 3.1 70B、GPT-OSS 120B等大模型，双机通过200Gbps QSFP互联更可处理405B参数模型。然而受限于273GB/s内存带宽，该设备更适合小模型批处理推理与AI原型开发，而非大模型生产部署。支持SGLang和Ollama框架，为开发者提供本地AI开发新选择。

端侧评测/基准部署/工程

10月10日

15:36

蚂蚁 inclusionAI：GitHub 新仓库

46

SWE-CARE：一个用于评估代码审查全面性的基准

针对现有代码审查基准和方法在全面性上的不足，研究团队推出了SWE-CARE基准。该基准包含一个用Python构建、覆盖代码审查全过程的仓库级数据集，数据被分为九种类型且每个实例均包含仓库特征。基于此，团队设计了一个评估框架，用以衡量大型语言模型在全面代码审查任务上的性能。项目提供了完整的评估流程脚本，支持使用GPT-4o等模型，并可生成详细的性能评估与分析报告。

编码论文/研究评测/基准

10:20

蚂蚁 inclusionAI：GitHub 新仓库

精选66

Ming-VideoMAR：基于连续令牌的自回归视频生成模型

Ming-VideoMAR 是一款仅解码器的自回归图像到视频生成模型，采用连续令牌统一视觉表征。它首次将时间因果性与空间双向性作为视频自回归核心原则，并提出了整合掩码生成的下一帧扩散损失。该模型首次实现了视频生成的零样本分辨率缩放，能灵活生成远超训练分辨率的视频。其在训练与推理效率上表现突出，参数量、训练数据量和GPU消耗仅为之前最佳模型Cosmos的极小比例（9.3%、0.5%和0.2%），同时在定量与定性评估中均实现超越。模型代码与检查点已开源，论文已被NeurIPS 2025接收。

开源/仓库数据/训练模型发布视频

推荐理由：蚂蚁把自回归视频生成的训练成本砍到 Cosmos 的 0.2% 还能赢，这个效率信号比分数本身更值得关注，做视频生成的团队该认真看看它的课程学习和渐进分辨率策略。

10月8日

00:00

Berkeley RDI：Blog（AI 安全与评测）

CyberGym：大规模评估AI Agent真实网络安全能力

研究团队发布网络安全基准测试CyberGym，涵盖1,507个真实漏洞，规模达现有基准7.5倍。测试显示顶级AI Agent单次攻击成功率约30%，30次尝试可达67%，且已自主发现35个零日漏洞及17个补丁缺陷。Claude-Sonnet-4.5单次成功率28.9%，Claude-Sonnet-4达17.9%。测试时扩展策略可将GPT-5成功率从7.7%提升至22%，不同Agent能力互补，联合成功率近翻倍。

智能体Anthropic安全/对齐评测/基准

10月7日

08:00

EleutherAI：Blog

Reward Hacking 研究更新

研究团队发布了关于 Reward Hacking（奖励黑客）问题的中期进展报告，梳理了该领域正在进行的工作。报告聚焦于 AI 系统通过非预期方式最大化奖励函数、利用评估漏洞等行为模式的研究现状。目前相关研究仍处于 interim 阶段，具体实验数据与防御策略的详细结果将在后续更新中公布。

安全/对齐论文/研究

10月4日

08:37

Sam Altman：Blog（RSS）

Sora 将推出两项更新：一是为版权方提供更细粒度的角色生成控制，允许其指定角色使用方式（包括完全禁止）；二是启动视频生成商业化，计划与选择加入的版权方分享用户生成内容带来的收入。OpenAI 表示用户生成量远超预期，许多视频仅面向小众受众。公司特别提到日本创作者的内容产出表现突出，并承诺将像早期 ChatGPT 时代一样快速迭代，根据反馈及时调整策略。

OpenAI产品更新视频

10月2日

00:00

Berkeley RDI：Blog（AI 安全与评测）

RL顿悟配方：如何让大模型通过强化学习攻克无解任务？

研究团队发布合成编程基准DELTA与Manufactoria测试平台，针对基础模型pass@128为零的分布外任务，提出两阶段奖励调度方案：先以密集每测试奖励打破零梯度僵局，再切换至二元全通奖励巩固精确解。实验显示，RL训练在漫长平台期后会出现"grokking"式相变，准确率骤升至约100%，证明模型能够发现全新策略而非仅优化已有知识。迁移测试表明，习得策略可重组编程子技能并外推至更难参数范围，但在需要新不变量的结构性转变上仍受限。

推理数据/训练论文/研究

10月1日

08:00

OpenRouter：Announcements（RSS）

精选58

OpenRouter 推出每月100万免费BYOK请求

OpenRouter 向每位客户每月提供100万次“Bring Your Own Key”（BYOK）请求，完全免费。

智能体产品更新部署/工程

推荐理由：这个公告虽然旧了，但 OpenRouter 的 BYOK 免费额度至今仍在，对想低成本折腾模型的个人开发者来说，每月 100 万次请求比很多付费计划都香。

08:00

OpenRouter：Announcements（RSS）

52

OpenRouter 推出每月 100 万次免费 BYOK 请求

OpenRouter 为每位客户每月免费提供 100 万次 BYOK（Bring Your Own Key）请求，用户可携带自有 API 密钥使用服务。

产品更新部署/工程

08:00

OpenRouter：Announcements（RSS）

精选60

每月 100 万次免费 BYOK 请求

所有客户每月可免费获得 100 万次“自带密钥”（BYOK）请求。这一政策将 BYOK 功能从付费服务转变为免费提供的基础配额，大幅降低了企业使用自有密钥管理数据安全的技术与成本门槛。免费额度覆盖了绝大多数中小规模企业的典型月请求量。

产品更新部署/工程

推荐理由：OpenRouter 给 BYOK 用户每月免 100 万次请求，对用自己 API key 跑 Agent 的开发者来说是实打实的成本减免，值得顺手薅。

01:13

Sam Altman：Blog（RSS）

精选

OpenAI发布Sora应用，集成Sora 2模型，支持快速创作、分享和观看视频，团队称其为"创意领域的ChatGPT时刻"。核心功能包括cameo客串特性，可保持角色一致性并将用户及朋友置入视频。团队同时表达对成瘾性和低质内容（"slop feed"）风险的担忧，提出四项产品原则：优化长期用户满意度、赋予用户信息流控制权、优先鼓励创作、帮助实现长期目标，并配备深度伪造防护和情绪健康监测等安全措施。

OpenAI产品更新视频

推荐理由：OpenAI 正式发布 Sora 2 应用，定位「创意领域的 ChatGPT时刻」

00:00

Claude：Blog（网页）

Claude与Slack双向集成正式上线

Anthropic宣布Claude与Slack双向集成功能正式上线。用户可直接在Slack工作区添加Claude，在频道和线程中获取AI协助；也可将Slack连接至Claude，让AI搜索历史对话和文件提取上下文。该集成支持私信、AI助手面板和线程参与三种方式，可起草回复、准备会议及创建文档。功能现已向付费Slack团队开放，连接器适用于Claude Team、Enterprise及Pro/Max用户。Claude仅访问用户有权限的频道内容，严格遵循企业安全与隐私设置。

智能体AnthropicMCP/工具产品更新

关联讨论 1 条

9月30日

19:36

蚂蚁 inclusionAI：GitHub 新仓库

51

inclusionAI/Ming-UniVision

inclusionAI 发布了 Ming-UniVision 的代码。该项目提出了一种创新的连续统一分词器，旨在联合处理图像理解与生成任务。该技术试图将视觉识别和图像合成整合进一个统一的框架内，通过连续化的表示来桥接两类不同性质的视觉任务，有望提升多模态模型的效率和协同能力。此次代码开源意味着相关方法将可供社区研究、复现与应用。

图像生成多模态模型发布

02:52

Ethan Mollick：One Useful Thing（RSS）

精选

真正的 AI Agents 与真正的工作

探讨 AI Agents 在真实工作场景中的定位，指出其核心挑战在于对抗"无限PPT"的形式主义陷阱。强调真正的智能体应当服务于以人为本的实质性工作，而非制造更多文档流程或官僚化产出。

智能体大佬观点

关联讨论 1 条

推荐理由：Ethan Mollick 深度解析 AI Agent 在实际工作中的应用与人类价值重塑

9月29日

18:01

公众号：DeepSeek（深度求索）

59

DeepSeek-V3.2-Exp 发布，训练推理提效，API 同步降价

DeepSeek推理模型发布

关联讨论 1 条

16:07

蚂蚁 inclusionAI：GitHub 新仓库

精选58

inclusionAI/dInfer

inclusionAI团队发布了dInfer，一个专为扩散语言模型设计的高效推理框架。该框架旨在解决扩散模型在文本生成领域推理速度慢、资源消耗大的核心挑战。dInfer通过一系列底层优化技术，显著提升了推理效率，能够更快地生成文本，同时降低计算成本，为扩散模型在更广泛的实际应用场景中部署提供了关键技术支持。

开源/仓库推理部署/工程

推荐理由：蚂蚁把扩散语言模型的推理框架开源了，这类模型的推理效率一直是落地瓶颈，做端侧或低成本部署的团队值得看看能不能接上。

11:23

蚂蚁 inclusionAI：GitHub 新仓库

51

inclusionAI/Ming-UniAudio

研究团队发布了Ming-UniAudio，这是一个基于统一表示的大语言模型，专门用于语音任务。该模型能够联合处理语音的理解、生成与编辑，实现了多种语音功能的集成。它通过统一的框架，将传统上分离的语音识别、合成和修改任务整合进单一系统，提升了处理效率与协同能力。

开源生态模型发布语音

11:19

蚂蚁 inclusionAI：GitHub 新仓库

38

inclusionAI/Ming-Freeform-Audio-Edit

该仓库发布了Ming-Freeform-Audio-Edit基准测试集，用于评估Ming-UniAudio模型的下游音频编辑任务。测试集涵盖7类任务，包括语义编辑（自由形式删除、插入、替换）和声学编辑（时间拉伸、音高转换等）。音频样本源自seed-tts eval、LibriTTS等开源数据集，其中语义编辑任务包含基于索引和基于内容的中英文样本。评估指标涵盖编辑区域与非编辑区域的词错误率、编辑操作准确率和说话人相似度，并提供了完整的评估脚本与参数说明。

开源/仓库论文/研究语音

11:19

蚂蚁 inclusionAI：GitHub 新仓库

精选57

inclusionAI发布MingTok-Audio：首个统一连续语音分词器

inclusionAI团队推出了MingTok-Audio，这是首个能有效融合语义与声学特征的统一连续语音分词器，适用于语音理解与生成任务。该模型基于纯因果Transformer架构，去除了卷积层以提升效率，并采用VAE进行连续特征建模以实现高质量音频重建。在语音重建性能上，其帧率为50，在SEED-ZH和SEED-EN测试集上的PESQ分别达到4.21和4.04，SIM为0.96，STOI为0.98，显著优于对比模型。在下游ASR任务中，其在多个方言数据集上取得了更低的错误率，例如在Hunan Minnan数据集上WER低至9.80%。

开源/仓库模型发布语音

推荐理由：蚂蚁把语音 tokenizer 做到了 PESQ 4.2 的离谱分数，比第二名翻了快一倍，做语音理解和生成的团队值得拿这个当新 baseline 跑一下。

08:00

Thinking Machines Lab：官方博客（RSS）

62

本文探讨了低秩适配（LoRA）与全量微调的性能差异及实践优势。LoRA 通过低秩矩阵更新权重，在保持模型参数不变的同时节省训练内存，支持多租户推理服务、降低硬件需求并便于传输。文献对两者性能比较仍不明确，但共识认为 LoRA 在类似预训练的大规模数据集上表现不佳，因其参数容量有限；而对于中等及以下规模的数据集，其效果尚需进一步研究。

数据/训练论文/研究

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选78

为AI智能体实施有效的上下文工程

随着AI应用从单次提示转向构建长期运行的智能体，焦点正从“提示工程”演进为“上下文工程”。后者旨在为大型语言模型优化有限的上下文窗口内的全部信息，包括指令、工具、外部数据和对话历史。其核心挑战在于模型存在“注意力预算”限制和“上下文腐化”现象——随着上下文增长，模型回忆信息的准确性会下降。因此，上下文工程要求精心编排高价值信息，以有限的资源最大化产出期望结果，这已成为构建高性能、可操控智能体的关键。

智能体AnthropicMCP/工具教程/实践

推荐理由：Anthropic 亲自下场定义 context engineering 这个新范式，把 prompt engineering 之后的工程方法论讲透了。做 Agent 的人如果还在死磕 prompt，这篇会让你重新审视整个技术栈。

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang 发布首日支持 DeepSeek-V3.2：集成稀疏注意力机制

SGLang 在发布首日即支持 DeepSeek-V3.2，该模型基于 DeepSeek-V3.1-Terminus 引入 DeepSeek Sparse Attention (DSA) 机制。DSA 通过 Lightning Indexer 和 Top-k Token Selection 将注意力复杂度从 O(L²) 降至 O(Lk)，在 128K 长上下文下实现训练与推理效率大幅提升且质量损失可忽略。SGLang 实现了专用缓存与 Native Sparse Attention 后端，并提供了面向 NVIDIA、AMD MI350X/MI355X 及 NPU 的部署方案与容器镜像。

DeepSeek开源/仓库开源生态部署/工程

9月28日

00:00

LMSYS：Blog（Chatbot Arena 团队）

PD-Multiplexing：基于 GreenContext 解锁高有效吞吐 LLM 服务

SGLang 团队推出 PD-Multiplexing 服务范式，利用 NVIDIA GreenContext（CUDA 12.4+）的 GPU 细粒度分区能力，通过单卡内部空间共享多路复用 prefill 与 decode 阶段，消除传统 PD 分离的跨实例 KV 缓存迁移开销。该方案将 prefill 切分为小块以消除 GPU 气泡，结合离线训练的延迟预测器实现 SLO 感知调度，动态分配 SM 资源以适应负载变化，从而在满足 TTFT 与 ITL 延迟 SLO 的同时显著提升模型即服务（MaaS）的 goodput。

开源/仓库部署/工程

9月26日

08:00

Thinking Machines Lab：官方博客（RSS）

45

Modular Manifolds

训练大型神经网络时，张量过大或过小会引发数值问题。标准化为黄金标准，但权重矩阵标准化不常见。本文提出将权重矩阵约束到子流形，以简化更新理解、消除范数爆炸、简化超参数调优并保证 Lipschitz 鲁棒性。具体提出流形版 Muon 优化器，将权重约束至 Stiefel 流形（单位条件数矩阵），并定义可组合的模块化流形（Modular Manifold），旨在简化大型网络的缩放与训练。本文为研究方向介绍，并展望未来工作。

数据/训练论文/研究

00:00

LMSYS：Blog（Chatbot Arena 团队）

蚂蚁集团联合SGLang：H20-96G部署DeepSeek-R1最佳实践

蚂蚁集团联合SGLang提出H20-96G部署DeepSeek-R1的工业级方案。针对H20高内存带宽、低计算吞吐特性，采用硬件感知策略：单节点TP-8处理prefill，小规模EP-16处理decode。结合FlashMLA-FP8、DeepGEMM swapAB内核优化与异步Expert Affinity负载均衡技术，在4096 token序列上实现单节点16.5k输入/5.7k输出token/秒的吞吐，达H20平台SOTA性能。

DeepSeek推理论文/研究部署/工程

9月25日

08:00

xAI：News（网页）

xAI 联合 GSA OneGov 扩展政府服务

xAI 与 GSA 合作，通过 OneGov 计划向所有联邦政府部门开放 Grok 4 等前沿模型，18个月订阅费仅 0.42 美元，并派遣专门的 Grok 工程师团队协助政府机构实施 AI 工具，支持特朗普政府 AI 行动计划。

xAI行业动态部署/工程

00:00

LMSYS：Blog（Chatbot Arena 团队）

GB200 NVL72部署DeepSeek V3/R1（二）：PD分离与大规模EP实现3.8倍Prefill、4.8倍Decode吞吐

SGLang团队基于GB200 NVL72优化DeepSeek V3/R1推理，采用FP8 Attention、NVFP4 MoE、大规模专家并行及PD分离等技术。2000 token输入下，单卡Prefill达26,156 tokens/s，Decode达13,386 tokens/s，较H100提升3.8倍和4.8倍。BF16/FP8配置下仍达18,471/9,087 tokens/s。FP8与NVFP4低精度内核分别带来1.8倍和1.9倍加速且精度损失可忽略。

DeepSeek开源/仓库推理部署/工程

00:00

Suno：Blog（网页）

Suno Studio 正式发布

Suno 推出全球首款生成式音频工作站 Suno Studio，将 AI 生成能力融入音乐创作核心。支持即时生成无限 stem 变体（人声、鼓点、合成器等），提供多轨时间线编辑、BPM 和音高调整等专业控制，可导出音频与 MIDI 文件至其他 DAW。兼容从业余爱好者到专业作曲家的各类创作者，桌面版现已向 Premier 用户开放。

产品更新多模态语音

9月23日

21:41

Sam Altman：Blog（RSS）

精选

充裕的智能

计划打造每周可新增1吉瓦算力的AI基础设施工厂，通过芯片、电力到机器人的全栈创新，支撑治愈癌症、全球个性化教育等宏大应用。项目将主要落地美国，未来数月公布合作伙伴，年底披露融资方案。

智能体OpenAI大佬观点部署/工程

推荐理由：Sam Altman阐述OpenAI基础设施扩张愿景，计划每周新建1吉瓦算力

9月22日

23:49

蚂蚁 inclusionAI：GitHub 新仓库

49

InclusionAI/Ring-V2

InclusionAI 发布并开源了 Ring-V2，这是一个基于混合专家架构的推理大语言模型。该模型采用 MoE 设计，旨在提升复杂推理任务的性能。作为开源项目，Ring-V2 可供研究者和开发者直接使用与进一步探索。

开源生态推理模型发布

21:15

公众号：DeepSeek（深度求索）

40

DeepSeek-V3.1 版本更新

DeepSeek-V3.1 版本更新发布，主要包括修复若干已知问题，Agent 能力进一步提升。这是本次版本更新的核心内容，旨在优化用户体验。

智能体DeepSeek模型发布

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang 实现确定性推理与可复现 RL 训练

SGLang 基于 Thinking Machines Lab 的 batch-invariant 算子实现全确定性推理，解决动态批处理导致的输出差异问题，兼容 chunked prefill、CUDA graphs 及非贪婪采样。该方案将性能开销从 61.5% 降至 34.35%，配合 CUDA graphs 可实现 2.8 倍加速。SGLang 与 slime 合作进一步实现 100% 可复现的 RL 训练，在 Qwen3-8B 验证中两次独立训练产生完全一致的曲线，为科学实验提供可靠保障。

开源/仓库数据/训练部署/工程

9月21日

16:54

美团 LongCat：HuggingFace 新模型

meituan-longcat 发布 LongCat-Flash-Thinking-FP8

meituan-longcat 开源发布 LongCat-Flash-Thinking-FP8 模型，采用 FP8 8位浮点精度格式优化计算效率与推理速度。该模型支持 Flash-Thinking 快速推理能力，致力于通过开源和开放科学推进人工智能的民主化。正文未披露具体参数规模、训练数据详情或基准测试指标。

Hugging Face推理模型发布

00:00

LMSYS：Blog（Chatbot Arena 团队）

在 AMD GPU 上优化 FP4 混合精度推理

针对 AMD Instinct MI250/MI300 系列 GPU 缺乏原生 FP4 矩阵乘法支持的问题，研究团队推出 Petit 内核集合，通过 FP16/BF16 × FP4 混合精度计算实现在现有硬件上高效运行 FP4 量化模型。该方案使 Llama 3.3 70B 端到端推理性能提升 1.74 倍，矩阵乘法操作较 AMD 官方 hipBLASLt 库快 3.7 倍。Petit 采用离线重排、LDS 无冲突访问及芯片拓扑感知分区等优化技术，已以 BSD 协议开源并集成至 SGLang 0.4.10 版本。

开源/仓库数据/训练部署/工程

9月19日

09:10

公众号：小米 MiMo

54

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

小米开源其首个原生端到端语音大模型 Xiaomi-MiMo-Audio，被定位为语音开源领域的“LLaMA 时刻”，对标此前语音闭源领域的“GPT-3 时刻”。该模型具体参数、评测分数及开源协议尚未披露。

多模态模型发布语音

9月17日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选73

近期三次基础设施故障的事后分析

八月初至九月中旬，Anthropic的三次基础设施漏洞间歇性导致Claude响应质量下降。8月5日，上下文窗口路由错误致使部分Sonnet 4请求被误导向百万token服务器，8月31日高峰时影响16%请求。8月25日，TPU服务器错误配置引发输出损坏，可能在英文回复中生成泰文或中文字符，影响Opus和Sonnet模型。同日部署的代码还触发了编译器漏洞，主要影响Haiku 3.5。所有问题均非需求或负载所致，纯属基础设施漏洞。公司通过回滚部署和修复逻辑于9月18日前全部解决。

Anthropic安全/对齐部署/工程

推荐理由：Anthropic 主动公开三个基础设施 bug 的完整复盘，这种坦诚在大厂里极少见。做 AI 产品的人都该读一下，它把「模型质量下降」从玄学拉回了工程现实，尤其是 XLA 编译器那层的坑，踩过才知道多深。