AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态一手 · 2391 条
全部一手资讯X论文
10月16日周四
10月15日周三
10月14日周二
10月13日周一
10月10日周五
10月8日周三
10月7日周二
10月4日周六
10月2日周四
10月1日周三
9月30日周二
9月29日周一
9月28日周日
9月26日周五
9月25日周四
9月23日周二
9月22日周一
9月21日周日
9月19日周五
9月17日周三
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
10月16日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选73
为智能体配备现实世界技能:Agent Skills 开放标准

Anthropic 推出了“Agent Skills”开放标准,旨在为通用智能体(如Claude)提供可组合、可扩展且可移植的领域专业知识。一个Skill是一个包含指令、脚本和资源的文件夹,其核心SKILL.md文件采用渐进式披露设计,智能体可根据任务动态加载所需信息,从而最小化上下文占用。例如,PDF技能赋予了Claude直接操作PDF表单的新能力。该框架允许用户通过封装和共享程序性知识来定制智能体,无需为每个用例构建碎片化的定制代理。

智能体AnthropicMCP/工具产品更新

推荐理由:Agent Skills 把「给 Agent 喂知识」从手写 prompt 变成了可复用的文件夹协议,做 Claude Code 或 Agent 产品的人现在就该动手试,这比 MCP 更轻量也更贴近日常开发。
10月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选83
Circuits 更新 - 2025年10月

Anthropic可解释性团队分享了多项研究进展。研究发现,从Haiku 3.5到Sonnet 4.5等模型中存在跨模态视觉特征,能够识别ASCII艺术和SVG代码中编码的语义概念,如眼睛、嘴巴、狗、猫等。这些特征依赖于视觉描绘的上下文环境,例如,SVG圆形元素只有在位于激活“面部”特征的更大结构中时才会激活“眼睛”特征。在生成过程中对部分特征进行引导,可以对应修改文本艺术的语义,例如将ASCII表情从皱眉转为微笑,或为SVG面部添加皱纹。研究还发现模型存在类似“人脸幻想”的倾向,会将形状解释为动物绘图的组成部分。这些特征对人类手绘的SVG同样有效。

Anthropic多模态推理论文/研究

推荐理由:为AI可解释性研究提供新实验方法,启发跨模态模型设计。
10月14日
17:50
蚂蚁 inclusionAI:GitHub 新仓库
48
inclusionAI/linghe

inclusionAI 开源了专为大语言模型训练设计的高性能内核库 Linghe。该库旨在优化 LLM 训练过程中的计算效率,通过底层内核创新提升训练速度并降低资源消耗。Linghe 支持当前主流的 Transformer 架构模型,为开发者和研究者提供了更高效的训练工具,有望加速 LLM 的开发与迭代进程。

开源/仓库数据/训练部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang与NVIDIA携手加速SemiAnalysis InferenceMAX及GB200优化

SGLang与NVIDIA针对Blackwell架构(GB200 NVL72)深度优化,在DeepSeek R1模型上实现每GPU 26k输入与13k输出tokens/秒的高吞吐。通过Prefill-Decode分离架构、大规模专家并行及FP8/NVFP4内核优化,SGLang在SemiAnalysis InferenceMAX基准测试中较Hopper代际获得4倍性能提升,并被选为该基准在NVIDIA与AMD硬件上运行DeepSeek模型的默认推理引擎。

DeepSeek开源/仓库部署/工程
10月13日
00:00
LMSYS:Blog(Chatbot Arena 团队)
NVIDIA DGX Spark深度评测:本地AI推理的新标杆

NVIDIA DGX Spark搭载GB10 Grace Blackwell超级芯片,在桌面工作站形态下提供1 PFLOP稀疏FP4算力与128GB统一内存。单机可运行Llama 3.1 70B、GPT-OSS 120B等大模型,双机通过200Gbps QSFP互联更可处理405B参数模型。然而受限于273GB/s内存带宽,该设备更适合小模型批处理推理与AI原型开发,而非大模型生产部署。支持SGLang和Ollama框架,为开发者提供本地AI开发新选择。

端侧评测/基准部署/工程
10月10日
15:36
蚂蚁 inclusionAI:GitHub 新仓库
46
SWE-CARE:一个用于评估代码审查全面性的基准

针对现有代码审查基准和方法在全面性上的不足,研究团队推出了SWE-CARE基准。该基准包含一个用Python构建、覆盖代码审查全过程的仓库级数据集,数据被分为九种类型且每个实例均包含仓库特征。基于此,团队设计了一个评估框架,用以衡量大型语言模型在全面代码审查任务上的性能。项目提供了完整的评估流程脚本,支持使用GPT-4o等模型,并可生成详细的性能评估与分析报告。

编码论文/研究评测/基准
10:20
蚂蚁 inclusionAI:GitHub 新仓库
精选66
Ming-VideoMAR:基于连续令牌的自回归视频生成模型

Ming-VideoMAR 是一款仅解码器的自回归图像到视频生成模型,采用连续令牌统一视觉表征。它首次将时间因果性与空间双向性作为视频自回归核心原则,并提出了整合掩码生成的下一帧扩散损失。该模型首次实现了视频生成的零样本分辨率缩放,能灵活生成远超训练分辨率的视频。其在训练与推理效率上表现突出,参数量、训练数据量和GPU消耗仅为之前最佳模型Cosmos的极小比例(9.3%、0.5%和0.2%),同时在定量与定性评估中均实现超越。模型代码与检查点已开源,论文已被NeurIPS 2025接收。

开源/仓库数据/训练模型发布视频

推荐理由:蚂蚁把自回归视频生成的训练成本砍到 Cosmos 的 0.2% 还能赢,这个效率信号比分数本身更值得关注,做视频生成的团队该认真看看它的课程学习和渐进分辨率策略。
10月8日
00:00
Berkeley RDI:Blog(AI 安全与评测)
CyberGym:大规模评估AI Agent真实网络安全能力

研究团队发布网络安全基准测试CyberGym,涵盖1,507个真实漏洞,规模达现有基准7.5倍。测试显示顶级AI Agent单次攻击成功率约30%,30次尝试可达67%,且已自主发现35个零日漏洞及17个补丁缺陷。Claude-Sonnet-4.5单次成功率28.9%,Claude-Sonnet-4达17.9%。测试时扩展策略可将GPT-5成功率从7.7%提升至22%,不同Agent能力互补,联合成功率近翻倍。

智能体Anthropic安全/对齐评测/基准
10月7日
08:00
EleutherAI:Blog
Reward Hacking 研究更新

研究团队发布了关于 Reward Hacking(奖励黑客)问题的中期进展报告,梳理了该领域正在进行的工作。报告聚焦于 AI 系统通过非预期方式最大化奖励函数、利用评估漏洞等行为模式的研究现状。目前相关研究仍处于 interim 阶段,具体实验数据与防御策略的详细结果将在后续更新中公布。

安全/对齐论文/研究
10月4日
08:37
Sam Altman:Blog(RSS)
Sora 更新 #1

Sora 将推出两项更新:一是为版权方提供更细粒度的角色生成控制,允许其指定角色使用方式(包括完全禁止);二是启动视频生成商业化,计划与选择加入的版权方分享用户生成内容带来的收入。OpenAI 表示用户生成量远超预期,许多视频仅面向小众受众。公司特别提到日本创作者的内容产出表现突出,并承诺将像早期 ChatGPT 时代一样快速迭代,根据反馈及时调整策略。

OpenAI产品更新视频
10月2日
00:00
Berkeley RDI:Blog(AI 安全与评测)
RL顿悟配方:如何让大模型通过强化学习攻克无解任务?

研究团队发布合成编程基准DELTA与Manufactoria测试平台,针对基础模型pass@128为零的分布外任务,提出两阶段奖励调度方案:先以密集每测试奖励打破零梯度僵局,再切换至二元全通奖励巩固精确解。实验显示,RL训练在漫长平台期后会出现"grokking"式相变,准确率骤升至约100%,证明模型能够发现全新策略而非仅优化已有知识。迁移测试表明,习得策略可重组编程子技能并外推至更难参数范围,但在需要新不变量的结构性转变上仍受限。

推理数据/训练论文/研究
10月1日
08:00
OpenRouter:Announcements(RSS)
精选58
OpenRouter 推出每月100万免费BYOK请求

OpenRouter 向每位客户每月提供100万次“Bring Your Own Key”(BYOK)请求,完全免费。

智能体产品更新部署/工程

推荐理由:这个公告虽然旧了,但 OpenRouter 的 BYOK 免费额度至今仍在,对想低成本折腾模型的个人开发者来说,每月 100 万次请求比很多付费计划都香。
08:00
OpenRouter:Announcements(RSS)
52
OpenRouter 推出每月 100 万次免费 BYOK 请求

OpenRouter 为每位客户每月免费提供 100 万次 BYOK(Bring Your Own Key)请求,用户可携带自有 API 密钥使用服务。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
精选60
每月 100 万次免费 BYOK 请求

所有客户每月可免费获得 100 万次“自带密钥”(BYOK)请求。这一政策将 BYOK 功能从付费服务转变为免费提供的基础配额,大幅降低了企业使用自有密钥管理数据安全的技术与成本门槛。免费额度覆盖了绝大多数中小规模企业的典型月请求量。

产品更新部署/工程

推荐理由:OpenRouter 给 BYOK 用户每月免 100 万次请求,对用自己 API key 跑 Agent 的开发者来说是实打实的成本减免,值得顺手薅。
01:13
Sam Altman:Blog(RSS)
精选
Sora 2

OpenAI发布Sora应用,集成Sora 2模型,支持快速创作、分享和观看视频,团队称其为"创意领域的ChatGPT时刻"。核心功能包括cameo客串特性,可保持角色一致性并将用户及朋友置入视频。团队同时表达对成瘾性和低质内容("slop feed")风险的担忧,提出四项产品原则:优化长期用户满意度、赋予用户信息流控制权、优先鼓励创作、帮助实现长期目标,并配备深度伪造防护和情绪健康监测等安全措施。

OpenAI产品更新视频

推荐理由:OpenAI 正式发布 Sora 2 应用,定位「创意领域的 ChatGPT时刻」
00:00
Claude:Blog(网页)
Claude与Slack双向集成正式上线

Anthropic宣布Claude与Slack双向集成功能正式上线。用户可直接在Slack工作区添加Claude,在频道和线程中获取AI协助;也可将Slack连接至Claude,让AI搜索历史对话和文件提取上下文。该集成支持私信、AI助手面板和线程参与三种方式,可起草回复、准备会议及创建文档。功能现已向付费Slack团队开放,连接器适用于Claude Team、Enterprise及Pro/Max用户。Claude仅访问用户有权限的频道内容,严格遵循企业安全与隐私设置。

智能体AnthropicMCP/工具产品更新
关联讨论 1 条X:Claude (@claudeai)
9月30日
19:36
蚂蚁 inclusionAI:GitHub 新仓库
51
inclusionAI/Ming-UniVision

inclusionAI 发布了 Ming-UniVision 的代码。该项目提出了一种创新的连续统一分词器,旨在联合处理图像理解与生成任务。该技术试图将视觉识别和图像合成整合进一个统一的框架内,通过连续化的表示来桥接两类不同性质的视觉任务,有望提升多模态模型的效率和协同能力。此次代码开源意味着相关方法将可供社区研究、复现与应用。

图像生成多模态模型发布
02:52
Ethan Mollick:One Useful Thing(RSS)
精选
真正的 AI Agents 与真正的工作

探讨 AI Agents 在真实工作场景中的定位,指出其核心挑战在于对抗"无限PPT"的形式主义陷阱。强调真正的智能体应当服务于以人为本的实质性工作,而非制造更多文档流程或官僚化产出。

智能体大佬观点
关联讨论 1 条Nathan Lambert:Interconnects(RSS)
推荐理由:Ethan Mollick 深度解析 AI Agent 在实际工作中的应用与人类价值重塑
9月29日
18:01
公众号:DeepSeek(深度求索)
59
DeepSeek-V3.2-Exp 发布,训练推理提效,API 同步降价
DeepSeek推理模型发布
关联讨论 1 条公众号:DeepSeek(深度求索)
16:07
蚂蚁 inclusionAI:GitHub 新仓库
精选58
inclusionAI/dInfer

inclusionAI团队发布了dInfer,一个专为扩散语言模型设计的高效推理框架。该框架旨在解决扩散模型在文本生成领域推理速度慢、资源消耗大的核心挑战。dInfer通过一系列底层优化技术,显著提升了推理效率,能够更快地生成文本,同时降低计算成本,为扩散模型在更广泛的实际应用场景中部署提供了关键技术支持。

开源/仓库推理部署/工程

推荐理由:蚂蚁把扩散语言模型的推理框架开源了,这类模型的推理效率一直是落地瓶颈,做端侧或低成本部署的团队值得看看能不能接上。
11:23
蚂蚁 inclusionAI:GitHub 新仓库
51
inclusionAI/Ming-UniAudio

研究团队发布了Ming-UniAudio,这是一个基于统一表示的大语言模型,专门用于语音任务。该模型能够联合处理语音的理解、生成与编辑,实现了多种语音功能的集成。它通过统一的框架,将传统上分离的语音识别、合成和修改任务整合进单一系统,提升了处理效率与协同能力。

开源生态模型发布语音
11:19
蚂蚁 inclusionAI:GitHub 新仓库
38
inclusionAI/Ming-Freeform-Audio-Edit

该仓库发布了Ming-Freeform-Audio-Edit基准测试集,用于评估Ming-UniAudio模型的下游音频编辑任务。测试集涵盖7类任务,包括语义编辑(自由形式删除、插入、替换)和声学编辑(时间拉伸、音高转换等)。音频样本源自seed-tts eval、LibriTTS等开源数据集,其中语义编辑任务包含基于索引和基于内容的中英文样本。评估指标涵盖编辑区域与非编辑区域的词错误率、编辑操作准确率和说话人相似度,并提供了完整的评估脚本与参数说明。

开源/仓库论文/研究语音
11:19
蚂蚁 inclusionAI:GitHub 新仓库
精选57
inclusionAI发布MingTok-Audio:首个统一连续语音分词器

inclusionAI团队推出了MingTok-Audio,这是首个能有效融合语义与声学特征的统一连续语音分词器,适用于语音理解与生成任务。该模型基于纯因果Transformer架构,去除了卷积层以提升效率,并采用VAE进行连续特征建模以实现高质量音频重建。在语音重建性能上,其帧率为50,在SEED-ZH和SEED-EN测试集上的PESQ分别达到4.21和4.04,SIM为0.96,STOI为0.98,显著优于对比模型。在下游ASR任务中,其在多个方言数据集上取得了更低的错误率,例如在Hunan Minnan数据集上WER低至9.80%。

开源/仓库模型发布语音

推荐理由:蚂蚁把语音 tokenizer 做到了 PESQ 4.2 的离谱分数,比第二名翻了快一倍,做语音理解和生成的团队值得拿这个当新 baseline 跑一下。
08:00
Thinking Machines Lab:官方博客(RSS)
62
LoRA 无悔

本文探讨了低秩适配(LoRA)与全量微调的性能差异及实践优势。LoRA 通过低秩矩阵更新权重,在保持模型参数不变的同时节省训练内存,支持多租户推理服务、降低硬件需求并便于传输。文献对两者性能比较仍不明确,但共识认为 LoRA 在类似预训练的大规模数据集上表现不佳,因其参数容量有限;而对于中等及以下规模的数据集,其效果尚需进一步研究。

数据/训练论文/研究
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选78
为AI智能体实施有效的上下文工程

随着AI应用从单次提示转向构建长期运行的智能体,焦点正从“提示工程”演进为“上下文工程”。后者旨在为大型语言模型优化有限的上下文窗口内的全部信息,包括指令、工具、外部数据和对话历史。其核心挑战在于模型存在“注意力预算”限制和“上下文腐化”现象——随着上下文增长,模型回忆信息的准确性会下降。因此,上下文工程要求精心编排高价值信息,以有限的资源最大化产出期望结果,这已成为构建高性能、可操控智能体的关键。

智能体AnthropicMCP/工具教程/实践

推荐理由:Anthropic 亲自下场定义 context engineering 这个新范式,把 prompt engineering 之后的工程方法论讲透了。做 Agent 的人如果还在死磕 prompt,这篇会让你重新审视整个技术栈。
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 发布首日支持 DeepSeek-V3.2:集成稀疏注意力机制

SGLang 在发布首日即支持 DeepSeek-V3.2,该模型基于 DeepSeek-V3.1-Terminus 引入 DeepSeek Sparse Attention (DSA) 机制。DSA 通过 Lightning Indexer 和 Top-k Token Selection 将注意力复杂度从 O(L²) 降至 O(Lk),在 128K 长上下文下实现训练与推理效率大幅提升且质量损失可忽略。SGLang 实现了专用缓存与 Native Sparse Attention 后端,并提供了面向 NVIDIA、AMD MI350X/MI355X 及 NPU 的部署方案与容器镜像。

DeepSeek开源/仓库开源生态部署/工程
9月28日
00:00
LMSYS:Blog(Chatbot Arena 团队)
PD-Multiplexing:基于 GreenContext 解锁高有效吞吐 LLM 服务

SGLang 团队推出 PD-Multiplexing 服务范式,利用 NVIDIA GreenContext(CUDA 12.4+)的 GPU 细粒度分区能力,通过单卡内部空间共享多路复用 prefill 与 decode 阶段,消除传统 PD 分离的跨实例 KV 缓存迁移开销。该方案将 prefill 切分为小块以消除 GPU 气泡,结合离线训练的延迟预测器实现 SLO 感知调度,动态分配 SM 资源以适应负载变化,从而在满足 TTFT 与 ITL 延迟 SLO 的同时显著提升模型即服务(MaaS)的 goodput。

开源/仓库部署/工程
9月26日
08:00
Thinking Machines Lab:官方博客(RSS)
45
Modular Manifolds

训练大型神经网络时,张量过大或过小会引发数值问题。标准化为黄金标准,但权重矩阵标准化不常见。本文提出将权重矩阵约束到子流形,以简化更新理解、消除范数爆炸、简化超参数调优并保证 Lipschitz 鲁棒性。具体提出流形版 Muon 优化器,将权重约束至 Stiefel 流形(单位条件数矩阵),并定义可组合的模块化流形(Modular Manifold),旨在简化大型网络的缩放与训练。本文为研究方向介绍,并展望未来工作。

数据/训练论文/研究
00:00
LMSYS:Blog(Chatbot Arena 团队)
蚂蚁集团联合SGLang:H20-96G部署DeepSeek-R1最佳实践

蚂蚁集团联合SGLang提出H20-96G部署DeepSeek-R1的工业级方案。针对H20高内存带宽、低计算吞吐特性,采用硬件感知策略:单节点TP-8处理prefill,小规模EP-16处理decode。结合FlashMLA-FP8、DeepGEMM swapAB内核优化与异步Expert Affinity负载均衡技术,在4096 token序列上实现单节点16.5k输入/5.7k输出token/秒的吞吐,达H20平台SOTA性能。

DeepSeek推理论文/研究部署/工程
9月25日
08:00
xAI:News(网页)
xAI 联合 GSA OneGov 扩展政府服务

xAI 与 GSA 合作,通过 OneGov 计划向所有联邦政府部门开放 Grok 4 等前沿模型,18个月订阅费仅 0.42 美元,并派遣专门的 Grok 工程师团队协助政府机构实施 AI 工具,支持特朗普政府 AI 行动计划。

xAI行业动态部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
GB200 NVL72部署DeepSeek V3/R1(二):PD分离与大规模EP实现3.8倍Prefill、4.8倍Decode吞吐

SGLang团队基于GB200 NVL72优化DeepSeek V3/R1推理,采用FP8 Attention、NVFP4 MoE、大规模专家并行及PD分离等技术。2000 token输入下,单卡Prefill达26,156 tokens/s,Decode达13,386 tokens/s,较H100提升3.8倍和4.8倍。BF16/FP8配置下仍达18,471/9,087 tokens/s。FP8与NVFP4低精度内核分别带来1.8倍和1.9倍加速且精度损失可忽略。

DeepSeek开源/仓库推理部署/工程
00:00
Suno:Blog(网页)
Suno Studio 正式发布

Suno 推出全球首款生成式音频工作站 Suno Studio,将 AI 生成能力融入音乐创作核心。支持即时生成无限 stem 变体(人声、鼓点、合成器等),提供多轨时间线编辑、BPM 和音高调整等专业控制,可导出音频与 MIDI 文件至其他 DAW。兼容从业余爱好者到专业作曲家的各类创作者,桌面版现已向 Premier 用户开放。

产品更新多模态语音
9月23日
21:41
Sam Altman:Blog(RSS)
精选
充裕的智能

计划打造每周可新增1吉瓦算力的AI基础设施工厂,通过芯片、电力到机器人的全栈创新,支撑治愈癌症、全球个性化教育等宏大应用。项目将主要落地美国,未来数月公布合作伙伴,年底披露融资方案。

智能体OpenAI大佬观点部署/工程

推荐理由:Sam Altman阐述OpenAI基础设施扩张愿景,计划每周新建1吉瓦算力
9月22日
23:49
蚂蚁 inclusionAI:GitHub 新仓库
49
InclusionAI/Ring-V2

InclusionAI 发布并开源了 Ring-V2,这是一个基于混合专家架构的推理大语言模型。该模型采用 MoE 设计,旨在提升复杂推理任务的性能。作为开源项目,Ring-V2 可供研究者和开发者直接使用与进一步探索。

开源生态推理模型发布
21:15
公众号:DeepSeek(深度求索)
40
DeepSeek-V3.1 版本更新

DeepSeek-V3.1 版本更新发布,主要包括修复若干已知问题,Agent 能力进一步提升。这是本次版本更新的核心内容,旨在优化用户体验。

智能体DeepSeek模型发布
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 实现确定性推理与可复现 RL 训练

SGLang 基于 Thinking Machines Lab 的 batch-invariant 算子实现全确定性推理,解决动态批处理导致的输出差异问题,兼容 chunked prefill、CUDA graphs 及非贪婪采样。该方案将性能开销从 61.5% 降至 34.35%,配合 CUDA graphs 可实现 2.8 倍加速。SGLang 与 slime 合作进一步实现 100% 可复现的 RL 训练,在 Qwen3-8B 验证中两次独立训练产生完全一致的曲线,为科学实验提供可靠保障。

开源/仓库数据/训练部署/工程
9月21日
16:54
美团 LongCat:HuggingFace 新模型
meituan-longcat 发布 LongCat-Flash-Thinking-FP8

meituan-longcat 开源发布 LongCat-Flash-Thinking-FP8 模型,采用 FP8 8位浮点精度格式优化计算效率与推理速度。该模型支持 Flash-Thinking 快速推理能力,致力于通过开源和开放科学推进人工智能的民主化。正文未披露具体参数规模、训练数据详情或基准测试指标。

Hugging Face推理模型发布
00:00
LMSYS:Blog(Chatbot Arena 团队)
在 AMD GPU 上优化 FP4 混合精度推理

针对 AMD Instinct MI250/MI300 系列 GPU 缺乏原生 FP4 矩阵乘法支持的问题,研究团队推出 Petit 内核集合,通过 FP16/BF16 × FP4 混合精度计算实现在现有硬件上高效运行 FP4 量化模型。该方案使 Llama 3.3 70B 端到端推理性能提升 1.74 倍,矩阵乘法操作较 AMD 官方 hipBLASLt 库快 3.7 倍。Petit 采用离线重排、LDS 无冲突访问及芯片拓扑感知分区等优化技术,已以 BSD 协议开源并集成至 SGLang 0.4.10 版本。

开源/仓库数据/训练部署/工程
9月19日
09:10
公众号:小米 MiMo
54
小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

小米开源其首个原生端到端语音大模型 Xiaomi-MiMo-Audio,被定位为语音开源领域的“LLaMA 时刻”,对标此前语音闭源领域的“GPT-3 时刻”。该模型具体参数、评测分数及开源协议尚未披露。

多模态模型发布语音
9月17日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选73
近期三次基础设施故障的事后分析

八月初至九月中旬,Anthropic的三次基础设施漏洞间歇性导致Claude响应质量下降。8月5日,上下文窗口路由错误致使部分Sonnet 4请求被误导向百万token服务器,8月31日高峰时影响16%请求。8月25日,TPU服务器错误配置引发输出损坏,可能在英文回复中生成泰文或中文字符,影响Opus和Sonnet模型。同日部署的代码还触发了编译器漏洞,主要影响Haiku 3.5。所有问题均非需求或负载所致,纯属基础设施漏洞。公司通过回滚部署和修复逻辑于9月18日前全部解决。

Anthropic安全/对齐部署/工程

推荐理由:Anthropic 主动公开三个基础设施 bug 的完整复盘,这种坦诚在大厂里极少见。做 AI 产品的人都该读一下,它把「模型质量下降」从玄学拉回了工程现实,尤其是 XLA 编译器那层的坑,踩过才知道多深。
‹ 上一页
1…454647484950
下一页 ›