Anthropic 推出了“Agent Skills”开放标准,旨在为通用智能体(如Claude)提供可组合、可扩展且可移植的领域专业知识。一个Skill是一个包含指令、脚本和资源的文件夹,其核心SKILL.md文件采用渐进式披露设计,智能体可根据任务动态加载所需信息,从而最小化上下文占用。例如,PDF技能赋予了Claude直接操作PDF表单的新能力。该框架允许用户通过封装和共享程序性知识来定制智能体,无需为每个用例构建碎片化的定制代理。
Anthropic 推出了“Agent Skills”开放标准,旨在为通用智能体(如Claude)提供可组合、可扩展且可移植的领域专业知识。一个Skill是一个包含指令、脚本和资源的文件夹,其核心SKILL.md文件采用渐进式披露设计,智能体可根据任务动态加载所需信息,从而最小化上下文占用。例如,PDF技能赋予了Claude直接操作PDF表单的新能力。该框架允许用户通过封装和共享程序性知识来定制智能体,无需为每个用例构建碎片化的定制代理。
Anthropic可解释性团队分享了多项研究进展。研究发现,从Haiku 3.5到Sonnet 4.5等模型中存在跨模态视觉特征,能够识别ASCII艺术和SVG代码中编码的语义概念,如眼睛、嘴巴、狗、猫等。这些特征依赖于视觉描绘的上下文环境,例如,SVG圆形元素只有在位于激活“面部”特征的更大结构中时才会激活“眼睛”特征。在生成过程中对部分特征进行引导,可以对应修改文本艺术的语义,例如将ASCII表情从皱眉转为微笑,或为SVG面部添加皱纹。研究还发现模型存在类似“人脸幻想”的倾向,会将形状解释为动物绘图的组成部分。这些特征对人类手绘的SVG同样有效。
inclusionAI 开源了专为大语言模型训练设计的高性能内核库 Linghe。该库旨在优化 LLM 训练过程中的计算效率,通过底层内核创新提升训练速度并降低资源消耗。Linghe 支持当前主流的 Transformer 架构模型,为开发者和研究者提供了更高效的训练工具,有望加速 LLM 的开发与迭代进程。
SGLang与NVIDIA针对Blackwell架构(GB200 NVL72)深度优化,在DeepSeek R1模型上实现每GPU 26k输入与13k输出tokens/秒的高吞吐。通过Prefill-Decode分离架构、大规模专家并行及FP8/NVFP4内核优化,SGLang在SemiAnalysis InferenceMAX基准测试中较Hopper代际获得4倍性能提升,并被选为该基准在NVIDIA与AMD硬件上运行DeepSeek模型的默认推理引擎。
NVIDIA DGX Spark搭载GB10 Grace Blackwell超级芯片,在桌面工作站形态下提供1 PFLOP稀疏FP4算力与128GB统一内存。单机可运行Llama 3.1 70B、GPT-OSS 120B等大模型,双机通过200Gbps QSFP互联更可处理405B参数模型。然而受限于273GB/s内存带宽,该设备更适合小模型批处理推理与AI原型开发,而非大模型生产部署。支持SGLang和Ollama框架,为开发者提供本地AI开发新选择。
针对现有代码审查基准和方法在全面性上的不足,研究团队推出了SWE-CARE基准。该基准包含一个用Python构建、覆盖代码审查全过程的仓库级数据集,数据被分为九种类型且每个实例均包含仓库特征。基于此,团队设计了一个评估框架,用以衡量大型语言模型在全面代码审查任务上的性能。项目提供了完整的评估流程脚本,支持使用GPT-4o等模型,并可生成详细的性能评估与分析报告。
Ming-VideoMAR 是一款仅解码器的自回归图像到视频生成模型,采用连续令牌统一视觉表征。它首次将时间因果性与空间双向性作为视频自回归核心原则,并提出了整合掩码生成的下一帧扩散损失。该模型首次实现了视频生成的零样本分辨率缩放,能灵活生成远超训练分辨率的视频。其在训练与推理效率上表现突出,参数量、训练数据量和GPU消耗仅为之前最佳模型Cosmos的极小比例(9.3%、0.5%和0.2%),同时在定量与定性评估中均实现超越。模型代码与检查点已开源,论文已被NeurIPS 2025接收。
研究团队发布网络安全基准测试CyberGym,涵盖1,507个真实漏洞,规模达现有基准7.5倍。测试显示顶级AI Agent单次攻击成功率约30%,30次尝试可达67%,且已自主发现35个零日漏洞及17个补丁缺陷。Claude-Sonnet-4.5单次成功率28.9%,Claude-Sonnet-4达17.9%。测试时扩展策略可将GPT-5成功率从7.7%提升至22%,不同Agent能力互补,联合成功率近翻倍。
研究团队发布了关于 Reward Hacking(奖励黑客)问题的中期进展报告,梳理了该领域正在进行的工作。报告聚焦于 AI 系统通过非预期方式最大化奖励函数、利用评估漏洞等行为模式的研究现状。目前相关研究仍处于 interim 阶段,具体实验数据与防御策略的详细结果将在后续更新中公布。
Sora 将推出两项更新:一是为版权方提供更细粒度的角色生成控制,允许其指定角色使用方式(包括完全禁止);二是启动视频生成商业化,计划与选择加入的版权方分享用户生成内容带来的收入。OpenAI 表示用户生成量远超预期,许多视频仅面向小众受众。公司特别提到日本创作者的内容产出表现突出,并承诺将像早期 ChatGPT 时代一样快速迭代,根据反馈及时调整策略。
研究团队发布合成编程基准DELTA与Manufactoria测试平台,针对基础模型pass@128为零的分布外任务,提出两阶段奖励调度方案:先以密集每测试奖励打破零梯度僵局,再切换至二元全通奖励巩固精确解。实验显示,RL训练在漫长平台期后会出现"grokking"式相变,准确率骤升至约100%,证明模型能够发现全新策略而非仅优化已有知识。迁移测试表明,习得策略可重组编程子技能并外推至更难参数范围,但在需要新不变量的结构性转变上仍受限。
OpenRouter 向每位客户每月提供100万次“Bring Your Own Key”(BYOK)请求,完全免费。
OpenRouter 为每位客户每月免费提供 100 万次 BYOK(Bring Your Own Key)请求,用户可携带自有 API 密钥使用服务。
所有客户每月可免费获得 100 万次“自带密钥”(BYOK)请求。这一政策将 BYOK 功能从付费服务转变为免费提供的基础配额,大幅降低了企业使用自有密钥管理数据安全的技术与成本门槛。免费额度覆盖了绝大多数中小规模企业的典型月请求量。
OpenAI发布Sora应用,集成Sora 2模型,支持快速创作、分享和观看视频,团队称其为"创意领域的ChatGPT时刻"。核心功能包括cameo客串特性,可保持角色一致性并将用户及朋友置入视频。团队同时表达对成瘾性和低质内容("slop feed")风险的担忧,提出四项产品原则:优化长期用户满意度、赋予用户信息流控制权、优先鼓励创作、帮助实现长期目标,并配备深度伪造防护和情绪健康监测等安全措施。
Anthropic宣布Claude与Slack双向集成功能正式上线。用户可直接在Slack工作区添加Claude,在频道和线程中获取AI协助;也可将Slack连接至Claude,让AI搜索历史对话和文件提取上下文。该集成支持私信、AI助手面板和线程参与三种方式,可起草回复、准备会议及创建文档。功能现已向付费Slack团队开放,连接器适用于Claude Team、Enterprise及Pro/Max用户。Claude仅访问用户有权限的频道内容,严格遵循企业安全与隐私设置。
关联讨论 1 条X:Claude (@claudeai)inclusionAI 发布了 Ming-UniVision 的代码。该项目提出了一种创新的连续统一分词器,旨在联合处理图像理解与生成任务。该技术试图将视觉识别和图像合成整合进一个统一的框架内,通过连续化的表示来桥接两类不同性质的视觉任务,有望提升多模态模型的效率和协同能力。此次代码开源意味着相关方法将可供社区研究、复现与应用。
探讨 AI Agents 在真实工作场景中的定位,指出其核心挑战在于对抗"无限PPT"的形式主义陷阱。强调真正的智能体应当服务于以人为本的实质性工作,而非制造更多文档流程或官僚化产出。
关联讨论 1 条Nathan Lambert:Interconnects(RSS)inclusionAI团队发布了dInfer,一个专为扩散语言模型设计的高效推理框架。该框架旨在解决扩散模型在文本生成领域推理速度慢、资源消耗大的核心挑战。dInfer通过一系列底层优化技术,显著提升了推理效率,能够更快地生成文本,同时降低计算成本,为扩散模型在更广泛的实际应用场景中部署提供了关键技术支持。
研究团队发布了Ming-UniAudio,这是一个基于统一表示的大语言模型,专门用于语音任务。该模型能够联合处理语音的理解、生成与编辑,实现了多种语音功能的集成。它通过统一的框架,将传统上分离的语音识别、合成和修改任务整合进单一系统,提升了处理效率与协同能力。
该仓库发布了Ming-Freeform-Audio-Edit基准测试集,用于评估Ming-UniAudio模型的下游音频编辑任务。测试集涵盖7类任务,包括语义编辑(自由形式删除、插入、替换)和声学编辑(时间拉伸、音高转换等)。音频样本源自seed-tts eval、LibriTTS等开源数据集,其中语义编辑任务包含基于索引和基于内容的中英文样本。评估指标涵盖编辑区域与非编辑区域的词错误率、编辑操作准确率和说话人相似度,并提供了完整的评估脚本与参数说明。
inclusionAI团队推出了MingTok-Audio,这是首个能有效融合语义与声学特征的统一连续语音分词器,适用于语音理解与生成任务。该模型基于纯因果Transformer架构,去除了卷积层以提升效率,并采用VAE进行连续特征建模以实现高质量音频重建。在语音重建性能上,其帧率为50,在SEED-ZH和SEED-EN测试集上的PESQ分别达到4.21和4.04,SIM为0.96,STOI为0.98,显著优于对比模型。在下游ASR任务中,其在多个方言数据集上取得了更低的错误率,例如在Hunan Minnan数据集上WER低至9.80%。
本文探讨了低秩适配(LoRA)与全量微调的性能差异及实践优势。LoRA 通过低秩矩阵更新权重,在保持模型参数不变的同时节省训练内存,支持多租户推理服务、降低硬件需求并便于传输。文献对两者性能比较仍不明确,但共识认为 LoRA 在类似预训练的大规模数据集上表现不佳,因其参数容量有限;而对于中等及以下规模的数据集,其效果尚需进一步研究。
随着AI应用从单次提示转向构建长期运行的智能体,焦点正从“提示工程”演进为“上下文工程”。后者旨在为大型语言模型优化有限的上下文窗口内的全部信息,包括指令、工具、外部数据和对话历史。其核心挑战在于模型存在“注意力预算”限制和“上下文腐化”现象——随着上下文增长,模型回忆信息的准确性会下降。因此,上下文工程要求精心编排高价值信息,以有限的资源最大化产出期望结果,这已成为构建高性能、可操控智能体的关键。
SGLang 在发布首日即支持 DeepSeek-V3.2,该模型基于 DeepSeek-V3.1-Terminus 引入 DeepSeek Sparse Attention (DSA) 机制。DSA 通过 Lightning Indexer 和 Top-k Token Selection 将注意力复杂度从 O(L²) 降至 O(Lk),在 128K 长上下文下实现训练与推理效率大幅提升且质量损失可忽略。SGLang 实现了专用缓存与 Native Sparse Attention 后端,并提供了面向 NVIDIA、AMD MI350X/MI355X 及 NPU 的部署方案与容器镜像。
SGLang 团队推出 PD-Multiplexing 服务范式,利用 NVIDIA GreenContext(CUDA 12.4+)的 GPU 细粒度分区能力,通过单卡内部空间共享多路复用 prefill 与 decode 阶段,消除传统 PD 分离的跨实例 KV 缓存迁移开销。该方案将 prefill 切分为小块以消除 GPU 气泡,结合离线训练的延迟预测器实现 SLO 感知调度,动态分配 SM 资源以适应负载变化,从而在满足 TTFT 与 ITL 延迟 SLO 的同时显著提升模型即服务(MaaS)的 goodput。
训练大型神经网络时,张量过大或过小会引发数值问题。标准化为黄金标准,但权重矩阵标准化不常见。本文提出将权重矩阵约束到子流形,以简化更新理解、消除范数爆炸、简化超参数调优并保证 Lipschitz 鲁棒性。具体提出流形版 Muon 优化器,将权重约束至 Stiefel 流形(单位条件数矩阵),并定义可组合的模块化流形(Modular Manifold),旨在简化大型网络的缩放与训练。本文为研究方向介绍,并展望未来工作。
蚂蚁集团联合SGLang提出H20-96G部署DeepSeek-R1的工业级方案。针对H20高内存带宽、低计算吞吐特性,采用硬件感知策略:单节点TP-8处理prefill,小规模EP-16处理decode。结合FlashMLA-FP8、DeepGEMM swapAB内核优化与异步Expert Affinity负载均衡技术,在4096 token序列上实现单节点16.5k输入/5.7k输出token/秒的吞吐,达H20平台SOTA性能。
xAI 与 GSA 合作,通过 OneGov 计划向所有联邦政府部门开放 Grok 4 等前沿模型,18个月订阅费仅 0.42 美元,并派遣专门的 Grok 工程师团队协助政府机构实施 AI 工具,支持特朗普政府 AI 行动计划。
SGLang团队基于GB200 NVL72优化DeepSeek V3/R1推理,采用FP8 Attention、NVFP4 MoE、大规模专家并行及PD分离等技术。2000 token输入下,单卡Prefill达26,156 tokens/s,Decode达13,386 tokens/s,较H100提升3.8倍和4.8倍。BF16/FP8配置下仍达18,471/9,087 tokens/s。FP8与NVFP4低精度内核分别带来1.8倍和1.9倍加速且精度损失可忽略。
Suno 推出全球首款生成式音频工作站 Suno Studio,将 AI 生成能力融入音乐创作核心。支持即时生成无限 stem 变体(人声、鼓点、合成器等),提供多轨时间线编辑、BPM 和音高调整等专业控制,可导出音频与 MIDI 文件至其他 DAW。兼容从业余爱好者到专业作曲家的各类创作者,桌面版现已向 Premier 用户开放。
计划打造每周可新增1吉瓦算力的AI基础设施工厂,通过芯片、电力到机器人的全栈创新,支撑治愈癌症、全球个性化教育等宏大应用。项目将主要落地美国,未来数月公布合作伙伴,年底披露融资方案。
InclusionAI 发布并开源了 Ring-V2,这是一个基于混合专家架构的推理大语言模型。该模型采用 MoE 设计,旨在提升复杂推理任务的性能。作为开源项目,Ring-V2 可供研究者和开发者直接使用与进一步探索。
DeepSeek-V3.1 版本更新发布,主要包括修复若干已知问题,Agent 能力进一步提升。这是本次版本更新的核心内容,旨在优化用户体验。
SGLang 基于 Thinking Machines Lab 的 batch-invariant 算子实现全确定性推理,解决动态批处理导致的输出差异问题,兼容 chunked prefill、CUDA graphs 及非贪婪采样。该方案将性能开销从 61.5% 降至 34.35%,配合 CUDA graphs 可实现 2.8 倍加速。SGLang 与 slime 合作进一步实现 100% 可复现的 RL 训练,在 Qwen3-8B 验证中两次独立训练产生完全一致的曲线,为科学实验提供可靠保障。
meituan-longcat 开源发布 LongCat-Flash-Thinking-FP8 模型,采用 FP8 8位浮点精度格式优化计算效率与推理速度。该模型支持 Flash-Thinking 快速推理能力,致力于通过开源和开放科学推进人工智能的民主化。正文未披露具体参数规模、训练数据详情或基准测试指标。
针对 AMD Instinct MI250/MI300 系列 GPU 缺乏原生 FP4 矩阵乘法支持的问题,研究团队推出 Petit 内核集合,通过 FP16/BF16 × FP4 混合精度计算实现在现有硬件上高效运行 FP4 量化模型。该方案使 Llama 3.3 70B 端到端推理性能提升 1.74 倍,矩阵乘法操作较 AMD 官方 hipBLASLt 库快 3.7 倍。Petit 采用离线重排、LDS 无冲突访问及芯片拓扑感知分区等优化技术,已以 BSD 协议开源并集成至 SGLang 0.4.10 版本。
小米开源其首个原生端到端语音大模型 Xiaomi-MiMo-Audio,被定位为语音开源领域的“LLaMA 时刻”,对标此前语音闭源领域的“GPT-3 时刻”。该模型具体参数、评测分数及开源协议尚未披露。
八月初至九月中旬,Anthropic的三次基础设施漏洞间歇性导致Claude响应质量下降。8月5日,上下文窗口路由错误致使部分Sonnet 4请求被误导向百万token服务器,8月31日高峰时影响16%请求。8月25日,TPU服务器错误配置引发输出损坏,可能在英文回复中生成泰文或中文字符,影响Opus和Sonnet模型。同日部署的代码还触发了编译器漏洞,主要影响Haiku 3.5。所有问题均非需求或负载所致,纯属基础设施漏洞。公司通过回滚部署和修复逻辑于9月18日前全部解决。