OpenRouter 在 2026 年 2 月 17 日和 19 日遭遇了两次服务中断。故障源于其依赖的云服务提供商发生区域性网络问题,导致 API 请求失败。团队在数小时内恢复了服务,并通过实施多区域故障转移、增加备用云服务提供商以及改进监控警报机制来增强系统韧性。此次事件后,OpenRouter 的服务可用性目标已提升至 99.9%。
OpenRouter 在 2026 年 2 月 17 日和 19 日遭遇了两次服务中断。故障源于其依赖的云服务提供商发生区域性网络问题,导致 API 请求失败。团队在数小时内恢复了服务,并通过实施多区域故障转移、增加备用云服务提供商以及改进监控警报机制来增强系统韧性。此次事件后,OpenRouter 的服务可用性目标已提升至 99.9%。
Hugging Face 宣布通过其平台提供免费 AI 模型训练服务,用户可结合 Unsloth 高效训练工具与 Hugging Face Jobs 功能,无需支付费用。该举措旨在降低 AI 开发门槛,推动开源开放科学,促进人工智能技术的民主化进程。核心变化在于将原先需付费或自建基础设施的训练流程,整合为平台内可直接调用的免费资源,显著减少开发者的时间和经济成本。
GGML 和 llama.cpp 团队正式加入 Hugging Face,以支持本地 AI 社区的长期扩展。创始人 Georgi Gerganov 及团队将全职维护 llama.cpp,保持 100% 技术自主权和社区领导力,项目继续 100% 开源和社区驱动。Hugging Face 提供长期可持续资源,助力项目增长。技术上将优化 transformers 库与 llama.cpp 的无缝集成,实现近乎“一键式”的模型部署,并改进基于 GGML 的软件打包和用户体验。长期愿景是构建高效本地推理堆栈,推动开源超级智能的普及。
Gemini 3.1 Pro 发布,专为无法通过简单回答解决的复杂任务设计,提供更智能的深度推理与处理能力。
关联讨论 2 条Google DeepMind:Blog(RSS)X:Kim (@kimmonismus)SGLang 与 NVIDIA 合作,在最新 GB300 NVL72 服务器上实现相比 H200 最高 25 倍的推理性能提升。基于 Blackwell Ultra GPU 的架构升级包括 1.5 倍 FP4 算力和 2 倍 Softmax 吞吐量,结合 NVFP4 GEMM 低精度计算、计算通信重叠及与 NVIDIA Dynamo 的集成优化,DeepSeek R1 等 MoE 模型在 InferenceXv2 基准测试中达成突破性表现。同时,GB200 NVL72 平台性能在 4 个月内提升 8 倍,显著降低大模型部署的延迟与成本。
V8 图像评分活动进入第三轮。本轮重点从识别"差的"样本转向学习"好的"标准,与上一轮形成对比,邀请用户前往投票链接参与。
IBM Research与加州大学伯克利分校合作,通过新构建的IT-Bench基准测试和MAST评估框架,系统分析了企业级AI智能体在复杂IT运维任务中的失败原因。研究发现,当前智能体在多步骤规划、长序列操作及工具精确使用方面存在明显不足,导致任务失败率较高。该研究旨在为开发更可靠、适用于实际业务环境的企业级智能体提供关键诊断依据和改进方向。
关联讨论 1 条Hugging Face:Blog(RSS)Gemini 应用集成 Lyria 3 音乐生成模型,支持通过文本或图片提示创作 30 秒音乐片段,让任何用户都能轻松制作音轨。
NVIDIA与SGLang团队发布DeepSeek R1-NVFP4在GB300 NVL72上的优化部署方案,针对128K/8K长上下文推理实现显著性能提升。通过PD分离、分块流水线并行、宽专家并行及多Token预测(MTP)等技术,系统在GB300上达226 TPS/GPU峰值吞吐量,较GB200提升1.53倍;相同延迟下性能领先1.4–1.6倍。MTP可再提升每用户TPS达1.87倍,128K预填充首Token延迟降至8.6秒。
Agentic 时代 AI 不再只是聊天机器人,而是能自主执行任务的智能体。面对 Claude、GPT、LLaMA 等模型,需根据代理能力、任务类型和生态集成重新评估选择策略。
百灵多模态团队于两天前发布 Ming-flash-omni-2.0,并基于其语音模块推出新模型 Ming-omni-tts。通过模型规模扩展(scale up),Ming-omni-tts 实现更强的语音生成效果。
Gradio 的 gr.HTML 组件允许开发者通过单一 Python 文件快速构建和部署交互式 Web 应用,无需构建步骤。它通过 html、css 和 js_on_load 三个模板,将 Python 状态注入前端并实现与 JavaScript 的双向同步。应用示例涵盖生产力工具(如像素艺术番茄钟)、商业应用(如可拖拽看板)、创意组件(如抽奖转盘)以及专业的 ML 应用(如目标检测查看器)。组件可子类化复用,并能直接集成到模型流水线中,借助快速重载模式,从构思到部署仅需数秒。
Midjourney 开启 V8 第二轮评级活动,重点针对生成文本的提示词测试模型能力。用户可访问 midjourney.com/rank-v8 参与图片评级,活动持续1天。
开源模型与闭源巨头(如 GPT、Claude)之间的能力差距持续存在,形成永无止境的追赶态势。文章探讨了知识蒸馏技术对缩小差距的作用,分析了开源与闭源模型在创新时间尺度上的差异,以及开源模型如何通过专业化模型在特定领域寻找获胜路径。同时指出当前开源生态在基础研究和资源投入上的缺失环节,并评估了这种追赶模式的可持续性。
关联讨论 1 条Nathan Lambert:Interconnects(RSS)Google DeepMind 在印度启动 National Partnerships for AI 计划,通过规模化应用AI技术推动科学研究和教育发展,加速探索发现。
Midjourney 本周将再举办两场 V8 Rating Party,随后正式发布 V8 模型。用户可前往 midjourney.com/rank-v8 参与 Round 1 图片评分,当前反馈已直接用于模型优化。
蚂蚁百灵发布并开源 Ling-2.5-1T,包含深度思考模型(thinking model)与即时模型(instant model)两类。深度思考模型旨在拉高智能上限,即时模型则在效率与效果之间取得平衡,拓宽智能覆盖范围。该版本在模型架构、token 效率、偏好对齐等维度实现全面升级。
SGLang-Diffusion发布六项生产级优化,包括Token级序列分片替代帧级方案,消除14.3%的padding开销并将通信量降至0.875倍;并行折叠技术解耦文本编码器与DiT的并行策略;并行VAE实现分布式编解码,消除高分辨率视频内存瓶颈。同时修复Cache-DiT多请求稳定性问题,优化视频保存I/O性能,并针对WanVideo融合LayerNorm内核。这些改进显著提升了视频生成框架的可扩展性、效率与稳定性。
MiniMax 推出 M2.5-highspeed 模型,支持 100 TPS 极速推理,速度达到同类产品的 3 倍。Coding Plan 与 API 同步上线,Coding Plan 提供 Plus、Max、Ultra 三档套餐,邀请好友可享 9 折优惠。此前 M2.5 发布 48 小时内已有 50 余款国内外产品接入。
MiniMax 解密其 Agent RL 架构,该架构实现了 40 倍训练加速,并打破了训练效率、模型性能与推理能力之间的“不可能三角”。
inclusionAI 发布了 Ling-2.5-1T 模型。该模型参数规模达到 1 万亿,是其 Ling 系列的最新版本。此次发布延续了通过开源和开放科学来推进人工智能民主化的使命,旨在让先进 AI 技术更广泛可及。新版本预计在语言理解与生成能力上有所提升,继续为全球研究社区提供强大的基础模型支持。
腾讯混元在强化学习领域的新研究聚焦 RLVR 模型调优,目标是使调优过程从经验性的“玄学”转向更具可解释性和可复现性的科学范式。
智谱的GLM-5模型驱动了首款AI原生(AI Native)游戏《历史模拟器:崇祯》。GLM-5驱动了这款名为《历史模拟器:崇祯》的首款AI原生游戏,由智谱GLM-5模型驱动。
Midjourney V8 进入最后优化阶段,团队邀请用户访问 midjourney.com/rank-v8 参与图片评分。通过两两对比选择更美图片,帮助改进模型质量。
Forge是MiniMax开发的内部强化学习框架,旨在解决智能体强化学习中系统吞吐量、训练稳定性和智能体灵活性之间的核心矛盾。它通过灵活的系统架构、针对长程智能体优化的算法、尊重训练分布的异步调度以及激进的训练/推理优化,实现了突破。在MiniMax M2.5模型开发期间,Forge处理了超过十万个不同的真实世界智能体框架与环境,支持达200k的上下文长度,并实现了每日百万级样本的吞吐量。结合CISPO算法与复合奖励设计,Forge提升了模型在真实任务中的能力,支撑了M2.5的开发。
Seed2.0系列正式发布,推出Pro、Lite、Mini三款通用Agent模型及专用Code模型,针对复杂多模态任务与长链路Agent场景优化。模型在视觉理解、数学推理与长上下文处理方面达SOTA水平,SuperGPQA分数超越GPT-5.2,并在ICPC、IMO、CMO测试中获金牌。支持科学研究级任务,token成本较顶尖模型降低约一个数量级。目前已上线豆包App、TRAE及火山引擎API。
Box 因原生数据隐私与代理质量控制选择 Cursor 作为核心 IDE 与 AI 编程平台。目前 85% 以上工程师日常使用,推动产品路线图交付效率提升 30-50%。通过自定义规则与命令扩展,Box 将 React 迁移速度提升 80%,设计系统迁移提速 90%,同时确保企业级安全与代码质量。配合导师计划,六周内 Cursor 使用量增加 75%,800 余名开发者已实现 AI 辅助开发。
生数科技在2025年推出多模态大模型,以该模型为基础,重构人工智能在数字与物理世界中的生产力。原文未披露具体模型版本号、参数规模、评测分数或价格等细节,仅概述公司战略方向。
提出一种稳定 RLVR 训练的新方法,采用 Token 级梯度诊断技术精准定位异常梯度来源,结合逐层梯度裁剪(Layerwise Clipping)对不同网络层实施差异化约束,有效抑制训练过程中的梯度爆炸与策略震荡,提升强化学习训练的稳定性与收敛效率。
GLM-5发布后在六个权威榜单中表现突出:AA Intelligence Index全球第四、开源第一;AA Omniscience幻觉率全球最低(34%);Code Arena与Text Arena均为开源第一;Design Arena全球第三。发布首日登顶Hugging Face全球趋势榜。