小红书开源发布Relax,一个为全模态数据、Agentic工作流和大规模异步训练Co-Design的RL训练引擎。
我们与NVIDIA合作,利用自主运行的多智能体系统,在为期三周内对235个真实CUDA内核进行了优化。该系统从零开始构建并优化Blackwell GPU内核直至汇编级别,实现了38%的几何平均速度提升,其中63%的问题超越基线,19%实现超2倍优化。这些内核直接影响AI训练与推理效率,传统上需资深工程师耗时数月乃至数年的优化工作,该系统在数周内即自主完成,并能探索更广阔解决方案空间,突破了人工逐项优化的限制。
文章是一份面向初学者的清晰指南,旨在解释人工智能的基本概念与工作原理。它阐述了什么是人工智能,并重点说明了以ChatGPT为代表的工具如何利用大型语言模型(LLM)来运作。内容涵盖了AI的核心定义、运作机制,以及具体工具的应用方式,为读者理解这一技术提供了基础框架。
可灵AI生成清明主题视频,被评价为“最有人味的片子”。视频引发评论区大量用户分享自创的“纸手机”故事,展现AI与人文情感的碰撞。该作品由快手旗下可灵AI制作,突出AI在情感表达领域的突破。
一位开源项目维护者分享应对AI生成PR浪潮的“氛围维护者”工作流。他维护Beads(2万星)和Gas Town(1.3万星)两个项目,每天收到约50个PR。通过自动化处理超过半数简单PR,整体合入率约88%,中位解决时间15小时。即便如此,每周仍需投入15-20小时审核。他认为高效率是开源项目生存关键,拒绝贡献可能导致项目被分叉或取代。
Cursor团队将实时强化学习技术应用于Composer编码模型,利用真实用户交互产生的推理令牌作为训练信号,以解决模拟环境与真实使用间的匹配问题。该技术使团队能够以每五小时一次的频率部署改进后的模型检查点。通过A/B测试,新版本实现了关键指标提升:代理编辑在代码库中的持久性增加2.28%,用户不满意后续减少3.13%,延迟降低10.3%。实时RL也带来了奖励黑客等新挑战,但真实用户反馈有助于识别和修正此类问题。
作者受生成对抗网络启发,设计了一个包含规划器、生成器和评估器的三代理架构,以解决Claude在长时应用开发中的两大瓶颈。该架构通过上下文重置机制,有效克服了模型在长任务中的“上下文焦虑”问题;同时,通过分离生成与评估功能,使代理能依据具体标准进行迭代改进,而非盲目自评。这一方法成功使系统能在多小时的自主运行中生成完整的全栈应用程序,突破了此前提示工程和传统工具设计的性能上限。
Anthropic 研究员展示了如何将多日智能体编码工作流应用于科学计算任务。以使用 Claude Opus 实现宇宙学玻尔兹曼求解器的可微分版本为例,该任务通常需耗费研究人员数月甚至数年时间。通过制定清晰的项目指令、利用日志文件作为智能体的持久记忆并设置测试预言,即使是非领域专家也能引导智能体在数小时内完成这类复杂项目。该方法的核心在于设定高层目标后,让智能体团队自主工作,仅需偶尔人工监督,从而显著提升了科学代码开发与移植的效率。
生数科技在公众号推文中指出,通用世界模型是连接数字世界与物理世界的桥梁。文章标题与正文均为此单一观点,未提供更多细节。
以指标平台为核心的新一代BI架构,通过建设自动语义和增强计算两种核心能力,部分解决了传统BI平台在个性化数据集驱动下产生的数据口径混乱、查询性能差等问题。
Kimi支持的个人开发者开源项目OneClaw下载量突破10万,提供一键安装包,1分钟即可在本地部署原版OpenClaw,无需命令行或环境配置。功能包括纯净卸载、自由切换模型、远程控制,支持连接飞书、企微、钉钉、QQ、Kimi Claw;内置2万+技能的技能商店,可无损迁移记忆和Skills。Kimi提供包月方案和API按需购买。使用地址:oneclaw.cn。
关联讨论 1 条公众号:月之暗面(Kimi)蚂蚁百灵推出Ling-2.5-1T模型,从6个文学维度重新审视其创意写作能力,旨在降低AI味,提升写作的自然度与文学性。
Kimi K2.5 多模态模型的 API 输入成本,在 90% 缓存命中率下,实际价格为 1.03 元/M tokens,仅为标准定价 4 元/M tokens 的 2.5 折。Kimi API 缓存命中率通常在 85%-95% 之间波动,核心支撑是与清华大学合作研发的 Mooncake 推理架构,该架构获存储顶会 FAST 2025 最佳论文,并已开源。
蚂蚁百灵(Ling)公布 Ling 2.5 模型架构改造实践,将 Lightning Attention 与 MLA(Multi-head Latent Attention)两种线性注意力机制融合,形成混合线性架构。该方案旨在平衡长序列推理效率与模型表达能力,为下一代大语言模型的注意力计算提供优化思路。
Forge是MiniMax开发的内部强化学习框架,旨在解决智能体强化学习中系统吞吐量、训练稳定性和智能体灵活性之间的核心矛盾。它通过灵活的系统架构、针对长程智能体优化的算法、尊重训练分布的异步调度以及激进的训练/推理优化,实现了突破。在MiniMax M2.5模型开发期间,Forge处理了超过十万个不同的真实世界智能体框架与环境,支持达200k的上下文长度,并实现了每日百万级样本的吞吐量。结合CISPO算法与复合奖励设计,Forge提升了模型在真实任务中的能力,支撑了M2.5的开发。
AI(如 Claude Code)确实能带来 10 倍生产力提升,但创造的价值大部分被公司捕获,员工可能过度劳累却收获甚微。微软内部已自发大量采用 Claude Code。这种效率加速迫使工作节奏不断加快,导致许多早期采用者(包括作者自己)出现严重的“午睡攻击”和日常疲劳。公司作为资本机器难以放缓脚步,形成一种让从业者无论是否使用 AI 都被持续“抽血”的困境。
文章基于与近40名Anthropic员工的对话,观察到该公司运作方式独特,被形容为一个由“氛围”驱动的“蜂巢思维”集体。员工普遍感受到一种既兴奋又凝重的使命感,仿佛在引领某种文明级别的事物诞生。公司内部氛围被比作1998年的亚马逊,充满变革前的电光石火感。作者指出,Anthropic正试图警告外界AI带来的巨大变革,但许多公司并未严肃对待,并推测2026年将对大量企业构成严峻挑战。
研究人员采用“智能体团队”方法,让多个Claude实例在无人工干预下并行协作开发代码。为进行压力测试,团队指派16个智能体从零编写一个能编译Linux内核的Rust版C编译器。项目消耗近2000次会话和约2万美元,最终产出10万行代码的编译器,可成功在x86、ARM和RISC-V架构上构建Linux 6.9内核。研究重点在于设计支持长时间自主运行的智能体团队框架,包括如何编写测试以保持智能体不偏离方向,以及如何通过基于文本文件的锁机制协调多智能体并行任务分配。
蚂蚁百灵团队将近期刷屏的自动买车 Agent Clawdbot 的核心大脑替换为自家百灵模型,进行功能测试。Clawdbot 是本周最火的通用 Agent 架构,此次实验验证了百灵模型在工具调用任务中的实际表现。
作者基于对AI指数级发展的预测,于2025年末构建了Gas Town项目,以验证软件编排(orchestration)的早期形态。文章指出,在未来AI能编写几乎所有软件的“Software 3.0”时代,选择压力将遵循一条核心法则:节省认知资源的软件更可能生存。由于推理(Inference)消耗Token,而Token、能源与成本相互关联且受限,因此最小化认知支出(可量化为Token消耗)成为关键。作者主张,系统应优先使用能完成任务的最小模型,并通过编排将任务分配给合适的模型层,以节约能源与成本。
在生产环境中,使用vLLM部署Mistral Medium 3.1模型进行Prefill/Decode分离推理时,团队发现了一个严重的内存泄漏问题。该问题表现为系统内存以每分钟400 MB的速度线性增长,最终将导致内存耗尽。泄漏仅在启用图编译且通过NIXL传输KV Cache的特定条件下出现,初步调查指向了传输层。团队从Python内存分析工具入手,但常规工具未能定位到根源,调查随后深入到底层与UCX和Infiniband相关的交互中。
Anthropic性能优化团队负责人Tristan Hume分享了设计抗AI技术评估的经验。自2024年初,团队使用带回家测试评估候选人优化模拟加速器代码的能力,超1000人参与,成功招聘数十名工程师。但随着Claude模型快速迭代,Opus 4已超越多数人类申请者,Opus 4.5甚至匹配顶尖候选人,导致在时间限制下难以区分人类与AI输出。为此,作者三次重设计测试,探索抗AI评估要素,详述原始设计、模型破解方式及非常规对策。最终,团队将原始测试作为公开挑战发布,因无时间限制时人类表现仍优于Claude。
Anthropic旗下的AI编程代理Claude Code每月订阅费高达200美元,且其基于令牌的速率限制引发开发者不满。与此同时,Block公司推出的开源AI代理Goose提供了近乎相同的功能,可在本地机器上完全免费运行,无需订阅费或云端依赖,并能离线工作、保障数据隐私。该项目在GitHub上已获得超过2.6万颗星,成为Claude Code的热门替代选择。
作者临近57岁生日,回顾了近期在AI领域的活跃动态。人工智能领域正吸引大量资本涌入,作者因其文章和项目收到了众多风险投资人的接触,并因Gas Town相关加密货币$GAS产生了约30万美元的交易费收入,但他强调需专注于软件开发而非被资本或社区分散精力。文章还讨论了利用20余个AI智能体进行高端编程对工作与休息节奏带来的影响,表现为频繁的深度小睡需求。
有效的评估能帮助团队更自信地发布AI智能体,避免陷入仅在生产环境被动发现问题、修复可能引发新问题的循环。智能体因其多轮操作的自主性与灵活性,评估更为复杂。一个完整的评估结构包含任务、评分器、记录、结果、评估框架与评估套件等核心组件。缺乏系统评估将导致团队无法区分真实的质量倒退与随机波动。建立评估体系能帮助团队在智能体规模化过程中持续监控质量、自动测试变更并量化改进效果,其价值在智能体整个生命周期内持续累积。
Claude Code 创造者 Boris Cherny 公开的个人工作流引发广泛讨论。其核心是并行运行多个AI代理:在终端同时运行5个Claude,浏览器中运行5-10个,通过系统通知进行管理,将编码转变为类似指挥《星际争霸》的实时战略。他坚持使用最重、最慢的Opus 4.5模型,认为其更高智能度能减少人工干预,最终效率更高。团队还通过共享的CLAUDE.md文件将AI错误转化为永久规则,使代码库能自我修正。