文章探讨如何为基于大语言模型的智能体设计高效工具。核心方法是通过与智能体(如Claude Code)协作,采用快速原型构建和全面评估的迭代流程来优化工具性能。关键设计原则包括:选择适当的工具实现范围,使用命名空间明确功能边界,从工具向智能体返回有意义的上下文,优化响应以提高token效率,以及对工具描述进行提示词工程。工具本质上是确定性系统与非确定性智能体之间的新契约,设计应优先考虑智能体的使用体验,而非传统开发者导向的API思路,以扩大智能体解决实际任务的能力。
文章探讨如何为基于大语言模型的智能体设计高效工具。核心方法是通过与智能体(如Claude Code)协作,采用快速原型构建和全面评估的迭代流程来优化工具性能。关键设计原则包括:选择适当的工具实现范围,使用命名空间明确功能边界,从工具向智能体返回有意义的上下文,优化响应以提高token效率,以及对工具描述进行提示词工程。工具本质上是确定性系统与非确定性智能体之间的新契约,设计应优先考虑智能体的使用体验,而非传统开发者导向的API思路,以扩大智能体解决实际任务的能力。
LLM推理的再现性是科学进步的基础,但即使在温度设为0的贪心采样下,ChatGPT等API以及vLLM、SGLang等自托管推理引擎仍无法保证确定性结果。常见的“并发+浮点非结合性”假设并不完整——GPU上重复执行相同矩阵乘法结果完全一致。真正原因在于:部分GPU内核是非确定性的,但LLM前向传播使用的内核均为确定性;推理服务器前向传播本身是确定性的,用户感知的非确定性源于浮点运算非结合性在不同聚合顺序下导致的细微数值差异。文章揭示了这一误解,并探讨如何实现真正可重现的LLM推理输出。
SGLang 发布 HiCache 分层 KV 缓存系统,通过 HiRadixTree 页表管理 GPU、CPU 及外部存储中的缓存数据,支持 Mooncake、3FS、NIXL 等多种后端。系统采用 GPU 辅助 I/O 内核和层间重叠机制加速数据传输,在 Qwen3-Coder-480B 编码场景中将 TTFT 降低 56%、吞吐量翻倍、缓存命中率提升至 80%;在 DeepSeek-R1-671B 部署中实现缓存命中时 TTFT 降低 84%,整体吞吐量最高提升 6 倍。
OpenAI 高层公开致谢首席科学家 Jakub Pachocki 与 Szymon Sidor,二人多次联手攻克被认为不可能的技术难题,主导 Dota RL 扩展、GPT-4 预训练及推理突破,被形容为“不知疲倦”的黄金搭档。
Mistral AI宣布完成1.7亿欧元C轮融资,投后估值达117亿欧元。本轮融资由半导体设备制造商ASML领投,DST Global、Andreessen Horowitz、NVIDIA等现有投资方参与。公司将利用这笔资金加速AI前沿研究,为战略行业提供定制化的分布式前沿AI解决方案,以解决复杂的工程和工业问题。此轮融资重申了公司的独立性。
InclusionAI 发布并开源了其混合专家大语言模型 Ling-V2。该模型采用 MoE 架构,旨在通过更高效的参数利用来提升模型性能。此次开源意味着研究者和开发者可以自由访问、使用并基于此模型进行进一步的创新与开发。
Mistral AI 于 2025 年 9 月 2 日宣布为 Le Chat 推出更新。更新包括:处于测试阶段的企业级 MCP 连接器目录,提供 20 多个安全的连接器,覆盖数据、生产力、开发、自动化与商务等领域,支持搜索、总结并操作各类工具,且允许用户自定义连接器。此外,新增记忆功能(beta),可基于用户偏好和事实提供个性化回复,并支持从 ChatGPT 快速导入记忆。所有功能均向免费套餐用户开放,并支持多端部署。
关联讨论 1 条Mistral AI:News(网页)Mistral AI 为其对话AI产品 Le Chat 推出“记忆”测试版功能。该功能旨在让AI助手能根据上下文记住并关联信息,其设计基于三大原则:透明(用户可知何时、为何调用记忆)、自主(用户可随时关闭、编辑或删除记忆)和数据主权(记忆可导出)。辅助功能“记忆洞察”帮助用户探索记忆内容。产品强调记忆的可控性与实用性,后续将优化分类、遗忘与可视化能力。
PXDesign 提供了一种快速、模块化且准确的蛋白质结合剂从头设计方案。该方法通过优化算法架构,在保持高精度的同时显著提升计算速度,支持灵活的功能组件组合,可针对不同蛋白质靶点高效生成高亲和力结合剂,为药物开发和合成生物学研究提供了高效的计算设计工具。
本研究提出了word2vec学习机制的完整定量理论,证明其在实际条件下等价于无加权最小二乘矩阵分解。梯度流动力学具有闭式解,最终词嵌入即为PCA结果。从小初始化开始时,模型通过离散步骤逐次学习正交线性子空间(概念),递增嵌入矩阵的秩。这些潜在特征对应由词共现概率和单字概率等可测量语料统计量决定的矩阵顶部特征向量。
美团开源Agentic MoE模型LongCat-Flash,总参数量560B,每token仅激活27B。该模型基于SGLang框架,采用PD分离架构与SBO技术,通过四阶段流水线在单batch内实现计算与通信重叠,突破吞吐与延迟的权衡瓶颈。相比同类模型推理成本降低50%以上,在Agent任务中表现优异,适用于复杂实时智能体应用。
meituan-longcat 发布 LongCat-Flash-Chat 项目,宣称将通过开源与开放科学推进人工智能技术的进步与民主化。该项目致力于打破技术壁垒,降低 AI 使用门槛,但目前尚未披露具体的技术架构、参数规模、性能基准测试数据及应用场景等详细信息。
从 GPT-5 到 nano banana,强大的人工智能技术正变得普及化。无论是尖端大模型还是轻量级应用,普通用户都能便捷获取先进 AI 能力,技术民主化进程加速,标志着智能时代进入人人可及的新阶段。
xAI发布轻量级编程模型Grok Code Fast 1,采用全新架构,基于真实PR数据训练,精通grep、终端和文件编辑等工具。推理速度达190 tokens/秒,定价输入$0.20/百万tokens、输出$1.50/百万tokens,SWE-Bench-Verified得分70.8%。目前已在GitHub Copilot、Cursor、Cline等平台限时免费开放。
OpenAI 开源模型 gpt-oss 原生采用 MXFP4 量化,但社区长期缺乏针对该低精度格式的训练支持。NVIDIA 推出基于 Model Optimizer 的量化感知训练(QAT)方案,允许在 Blackwell、Hopper、Ampere 及 Ada 等常见 GPU 上直接微调模型,无需转换为 BF16 而牺牲性能。实测显示,经 QAT 微调的 gpt-oss-20b 在多语言推理任务中通过率从 16% 提升至 100%,在安全提示识别任务中从 30% 优化至 97%。微调后的模型可通过 SGLang 部署,保持 MXFP4 格式的推理速度与内存优势。
SGLang 针对 openai/gpt-oss-120b 发布重大性能优化,prefill 吞吐量提升 2.1 倍,decode 吞吐量提升 2.25 倍。新版本集成 FlashInfer 内核以释放 NVIDIA Blackwell 性能,通过 FlashAttention-3 加速 Hopper GPU,并原生支持 AMD MI350。在 B200 上 MXFP4 精度下单批次解码速度达 416.02 tok/s。同时引入 EAGLE3 投机解码支持,GPQA 基准测试验证精度与官方报告一致,确保高性能不损失推理能力。
OpenRouter 现已上线 Gemini 2.5 Flash Image Preview,这是该平台首个图像生成模型,支持 SOTA 图像生成、角色一致性以及多图像输出。
OpenRouter 现已提供 Gemini 2.5 Flash Image Preview,这是平台上的首个图像模型。该模型具备 SOTA 图像生成能力,支持角色一致性(character consistency)和多图像输出(multi-image outputs)。
Gemini 2.5 Flash Image Preview 模型已在 OpenRouter 平台正式发布。该模型是首个在该平台上线的图像生成模型,具备当前最优的图像生成能力。其核心特性包括出色的角色一致性和支持多图像输出功能,为开发者与用户提供了新的图像生成工具选项。
Anthropic正式发布Claude for Chrome扩展,允许AI在浏览器中执行点击、填表等操作。该功能已从1000名Max用户试点扩展至所有付费订阅者,新增Claude Code集成、定时任务及多标签工作流。针对提示词注入攻击,Anthropic通过站点权限、操作确认等防护措施,基于123个测试案例的红队测试,将攻击成功率从23.6%降至11.2%,并屏蔽高风险网站以确保安全。
DeepSeek-V3.1 以混合推理模型形式开源,用户可一键切换思考模式,同时 Agent 智能体支持性能得到增强。
Game Worlds 启动 Beta 测试,现开放用户申请加入体验。参与者可抢先试用新功能,协助验证系统稳定性并提供反馈,帮助完善正式版本。
UI-Venus 是一款本地 UI 智能体,仅以屏幕截图作为输入,即可执行精确的图形用户界面元素定位与高效导航。该代理无需依赖系统底层代码或辅助功能接口,直接通过视觉信息理解界面结构,实现自动化操作。其核心能力在于对任意应用或网页中的按钮、菜单、文本框等元素进行准确识别与交互,提升了跨平台任务执行的通用性与可靠性。
Anthropic可解释性团队在2025年8月的研究更新中,通过一个电路分析案例展示了模型“角色扮演”如何影响其回答。研究使用Claude Haiku 3.5模型,当系统提示将其设定为“学龄前儿童”并询问“27的平方根”时,模型会以“我不知道!”回应并提议玩耍;而在默认或“研究生”角色下则能给出正确答案。团队通过归因图识别出一个关键子电路:模型能将“学龄前学生”关联到“扮演儿童”,从而激活“我不知道”特征。研究还发现,问题难度会调节此效应,并且通过特征干预能显著改变模型行为。这引发了对其他角色运作机制及预训练角色与模型表达能力关系的后续思考。
Deep Ignorance 技术通过预训练数据过滤为开放权重 LLM 构建内置式防篡改安全防护。该方法在训练阶段筛选数据,将安全能力深度集成于模型权重,使其难以被后续微调或提示注入绕过。这一方案针对开放权重模型易被恶意修改的痛点,提供了从预训练源头建立安全屏障的新路径,在保障模型开放性的同时增强安全性。
Agentic AI Summit 2025 在 UC Berkeley 吸引超过 2000 名现场观众及约 4 万名在线参与者,汇聚全球 AI 领域领导者、创新者与创业者共探 agentic AI 发展。目前所有会议录像已开放观看,主办方宣布下届峰会将于明年回归。
GPT-5 不再需要详细提示工程,只需给出目标即可自主完成任务。将 AI 置于主导地位,用户只需设定方向,具体执行由模型自行处理。
GPT-5 现已登陆 OpenRouter 平台,具备长上下文能力,专为复杂推理和代码工作流设计。
OpenRouter 平台已发布 GPT-5,该模型支持长上下文,专为复杂推理与代码工作流构建。
GPT-5 已在 OpenRouter 平台正式推出。该模型具备长上下文处理能力,专门针对复杂推理任务与代码工作流进行了优化。此次发布标志着新一代大语言模型开始接入开放路由网络,为开发者与用户提供更强大的多步骤逻辑处理和编程辅助功能。
现可通过 URL 发送 PDF 文件以及使用语音输入功能,且适用于任意模型。
OpenRouter 平台现支持在应用中使用语音输入功能,并允许通过 URL 发送 PDF 文件。该功能适用于平台上的任意模型。
平台宣布为所有模型的应用新增音频输入与通过URL发送PDF文件的功能。用户现在可以直接使用语音与各类模型(如GPT、Claude、LLaMA)进行交互,同时支持通过链接直接上传PDF文档进行处理。这两项更新旨在提升多模态交互的便捷性,扩展了应用处理非文本输入和数据获取的方式,无需再依赖传统的文件上传步骤。
字节跳动Seed团队发布扩散语言模型Seed Diffusion,采用非自回归的扩散架构替代传统GPT类模型,通过去噪扩散机制并行生成文本,突破逐token解码的速度瓶颈。该模型在保持大规模参数能力的同时显著提升推理效率,在文本生成任务中实现生成质量与计算速度的平衡,为大规模语言模型提供了自回归范式之外的高性能替代方案。
提出一种将注意力机制引入线性探针的新方法。传统线性探针通过训练简单分类器分析神经网络内部表征,该技术引入可学习的注意力权重,使探针能够动态聚焦输入中的关键特征或特定 token,替代全局池化操作。这种方法提升了对模型决策过程的细粒度解释能力,有助于精准定位 Transformer 架构中影响预测的关键信息路径,为大语言模型的可解释性研究提供了更强大的分析工具。
Mistral AI展示了如何通过LoRA微调技术,将Pixtral-12B视觉语言模型适配到卫星图像分析任务,从而显著提升模型在该专业领域的性能。该研究使用公开的Aerial Image Dataset进行测试,对比了微调前后的分类效果。未微调的基础模型在模糊类别上表现不佳且存在幻觉,而经过微调的模型将整体分类准确率从85.2%提升至94.1%,针对类似“游乐场”与“体育场”等易混淆类别的准确率也从63.0%大幅提升到88.5%,并解决了输出无效类别的幻觉问题。这项工作证明了领域特定微调对于挖掘通用大模型在垂直应用中潜力的有效性。
智谱发布旗舰模型 GLM-4.5(355B/32B 激活)与 GLM-4.5-Air(106B/12B 激活),含 FP8 量化版本,即日起原生支持 SGLang 框架。采用 MoE 架构与 128k 上下文,在 12 项基准测试中分列第 3 与第 6。GLM-4.5 在 BrowseComp 网页浏览任务中以 26.4% 准确率超越 Claude 4 Opus,工具调用成功率达 90.6%,编程与数学推理能力突出。