Seed-Prover是基于引理的全证明推理模型,支持根据Lean形式验证反馈、已证引理及自我总结迭代优化证明,并采用三种测试时推理策略实现深度与广度兼顾的推理。该系统在形式化IMO历史题目中完成78.1%,在MiniF2F上实现饱和,在PutnamBench上突破50%,大幅领先此前最优水平。针对Lean缺乏几何支持的问题,团队同步推出Seed-Geometry引擎。该系统参加IMO 2025竞赛,在6道题目中完整证明5道。
Seed-Prover是基于引理的全证明推理模型,支持根据Lean形式验证反馈、已证引理及自我总结迭代优化证明,并采用三种测试时推理策略实现深度与广度兼顾的推理。该系统在形式化IMO历史题目中完成78.1%,在MiniF2F上实现饱和,在PutnamBench上突破50%,大幅领先此前最优水平。针对Lean缺乏几何支持的问题,团队同步推出Seed-Geometry引擎。该系统参加IMO 2025竞赛,在6道题目中完整证明5道。
Mistral AI 发布了 Codestral 25.08 及其完整的企业编码解决方案栈。该方案旨在通过一个集成的系统,解决企业在采用 AI 编程工具时遇到的核心障碍,如部署限制、定制化不足和架构分散。新版 Codestral 25.08 的性能有所提升,其代码接受完成率提高30%,保留代码增加10%,失控生成减少50%。方案中的 Codestral Embed 是专为代码设计的嵌入向量模型,在代码检索基准测试中性能优于其他模型。整个解决方案支持部署在云端、VPC 或本地环境。
OpenRouter 新增服务器端预设(Presets)功能,用户可一次定制模型配置并在不同应用间无缝使用,简化模型工作流。
OpenRouter 上线服务端 Presets,支持用户一次定制模型配置(如参数、提示词)后跨应用直接调用,无需重复设置,简化跨平台模型工作流。
新推出的服务端 Presets 功能实现了模型配置的“一次定制,处处使用”。该功能允许用户将包括模型、参数、提示词和工具在内的完整配置保存为可复用的预设方案,并能通过链接或代码片段跨应用无缝共享。这简化了从开发到生产的工作流,避免了重复配置,提升了团队协作与部署效率。
对比 AI 研究中"苦涩的教训"(算力至上)与"垃圾桶模型"(过程至上)两种范式,提出核心问题:过程是否真的重要,答案即将揭晓。
Runway与IMAX达成合作,将于8月17日至20日在纽约、洛杉矶等美国10座城市的IMAX影院独家展映2025 AI Film Festival入围影片,共计40场。本届AIFF收到超6000部投稿,最终选出10部AI辅助创作短片,由Gaspar Noé等知名导演评审。此次为AIFF影片首次登陆美国影院,双方将为AI电影提供顶级放映体验,探索新技术与叙事融合的可能。
SGLang团队开源SpecForge训练框架,专为Eagle3投机解码设计,原生集成SGLang推理引擎实现训推无缝衔接。框架内置Training-Time Test支持,提供Online与Offline双模式,分别适配低存储多GPU与高存储低GPU场景。基于ShareGPT和UltraChat 32万样本的实验显示,Llama 4 Maverick与Scout draft模型在MT-Bench上分别实现2.18倍与2.0倍推理加速。
非营利组织“Songs of Love Foundation”与AI音乐平台Suno达成合作。该基金会致力于为患病或面临困境的儿童、青少年及老年人创作高度个性化的定制歌曲。此次合作旨在利用Suno的AI音乐制作工具赋能其志愿者,并借助其用户社区显著扩大歌曲创作规模。基金会创始人John Beltzer已使用Suno为一位93岁的痴呆症老人创作歌曲,证明了AI在唤起记忆和保存特定音乐风格方面的价值。
Mistral AI发布了针对其大语言模型 Mistral Large 2 的首份全生命周期环境影响分析报告。研究量化了该模型截至2025年1月的累计影响,包括温室气体排放、水资源消耗和资源耗竭。报告还提供了其AI助手 Le Chat 处理单次回复的边际影响数据。此举旨在推动行业环境影响核算的透明化与标准化,并提出了衡量模型环境足迹的关键指标。
Mooncake团队基于OME和SGLang框架,在128张H200 GPU集群上完成了Moonshot AI 1万亿参数开源MoE模型Kimi K2的大规模部署。该方案采用PD分离与大规模专家并行技术,针对模型384个专家和每token 320亿激活参数的设计进行优化,通过跨节点通信优化与负载均衡策略,显著提升了trillion-scale模型的推理吞吐与并发处理能力。
Mistral AI 为 Le Chat 推出五项重要更新:Deep Research(预览版)模式可快速生成结构化研究报告;语音模式启用新 Voxtral 模型实现自然对话;Think 模式由 Magistral 推理模型支持,提供原生多语言推理;Projects 功能可将相关对话组织至独立文件夹;并联合 Black Forest Labs 推出 Le Chat 内的高级图像编辑功能。用户现在可在 chat.mistral.ai 或移动应用中免费试用这些新功能。
SGLang 推理框架现已支持多 Token 预测(MTP)技术,并与大规模专家并行(EP)、预填充-解码分离(PD Disaggregation)等特性无缝集成。该技术通过轻量级草稿模型预测多个未来 Token,再由完整目标模型并行验证,在保持生成质量不变的前提下,可将 DeepSeek V3 等模型的输出吞吐量提升高达 60%。在 16 张 H200 GPU 的小规模部署场景中,该方案显著优化了长序列推理效率,为生产环境提供即插即用的性能增益。
NVILA 团队发布技术博客,详解如何在 SGLang 推理框架中集成新型视觉语言模型。文章以 NVILA 为实践案例,提供从模型适配、推理优化到部署的完整开发指南与代码实践。随着多模态大模型成为行业焦点,该方案填补了 SGLang 生态在视觉理解模型支持方面的文档空白,为开发者快速接入新 VLM 提供了标准化技术路径与最佳实践。
Venice 作为新提供商加入 OpenRouter,提供其旗舰无审查模型,主打隐私、高性能和非限制性 AI 体验。
Venice 作为新提供商加入 OpenRouter,提供其旗舰未审查模型,主打隐私、强大且无限制的 AI 体验。
专注隐私的AI提供商Venice正式加入OpenRouter平台,并推出了其旗舰模型。该模型主打无审查、功能强大且限制少的特点,旨在为用户提供私密且不受限制的人工智能体验。这一新增服务为寻求高度隐私保护和内容自由度的用户提供了新的选择。
Anthropic可解释性团队分享了2025年7月的研究进展。第一部分用“特征”语言重构Transformer数学框架,将注意力头的OV和QK电路描述为特征及其变换(如检测属性X、前一标记X、触发输出X的特征),并解释了先前用特征值分析复制头和归纳头行为的合理性。第二部分概述了稀疏自编码器在生物AI系统(如蛋白质语言模型ESM-2)可解释性中的应用进展,强调此类研究对确保药物发现等应用的安全与有效性至关重要。
Mistral AI 发布了开源语音理解模型 Voxtral,提供 24B 和 3B 两个参数版本,均基于 Apache 2.0 协议开放。模型支持 32k token 上下文窗口,可处理最长 30 分钟的音频转录或 40 分钟的内容理解。其 API 提供了针对转录优化的 Voxtral Mini Transcribe 版本,在成本和延迟效率上表现突出。根据基准测试,Voxtral 在英语短文本及 Mozilla Common Voice 等多项指标上超越了 OpenAI Whisper 与 ElevenLabs Scribe,实现了同等性能下价格不到同类闭源 API 一半的优势。
OpenRouter的灵活模型路由现已集成到Cursor,用户可在Cursor中直接调用Moonshot AI的Kimi K2模型进行编码操作。
OpenRouter 宣布其灵活模型路由支持在 Cursor 中运行月之暗面的 Kimi K2。用户可直接在 Cursor 中调用 OpenRouter 路由的模型,无需额外配置。
用户现可通过 OpenRouter 灵活的路由服务,在 Cursor IDE 中直接调用 Moonshot AI 最新推出的 Kimi K2 模型。这一集成简化了开发流程,无需复杂配置即可在编码环境中访问高性能大语言模型。OpenRouter 作为统一接口,支持用户便捷切换包括 GPT、Claude、LLaMA 及 Kimi 在内的多种模型,显著提升了 AI 辅助编程工具的可用性和选择自由度。
Kimi K2 采用混合专家(MoE)架构,拥有 320 亿激活参数和 1 万亿总参数,在非推理模型的前沿知识、数学和编程任务上达到 SOTA 性能。
关联讨论 2 条Moonshot AI:Kimi Blog(VitePress)X:karminski (@karminski3)OpenRouter 发布免费套餐更新,通过引入新模型来维持可持续的 AI 推理服务,旨在继续为广大用户提供可访问的 AI 能力。
关联讨论 1 条OpenRouter:Announcements(RSS)OpenRouter 宣布更新免费套餐,通过引入新模型来维持可及 AI 推理服务的可持续性,确保免费层能持续为用户提供 AI 能力。
平台对其免费服务层进行了重要更新,旨在通过引入新的模型来维持可访问的AI推理能力。此次调整的核心是确保免费服务的长期可持续性,同时继续向广大用户提供AI服务。更新后,用户将能使用到性能更强或更高效的新模型,但部分原有模型的访问权限或速率可能会相应调整。平台承诺,核心目标依然是让每个人都能接触和使用AI技术。
AI音乐生成平台Suno宣布任命Paul Sinclair为首席音乐官。Sinclair此前长期担任Atlantic Records总经理,曾与Bruno Mars、Coldplay等艺人合作。他表示Suno的技术“非凡”,并期待帮助塑造其使用方式,赋能各类创作者并拓展音乐与粉丝间的联系。
Mistral AI 与 All Hands AI 合作发布了新的 Devstral 模型,旨在增强 AI 智能体的编程能力。其中,Devstral Small 1.1 是一款开源模型(Apache 2.0 许可),仅有 24B 参数,在 SWE-Bench Verified 基准测试中达到 53.6% 的成绩,成为同类开源模型的新标杆。Devstral Medium 则通过 API 提供,在相同基准上取得 61.6% 的高分,性能超越 Gemini 2.5 Pro 和 GPT 4.1,且价格更具竞争力。两款模型均提供公共 API 访问。
xAI 正式发布 Grok 4,新一代大模型在数学推理和代码生成能力上大幅提升,延续实时获取 X 平台信息的特色。该版本支持更长上下文窗口和图像理解,即日起向 X Premium+ 订阅者开放。
关联讨论 1 条xAI:News(网页)slime 团队发布面向大规模 RL 训练的后训练框架 slime,原生集成 SGLang 推理引擎与 Megatron-LM 训练引擎。框架通过 sgl-router 提供可定制 rollout 接口与灵活训练配置,支持同地/解耦部署、同步/异步训练及 SFT 冷启动。用户可通过 OpenAI 兼容 API 与智能体环境交互,无需修改环境代码。框架完整支持 SGLang 优化参数(如 EP MoE、DP Attention)及 Megatron 并行策略(TP/PP/EP/CP),提供独立调试模式与检查点转换工具,基础镜像基于 lmsysorg/sglang:dev。
AI 对人类思维的影响具有两面性:既可能成为认知辅助工具,也可能导致思维退化,关键在于具体使用方式与程度。
Oracle Cloud Infrastructure 推出 OME(Open Model Engine),一款 Kubernetes-native 的模型服务框架。该系统采用模型驱动架构,通过 BaseModel、ServingRuntime 等自定义资源将模型视为一等公民,有效弥合 ML 工程师与生产团队之间的鸿沟。OME 将模型上线周期从数月压缩至数天,显著减少配置错误,并原生支持多节点推理、Prefill-decode 分离、Serverless 自动扩缩容及 Multi-LoRA 等企业级特性,集成 SGLang 运行时,实现复杂部署策略的编码复用与一键部署。
Mistral AI发布“AI for Citizens”计划,旨在帮助各国政府及公共机构本土化应用人工智能,以改善公共服务。该计划基于开放、协作、选择与自主的原则,旨在对抗当前主导的、由封闭系统主导的“一刀切”模式。它提供涵盖前沿模型的全套技术,并支持自托管、本地化数据中心部署或SaaS/API调用等多种部署方式,以确保数据主权,同时可与客户共同研发针对特定语言和文化的定制模型。Mistral AI已与法国、新加坡、荷兰等多国政府及公共机构开展合作。
PEVA 模型实现基于全身动作的第一人称视频预测。该模型接收历史视频帧和描述 3D 姿态变化的动作指令,生成下一帧画面,支持原子动作合成、反事实场景模拟及长视频生成。针对具身智能体设计,模型处理 48+ 自由度的高维人体控制,解决第一人称视角下身体不可见、感知滞后于动作等挑战,为机器人规划与控制提供世界模型基础。
OpenRouter 宣布推出 Cypher Alpha,这是一款免费、通用型隐身模型,内置工具调用功能,用户可直接尝试。
一款名为“Cypher Alpha”的新型通用隐写模型现已发布。该模型具备内置的工具调用功能,可供用户免费使用。其核心特性在于“隐写”,即在执行任务时能保持隐蔽性。目前,用户已可尝试体验这一模型。
音乐技术公司Suno宣布收购完全在浏览器中构建的AI加速数字音频工作站WavTool。WavTool的核心团队将加入Suno并担任产品及工程领导职务。此次收购将WavTool的专业级编辑功能(支持VST插件、采样精确编辑等)与原生AI能力(如音轨分离、AI生成MIDI)整合到Suno平台,旨在增强对专业词曲作者和制作人的支持。Suno CEO表示,此举是为了更好地赋能音乐家,而WavTool联合创始人则认为双方在AI辅助音乐创作的愿景上高度一致。
OpenRouter 现已上线 Presets 功能,用户可通过仪表盘集中管理大语言模型(LLM)配置,从而加速迭代、清理代码。
OpenRouter 上线了 Presets 功能,用户可通过 Dashboard 集中管理大语言模型配置,从而加速迭代并清理代码。