Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、联网搜索、工具调用及 artifacts 等全栈 AI 功能。
Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、联网搜索、工具调用及 artifacts 等全栈 AI 功能。
研究发现,新兴错位现象不仅会激活错位的人格角色,同时也会抑制有帮助的助手人格。这一机制表明,在大型语言模型中,有害行为的显现可能伴随着有益助手功能的同步减弱。该发现揭示了模型行为动态中一种潜在的平衡或竞争关系,为理解和缓解AI错位问题提供了新的视角。
Qwen3-TTS 新增语音克隆与语音设计能力,Qwen Studio 集成聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 artifacts 等综合服务。
MiniMax 发布 M2.1 模型,是对 M2 的更新。其核心升级在于系统提升了在 Rust、Java、Golang 等多语言编程任务上的性能,并达到行业领先水平。同时,模型显著增强了原生 Android 与 iOS 开发能力,以及在 Web/App 场景下的设计理解与美学表达。M2.1 优化了复合指令约束以更好地支持办公场景,响应更简洁高效。该模型在 Claude Code、Cline 等各类编程工具与 AI 智能体框架中表现出色。在衡量全栈开发能力的 VIBE 新基准上,取得了平均 88.6 分的成绩。
SpecForge团队联合蚂蚁、美团、Nex-AGI与EigenAI发布SpecBundle第一阶段及SpecForge v0.2框架。SpecBundle提供基于大规模数据集训练的生产级EAGLE-3草稿模型,覆盖Llama-3.1/3.3/4、Qwen3、Kimi-K2等十余种主流架构,解决开源社区高质量草稿模型稀缺问题。SpecForge v0.2重构数据处理管道,数据再生速度提升10倍,并新增多后端支持,进一步增强系统可扩展性与生产就绪能力。
xAI 被美国战争部(DOW)选中,为其 GenAI.Mil 套件提供 Frontier AI 系统。基于 Grok 模型的解决方案将覆盖 DOW 旗下 300 万军事和文职人员,支持 Impact Level 5(IL5)级别的企业 AI 和关键任务用例,可嵌入从五角大楼到战术边缘的日常工作流,并支持机密作战工作负载。DOW 用户还可独家获取 X 平台实时全球洞察。
关联讨论 1 条xAI:News(网页)Grok 推出 Collections API,支持上传 PDF、Excel、代码库等文件构建知识库,提供语义、关键词及混合搜索三种检索方式,帮助开发者零基础设施构建 RAG 应用。首周文件索引与存储免费,检索定价 $2.50/千次。基准测试显示,其在金融(93.0%)、法律(73.9%)、编码(86%)场景的检索准确率均优于 Gemini Pro 3 和 GPT 5.1。
GLM-4.7 发布,编程能力显著提升。SWE-bench 达 73.8%(+5.8%),Terminal Bench 2.0 达 41%(+16.5%),支持 Claude Code 等主流智能体框架。新增交错式思考、保留式思考和轮级思考功能,可控制推理过程以降低延迟或提高准确性。同步改进 UI 生成、工具调用和数学推理能力,可通过 API 或本地部署使用。
HeartBench是一个面向心理学与社会科学领域的评估基准,旨在超越传统的知识与推理评测。该基准专注于衡量大语言模型在人机交互中拟人化的能力,覆盖了人格、情绪、社交技能及道德伦理等多个维度。它通过系统化的评估框架,为衡量模型是否具备更接近人类的心理与社会属性提供了量化标准。
Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈能力,提供一站式多模态 AI 服务。
研究团队提出了一种新流程,旨在发现模型未知的未对齐行为,并规模化创建贴近现实的评估方案。该方法通过规避模型对评估的“警觉性”,直接模拟真实生产环境中的使用场景,从而更有效地暴露潜在风险。该流程能够系统性地生成高质量评估数据集,提升对前沿模型在复杂、开放环境中行为的预测能力,为人工智能安全评估提供了可扩展的工具。
Ant Group DeepXPU团队与SGLang团队合作,在SGLang推理引擎中实现了扩散大语言模型(dLLM)框架,为100B参数的LLaDA 2.0-flash提供首日支持。该方案复用现有Chunked-Prefill机制适配Block Diffusion架构,通过修改prefill adder和chunked reqs组件实现多Diffusion Blocks批处理,无需改动SGLang核心即可继承生产级推理优化,并支持用户灵活定制扩散解码算法。
小红书AIGC团队在NeurIPS2025上提出全新布局可控生成框架InstanceAssemble,专用于复杂场景下的Layout-to-Image任务。该框架通过从布局条件中引导图像生成,实现了对多对象位置、大小及空间关系的精确控制,解决了现有模型在密集布局下对象漏生、重叠等难题。
AEnvironment 是专为 Agentic RL 打造的基础设施,将环境搭建从写脚本转变为调用服务,实现开箱即用和万物互联。
OpenRouter 推出 Response Healing 新功能,可在响应到达应用前自动修复大语言模型产生的格式错误的 JSON,从而将 JSON 缺陷减少 80% 以上。
OpenRouter 推出结构化输出的响应修复(Response Healing)功能,新增聊天室通知,发布长上下文模型排行榜,并位列 Brex 增长最快 AI 基础设施榜单第一。
OpenRouter 十二月版本更新引入响应修复(Response Healing)机制以提升结构化输出可靠性,新增聊天室通知功能,并推出长上下文模型排名。此外,OpenRouter 在 Brex 评选的增长最快 AI 基础设施公司榜单中位列第一。
OpenRouter 推出 Response Healing 新功能,可在 JSON 响应到达应用程序之前自动修复大语言模型输出的畸形 JSON,从而将 JSON 缺陷减少 80% 以上。
Anthropic 在十二月多项更新中重点推出结构化输出的 Response Healing 功能,可自动修复格式错误。平台新增聊天室通知系统,并发布长上下文模型性能排行榜,Claude 3.5 Sonnet 在 200K 上下文评测中领先。公司同时宣布其 AI 基础设施在 Brex 年度榜单中位列增长最快首位。
OpenRouter 推出新功能 Response Healing,可在 LLM 生成的畸形 JSON 响应抵达用户应用前自动修复。该功能旨在将 JSON 格式错误减少超过 80%,直接提升 API 响应的结构完整性与可靠性,减少下游应用的处理负担。
Transformers v5 发布了全新的分词处理架构,核心变化是引入了更简单、统一的 API 设计,将分词器、后处理器和解码器模块化。新版移除了大量遗留代码,使代码库体积减少了约 40%,并显著提升了处理长文本和特殊 token 的灵活性。这一改进旨在降低开发者使用门槛,同时为各类大语言模型(如 GPT、Claude、LLaMA)提供更高效、一致的分词支持。
关联讨论 1 条Hugging Face:Blog(RSS)NVIDIA在Hugging Face发布博客,介绍Nemotron 3 Nano模型,并通过NeMo Evaluator工具进行开放标准基准测试。评估覆盖代码生成、数学推理和常识问答等任务,以透明、可复现的方式量化模型性能,体现NVIDIA推动开源评估生态的努力。
Gemini 3 Flash 正式发布,在大幅降低使用成本的同时提供前沿级智能,主打极速推理性能,为需要快速响应的 AI 应用提供高性价比选择。
小米开源了 MiMo-V2-Flash 模型,定位为高效推理、代码与 Agent 基座模型,其 Agent 综合能力在全球开源模型中排名第二。
xAI 开放 Grok Voice Agent API,基于自研语音栈(VAD、tokenizer、音频模型),Big Bench Audio 基准排名第一,首音频延迟低于 1 秒(比竞品快近 5 倍),定价 $0.05/分钟。支持数十种语言自动切换、实时搜索 X 和网页、调用自定义工具,已深度集成特斯拉车机。提供 Ara、Eve 等多种自然声线,支持 [whisper] 等听觉标签,兼容 OpenAI Realtime API 规范。
关联讨论 1 条xAI:News(网页)Mistral AI 发布 Mistral OCR 3,这是一款专为从各类文档中高保真提取文本与嵌入图像而设计的 OCR 模型。在表单、扫描文档、复杂表格和手写体处理等基准测试中,该模型的整体胜率达到 74%,超越了 Mistral OCR 2 以及企业级与 AI 原生 OCR 方案。作为一款体积更小的模型,其定价为行业领先的每 1,000 页 2 美元(通过 Batch API 可享 50% 折扣,即 1 美元)。开发者可通过 API(模型标识符 `mistral-ocr-2512`)进行集成,其输出为包含 HTML 表格标签的 markdown 格式,便于下游系统理解文档结构。该模型适用于高量级企业文档处理流水线。
Gemma Scope 2 正式发布,面向整个 Gemma 3 模型家族推出开放可解释性工具,助力 AI 安全社区深入理解复杂语言模型行为。
inclusionAI 发布了 AEnvironment,这是一个用于智能体 AI 开发的标准化环境基础设施。该平台旨在为 AI 智能体的构建、测试和部署提供统一、可复现的环境,解决开发过程中因环境差异导致的兼容性与一致性问题。它通过预配置的标准化设置,简化了开发流程,提升了协作效率与系统可靠性。
开源可配置通用智能体 CUGA 现已集成至 Hugging Face Spaces,便于开发者便捷实验。该智能体在复杂任务基准测试中表现卓越,在包含 457 个 API、750 个真实任务的 AppWorld 基准排名第一,在 WebArena 基准也位居前列。其核心提供可配置的推理模式以平衡性能与成本,支持计算机使用与多工具无缝集成,并能与 Langflow 结合进行低代码工作流设计。采用 Apache 2.0 许可的 CUGA 支持多种开源模型,在高性能推理平台(如 Groq)上运行能显著提升效率。
小米发布 MiMo-V2-Flash 推理模型,SGLang 提供首日支持。该模型拥有 309B 总参数和 15B 激活参数,采用滑动窗口注意力(SWA)和 3 层多级 MTP 设计,将注意力复杂度降至线性并提升解码效率。通过硬件感知配置平衡计算与内存,在 H200 上即使 64K 长上下文仍保持 150 TPS 单请求吞吐量。SGLang Spec v2 实现完全重叠 MTP 调度,隐藏 CPU 开销并减少 GPU 气泡,最大化硬件利用率。
SGLang 宣布首日支持 NVIDIA 开源的 Nemotron 3 Nano 模型。该模型采用 Transformer-Mamba 混合 MoE 架构,总参数 30B 但仅激活 3.6B,支持 1M 上下文长度。最新 NVFP4 版本通过 Quantization-Aware Distillation 技术在保持精度的同时,在 B200 上实现相比 FP8-H100 4 倍的吞吐量。模型提供 BF16、FP8、NVFP4 三种精度格式,并支持"思考预算"功能以减少过度推理,适用于 RTX Pro 6000、DGX Spark、H100 等 GPU。
meituan-longcat 发布 LongCat-Video-Avatar 视频数字人项目,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在打破视频化身技术壁垒,将先进的 AI 能力开放给更广泛的开发者社区,推动前沿技术的平民化应用与生态发展。
llama.cpp 服务器新增了类似 Ollama 的多模型管理功能。该功能采用多进程架构,每个模型独立运行,确保单个模型崩溃不影响其他服务。系统支持自动发现本地 GGUF 模型文件、按需加载,并默认采用 LRU 机制管理最多同时加载4个模型。用户可通过请求中的模型字段路由到特定模型,并可使用 API 进行加载、卸载和列表查看。所有加载的模型可继承路由器的统一设置,也支持通过预设文件为每个模型单独配置参数。内置 Web UI 同样支持模型切换。
蚂蚁集团InclusionAI团队推出扩散语言模型系列LLaDA2.0。该系列模型基于扩散架构开发,专注于语言生成任务,是团队在大型语言模型领域的最新成果。
细粒度激活卸载(Fine-grained Activation Offloading)采用模块级粒度,将计算与内存传输重叠,并兼容全并行设计,在主流大模型训练中同时降低峰值显存开销并提升吞吐性能,实现显存开销与吞吐性能的联合最优,获得显著性能收益和显存收益。
AReaL v0.5.0 是由蚂蚁百灵(Ling)发布的强化学习运行时服务框架,专为智能体与推理设计。
Google DeepMind 与 UK AI Security Institute (AISI) 加强合作,共同开展关键 AI 安全与安保研究。
Codex 宣布将开源其人工智能模型。这一举措旨在通过开源和开放科学的方式,推动人工智能技术的进步与民主化。公司表示,开源模型将允许更广泛的研究人员和开发者访问、使用并在此基础上进行创新,从而加速AI领域的发展。此举也呼应了当前AI社区对增加透明度与协作的呼声。