AIHOT

12月23日

13:08

Qwen：Blog Retrieval（API）

Qwen-Image-Edit-2511：提升一致性

Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、联网搜索、工具调用及 artifacts 等全栈 AI 功能。

产品更新图像生成多模态

03:00

OpenAI：Alignment 研究博客（RSS）

Helpful assistant 功能抑制新兴错位

研究发现，新兴错位现象不仅会激活错位的人格角色，同时也会抑制有帮助的助手人格。这一机制表明，在大型语言模型中，有害行为的显现可能伴随着有益助手功能的同步减弱。该发现揭示了模型行为动态中一种潜在的平衡或竞争关系，为理解和缓解AI错位问题提供了新的视角。

OpenAI安全/对齐论文/研究

00:00

Qwen：Blog Retrieval（API）

Qwen3-TTS 升级：支持语音克隆和语音设计！

Qwen3-TTS 新增语音克隆与语音设计能力，Qwen Studio 集成聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 artifacts 等综合服务。

产品更新多模态语音

00:00

MiniMax：Blog（网页）

MiniMax M2.1：显著增强多语言编程能力，专为现实世界复杂任务打造

MiniMax 发布 M2.1 模型，是对 M2 的更新。其核心升级在于系统提升了在 Rust、Java、Golang 等多语言编程任务上的性能，并达到行业领先水平。同时，模型显著增强了原生 Android 与 iOS 开发能力，以及在 Web/App 场景下的设计理解与美学表达。M2.1 优化了复合指令约束以更好地支持办公场景，响应更简洁高效。该模型在 Claude Code、Cline 等各类编程工具与 AI 智能体框架中表现出色。在衡量全栈开发能力的 VIBE 新基准上，取得了平均 88.6 分的成绩。

开源/仓库模型发布编码

00:00

LMSYS：Blog（Chatbot Arena 团队）

SpecBundle与SpecForge v0.2发布：生产级投机解码模型与框架

SpecForge团队联合蚂蚁、美团、Nex-AGI与EigenAI发布SpecBundle第一阶段及SpecForge v0.2框架。SpecBundle提供基于大规模数据集训练的生产级EAGLE-3草稿模型，覆盖Llama-3.1/3.3/4、Qwen3、Kimi-K2等十余种主流架构，解决开源社区高质量草稿模型稀缺问题。SpecForge v0.2重构数据处理管道，数据再生速度提升10倍，并新增多后端支持，进一步增强系统可扩展性与生产就绪能力。

开源/仓库开源生态部署/工程

12月22日

08:00

xAI：News（网页）

精选

以 AI 支持 DOW 的使命

xAI 被美国战争部（DOW）选中，为其 GenAI.Mil 套件提供 Frontier AI 系统。基于 Grok 模型的解决方案将覆盖 DOW 旗下 300 万军事和文职人员，支持 Impact Level 5（IL5）级别的企业 AI 和关键任务用例，可嵌入从五角大楼到战术边缘的日常工作流，并支持机密作战工作负载。DOW 用户还可独家获取 X 平台实时全球洞察。

智能体xAI行业动态部署/工程

关联讨论 1 条

推荐理由：xAI获美国国防部大单，Grok将覆盖300万军事人员并提供实时情报支持

08:00

xAI：News（网页）

Grok 发布 Collections API

Grok 推出 Collections API，支持上传 PDF、Excel、代码库等文件构建知识库，提供语义、关键词及混合搜索三种检索方式，帮助开发者零基础设施构建 RAG 应用。首周文件索引与存储免费，检索定价 $2.50/千次。基准测试显示，其在金融（93.0%）、法律（73.9%）、编码（86%）场景的检索准确率均优于 Gemini Pro 3 和 GPT 5.1。

检索增强xAI产品更新部署/工程

00:00

智谱：研究（网页内嵌数据）

精选

GLM-4.7：更强的 Coding

GLM-4.7 发布，编程能力显著提升。SWE-bench 达 73.8%（+5.8%），Terminal Bench 2.0 达 41%（+16.5%），支持 Claude Code 等主流智能体框架。新增交错式思考、保留式思考和轮级思考功能，可控制推理过程以降低延迟或提高准确性。同步改进 UI 生成、工具调用和数学推理能力，可通过 API 或本地部署使用。

智能体模型发布编码

推荐理由：智谱发布GLM-4.7，编程Agent能力大幅提升，支持Claude Code等主流框架和Vibe Coding。

12月19日

14:35

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/HeartBench

HeartBench是一个面向心理学与社会科学领域的评估基准，旨在超越传统的知识与推理评测。该基准专注于衡量大语言模型在人机交互中拟人化的能力，覆盖了人格、情绪、社交技能及道德伦理等多个维度。它通过系统化的评估框架，为衡量模型是否具备更接近人类的心理与社会属性提供了量化标准。

安全/对齐论文/研究评测/基准

13:08

Qwen：Blog Retrieval（API）

Qwen-Image-Layered：通过分层分解实现内在可编辑性

Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈能力，提供一站式多模态 AI 服务。

其他图像生成

12:47

公众号：豆包（字节）

豆包可以直接生成有声视频了

产品更新多模态

03:00

OpenAI：Alignment 研究博客（RSS）

规避评估意识与预测生产环境中的未对齐行为

研究团队提出了一种新流程，旨在发现模型未知的未对齐行为，并规模化创建贴近现实的评估方案。该方法通过规避模型对评估的“警觉性”，直接模拟真实生产环境中的使用场景，从而更有效地暴露潜在风险。该流程能够系统性地生成高质量评估数据集，提升对前沿模型在复杂、开放环境中行为的预测能力，为人工智能安全评估提供了可扩展的工具。

OpenAI安全/对齐评测/基准

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang实现扩散LLM框架：支持LLaDA 2.0-flash

Ant Group DeepXPU团队与SGLang团队合作，在SGLang推理引擎中实现了扩散大语言模型（dLLM）框架，为100B参数的LLaDA 2.0-flash提供首日支持。该方案复用现有Chunked-Prefill机制适配Block Diffusion架构，通过修改prefill adder和chunked reqs组件实现多Diffusion Blocks批处理，无需改动SGLang核心即可继承生产级推理优化，并支持用户灵活定制扩散解码算法。

开源/仓库推理部署/工程

12月18日

18:00

公众号：小红书技术（dots.llm）

NeurIPS2025|小红书AIGC团队提出布局可控生成框架InstanceAssemble

小红书AIGC团队在NeurIPS2025上提出全新布局可控生成框架InstanceAssemble，专用于复杂场景下的Layout-to-Image任务。该框架通过从布局条件中引导图像生成，实现了对多对象位置、大小及空间关系的精确控制，解决了现有模型在密集布局下对象漏生、重叠等难题。

图像生成多模态论文/研究

16:11

公众号：豆包（字节）

豆包大模型1.8发布，Seedance模型同步升级

字节跳动发布豆包大模型1.8版本，同步升级Seedance模型。

多模态模型发布

09:00

公众号：蚂蚁百灵（Ling）

AEnvironment - 面向 Agentic RL 时代的环境系统，开箱即用，万物互联

AEnvironment 是专为 Agentic RL 打造的基础设施，将环境搭建从写脚本转变为调用服务，实现开箱即用和万物互联。

智能体开源/仓库部署/工程

08:00

OpenRouter：Announcements（RSS）

精选57

OpenRouter 推出 Response Healing：将 JSON 缺陷减少 80% 以上

OpenRouter 推出 Response Healing 新功能，可在响应到达应用前自动修复大语言模型产生的格式错误的 JSON，从而将 JSON 缺陷减少 80% 以上。

产品更新部署/工程

推荐理由：如果你无数次被 LLM 返回的残缺 JSON 搞到崩溃，OpenRouter 这个 response healing 能自动修复 80% 的缺陷，以后 debug 可以少肝半小时。

08:00

OpenRouter：Announcements（RSS）

OpenRouter 12月发布亮点：结构化输出响应修复、聊天室通知与长上下文模型排名

OpenRouter 推出结构化输出的响应修复（Response Healing）功能，新增聊天室通知，发布长上下文模型排行榜，并位列 Brex 增长最快 AI 基础设施榜单第一。

产品更新部署/工程

08:00

OpenRouter：Announcements（RSS）

OpenRouter 十二月发布：响应修复、聊天室通知、长上下文模型排名，登顶 Brex 最快增长 AI 基础设施榜单

OpenRouter 十二月版本更新引入响应修复（Response Healing）机制以提升结构化输出可靠性，新增聊天室通知功能，并推出长上下文模型排名。此外，OpenRouter 在 Brex 评选的增长最快 AI 基础设施公司榜单中位列第一。

产品更新部署/工程

08:00

OpenRouter：Announcements（RSS）

OpenRouter Response Healing 上线：将 JSON 错误减少 80%+

OpenRouter 推出 Response Healing 新功能，可在 JSON 响应到达应用程序之前自动修复大语言模型输出的畸形 JSON，从而将 JSON 缺陷减少 80% 以上。

产品更新编码

08:00

OpenRouter：Announcements（RSS）

十二月发布亮点

Anthropic 在十二月多项更新中重点推出结构化输出的 Response Healing 功能，可自动修复格式错误。平台新增聊天室通知系统，并发布长上下文模型性能排行榜，Claude 3.5 Sonnet 在 200K 上下文评测中领先。公司同时宣布其 AI 基础设施在 Brex 年度榜单中位列增长最快首位。

产品更新部署/工程

08:00

OpenRouter：Announcements（RSS）

精选61

Response Healing：将 JSON 缺陷减少 80% 以上

OpenRouter 推出新功能 Response Healing，可在 LLM 生成的畸形 JSON 响应抵达用户应用前自动修复。该功能旨在将 JSON 格式错误减少超过 80%，直接提升 API 响应的结构完整性与可靠性，减少下游应用的处理负担。

智能体产品更新部署/工程

推荐理由：做 Agent 的人最怕 JSON 解析炸掉整个 pipeline，OpenRouter 这个 Response Healing 相当于在网关层加了自动纠错，接入成本几乎为零，值得试试。

08:00

Hugging Face：Blog（RSS）

精选73

Transformers v5 中的分词：更简单、清晰与模块化

Transformers v5 发布了全新的分词处理架构，核心变化是引入了更简单、统一的 API 设计，将分词器、后处理器和解码器模块化。新版移除了大量遗留代码，使代码库体积减少了约 40%，并显著提升了处理长文本和特殊 token 的灵活性。这一改进旨在降低开发者使用门槛，同时为各类大语言模型（如 GPT、Claude、LLaMA）提供更高效、一致的分词支持。

Hugging Face开源/仓库数据/训练

关联讨论 1 条

推荐理由：Transformers库tokenization模块重构，开发者可更高效处理文本数据。

12月17日

21:22

Hugging Face：Blog（RSS）

开放评估标准：使用NeMo Evaluator对NVIDIA Nemotron 3 Nano进行基准测试

NVIDIA在Hugging Face发布博客，介绍Nemotron 3 Nano模型，并通过NeMo Evaluator工具进行开放标准基准测试。评估覆盖代码生成、数学推理和常识问答等任务，以透明、可复现的方式量化模型性能，体现NVIDIA推动开源评估生态的努力。

Hugging Face评测/基准部署/工程

19:58

Google DeepMind：Blog（RSS）

精选

Gemini 3 Flash：专为速度打造的前沿智能

Gemini 3 Flash 正式发布，在大幅降低使用成本的同时提供前沿级智能，主打极速推理性能，为需要快速响应的 AI 应用提供高性价比选择。

Google模型发布端侧部署/工程

推荐理由：Google发布Gemini 3 Flash轻量模型，兼顾前沿性能与推理速度

08:01

公众号：小米 MiMo

小米 MiMo-V2-Flash 开源：高效推理、代码与 Agent 基座模型

小米开源了 MiMo-V2-Flash 模型，定位为高效推理、代码与 Agent 基座模型，其 Agent 综合能力在全球开源模型中排名第二。

智能体开源生态模型发布

08:00

xAI：News（网页）

精选

xAI 发布 Grok Voice Agent API

xAI 开放 Grok Voice Agent API，基于自研语音栈（VAD、tokenizer、音频模型），Big Bench Audio 基准排名第一，首音频延迟低于 1 秒（比竞品快近 5 倍），定价 $0.05/分钟。支持数十种语言自动切换、实时搜索 X 和网页、调用自定义工具，已深度集成特斯拉车机。提供 Ara、Eve 等多种自然声线，支持 [whisper] 等听觉标签，兼容 OpenAI Realtime API 规范。

智能体xAI产品更新语音

关联讨论 1 条

推荐理由：xAI发布Grok语音Agent API，延迟低于1秒且定价仅为OpenAI一半，已集成至Tesla车载系统

00:00

Mistral AI：News（网页）

Mistral OCR 3 发布

Mistral AI 发布 Mistral OCR 3，这是一款专为从各类文档中高保真提取文本与嵌入图像而设计的 OCR 模型。在表单、扫描文档、复杂表格和手写体处理等基准测试中，该模型的整体胜率达到 74%，超越了 Mistral OCR 2 以及企业级与 AI 原生 OCR 方案。作为一款体积更小的模型，其定价为行业领先的每 1,000 页 2 美元（通过 Batch API 可享 50% 折扣，即 1 美元）。开发者可通过 API（模型标识符 `mistral-ocr-2512`）进行集成，其输出为包含 HTML 表格标签的 markdown 格式，便于下游系统理解文档结构。该模型适用于高量级企业文档处理流水线。

多模态模型发布

12月16日

18:14

Google DeepMind：Blog（RSS）

Gemma Scope 2：助力 AI 安全社区深入理解复杂语言模型行为

Gemma Scope 2 正式发布，面向整个 Gemma 3 模型家族推出开放可解释性工具，助力 AI 安全社区深入理解复杂语言模型行为。

DeepMindGoogle安全/对齐开源/仓库

16:55

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/AEnvironment

inclusionAI 发布了 AEnvironment，这是一个用于智能体 AI 开发的标准化环境基础设施。该平台旨在为 AI 智能体的构建、测试和部署提供统一、可复现的环境，解决开发过程中因环境差异导致的兼容性与一致性问题。它通过预配置的标准化设置，简化了开发流程，提升了协作效率与系统可靠性。

智能体开源/仓库部署/工程

00:01

Hugging Face：Blog（RSS）

精选83

CUGA 登陆 Hugging Face：普及可配置的通用 AI 智能体

开源可配置通用智能体 CUGA 现已集成至 Hugging Face Spaces，便于开发者便捷实验。该智能体在复杂任务基准测试中表现卓越，在包含 457 个 API、750 个真实任务的 AppWorld 基准排名第一，在 WebArena 基准也位居前列。其核心提供可配置的推理模式以平衡性能与成本，支持计算机使用与多工具无缝集成，并能与 Langflow 结合进行低代码工作流设计。采用 Apache 2.0 许可的 CUGA 支持多种开源模型，在高性能推理平台（如 Groq）上运行能显著提升效率。

智能体Hugging FaceMCP/工具开源/仓库

推荐理由：开源AI代理框架性能领先，集成Hugging Face和Langflow，开发者可快速构建复杂任务。

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang 首日支持 MiMo-V2-Flash 模型

小米发布 MiMo-V2-Flash 推理模型，SGLang 提供首日支持。该模型拥有 309B 总参数和 15B 激活参数，采用滑动窗口注意力（SWA）和 3 层多级 MTP 设计，将注意力复杂度降至线性并提升解码效率。通过硬件感知配置平衡计算与内存，在 H200 上即使 64K 长上下文仍保持 150 TPS 单请求吞吐量。SGLang Spec v2 实现完全重叠 MTP 调度，隐藏 CPU 开销并减少 GPU 气泡，最大化硬件利用率。

推理模型发布部署/工程

12月15日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang 首日支持高效开源 Nemotron 3 Nano 混合 MoE 模型，NVFP4 精度版本采用 Quantization-Aware Distillation 技术在 B200 上实现 4 倍于 FP8-H100 的吞吐量

SGLang 宣布首日支持 NVIDIA 开源的 Nemotron 3 Nano 模型。该模型采用 Transformer-Mamba 混合 MoE 架构，总参数 30B 但仅激活 3.6B，支持 1M 上下文长度。最新 NVFP4 版本通过 Quantization-Aware Distillation 技术在保持精度的同时，在 B200 上实现相比 FP8-H100 4 倍的吞吐量。模型提供 BF16、FP8、NVFP4 三种精度格式，并支持"思考预算"功能以减少过度推理，适用于 RTX Pro 6000、DGX Spark、H100 等 GPU。

推理模型发布部署/工程

12月13日

17:03

美团 LongCat：HuggingFace 新模型

meituan-longcat/LongCat-Video-Avatar 视频化身项目

meituan-longcat 发布 LongCat-Video-Avatar 视频数字人项目，致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在打破视频化身技术壁垒，将先进的 AI 能力开放给更广泛的开发者社区，推动前沿技术的平民化应用与生态发展。

Hugging Face模型发布视频

12月11日

23:47

Hugging Face：Blog（RSS）

精选76

llama.cpp 服务器新增多模型管理功能

llama.cpp 服务器新增了类似 Ollama 的多模型管理功能。该功能采用多进程架构，每个模型独立运行，确保单个模型崩溃不影响其他服务。系统支持自动发现本地 GGUF 模型文件、按需加载，并默认采用 LRU 机制管理最多同时加载4个模型。用户可通过请求中的模型字段路由到特定模型，并可使用 API 进行加载、卸载和列表查看。所有加载的模型可继承路由器的统一设置，也支持通过预设文件为每个模型单独配置参数。内置 Web UI 同样支持模型切换。

开源/仓库端侧部署/工程

推荐理由：本地跑模型终于能像 Ollama 一样热切换，开发调试效率大幅提升

23:36

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/LLaDA2.X

蚂蚁集团InclusionAI团队推出扩散语言模型系列LLaDA2.0。该系列模型基于扩散架构开发，专注于语言生成任务，是团队在大型语言模型领域的最新成果。

开源/仓库数据/训练模型发布

18:00

公众号：小红书技术（dots.llm）

小红书技术提出细粒度激活卸载：大模型训练显存与吞吐性能联合最优方案

细粒度激活卸载（Fine-grained Activation Offloading）采用模块级粒度，将计算与内存传输重叠，并兼容全并行设计，在主流大模型训练中同时降低峰值显存开销并提升吞吐性能，实现显存开销与吞吐性能的联合最优，获得显著性能收益和显存收益。

教程/实践数据/训练部署/工程