AIHOT

全部动态一手 · 2393 条

全部一手资讯 X 论文

12月5日周五

12月4日周四

12月3日周三

12月2日周二

12月1日周一

11月27日周四

11月26日周三

11月25日周二

11月24日周一

11月23日周日

11月21日周五

11月20日周四

12月5日

00:00

Qwen：Blog Retrieval（API）

Qwen3-TTS 更新！49 种音色 + 10 种语言 + 9 种方言

Qwen3-TTS 发布更新，支持 49 种音色、10 种语言和 9 种方言。Qwen Studio 平台同步提供聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 Artifacts 等全栈功能。

产品更新语音

12月4日

21:02

美团 LongCat：HuggingFace 新模型

美团 LongCat-Image-Dev 开源图像项目

美团发布 LongCat-Image-Dev 开源项目，致力于通过开源和开放科学推进人工智能技术的普及与民主化。该项目作为 LongCat 系列的图像开发版本，旨在降低 AI 技术门槛，促进全球开发者协作创新，体现了美团在人工智能领域拥抱开源生态的战略布局。

Hugging Face图像生成模型发布

20:38

美团 LongCat：HuggingFace 新模型

美团-longcat/LongCat-Image

美团-longcat 推出 LongCat-Image 开源项目，致力于通过开源协作与开放科学研究推进人工智能技术的进步与民主化。该项目旨在降低 AI 技术门槛，打破技术壁垒，让先进的 AI 能力更加普惠可及，体现了通过开放生态促进 AI 技术普及的战略愿景。

Hugging Face图像生成模型发布

18:00

公众号：小红书技术（dots.llm）

AAAI 2026 | 跨视频推理基准 CrossVid：给多模态大模型出一道"综合题"

CrossVid 是首个系统性涵盖 4 个维度、10 个任务的跨视频推理测评基准，用于评估多模态大模型在跨视频场景下的综合推理能力，已被 AAAI 2026 收录。

多模态论文/研究评测/基准

08:00

OpenRouter：Announcements（RSS）

OpenRouter 与 a16z 联合发布《2025 年 AI 现状报告》

OpenRouter 与 a16z 合作发布《2025 年 AI 现状报告》，该报告是迄今为止对开发者与组织在真实世界中如何使用语言模型规模最大的实证调查。

行业动态论文/研究

08:00

OpenRouter：Announcements（RSS）

OpenRouter 与 a16z 联合发布 2025 年 AI 产业现状报告

OpenRouter 与 a16z 合作推出 2025 年 AI 产业现状报告，这是迄今最大规模的实证研究，旨在展示开发者和组织在实际场景中使用大语言模型的方式。报告基于真实数据，揭示了模型选择、部署模式、成本效益等关键趋势，为行业提供了一份来自前沿实践的全景式参考。

现象/趋势论文/研究

08:00

OpenRouter：Announcements（RSS）

2025 年 AI 现状报告

a16z 联合发布《2025 年 AI 现状报告》，这是迄今为止对开发者和组织在现实世界中使用语言模型情况最大规模的实证研究。报告基于广泛的实际应用数据，系统分析了 GPT、Claude、LLaMA 等主流模型在企业和开发环境中的采用趋势、工作流集成方式以及关键性能指标。研究揭示了模型选择偏好的显著变化、实际部署规模的增长数据，以及成本、延迟和输出质量等核心维度的最新基准。

OpenAI现象/趋势

08:00

Hugging Face：Blog（RSS）

精选76

利用Claude微调开源大语言模型的新途径

Anthropic的研究人员探索了一种新方法：使用其强大的闭源AI助手Claude来生成高质量的指令遵循数据，并用这些数据对较小的开源模型（如LLaMA系列）进行监督微调。这项实验旨在展示如何利用尖端闭源模型的能力来指导和改进可公开访问的开源模型性能，从而推动AI技术的进步与民主化。

AnthropicHugging Face教程/实践数据/训练

推荐理由：用闭源模型蒸馏能力给开源模型，一条低成本微调的新路径值得关注

08:00

Hugging Face：Blog（RSS）

DeepMath：一个基于 smolagents 的轻量级数学推理智能体

研究团队发布了 DeepMath，一个轻量级的数学推理智能体。该智能体基于 smolagents 框架构建，旨在提升模型解决复杂数学问题的能力。DeepMath 的设计强调轻量化，力求在保持高效推理性能的同时降低计算资源消耗。其发布是团队通过开源与开放科学推动人工智能技术发展与普及的举措之一。

智能体Hugging Face开源/仓库推理

12月3日

21:45

蚂蚁 inclusionAI：GitHub 新仓库

精选63

蚂蚁集团开源AState：面向强化学习的高性能状态管理系统

蚂蚁集团开源了AState，这是一个专为强化学习设计的高性能通用状态数据管理系统。它旨在解决RL训练与推理中的I/O效率低下、权重同步性能不足及状态恢复不鲁棒等核心挑战。系统采用三层架构：提供张量原生接口的API层、支持多种部署模式的服务层以及具备高效可扩展传输能力的基础层。其关键特性包括统一的张量级API、高性能权重同步和拓扑感知设计。在万亿参数规模下，AState能在约6秒内完成权重同步，远低于业界常见的分钟级延迟，目前已作为ASystem的关键组件在蚂蚁内部生产环境部署。

智能体开源/仓库部署/工程

推荐理由：蚂蚁把万亿参数 RL 训练的权重同步从分钟级压到 6 秒，这套 AState 系统是真刀真枪的工程解法，做大规模 RL infra 的团队值得拆一拆它的 RDMA P2P 架构。

12月2日

06:00

OpenAI：Alignment 研究博客（RSS）

Hello World

OpenAI正式开设了专注于对齐研究的官方博客。该博客旨在分享其在人工智能对齐领域的研究进展、技术见解和最新成果，致力于探索如何使AI系统与人类意图和价值观保持一致。此举标志着OpenAI将更系统、透明地向公众和学界公开其对齐工作的核心内容与思考。

OpenAI安全/对齐

03:00

OpenAI：Alignment 研究博客（RSS）

精选60

大规模验证代码的实用方法

研究团队训练并部署了一个专为高精度和实际应用优化的AI代码审查智能体。该智能体旨在对自主生成的代码进行有效监督，使代码审查能力能够与自动化代码生成的规模同步扩展。通过优化智能体的精确度，该方法致力于解决大规模代码生成中的质量控制难题，为AI辅助软件开发提供了可落地的规模化监督方案。

智能体OpenAI安全/对齐编码

关联讨论 3 条

推荐理由：OpenAI 把对齐研究落到了代码审查这个具体场景，不是空谈 alignment 理论，而是训了个高精度 review agent 来给 AI 写的代码做质检。做 coding agent 的团队该看看，这可能是未来安全合规的标配。

03:00

OpenAI：Alignment 研究博客（RSS）

使用稀疏自编码器潜在归因调试未对齐的补全结果

研究提出了一种利用稀疏自编码器进行潜在归因的方法，以高效识别导致模型行为偏差的特征根源。该方法能够定位语言模型生成未对齐或有害补全结果时的内部激活特征，通过分析稀疏特征贡献来追溯问题源头。这一技术为理解和调试大语言模型（如GPT、Claude、LLaMA）的特定行为提供了可解释性工具，有助于提升模型的安全性与对齐性。

OpenAI安全/对齐论文/研究

00:00

Mistral AI：News（网页）

Mistral AI 发布 Mistral 3 系列模型（2025年12月2日）

Mistral AI 发布下一代 Mistral 3 系列模型。旗舰 Mistral Large 3 是稀疏 MoE 模型，拥有 41B 活跃参数和 675B 总参数，在 LMArena 开源非推理模型榜单排名第二。系列包含三款密集模型（Ministral 14B/8B/3B），在各自类别中提供最佳性价比，其中 14B 推理变体在 AIME '25 上达到 85% 准确率。所有模型以 Apache 2.0 协议开源，具备图像理解能力，现已在 Mistral AI Studio、Amazon Bedrock、Hugging Face 等多个平台上线。

多模态推理模型发布

关联讨论 1 条

00:00

LMSYS：Blog（Chatbot Arena 团队）

加速 SGLang 推理：原生集成 NVIDIA Model Optimizer 实现无缝量化与部署（12月2日更新）

SGLang 最新版本原生集成 NVIDIA Model Optimizer，支持通过直接 API 调用实现模型量化与部署。新功能将原本复杂的多步骤流程简化为量化、导出、部署三步，支持 NVFP4、MXFP4、FP8 等低精度格式。与原始 FP8 基线相比，优化后的模型在 Blackwell 架构上可实现高达 2 倍的每 GPU 吞吐量提升，显著降低延迟与内存占用。

开源/仓库编码部署/工程

00:00

字节 Seed：Research Papers（网页内嵌数据）

GR-RL：实现灵巧精准的长程机器人操作

GR-RL 框架通过多阶段训练将通用 VLA 策略转化为长程灵巧操作专家。针对精细任务中人类演示的次优性，利用离线 RL 的 Q 值过滤有效轨迹，结合形态对称增强与在线 RL 对齐部署行为。在自主系鞋带任务中实现 83.3% 成功率，首次完成需毫米级精度和长程推理的复杂操作。

具身智能推理论文/研究

00:00

字节 Seed：Research Feed（网页内嵌数据）

GR-RL 发布：突破 VLA 精细操作瓶颈，首次实现真机强化学习穿鞋带

字节跳动 Seed 团队发布 GR-RL，采用离线数据筛选结合在线真机微调的强化学习框架，突破 VLA 模型长时程精细操作瓶颈，首次实现机器人连续穿鞋带。相比前作 GR-3，成功率从 45.7% 提升至 83.3%，减少近 70% 失败。方案通过 Critic 价值判别器剔除次优演示数据，并在隐空间探索优化，解决模仿学习的数据次优性与执行错位问题，模型涌现出自纠错与场景调整能力。

具身智能数据/训练论文/研究

12月1日

18:52

公众号：DeepSeek（深度求索）

精选66

DeepSeek V3.2 正式版：强化 Agent 能力，融入思考推理

智能体DeepSeek推理模型发布

关联讨论 1 条

推荐理由：半年前的这版更新，把 Agent 和思考推理揉进了开源模型，回头看算是 DeepSeek 在智能体能力上的关键一刀，做 Agent 开发的至今绕不开它。

08:00

Hugging Face：Blog（RSS）

精选93

Transformers v5：以简化模型定义驱动AI生态

Transformers v5正式发布，其每日pip安装量从v4的2万次大幅提升至300万次以上，总安装量突破12亿次。模型架构数量从40个扩展至超400个，Hub上兼容的模型检查点从约1,000个增至75万个。新版本聚焦于简化模型定义、训练、推理与生产部署，通过引入AttentionInterface等模块化设计，显著降低了代码贡献与维护成本。此外，库将明确以PyTorch为唯一后端，逐步淘汰Flax/TensorFlow支持，并简化分词处理，以推动标准化与生态兼容性。

Hugging Face开源/仓库部署/工程

关联讨论 1 条

推荐理由：Transformers v5 大幅简化模型集成，提升训练推理效率，开发者可快速上手最新 AI 模型。

00:00

LMSYS：Blog（Chatbot Arena 团队）

从研究到生产：在Vertex AI上用EAGLE-3加速开源大模型

Vertex AI团队推出基于EAGLE-3的推测解码加速方案，通过为目标模型（如Llama 70B）添加仅占2-5%参数量的轻量级draft head，取代传统独立draft模型，实现2-3倍解码速度提升。文章详述了从研究到生产的完整工程链路：构建合成数据生成管道解决版权与PII问题，采用离线训练策略预计算embeddings，并强调chat template匹配、mask设置及SGLang服务框架选型的关键作用，最终解决CPU瓶颈问题实现规模化部署。

Google数据/训练论文/研究部署/工程

11月27日

07:00

公众号：月之暗面（Kimi）

Kimi × MannerCoffee 合作推出 Rich Cheese Latte 定制版

Kimi（月之暗面）与 MannerCoffee 合作，限时上线 Rich Cheese Latte 定制版饮品，以联名活动形式唤醒用户互动体验。

其他行业动态

11月26日

17:00

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/asystem-amem

该项目是一个针对NCCL通信库的扩展库，核心功能是高效卸载NCCL所分配的GPU内存。它通过将NCCL占用的显存资源进行智能释放与转移，旨在缓解大规模分布式训练中的显存压力，从而提升整体系统效率与资源利用率。

开源/仓库部署/工程

00:00

Google DeepMind：Blog（RSS）

AlphaFold：五年影响力

AlphaFold 发布五年间持续加速科学研究，在全球范围掀起生物发现浪潮，深刻改变了结构生物学领域并推动多项突破性进展。

DeepMindGoogle现象/趋势

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选75

为长时运行智能体设计有效约束方案

为解决AI智能体在跨越多上下文窗口执行长期任务时的“记忆丢失”与进展不一致问题，Anthropic为Claude Agent SDK开发了一套双重方案。该方案包含一个初始化智能体，负责在首次运行时建立基础环境并生成功能清单；以及一个编码智能体，负责在后续会话中进行增量开发并提交清晰可合并的代码。通过结构化的进度日志和Git历史等机制，引导智能体避免“试图一次性完成所有功能”或“过早宣布完成”的失败模式，从而实现跨会话的持续有效协作。

智能体Anthropic教程/实践

推荐理由：Anthropic 把 Claude Agent SDK 跑长任务踩过的坑全摊开了，初始化 agent + 增量进度文件这套方案不复杂但极实用，做 Agent 产品的团队可以直接抄作业。

11月25日

23:52

Google DeepMind：Blog（RSS）

AlphaFold 揭示心脏病关键蛋白结构

AlphaFold 成功解析了一种与心脏病相关的关键蛋白质结构，为理解疾病分子机制提供重要依据。该突破有助于加速心血管疾病相关药物的研发进程。

DeepMind论文/研究

08:00

Hugging Face：Blog（RSS）

精选76

从第一性原理看连续批处理

连续批处理是优化大型语言模型推理吞吐量的核心技术，通过并行处理多个对话并在生成完成后动态交换任务，以最大化硬件利用率。从注意力机制和KV缓存的基础原理出发，文章推导了如何通过优化批处理提升性能。注意力层具有二次复杂度，但连续批处理允许查询、键和值张量容纳不同长度的令牌序列，从而同时处理预填充和解码阶段。该技术能显著降低生成每个令牌的计算成本，适用于高负载服务场景，提升响应速度。

Hugging Face推理教程/实践部署/工程

推荐理由：深入理解LLM推理优化原理，助力高效模型部署。

08:00

Hugging Face：Blog（RSS）

精选80

Diffusers 集成 FLUX-2 模型

Hugging Face 的 Diffusers 库正式集成 Black Forest Labs 开发的 FLUX-2 文生图模型。该模型拥有 120 亿参数，采用多模态扩散 Transformer 架构，在图像质量、提示遵循和分辨率方面表现优异，支持生成 1024x1024 像素图像。此次集成让开发者能通过 Diffusers API 便捷使用这一先进模型。

Hugging Face图像生成模型发布

推荐理由：FLUX-2 图像生成模型正式进入 Diffusers 生态，本地部署和微调更便捷

01:40

Hugging Face：Blog（RSS）

精选83

构建深度研究智能体：实现顶尖水平的经验

Tavily团队因模型迭代重建了深度研究系统，核心是从工作流转向智能体架构，并聚焦上下文工程。通过Tavily Advanced Search进行上下文管理的网络检索，高效获取高相关度内容，避免信息过载。智能体设计模仿人类研究模式：收集信息、提炼要点、决策下一步，仅在生成最终交付物时引用原始资料，大幅减少令牌消耗，实现线性增长而非传统二次方增长。团队遵循简化编排逻辑、关注模型与工具优化方向、强化上下文工程等原则，以构建能随模型进化而持续改进的智能体系统。

智能体Hugging Face教程/实践部署/工程

推荐理由：分享构建高效 AI 代理的实战技巧，优化上下文工程以提升性能。

00:08

Hugging Face：Blog（RSS）

精选73

OVHcloud 成为 Hugging Face 官方推理服务提供商

OVHcloud 现已正式加入 Hugging Face Hub 的推理服务提供商生态。用户可直接在模型页面使用其全托管、无服务器化的 AI 端点服务，便捷调用 gpt-oss、Qwen3 等热门开源模型。该服务基于欧洲数据中心，保障数据主权与低延迟，首 token 响应时间低于 200 毫秒，并支持结构化输出等高级功能。定价为每百万 token 0.04 欧元起，用户可选择使用自定义 API 密钥或通过 Hugging Face 账户路由请求并计费。

Hugging Face产品更新部署/工程

推荐理由：欧洲开发者可低成本合规访问前沿AI模型，推理选项更丰富。

00:00

Suno：Blog（网页）

精选56

音乐创作的新篇章 · Suno 联合创始人兼首席执行官 Mikey Shulman · 2025年11月25日 Suno 与华纳音乐集团合作，共同构建交互式音乐的未来公告

Suno宣布与华纳音乐集团达成合作。Suno已拥有近1亿音乐创作者社区，此次合作旨在推出更强大的创作功能、提供与WMG旗下艺术家互动的机会，并基于授权音乐构建新一代Suno模型，其性能将超越v5。未来，部分同意授权的WMG艺术家声音与形象可用于新的AI生成音乐创作体验，为其开辟新收入渠道。同时，歌曲下载功能将调整为仅限付费用户使用，而Suno Studio作为专业工具将保持现有功能并持续更新。

行业动态语音

推荐理由：Suno和华纳的牵手，意味着AI生成音乐终于拿到了正版内容的通行证，从此不用再躲躲藏藏，对音乐创作者和听众都是质变信号。

00:00

LMSYS：Blog（Chatbot Arena 团队）

统一 FP8：超越混合精度，实现稳定且加速的 MoE RL

InfiXAI、Ant Group AQ、SGLang RL 与 Miles 团队联合实现了端到端 FP8 强化学习训练与采样方案。实验表明，MoE 模型在使用 BF16 训练与 FP8 推理时，规模越大训练-推理差异越显著；统一采用 FP8 进行训练和推理可有效消除量化误差导致的不一致性，显著提升训练速度与稳定性。该方案已支持 Qwen3-4B 和 Qwen3-30B-A3B 模型，并在 miles 框架中开箱即用。

数据/训练论文/研究部署/工程

11月24日

22:12

Google DeepMind：Blog（RSS）

Google DeepMind 支持美国能源部开展 Genesis 项目：一项加速创新与科学发现的国家级使命

Google DeepMind 与美国能源部（DOE）达成合作，共同推进 Genesis 项目，利用 AI 加速科学创新与研究。这是一项旨在推动科学突破的国家级使命。

DeepMindGoogle行业动态

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选77

Claude开发者平台推出高级工具使用功能，提升AI代理效率

Anthropic在Claude开发者平台发布三项新功能，以解决传统工具调用消耗大量上下文、易出错的问题。工具搜索工具允许按需加载工具，内部测试中将上下文消耗从约7.7万令牌降至8700令牌，降幅达85%，并将准确率从49%提升至74%。程序化工具调用支持在代码环境中调用工具，减少对上下文窗口的影响，例如Claude for Excel可借此处理数千行数据。工具使用示例则提供了展示工具有效使用方法的通用标准。这些功能共同提升了AI代理处理大规模工具库的能力。

智能体AnthropicMCP/工具产品更新

推荐理由：做 Agent 的人都卡在工具一多上下文就爆、调用就错这两个坑上，Anthropic 这三个功能直接把工具管理从「全塞进去」变成「按需加载+代码编排+示例纠错」，是目前最工程化的解法。

11月23日

00:00

LMSYS：Blog（Chatbot Arena 团队）

LMSYS 启动奖学金计划

LMSYS 宣布设立奖学金计划，资助对美国开源 AI 基础设施社区有重大贡献的全日制博士生。获奖者将在未来两年内获得最高 50,000 美元用于支付学费，申请窗口为 2025 年 11 月 23 日至 12 月 7 日。评选将基于研究影响力、开源贡献及与 LMSYS 兴趣领域的契合度，申请者需邮件提交申请陈述与简历。该项目由 Ying and Lianmin Giving Fund 捐赠支持。

开源生态行业动态

11月21日

08:00

Hugging Face：Blog（RSS）

精选83

Open ASR 排行榜新增多语言与长格式赛道，揭示模型性能新挑战

Hugging Face 的 Open ASR 排行榜新增多语言和长格式语音识别评估赛道。多语言赛道涵盖8种语言，长格式赛道则测试模型处理连续数分钟语音的能力。新榜单显示，领先模型在多语言任务上的词错误率平均比专用单语模型高约15%，在长格式任务上错误率可能上升超20%，凸显了模型在实际应用中的泛化能力仍面临严峻挑战。

Hugging Face评测/基准语音

推荐理由：ASR排行榜新增多语言和长形式评估，助力开发者优化语音应用。

08:00

Hugging Face：Blog（RSS）

精选80

RapidFire AI 实现20倍更快的 TRL 微调

RapidFire AI 发布了一套加速 TRL 微调的工具，通过自适应分块调度方案，允许在单个或多个 GPU 上并发启动多个训练配置并实时比较。内部基准测试显示，实验吞吐量比顺序执行高出约 16 至 24 倍。该工具提供即插即用的 TRL 配置包装器、分块并发训练、支持实时停止/恢复/克隆修改的交互式控制操作、自动多 GPU 编排以及 MLflow 仪表板，使用户能快速筛选最优配置，极大提升微调效率。

Hugging Face开源/仓库数据/训练部署/工程

推荐理由：开发者可并发测试多个微调配置，大幅提升实验效率。

11月20日

23:13

Google DeepMind：Blog（RSS）

Gemini 应用新增 AI 图像验证功能，可识别 SynthID 水印

Google 在 Gemini 应用中上线 AI 图像验证工具，用户上传图片即可查询是否由 Google AI 生成或编辑。该功能通过检测 SynthID 数字水印实现，该技术已应用于超 200 亿个 AI 生成内容。未来验证范围将扩展至视频和音频，并支持 C2PA 内容凭证标准。本周起，Nano Banana Pro（Gemini 3 Pro Image）在 Gemini、Vertex AI 和 Google Ads 中生成的图像将嵌入 C2PA 元数据，未来还将支持验证 Google 生态系统外的模型生成内容。

DeepMindGoogle产品更新图像生成

23:05

Google DeepMind：Blog（RSS）

精选

Google DeepMind 发布 Nano Banana Pro 图像生成模型

Google DeepMind 发布 Nano Banana Pro 图像生成模型，基于 Gemini 3 Pro 构建，支持多语言可读文本直接渲染，可结合 Google Search 实时信息生成信息图表。该模型支持 14 张图像融合，保持 5 个人物形象一致性，输出 4K 分辨率。现已集成至 Gemini 应用、Google Ads、Google AI Studio 等产品，所有生成内容均嵌入 SynthID 水印以确保透明度。

DeepMindGoogle图像生成多模态

关联讨论 2 条

推荐理由：Google 发布 Nano Banana Pro 图像生成模型，支持多语言文本渲染与 4K 输出

08:23

Midjourney：Updates（RSS）

Web 端更新

随 Profiles 功能今日上线，"Hide"过滤器更名为"Trash"。被移至 Trash 的创作内容将不再显示于 Create 页面，功能命名更贴合实际用途。

产品更新图像生成

08:00

Hugging Face：Blog（RSS）

精选83

介绍 AnyLanguageModel：为苹果平台提供本地与云端大语言模型的统一 API

AnyLanguageModel 是一个 Swift 包，旨在为苹果平台上的大语言模型集成提供统一解决方案。它作为苹果原生 Foundation Models 框架的替代品，允许开发者通过相同的 API 接口，灵活调用本地模型（如通过 Core ML、MLX、llama.cpp 运行）与云端服务（如 OpenAI、Anthropic）。该方案复用苹果精心设计的 API 作为基础，大幅降低了在不同模型提供商之间切换的代码修改成本，并利用 Swift 的包特性功能避免依赖膨胀，从而简化开发流程，鼓励对本地开源模型的探索。

开源/仓库开源生态部署/工程

推荐理由：Apple开发者可一键切换本地与云端模型，大幅降低AI应用开发门槛。