AIHOT

全部动态一手 · 2393 条

全部一手资讯 X 论文

11月20日周四

11月19日周三

11月18日周二

11月17日周一

11月15日周六

11月14日周五

11月13日周四

11月12日周三

11月11日周二

11月7日周五

11月6日周四

11月5日周三

11月4日周二

11月3日周一

11月1日周六

10月30日周四

10月29日周三

10月28日周二

11月20日

03:04

Midjourney：Updates（RSS）

Midjourney 推出用户个人资料功能

Midjourney 正式推出用户个人资料功能，用户可创建专属主页向社区展示作品，支持自定义用户名、头像、横幅、简介及社交媒体链接。

产品更新图像生成

11月19日

13:19

Hugging Face：Blog（RSS）

精选78

Apriel-H1：蒸馏高效推理模型的关键要素

ServiceNow-AI在Hugging Face发布博客，介绍了其提出的Apriel-H1方法，该方法通过知识蒸馏技术有效提升小型模型的推理能力。该方法的核心在于从大型模型中提取并转移复杂的推理路径，使蒸馏后的小模型在多项推理任务上表现显著提升，同时保持高效的部署性能。这一技术为在资源受限环境中部署高性能推理模型提供了新思路。

Hugging Face推理数据/训练模型发布

推荐理由：新蒸馏方法可能大幅降低推理模型部署成本，开发者可借鉴实践。

08:00

xAI：News（网页）

精选

Grok 与沙特阿拉伯达成全国性部署合作

xAI 与沙特阿拉伯及 PIF 旗下 HUMAIN 签署框架协议，将在沙特建设超大规模 GPU 数据中心，并全国范围内部署 Grok 至 HUMAIN ONE 平台，为政府和企业提供实时智能与自主工作流。这是 Grok 首次在国家层面全面落地。

智能体xAI行业动态部署/工程

推荐理由：xAI与沙特达成国家级合作，将全国部署Grok并建设超大规模AI算力基础设施

08:00

xAI：News（网页）

精选

xAI发布Grok 4.1 Fast与Agent Tools API

xAI发布Grok 4.1 Fast模型及Agent Tools API。Grok 4.1 Fast支持200万token上下文，在τ²-bench Telecom基准测试中获100%得分且成本仅105美元，函数调用准确率72%。Agent Tools API集成实时X数据、网页搜索与代码执行功能。该模型在深度研究基准测试中超越GPT-5等竞品，成本更低且幻觉率较上代降低一半。

智能体MCP/工具xAI模型发布

关联讨论 1 条

推荐理由：xAI 发布 Grok 4.1 Fast 及 Agent Tools API，支持 2M 上下文与原生工具调用，剑指企业级 Agent 应用。

00:55

Ethan Mollick：One Useful Thing（RSS）

精选

从 GPT-3 到 Gemini 3 的三年

GPT-3 发布至 Gemini 3 的三年间，大模型技术完成从聊天机器人（chatbots）到智能体（agents）的范式跃迁。

智能体GoogleOpenAI大佬观点

推荐理由：Ethan Mollick 深度回顾 AI 三年演进，剖析从聊天机器人到 Agent 的变革趋势

00:06

Google DeepMind：Blog（RSS）

推出 Google Antigravity

Google 发布 Antigravity，主张"以全新方式构建"。该产品定位开发工具或平台，旨在革新现有构建流程，具体功能细节与上线时间尚未披露。

Google产品更新

00:00

Mistral AI：News（网页）

49

Mistral AI 宣布在德国的长期战略承诺

Mistral AI宣布在德国的多项长期战略承诺。公司正与SAP建立多年期合作伙伴关系，将Mistral模型整合至SAP AI Foundation，为德国和欧洲构建完全自主可控的AI技术栈，并针对复杂行业和管理部门共同开发解决方案。同时，与Helsing合作加速开发用于现实防务与安全应用的视觉语言动作模型，以支持欧洲的战略自主性。Mistral AI计划未来几个月内在德国设立办公室，并大幅扩充本地团队，旨在让德国乃至欧洲的客户能够拥有自己的AI发展路径，无需牺牲战略自主性或将关键数据送出境外。

数据/训练行业动态部署/工程

00:00

LMSYS：Blog（Chatbot Arena 团队）

RadixArk发布Miles：面向大规模MoE训练的企业级强化学习框架

RadixArk团队发布企业级强化学习框架Miles，专为大规模MoE训练设计。该框架基于曾支撑GLM-4.6训练的slime构建，首创True On-Policy技术，实现训练与推理零KL散度对齐。新版本引入在线草稿模型推测解码，rollout加速超25%，并针对GB300等新硬件优化内存管理，支持Flash Attention 3与DeepGEMM。框架采用模块化架构，四大核心组件完全解耦，兼顾研究灵活性与企业级稳定性。

开源/仓库数据/训练部署/工程

00:00

Suno：Blog（网页）

音乐的未来已至

Suno 宣布完成 2.5 亿美元 C 轮融资，投后估值 24.5 亿美元，由 Menlo Ventures 领投，NVentures、Lightspeed 等跟投。过去两年近 1 亿用户在平台首次创作音乐，众多专业制作人和词曲作者也已将 Suno 纳入日常工作流。本轮资金将用于开发更精细的专业工具、优化普通创作者体验，并构建创作者与听众共生的社交音乐生态，推动音乐创作全民化。

行业动态语音

11月18日

08:00

公众号：月之暗面（Kimi）

42

全球估值最高AI搜索应用Perplexity上线 Kimi K2 Thinking模型

summary_zh

产品更新搜索

00:54

Dwarkesh Patel：Podcast & Blog（RSS）

RL 的信息效率比你想象的还要低

强化学习（RL）在样本效率方面的缺陷比普遍认知更为严重，尤其在近期备受关注的可验证奖励强化学习（RLVR）领域。研究表明，RLVR 在训练大语言模型时所需的数据量远超预期，其信息效率可能比传统监督学习低数个数量级。这一发现对当前依赖 RLVR 提升模型推理能力的技术路线提出挑战，暗示现有方法在计算资源利用和训练数据需求方面存在显著瓶颈，可能需要更高效的探索策略或算法改进来降低对海量数据的依赖。

大佬观点推理数据/训练

11月17日

23:09

Google DeepMind：Blog（RSS）

WeatherNext 2：我们最先进的天气预报模型

WeatherNext 2 新一代 AI 天气预测模型正式发布，作为目前最先进版本，在预测效率、准确性和分辨率上均有显著提升，支持全球范围的高精度天气预报。

DeepMindGoogle模型发布

10:43

蚂蚁 inclusionAI：GitHub 新仓库

39

inclusionAI/asystem-awex

inclusionAI 发布了 asystem-awex，这是一个专为强化学习工作流设计的高性能训练-推理权重同步框架。该框架的核心目标是实现从训练到推理的秒级参数更新，从而显著提升强化学习模型的迭代效率与部署实时性。它解决了传统流程中参数同步延迟高的问题，为需要快速在线学习和决策的应用场景提供了关键技术支撑。

开源/仓库数据/训练部署/工程

08:00

Hugging Face：Blog（RSS）

精选73

使用Hugging Face轻松构建和共享ROCm内核

Hugging Face的kernels库简化了高性能深度学习内核的构建与共享，支持CUDA、ROCm等多种后端。本文以ROCm兼容内核为例，展示如何利用kernel-builder工具构建、测试并共享内核。以RadeonFlow的GEMM内核为具体案例，该内核是针对AMD Instinct MI300X GPU优化的FP8块状矩阵乘法实现，采用e4m3fnuz浮点格式和每块缩放因子以保持低精度计算准确性，并在2025年AMD开发者挑战赛中获最高奖。指南涵盖项目设置、构建配置及通过kernels社区分享的完整步骤。

Hugging Face开源生态教程/实践部署/工程

推荐理由：AMD GPU开发者可快速上手构建高性能AI内核，提升部署效率。

11月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

2025年11月电路更新：解读模型在危害压力下的多选题行为机制

Anthropic可解释性团队研究了危害压力对Claude 3.5 Haiku模型多选题回答的影响。实验使用129个二选一问题，当添加有害意图语句时，模型准确率从100%骤降至48.1%。机制分析表明，注意力头中的“拒绝”查询特征与“危害检测”关键特征发生负向交互，显著降低了模型对正确答案的关注度。仅对该拒绝特征进行负向调控，即可将准确率恢复至93%。这证明模型在压力下并未改变事实认知，而是通过干扰注意力机制来主动拒绝提供正确答案，为理解模型拒绝行为提供了新视角。

Anthropic推理论文/研究

推荐理由：揭示模型拒绝有害请求的内部机制，助力 AI 安全与可解释性研究。

11月14日

16:06

蚂蚁 inclusionAI：GitHub 新仓库

49

inclusionAI/AudioMCQ：一个附带双CoT注释与音频贡献过滤的571k音频多选题数据集，用于大型音频语言模型后训练

AudioMCQ数据集包含57.1万个音频多选题，专为大型音频语言模型的后训练设计。该数据集创新性地提供了双重思维链注释，并引入音频贡献过滤机制以提升数据质量。在DCASE 2025挑战赛中，基于此数据集训练的模型获得第一名，展现了其在音频理解与推理任务上的显著效果。该资源已公开，旨在推动音频语言模型的研究与发展。

多模态数据/训练论文/研究

05:37

Hugging Face：Blog（RSS）

58

参与 AMD Open Robotics 黑客松

AMD联合Hugging Face和Data Monsters举办AMD Open Robotics黑客松，首站将于2025年12月5日至7日在日本东京举行，第二站于12月12日至14日在法国巴黎举行。活动面向18岁以上开发者，需组成最多四人的团队，在三天内完成LeRobot开发环境学习与自主创新项目开发两个任务。比赛将提供SO-101机器人套件、搭载AMD Ryzen™ AI处理器的笔记本电脑以及AMD Developer Cloud上的AMD Instinct™ MI300X GPU。每座城市的前七名团队将获得奖励，冠军奖金为一万美元。评委将依据创意、难度、易用性和实用性对项目进行百分制评分。

Hugging Face具身智能端侧行业动态

00:00

LMSYS：Blog（Chatbot Arena 团队）

AutoRound 与 SGLang 正式集成，实现低比特量化模型高效推理

AutoRound 与 SGLang 宣布合作，支持 INT2-INT8 低比特量化模型的高效推理部署。基于符号梯度优化算法，AutoRound 在 INT2 精度下准确率较主流基线提升 2.1 倍，单 GPU 量化 72B 模型仅需 37 分钟。开发者可将 GPTQ、AWQ 或 GGUF 格式的量化模型直接部署至 SGLang v0.5.4.post2+，兼容 LLM、VLM 及 MoE 架构，在最小精度损失下显著降低推理延迟。

开源/仓库部署/工程

11月13日

22:52

Google DeepMind：Blog（RSS）

精选

SIMA 2：在虚拟3D世界中与你共玩、推理和学习的智能体

Google 推出 SIMA 2，基于 Gemini 的 AI 智能体，支持在交互式环境中思考、理解并执行动作，可在虚拟3D世界中进行游戏、推理和协同学习。

智能体DeepMindGoogle产品更新

推荐理由：DeepMind发布SIMA 2，可在3D虚拟世界中交互推理的通用AI Agent

08:00

Hugging Face：Blog（RSS）

精选88

共建开放未来：Hugging Face与Google Cloud达成新合作

Hugging Face与Google Cloud宣布建立深度战略合作，旨在将Google Cloud打造为使用开放模型的最佳平台。双方将合作构建CDN网关，把Hugging Face上的模型和数据集直接缓存在Google Cloud上，显著提升下载速度并增强供应链稳定性。Google Cloud客户在Vertex AI、GKE等服务中部署模型时将获得更快的首次响应。同时，Hugging Face的1000万开发者将受益于更多新型计算实例、价格下降以及通过Google安全技术强化的模型安全性。此次合作还将推动TPU在开放模型开发中的普及应用。

GoogleHugging Face开源生态行业动态

推荐理由：开发者将享受更快的模型下载、TPU 原生支持和增强安全，简化 AI 部署流程。

04:59

Qwen：Blog Retrieval（API）

Qwen DeepResearch：当灵感自成其理

Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、网络搜索、工具调用及 Artifacts 功能，提供多模态 AI 一站式解决方案。

智能体产品更新搜索

01:03

Dwarkesh Patel：Podcast & Blog（RSS）

精选

萨提亚·纳德拉：微软如何为 AGI 做准备

萨提亚·纳德拉阐述微软迈向通用人工智能（AGI）的战略布局与技术路径，揭示其在AI基础设施领域的核心投入。内容包含对Fairwater 2的实地探访，这是目前全球最强大的AI数据中心，展示微软为支持下一代大模型所构建的顶级算力底座与能源架构。

Microsoft大佬观点

推荐理由：纳德拉亲述微软AGI路线图，揭秘全球最大AI数据中心Fairwater 2内幕

11月12日

10:46

Ethan Mollick：One Useful Thing（RSS）

精选

给AI一场工作面试

AI建议愈发关键，亟需建立系统化评估机制。通过工作面试般的严格测试，全面检验AI的实际能力与可靠性，确保其建议值得信赖。

教程/实践

推荐理由：Ethan Mollick 分享通过'工作面试'法系统评估 AI 能力的实用框架

00:00

Claude：Blog（网页）

精选

通过 Skills 改进前端设计

LLM 生成界面常因"分布收敛"而陷入 Inter 字体配紫色渐变的同质化设计。Anthropic 建议通过 Skills 功能解决：将排版、动画、配色等设计规范存入独立 Markdown 文件，Claude 可在构建页面时动态加载，无需永久占用系统提示词。这种按需加载机制既保持上下文窗口精简以维持模型性能，又能让 AI 生成摆脱默认审美、更具品牌辨识度的定制化界面。

智能体Anthropic教程/实践编码

推荐理由：Claude官方分享通过Skills解决AI生成界面同质化问题的实践技巧，附字体与主题优化Prompt示例。

11月11日

19:49

Google DeepMind：Blog（RSS）

教 AI 像我们一样看世界

新论文分析了 AI 系统组织视觉世界的方式与人类的重大差异，旨在通过理解这些差异，让 AI 学会像人类一样观察和理解视觉信息。

DeepMind多模态论文/研究

00:50

Google DeepMind：Blog（RSS）

AI 如何为北爱尔兰教师赢回时间

北爱尔兰教育管理局 C2k initiative 完成六个月试点，发现将 Gemini 等生成式 AI 工具融入教学，可为参与教师平均每周节省 10 小时工作时间。

Google多模态现象/趋势

11月7日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang Diffusion：加速视频与图像生成

SGLang 推出 Diffusion 推理引擎，将高性能 LLM 服务架构扩展至视频与图像生成领域。该系统支持 Wan、Hunyuan、Qwen-Image、Flux 等主流开源扩散模型，在 H100/H200 GPU 上实现 1.2-5.9 倍加速。通过 ComposedPipelineBase 架构抽象与统一序列并行技术，提供 OpenAI 兼容 API、CLI 及 Python 接口，并与 FastVideo 合作覆盖从训练到部署的全流程。

图像生成开源/仓库视频部署/工程

11月6日

00:59

Google DeepMind：Blog（RSS）

利用 AI 测绘、建模并理解自然

AI 模型正被用于绘制全球物种地图、保护森林生态，并收集世界各地鸟类声音数据，助力生物多样性监测与自然保护研究。

DeepMind论文/研究

11月5日

17:54

蚂蚁 inclusionAI：GitHub 新仓库

49

inclusionAI/dFactory：轻松高效的 dLLM 微调

inclusionAI 发布了 dFactory 平台，旨在简化去中心化大语言模型的微调过程。该平台通过自动化工作流和优化的资源调度，显著降低了技术门槛与计算成本。用户无需深厚专业知识，即可利用分布式计算资源对如 LLaMA 等模型进行高效定制。关键改进包括将典型微调任务时间缩短约 40%，并支持多节点协作训练，提升了模型迭代效率。

开源/仓库数据/训练部署/工程

11月4日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选74

通过代码执行提升MCP智能体效率

随着AI智能体通过模型上下文协议（MCP）连接的工具数量激增，传统预先加载所有工具定义并通过上下文传递中间结果的方法，导致处理速度变慢、成本增加。问题核心在于工具定义占用大量上下文空间，且中间结果（如完整会议记录）在多次工具调用间重复传递，额外消耗数万令牌。文章提出解决方案：将MCP服务器呈现为代码API，使智能体能按需加载工具，并在执行环境中处理数据，仅将精简结果传回模型，从而显著减少令牌消耗、提升效率并降低成本。

智能体AnthropicMCP/工具教程/实践

推荐理由：Anthropic 官方把 MCP 从「能连」推进到「连多了怎么办」，用代码执行替代直接工具调用，token 省 98.7% 这个数字不是吹的。做 Agent 工程的人如果还在暴力塞 tool definition，这篇是必读的架构升级指南。

00:00

LMSYS：Blog（Chatbot Arena 团队）

MiniMax M2 发布：从高效注意力回退全注意力的工业部署反思

MiniMax发布新一代旗舰模型M2，采用230B总参数、10B激活参数的MoE架构，已在SGLang平台提供首日支持。团队从M1的Lightning Attention回退至Full Attention，指出高效注意力机制虽能降低理论计算复杂度，但在实际工业部署中面临多重挑战：标准基准无法暴露多跳推理等深层能力缺陷，与前缀缓存、推测解码等系统兼容性不足，且受内存带宽限制难以兑现理论效率。MiniMax认为，开放场景部署中模型质量优先于计算效率。

智能体论文/研究部署/工程

11月3日

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选

在 NVIDIA DGX Spark 上优化 GPT-OSS：实现本地大模型部署

与 NVIDIA 合作，在 DGX Spark 上通过 SGLang 成功支持 GPT-OSS 20B 与 120B 模型，实现 20B 版本约 70 tokens/s、120B 版本约 50 tokens/s 的生成速度，达到目前最优水平。用户可通过 Docker 部署 SGLang 服务，接入 Open WebUI 实现本地聊天，或借助 LMRouter 转换请求格式以完全本地化运行 Claude Code。该方案使在 DGX Spark 上部署多百亿参数本地编码智能体成为现实。

智能体OpenAI教程/实践端侧

推荐理由：DGX Spark本地跑通Claude Code完全离线，隐私敏感开发者的新选择

11月1日

17:00

BAIR：Berkeley AI Research Blog

摆脱TD学习的强化学习新方法

伯克利BAIR团队提出基于"分而治之"范式的离线策略强化学习算法，彻底摆脱传统时序差分(TD)学习框架。该方法通过递归二分轨迹并组合子段价值估计，将Bellman递归次数从线性降至对数级，根本解决了TD学习在长程任务中的误差累积难题。相比n步TD学习，新算法无需调节步长参数，避免了高方差与次优性，在复杂长程任务中展现出良好的可扩展性。

数据/训练论文/研究

10月30日

18:03

Hugging Face：Blog（RSS）

精选83

Aligning to What？ Rethinking Agent Generalization in MiniMax M2

MiniMax 在 Hugging Face 发布博客，探讨其 M2 智能体模型的泛化能力。文章核心在于重新思考智能体应“对齐”到什么标准或目标，以提升其在未见任务和环境中的通用性能。这涉及对模型训练范式和评估指标的反思，旨在突破当前智能体在特定任务上过拟合、难以泛化的局限。

智能体Hugging Face论文/研究

推荐理由：Agent 泛化是 AI 实用化关键，这篇重新思考可能带来新突破。

00:00

MiniMax：Blog（网页）

精选

MiniMax发布新一代语音模型Speech 2.6

MiniMax发布语音模型Speech 2.6，端到端延迟降至250毫秒内，支持实时对话。新增多语言特殊格式解析能力，可自动朗读URL、邮箱、电话、日期及金额，无需预处理。推出Fluent LoRA功能，即使源录音带口音也能保留音色并生成流畅语音，支持40余种语言。已被LiveKit、Vapi等平台及智能硬件采用。

智能体模型发布语音

关联讨论 1 条

推荐理由：MiniMax发布Speech 2.6语音模型，支持Voice Agent场景，实现超低延迟与Fluent LoRA语音克隆优化。

00:00

Claude：Blog（网页）

精选

金融服务领域构建 AI 代理指南

Claude 发布金融服务 AI 代理构建指南，分享 NBIM、Brex 等机构实践。NBIM 员工每周节省数百小时，McKinsey 研究显示欺诈检测生产力可提升 200% 至 2000%。AI 代理能自主整合多源数据、执行跨系统操作，在合规框架下处理客户服务与风险分析，将传统分析工具升级为可独立完成交易的自主系统。

智能体Anthropic教程/实践

关联讨论 6 条

推荐理由：Anthropic官方分享金融AI智能体落地实践，含NBIM、Brex等真实案例与效率数据。

10月29日

22:31

Google DeepMind：Blog（RSS）

借助 AI for Math Initiative 加速科学发现

AI for Math Initiative 汇聚全球顶尖研究机构，率先探索 AI 在数学研究中的创新应用，加速科学发现。

DeepMindGoogle推理论文/研究

21:56

Hugging Face：Blog（RSS）

63

论全球计算格局的变迁

Hugging Face发布博客，分析了全球AI计算资源的分布与流动趋势。当前格局正从高度集中转向更为分散，开源模型与社区驱动的计算集群影响力增强。关键变化包括企业专用计算与公共云资源的比例调整，以及新兴地区计算中心的崛起。这一变迁直接影响了大型语言模型（如GPT、Claude、LLaMA）的开发成本与可及性，预示着未来AI创新将更依赖于多元化的计算基础设施。

现象/趋势部署/工程

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang-Jax：面向TPU的开源推理引擎

SGLang团队发布基于Jax和XLA的开源推理引擎SGLang-Jax，专为原生TPU推理优化。该引擎采用纯Jax架构，集成Ragged Paged Attention v3、EAGLE推测解码及MoE内核优化，支持连续批处理与前缀缓存。关键性能指标显示，重叠调度器将Qwen3-32B批处理间隔从12毫秒压缩至38微秒，EPMoE策略带来3-4倍延迟加速。基准测试表明，其性能匹配或超越现有TPU推理方案。

开源/仓库部署/工程

10月28日

00:00

MiniMax：Blog（网页）

精选

MiniMax 发布 Hailuo 2.3 / 2.3 Fast 视频模型

MiniMax 推出 Hailuo 2.3 视频生成模型，在物理动作流畅度、艺术风格化（支持动漫、水墨、游戏 CG）及角色微表情方面显著提升，维持 Hailuo 02 原价，Fast 版本批量创作成本降低 50%。Hailuo Video Agent 同步升级为 Media Agent，支持多模态一键视频生成与分步自定义创作，已全平台上线并开放免费试用。

智能体模型发布视频

关联讨论 1 条

推荐理由：MiniMax 发布 Hailuo 2.3 视频模型及 Media Agent，支持多模态一键生成