Qwen3-TTS 发布更新,支持 49 种音色、10 种语言和 9 种方言。Qwen Studio 平台同步提供聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 Artifacts 等全栈功能。
Qwen3-TTS 发布更新,支持 49 种音色、10 种语言和 9 种方言。Qwen Studio 平台同步提供聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 Artifacts 等全栈功能。
美团发布 LongCat-Image-Dev 开源项目,致力于通过开源和开放科学推进人工智能技术的普及与民主化。该项目作为 LongCat 系列的图像开发版本,旨在降低 AI 技术门槛,促进全球开发者协作创新,体现了美团在人工智能领域拥抱开源生态的战略布局。
美团-longcat 推出 LongCat-Image 开源项目,致力于通过开源协作与开放科学研究推进人工智能技术的进步与民主化。该项目旨在降低 AI 技术门槛,打破技术壁垒,让先进的 AI 能力更加普惠可及,体现了通过开放生态促进 AI 技术普及的战略愿景。
CrossVid 是首个系统性涵盖 4 个维度、10 个任务的跨视频推理测评基准,用于评估多模态大模型在跨视频场景下的综合推理能力,已被 AAAI 2026 收录。
OpenRouter 与 a16z 合作发布《2025 年 AI 现状报告》,该报告是迄今为止对开发者与组织在真实世界中如何使用语言模型规模最大的实证调查。
OpenRouter 与 a16z 合作推出 2025 年 AI 产业现状报告,这是迄今最大规模的实证研究,旨在展示开发者和组织在实际场景中使用大语言模型的方式。报告基于真实数据,揭示了模型选择、部署模式、成本效益等关键趋势,为行业提供了一份来自前沿实践的全景式参考。
a16z 联合发布《2025 年 AI 现状报告》,这是迄今为止对开发者和组织在现实世界中使用语言模型情况最大规模的实证研究。报告基于广泛的实际应用数据,系统分析了 GPT、Claude、LLaMA 等主流模型在企业和开发环境中的采用趋势、工作流集成方式以及关键性能指标。研究揭示了模型选择偏好的显著变化、实际部署规模的增长数据,以及成本、延迟和输出质量等核心维度的最新基准。
Anthropic的研究人员探索了一种新方法:使用其强大的闭源AI助手Claude来生成高质量的指令遵循数据,并用这些数据对较小的开源模型(如LLaMA系列)进行监督微调。这项实验旨在展示如何利用尖端闭源模型的能力来指导和改进可公开访问的开源模型性能,从而推动AI技术的进步与民主化。
研究团队发布了 DeepMath,一个轻量级的数学推理智能体。该智能体基于 smolagents 框架构建,旨在提升模型解决复杂数学问题的能力。DeepMath 的设计强调轻量化,力求在保持高效推理性能的同时降低计算资源消耗。其发布是团队通过开源与开放科学推动人工智能技术发展与普及的举措之一。
蚂蚁集团开源了AState,这是一个专为强化学习设计的高性能通用状态数据管理系统。它旨在解决RL训练与推理中的I/O效率低下、权重同步性能不足及状态恢复不鲁棒等核心挑战。系统采用三层架构:提供张量原生接口的API层、支持多种部署模式的服务层以及具备高效可扩展传输能力的基础层。其关键特性包括统一的张量级API、高性能权重同步和拓扑感知设计。在万亿参数规模下,AState能在约6秒内完成权重同步,远低于业界常见的分钟级延迟,目前已作为ASystem的关键组件在蚂蚁内部生产环境部署。
OpenAI正式开设了专注于对齐研究的官方博客。该博客旨在分享其在人工智能对齐领域的研究进展、技术见解和最新成果,致力于探索如何使AI系统与人类意图和价值观保持一致。此举标志着OpenAI将更系统、透明地向公众和学界公开其对齐工作的核心内容与思考。
研究团队训练并部署了一个专为高精度和实际应用优化的AI代码审查智能体。该智能体旨在对自主生成的代码进行有效监督,使代码审查能力能够与自动化代码生成的规模同步扩展。通过优化智能体的精确度,该方法致力于解决大规模代码生成中的质量控制难题,为AI辅助软件开发提供了可落地的规模化监督方案。
关联讨论 3 条X:Tibo (@thsottiaux)X:邵猛 (@shao__meng)OpenAI:Alignment 研究博客(RSS)研究提出了一种利用稀疏自编码器进行潜在归因的方法,以高效识别导致模型行为偏差的特征根源。该方法能够定位语言模型生成未对齐或有害补全结果时的内部激活特征,通过分析稀疏特征贡献来追溯问题源头。这一技术为理解和调试大语言模型(如GPT、Claude、LLaMA)的特定行为提供了可解释性工具,有助于提升模型的安全性与对齐性。
Mistral AI 发布下一代 Mistral 3 系列模型。旗舰 Mistral Large 3 是稀疏 MoE 模型,拥有 41B 活跃参数和 675B 总参数,在 LMArena 开源非推理模型榜单排名第二。系列包含三款密集模型(Ministral 14B/8B/3B),在各自类别中提供最佳性价比,其中 14B 推理变体在 AIME '25 上达到 85% 准确率。所有模型以 Apache 2.0 协议开源,具备图像理解能力,现已在 Mistral AI Studio、Amazon Bedrock、Hugging Face 等多个平台上线。
关联讨论 1 条Mistral AI:News(网页)SGLang 最新版本原生集成 NVIDIA Model Optimizer,支持通过直接 API 调用实现模型量化与部署。新功能将原本复杂的多步骤流程简化为量化、导出、部署三步,支持 NVFP4、MXFP4、FP8 等低精度格式。与原始 FP8 基线相比,优化后的模型在 Blackwell 架构上可实现高达 2 倍的每 GPU 吞吐量提升,显著降低延迟与内存占用。
GR-RL 框架通过多阶段训练将通用 VLA 策略转化为长程灵巧操作专家。针对精细任务中人类演示的次优性,利用离线 RL 的 Q 值过滤有效轨迹,结合形态对称增强与在线 RL 对齐部署行为。在自主系鞋带任务中实现 83.3% 成功率,首次完成需毫米级精度和长程推理的复杂操作。
字节跳动 Seed 团队发布 GR-RL,采用离线数据筛选结合在线真机微调的强化学习框架,突破 VLA 模型长时程精细操作瓶颈,首次实现机器人连续穿鞋带。相比前作 GR-3,成功率从 45.7% 提升至 83.3%,减少近 70% 失败。方案通过 Critic 价值判别器剔除次优演示数据,并在隐空间探索优化,解决模仿学习的数据次优性与执行错位问题,模型涌现出自纠错与场景调整能力。
Transformers v5正式发布,其每日pip安装量从v4的2万次大幅提升至300万次以上,总安装量突破12亿次。模型架构数量从40个扩展至超400个,Hub上兼容的模型检查点从约1,000个增至75万个。新版本聚焦于简化模型定义、训练、推理与生产部署,通过引入AttentionInterface等模块化设计,显著降低了代码贡献与维护成本。此外,库将明确以PyTorch为唯一后端,逐步淘汰Flax/TensorFlow支持,并简化分词处理,以推动标准化与生态兼容性。
关联讨论 1 条Hugging Face:Blog(RSS)Vertex AI团队推出基于EAGLE-3的推测解码加速方案,通过为目标模型(如Llama 70B)添加仅占2-5%参数量的轻量级draft head,取代传统独立draft模型,实现2-3倍解码速度提升。文章详述了从研究到生产的完整工程链路:构建合成数据生成管道解决版权与PII问题,采用离线训练策略预计算embeddings,并强调chat template匹配、mask设置及SGLang服务框架选型的关键作用,最终解决CPU瓶颈问题实现规模化部署。
Kimi(月之暗面)与 MannerCoffee 合作,限时上线 Rich Cheese Latte 定制版饮品,以联名活动形式唤醒用户互动体验。
该项目是一个针对NCCL通信库的扩展库,核心功能是高效卸载NCCL所分配的GPU内存。它通过将NCCL占用的显存资源进行智能释放与转移,旨在缓解大规模分布式训练中的显存压力,从而提升整体系统效率与资源利用率。
AlphaFold 发布五年间持续加速科学研究,在全球范围掀起生物发现浪潮,深刻改变了结构生物学领域并推动多项突破性进展。
为解决AI智能体在跨越多上下文窗口执行长期任务时的“记忆丢失”与进展不一致问题,Anthropic为Claude Agent SDK开发了一套双重方案。该方案包含一个初始化智能体,负责在首次运行时建立基础环境并生成功能清单;以及一个编码智能体,负责在后续会话中进行增量开发并提交清晰可合并的代码。通过结构化的进度日志和Git历史等机制,引导智能体避免“试图一次性完成所有功能”或“过早宣布完成”的失败模式,从而实现跨会话的持续有效协作。
AlphaFold 成功解析了一种与心脏病相关的关键蛋白质结构,为理解疾病分子机制提供重要依据。该突破有助于加速心血管疾病相关药物的研发进程。
连续批处理是优化大型语言模型推理吞吐量的核心技术,通过并行处理多个对话并在生成完成后动态交换任务,以最大化硬件利用率。从注意力机制和KV缓存的基础原理出发,文章推导了如何通过优化批处理提升性能。注意力层具有二次复杂度,但连续批处理允许查询、键和值张量容纳不同长度的令牌序列,从而同时处理预填充和解码阶段。该技术能显著降低生成每个令牌的计算成本,适用于高负载服务场景,提升响应速度。
Hugging Face 的 Diffusers 库正式集成 Black Forest Labs 开发的 FLUX-2 文生图模型。该模型拥有 120 亿参数,采用多模态扩散 Transformer 架构,在图像质量、提示遵循和分辨率方面表现优异,支持生成 1024x1024 像素图像。此次集成让开发者能通过 Diffusers API 便捷使用这一先进模型。
Tavily团队因模型迭代重建了深度研究系统,核心是从工作流转向智能体架构,并聚焦上下文工程。通过Tavily Advanced Search进行上下文管理的网络检索,高效获取高相关度内容,避免信息过载。智能体设计模仿人类研究模式:收集信息、提炼要点、决策下一步,仅在生成最终交付物时引用原始资料,大幅减少令牌消耗,实现线性增长而非传统二次方增长。团队遵循简化编排逻辑、关注模型与工具优化方向、强化上下文工程等原则,以构建能随模型进化而持续改进的智能体系统。
OVHcloud 现已正式加入 Hugging Face Hub 的推理服务提供商生态。用户可直接在模型页面使用其全托管、无服务器化的 AI 端点服务,便捷调用 gpt-oss、Qwen3 等热门开源模型。该服务基于欧洲数据中心,保障数据主权与低延迟,首 token 响应时间低于 200 毫秒,并支持结构化输出等高级功能。定价为每百万 token 0.04 欧元起,用户可选择使用自定义 API 密钥或通过 Hugging Face 账户路由请求并计费。
Suno宣布与华纳音乐集团达成合作。Suno已拥有近1亿音乐创作者社区,此次合作旨在推出更强大的创作功能、提供与WMG旗下艺术家互动的机会,并基于授权音乐构建新一代Suno模型,其性能将超越v5。未来,部分同意授权的WMG艺术家声音与形象可用于新的AI生成音乐创作体验,为其开辟新收入渠道。同时,歌曲下载功能将调整为仅限付费用户使用,而Suno Studio作为专业工具将保持现有功能并持续更新。
InfiXAI、Ant Group AQ、SGLang RL 与 Miles 团队联合实现了端到端 FP8 强化学习训练与采样方案。实验表明,MoE 模型在使用 BF16 训练与 FP8 推理时,规模越大训练-推理差异越显著;统一采用 FP8 进行训练和推理可有效消除量化误差导致的不一致性,显著提升训练速度与稳定性。该方案已支持 Qwen3-4B 和 Qwen3-30B-A3B 模型,并在 miles 框架中开箱即用。
Google DeepMind 与美国能源部(DOE)达成合作,共同推进 Genesis 项目,利用 AI 加速科学创新与研究。这是一项旨在推动科学突破的国家级使命。
Anthropic在Claude开发者平台发布三项新功能,以解决传统工具调用消耗大量上下文、易出错的问题。工具搜索工具允许按需加载工具,内部测试中将上下文消耗从约7.7万令牌降至8700令牌,降幅达85%,并将准确率从49%提升至74%。程序化工具调用支持在代码环境中调用工具,减少对上下文窗口的影响,例如Claude for Excel可借此处理数千行数据。工具使用示例则提供了展示工具有效使用方法的通用标准。这些功能共同提升了AI代理处理大规模工具库的能力。
LMSYS 宣布设立奖学金计划,资助对美国开源 AI 基础设施社区有重大贡献的全日制博士生。获奖者将在未来两年内获得最高 50,000 美元用于支付学费,申请窗口为 2025 年 11 月 23 日至 12 月 7 日。评选将基于研究影响力、开源贡献及与 LMSYS 兴趣领域的契合度,申请者需邮件提交申请陈述与简历。该项目由 Ying and Lianmin Giving Fund 捐赠支持。
Hugging Face 的 Open ASR 排行榜新增多语言和长格式语音识别评估赛道。多语言赛道涵盖8种语言,长格式赛道则测试模型处理连续数分钟语音的能力。新榜单显示,领先模型在多语言任务上的词错误率平均比专用单语模型高约15%,在长格式任务上错误率可能上升超20%,凸显了模型在实际应用中的泛化能力仍面临严峻挑战。
RapidFire AI 发布了一套加速 TRL 微调的工具,通过自适应分块调度方案,允许在单个或多个 GPU 上并发启动多个训练配置并实时比较。内部基准测试显示,实验吞吐量比顺序执行高出约 16 至 24 倍。该工具提供即插即用的 TRL 配置包装器、分块并发训练、支持实时停止/恢复/克隆修改的交互式控制操作、自动多 GPU 编排以及 MLflow 仪表板,使用户能快速筛选最优配置,极大提升微调效率。
Google 在 Gemini 应用中上线 AI 图像验证工具,用户上传图片即可查询是否由 Google AI 生成或编辑。该功能通过检测 SynthID 数字水印实现,该技术已应用于超 200 亿个 AI 生成内容。未来验证范围将扩展至视频和音频,并支持 C2PA 内容凭证标准。本周起,Nano Banana Pro(Gemini 3 Pro Image)在 Gemini、Vertex AI 和 Google Ads 中生成的图像将嵌入 C2PA 元数据,未来还将支持验证 Google 生态系统外的模型生成内容。
Google DeepMind 发布 Nano Banana Pro 图像生成模型,基于 Gemini 3 Pro 构建,支持多语言可读文本直接渲染,可结合 Google Search 实时信息生成信息图表。该模型支持 14 张图像融合,保持 5 个人物形象一致性,输出 4K 分辨率。现已集成至 Gemini 应用、Google Ads、Google AI Studio 等产品,所有生成内容均嵌入 SynthID 水印以确保透明度。
关联讨论 2 条Ethan Mollick:One Useful Thing(RSS)Google DeepMind:Blog(RSS)随 Profiles 功能今日上线,"Hide"过滤器更名为"Trash"。被移至 Trash 的创作内容将不再显示于 Create 页面,功能命名更贴合实际用途。
AnyLanguageModel 是一个 Swift 包,旨在为苹果平台上的大语言模型集成提供统一解决方案。它作为苹果原生 Foundation Models 框架的替代品,允许开发者通过相同的 API 接口,灵活调用本地模型(如通过 Core ML、MLX、llama.cpp 运行)与云端服务(如 OpenAI、Anthropic)。该方案复用苹果精心设计的 API 作为基础,大幅降低了在不同模型提供商之间切换的代码修改成本,并利用 Swift 的包特性功能避免依赖膨胀,从而简化开发流程,鼓励对本地开源模型的探索。