Midjourney 正式推出用户个人资料功能,用户可创建专属主页向社区展示作品,支持自定义用户名、头像、横幅、简介及社交媒体链接。
Midjourney 正式推出用户个人资料功能,用户可创建专属主页向社区展示作品,支持自定义用户名、头像、横幅、简介及社交媒体链接。
ServiceNow-AI在Hugging Face发布博客,介绍了其提出的Apriel-H1方法,该方法通过知识蒸馏技术有效提升小型模型的推理能力。该方法的核心在于从大型模型中提取并转移复杂的推理路径,使蒸馏后的小模型在多项推理任务上表现显著提升,同时保持高效的部署性能。这一技术为在资源受限环境中部署高性能推理模型提供了新思路。
xAI 与沙特阿拉伯及 PIF 旗下 HUMAIN 签署框架协议,将在沙特建设超大规模 GPU 数据中心,并全国范围内部署 Grok 至 HUMAIN ONE 平台,为政府和企业提供实时智能与自主工作流。这是 Grok 首次在国家层面全面落地。
xAI发布Grok 4.1 Fast模型及Agent Tools API。Grok 4.1 Fast支持200万token上下文,在τ²-bench Telecom基准测试中获100%得分且成本仅105美元,函数调用准确率72%。Agent Tools API集成实时X数据、网页搜索与代码执行功能。该模型在深度研究基准测试中超越GPT-5等竞品,成本更低且幻觉率较上代降低一半。
关联讨论 1 条xAI:News(网页)GPT-3 发布至 Gemini 3 的三年间,大模型技术完成从聊天机器人(chatbots)到智能体(agents)的范式跃迁。
Google 发布 Antigravity,主张"以全新方式构建"。该产品定位开发工具或平台,旨在革新现有构建流程,具体功能细节与上线时间尚未披露。
Mistral AI宣布在德国的多项长期战略承诺。公司正与SAP建立多年期合作伙伴关系,将Mistral模型整合至SAP AI Foundation,为德国和欧洲构建完全自主可控的AI技术栈,并针对复杂行业和管理部门共同开发解决方案。同时,与Helsing合作加速开发用于现实防务与安全应用的视觉语言动作模型,以支持欧洲的战略自主性。Mistral AI计划未来几个月内在德国设立办公室,并大幅扩充本地团队,旨在让德国乃至欧洲的客户能够拥有自己的AI发展路径,无需牺牲战略自主性或将关键数据送出境外。
RadixArk团队发布企业级强化学习框架Miles,专为大规模MoE训练设计。该框架基于曾支撑GLM-4.6训练的slime构建,首创True On-Policy技术,实现训练与推理零KL散度对齐。新版本引入在线草稿模型推测解码,rollout加速超25%,并针对GB300等新硬件优化内存管理,支持Flash Attention 3与DeepGEMM。框架采用模块化架构,四大核心组件完全解耦,兼顾研究灵活性与企业级稳定性。
Suno 宣布完成 2.5 亿美元 C 轮融资,投后估值 24.5 亿美元,由 Menlo Ventures 领投,NVentures、Lightspeed 等跟投。过去两年近 1 亿用户在平台首次创作音乐,众多专业制作人和词曲作者也已将 Suno 纳入日常工作流。本轮资金将用于开发更精细的专业工具、优化普通创作者体验,并构建创作者与听众共生的社交音乐生态,推动音乐创作全民化。
强化学习(RL)在样本效率方面的缺陷比普遍认知更为严重,尤其在近期备受关注的可验证奖励强化学习(RLVR)领域。研究表明,RLVR 在训练大语言模型时所需的数据量远超预期,其信息效率可能比传统监督学习低数个数量级。这一发现对当前依赖 RLVR 提升模型推理能力的技术路线提出挑战,暗示现有方法在计算资源利用和训练数据需求方面存在显著瓶颈,可能需要更高效的探索策略或算法改进来降低对海量数据的依赖。
WeatherNext 2 新一代 AI 天气预测模型正式发布,作为目前最先进版本,在预测效率、准确性和分辨率上均有显著提升,支持全球范围的高精度天气预报。
inclusionAI 发布了 asystem-awex,这是一个专为强化学习工作流设计的高性能训练-推理权重同步框架。该框架的核心目标是实现从训练到推理的秒级参数更新,从而显著提升强化学习模型的迭代效率与部署实时性。它解决了传统流程中参数同步延迟高的问题,为需要快速在线学习和决策的应用场景提供了关键技术支撑。
Hugging Face的kernels库简化了高性能深度学习内核的构建与共享,支持CUDA、ROCm等多种后端。本文以ROCm兼容内核为例,展示如何利用kernel-builder工具构建、测试并共享内核。以RadeonFlow的GEMM内核为具体案例,该内核是针对AMD Instinct MI300X GPU优化的FP8块状矩阵乘法实现,采用e4m3fnuz浮点格式和每块缩放因子以保持低精度计算准确性,并在2025年AMD开发者挑战赛中获最高奖。指南涵盖项目设置、构建配置及通过kernels社区分享的完整步骤。
Anthropic可解释性团队研究了危害压力对Claude 3.5 Haiku模型多选题回答的影响。实验使用129个二选一问题,当添加有害意图语句时,模型准确率从100%骤降至48.1%。机制分析表明,注意力头中的“拒绝”查询特征与“危害检测”关键特征发生负向交互,显著降低了模型对正确答案的关注度。仅对该拒绝特征进行负向调控,即可将准确率恢复至93%。这证明模型在压力下并未改变事实认知,而是通过干扰注意力机制来主动拒绝提供正确答案,为理解模型拒绝行为提供了新视角。
AudioMCQ数据集包含57.1万个音频多选题,专为大型音频语言模型的后训练设计。该数据集创新性地提供了双重思维链注释,并引入音频贡献过滤机制以提升数据质量。在DCASE 2025挑战赛中,基于此数据集训练的模型获得第一名,展现了其在音频理解与推理任务上的显著效果。该资源已公开,旨在推动音频语言模型的研究与发展。
AMD联合Hugging Face和Data Monsters举办AMD Open Robotics黑客松,首站将于2025年12月5日至7日在日本东京举行,第二站于12月12日至14日在法国巴黎举行。活动面向18岁以上开发者,需组成最多四人的团队,在三天内完成LeRobot开发环境学习与自主创新项目开发两个任务。比赛将提供SO-101机器人套件、搭载AMD Ryzen™ AI处理器的笔记本电脑以及AMD Developer Cloud上的AMD Instinct™ MI300X GPU。每座城市的前七名团队将获得奖励,冠军奖金为一万美元。评委将依据创意、难度、易用性和实用性对项目进行百分制评分。
AutoRound 与 SGLang 宣布合作,支持 INT2-INT8 低比特量化模型的高效推理部署。基于符号梯度优化算法,AutoRound 在 INT2 精度下准确率较主流基线提升 2.1 倍,单 GPU 量化 72B 模型仅需 37 分钟。开发者可将 GPTQ、AWQ 或 GGUF 格式的量化模型直接部署至 SGLang v0.5.4.post2+,兼容 LLM、VLM 及 MoE 架构,在最小精度损失下显著降低推理延迟。
Google 推出 SIMA 2,基于 Gemini 的 AI 智能体,支持在交互式环境中思考、理解并执行动作,可在虚拟3D世界中进行游戏、推理和协同学习。
Hugging Face与Google Cloud宣布建立深度战略合作,旨在将Google Cloud打造为使用开放模型的最佳平台。双方将合作构建CDN网关,把Hugging Face上的模型和数据集直接缓存在Google Cloud上,显著提升下载速度并增强供应链稳定性。Google Cloud客户在Vertex AI、GKE等服务中部署模型时将获得更快的首次响应。同时,Hugging Face的1000万开发者将受益于更多新型计算实例、价格下降以及通过Google安全技术强化的模型安全性。此次合作还将推动TPU在开放模型开发中的普及应用。
Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、网络搜索、工具调用及 Artifacts 功能,提供多模态 AI 一站式解决方案。
萨提亚·纳德拉阐述微软迈向通用人工智能(AGI)的战略布局与技术路径,揭示其在AI基础设施领域的核心投入。内容包含对Fairwater 2的实地探访,这是目前全球最强大的AI数据中心,展示微软为支持下一代大模型所构建的顶级算力底座与能源架构。
AI建议愈发关键,亟需建立系统化评估机制。通过工作面试般的严格测试,全面检验AI的实际能力与可靠性,确保其建议值得信赖。
LLM 生成界面常因"分布收敛"而陷入 Inter 字体配紫色渐变的同质化设计。Anthropic 建议通过 Skills 功能解决:将排版、动画、配色等设计规范存入独立 Markdown 文件,Claude 可在构建页面时动态加载,无需永久占用系统提示词。这种按需加载机制既保持上下文窗口精简以维持模型性能,又能让 AI 生成摆脱默认审美、更具品牌辨识度的定制化界面。
新论文分析了 AI 系统组织视觉世界的方式与人类的重大差异,旨在通过理解这些差异,让 AI 学会像人类一样观察和理解视觉信息。
北爱尔兰教育管理局 C2k initiative 完成六个月试点,发现将 Gemini 等生成式 AI 工具融入教学,可为参与教师平均每周节省 10 小时工作时间。
SGLang 推出 Diffusion 推理引擎,将高性能 LLM 服务架构扩展至视频与图像生成领域。该系统支持 Wan、Hunyuan、Qwen-Image、Flux 等主流开源扩散模型,在 H100/H200 GPU 上实现 1.2-5.9 倍加速。通过 ComposedPipelineBase 架构抽象与统一序列并行技术,提供 OpenAI 兼容 API、CLI 及 Python 接口,并与 FastVideo 合作覆盖从训练到部署的全流程。
inclusionAI 发布了 dFactory 平台,旨在简化去中心化大语言模型的微调过程。该平台通过自动化工作流和优化的资源调度,显著降低了技术门槛与计算成本。用户无需深厚专业知识,即可利用分布式计算资源对如 LLaMA 等模型进行高效定制。关键改进包括将典型微调任务时间缩短约 40%,并支持多节点协作训练,提升了模型迭代效率。
随着AI智能体通过模型上下文协议(MCP)连接的工具数量激增,传统预先加载所有工具定义并通过上下文传递中间结果的方法,导致处理速度变慢、成本增加。问题核心在于工具定义占用大量上下文空间,且中间结果(如完整会议记录)在多次工具调用间重复传递,额外消耗数万令牌。文章提出解决方案:将MCP服务器呈现为代码API,使智能体能按需加载工具,并在执行环境中处理数据,仅将精简结果传回模型,从而显著减少令牌消耗、提升效率并降低成本。
MiniMax发布新一代旗舰模型M2,采用230B总参数、10B激活参数的MoE架构,已在SGLang平台提供首日支持。团队从M1的Lightning Attention回退至Full Attention,指出高效注意力机制虽能降低理论计算复杂度,但在实际工业部署中面临多重挑战:标准基准无法暴露多跳推理等深层能力缺陷,与前缀缓存、推测解码等系统兼容性不足,且受内存带宽限制难以兑现理论效率。MiniMax认为,开放场景部署中模型质量优先于计算效率。
与 NVIDIA 合作,在 DGX Spark 上通过 SGLang 成功支持 GPT-OSS 20B 与 120B 模型,实现 20B 版本约 70 tokens/s、120B 版本约 50 tokens/s 的生成速度,达到目前最优水平。用户可通过 Docker 部署 SGLang 服务,接入 Open WebUI 实现本地聊天,或借助 LMRouter 转换请求格式以完全本地化运行 Claude Code。该方案使在 DGX Spark 上部署多百亿参数本地编码智能体成为现实。
伯克利BAIR团队提出基于"分而治之"范式的离线策略强化学习算法,彻底摆脱传统时序差分(TD)学习框架。该方法通过递归二分轨迹并组合子段价值估计,将Bellman递归次数从线性降至对数级,根本解决了TD学习在长程任务中的误差累积难题。相比n步TD学习,新算法无需调节步长参数,避免了高方差与次优性,在复杂长程任务中展现出良好的可扩展性。
MiniMax 在 Hugging Face 发布博客,探讨其 M2 智能体模型的泛化能力。文章核心在于重新思考智能体应“对齐”到什么标准或目标,以提升其在未见任务和环境中的通用性能。这涉及对模型训练范式和评估指标的反思,旨在突破当前智能体在特定任务上过拟合、难以泛化的局限。
MiniMax发布语音模型Speech 2.6,端到端延迟降至250毫秒内,支持实时对话。新增多语言特殊格式解析能力,可自动朗读URL、邮箱、电话、日期及金额,无需预处理。推出Fluent LoRA功能,即使源录音带口音也能保留音色并生成流畅语音,支持40余种语言。已被LiveKit、Vapi等平台及智能硬件采用。
关联讨论 1 条MiniMax:Blog(网页)Claude 发布金融服务 AI 代理构建指南,分享 NBIM、Brex 等机构实践。NBIM 员工每周节省数百小时,McKinsey 研究显示欺诈检测生产力可提升 200% 至 2000%。AI 代理能自主整合多源数据、执行跨系统操作,在合规框架下处理客户服务与风险分析,将传统分析工具升级为可独立完成交易的自主系统。
关联讨论 6 条X:Testing Catalog (@testingcatalog)X:Claude (@claudeai)Claude:Blog(网页)X:Rohan Paul (@rohanpaul_ai)X:阿易 AI Notes (@AYi_AInotes)Anthropic:Newsroom(网页)AI for Math Initiative 汇聚全球顶尖研究机构,率先探索 AI 在数学研究中的创新应用,加速科学发现。
Hugging Face发布博客,分析了全球AI计算资源的分布与流动趋势。当前格局正从高度集中转向更为分散,开源模型与社区驱动的计算集群影响力增强。关键变化包括企业专用计算与公共云资源的比例调整,以及新兴地区计算中心的崛起。这一变迁直接影响了大型语言模型(如GPT、Claude、LLaMA)的开发成本与可及性,预示着未来AI创新将更依赖于多元化的计算基础设施。
SGLang团队发布基于Jax和XLA的开源推理引擎SGLang-Jax,专为原生TPU推理优化。该引擎采用纯Jax架构,集成Ragged Paged Attention v3、EAGLE推测解码及MoE内核优化,支持连续批处理与前缀缓存。关键性能指标显示,重叠调度器将Qwen3-32B批处理间隔从12毫秒压缩至38微秒,EPMoE策略带来3-4倍延迟加速。基准测试表明,其性能匹配或超越现有TPU推理方案。
MiniMax 推出 Hailuo 2.3 视频生成模型,在物理动作流畅度、艺术风格化(支持动漫、水墨、游戏 CG)及角色微表情方面显著提升,维持 Hailuo 02 原价,Fast 版本批量创作成本降低 50%。Hailuo Video Agent 同步升级为 Media Agent,支持多模态一键视频生成与分步自定义创作,已全平台上线并开放免费试用。
关联讨论 1 条MiniMax:Blog(网页)