AIHOT

全部动态一手 · 2413 条

全部一手资讯 X 论文

2月13日周五

2月12日周四

2月11日周三

2月10日周二

2月9日周一

2月13日

08:00

公众号：智谱（GLM）

GLM-5 上线 24 小时获用户选择

GLM-5 上线 24 小时后，获得这些朋友选择。

模型发布行业动态

08:00

Hugging Face：Blog（RSS）

Codex 与 Claude 为所有人提供定制化内核

Codex 和 Claude 宣布推出面向所有用户的定制化内核服务。这一举措旨在通过开源工具降低高级AI模型的访问门槛，使开发者能够根据特定需求调整和优化模型性能。新服务预计将支持更广泛的个性化应用开发，同时公布的相关基准测试显示，定制后模型在特定任务上的效率可提升高达30%。这标志着AI技术民主化进程又迈出关键一步。

智能体教程/实践编码

07:00

公众号：MiniMax（稀宇科技）

MiniMax M2.5 发布：1美金/小时，真实世界工作王者

MiniMax M2.5发布，定价1美金/小时，定位为在真实世界工作场景中表现最顶尖的模型。

推理模型发布

2月12日

18:22

公众号：小红书技术（dots.llm）

小红书发布 FireRed-Image-Edit：图像编辑新 SOTA

小红书基础模型 FireRed-Image-Edit 在 GitHub 上正式亮相，该模型专注于图像编辑任务，并达到新的最佳性能（新 SOTA）。

GitHub图像生成开源/仓库模型发布

16:53

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/ZwZ-4B

inclusionAI发布了ZwZ-4B开源模型。该模型参数量为40亿，基于Transformer架构，上下文窗口为32K。其训练数据包含2万亿Token，涵盖代码、数学及多语言文本。模型采用分组查询注意力机制，支持16位与32位浮点精度。团队旨在通过开源推动人工智能技术的普及与发展。

开源生态模型发布

16:52

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/ZwZ-7B

inclusionAI 发布了 ZwZ-7B 模型，这是一个拥有70亿参数的开源大语言模型。该模型基于先进的 Transformer 架构，在多项基准测试中性能显著提升，尤其在代码生成和数学推理任务上表现突出。其上下文窗口扩展至 128K 令牌，并采用了分组查询注意力等高效技术。模型权重已完全开源，旨在通过开放科学推动人工智能技术的民主化与普及。

开源生态模型发布

16:52

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/ZwZ-8B

inclusionAI发布了ZwZ-8B模型，这是一个拥有80亿参数的开源人工智能模型。该模型旨在通过开源和开放科学的方式，推动人工智能技术的进步与普及。此举是inclusionAI推进AI民主化进程的一部分，致力于让更广泛的社区能够访问和利用先进的AI技术。

开源/仓库模型发布端侧

16:14

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/Zooming-without-Zooming

inclusionAI团队发布了ZwZ模型系列，在细粒度感知任务上取得了当前最佳性能。同时，该团队推出了名为ZoomBench的全新感知基准测试，其设计更具挑战性。这些成果已在ICML 2026会议上展示。

多模态论文/研究评测/基准

12:18

公众号：豆包（字节）

豆包视频生成模型Seedance 2.0上线

字节跳动旗下豆包推出视频生成模型Seedance 2.0，该模型已上线。

多模态模型发布视频

12:00

公众号：生数科技（Vidu·视频）

Vidu发布"超强动作同步Motion Sync"企业级功能

Vidu面向企业级市场发布核心功能“超强动作同步Motion Sync”，实现精准动作复刻，推动AI视频创作新浪潮。

产品更新

08:00

Hugging Face：Blog（RSS）

精选83

实践中的OpenEnv：在真实环境中评估工具使用智能体

Meta与Hugging Face联合推出开源评估框架OpenEnv，旨在标准化智能体与真实系统的交互。Turing公司贡献了生产级“Calendar Gym”环境，用于在权限控制、时间推理等现实约束下研究工具使用智能体。该框架采用类似Gymnasium的API，通过标准接口连接真实工具，将评估重点从受控演示转向真实世界可靠性。日历系统因涉及多用户、多步骤工作流等复杂性，成为评估智能体实际能力的强大测试平台。

智能体Hugging FaceMCP/工具Meta

推荐理由：提供生产级基准测试，帮助开发者评估和改进 AI 代理在复杂环境中的表现。

00:00

MiniMax：Blog（网页）

精选67

MiniMax 发布 MiniMax M2.5 模型，专为现实世界生产力打造

MiniMax 最新发布的大语言模型 M2.5，通过在数十万个复杂现实环境中进行强化学习训练，在编码、智能体工具调用、搜索和办公工作等多项任务上达到 SOTA。模型推理效率高，完成 SWE-Bench Verified 评估的速度比前代 M2.1 快 37%，与 Claude Opus 4.6 相当。定价方面，以 100 tokens/秒运行时每小时成本仅 1 美元。M2.5 在超过 10 种编程语言和 20 多万个真实环境中训练，具备从系统设计到测试的全流程能力。

智能体搜索模型发布编码

推荐理由：MiniMax M2.5 把 SWE-bench 拉到 80.2%，成本只有 Claude Opus 4.6 的十分之一，速度还翻倍，对做 agent 的团队来说是个高性价比选择。

00:00

字节 Seed：Research Feed（网页内嵌数据）

精选

Seedance 2.0 正式发布

Seedance 2.0 视频生成模型正式发布，综合性能达业界 SOTA 水平。新版本支持多模态输入，可同时参考 9 张图片、3 段视频、3 段音频及文本指令，精准迁移构图、动作、运镜与音效。模型支持 15 秒高质量多镜头生成，集成双声道立体声技术，并新增视频延长与编辑功能，可定向修改片段、角色及剧情。目前已在即梦 AI、豆包及火山方舟平台上线，适用于影视、广告、电商等工业级内容创作场景。

多模态模型发布视频

关联讨论 5 条

推荐理由：字节Seedance 2.0发布，支持多模态输入与物理稳定生成，已上线豆包即梦

00:00

智谱：研究（网页内嵌数据）

精选

GLM-5开源：从代码到工程，Agentic Engineering时代最好的开源模型

GLM-5 开源，参数规模达 744B（激活 40B），预训练数据 28.5T，集成 DeepSeek Sparse Attention 降低部署成本。Coding 能力对齐 Claude Opus 4.5，Agent 能力支持 SOTA 级长程任务执行，兼容国产芯片。同步推出 OpenClaw、AutoGLM、Z Code 及 Excel 插件等工具链，覆盖端到端开发、办公自动化等场景。

智能体模型发布编码

关联讨论 2 条

推荐理由：智谱开源744B参数GLM-5，主打Agentic Engineering与编码能力，支持国产芯片推理

2月11日

20:18

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/Ming-omni-tts

inclusionAI 发布了 Ming-omni-tts，这是一个能够统一生成语音、音乐和声音的模型。该模型的核心特点是结构简单高效，并实现了对生成内容的精确控制。它通过一个统一的框架处理多种音频模态，简化了传统上需要不同模型分别处理语音、音乐和音效的流程。这一进展为跨模态音频内容的创作与编辑提供了更便捷、可控的工具。

开源生态模型发布语音

19:00

公众号：蚂蚁百灵（Ling）

百灵全模态 Ming-flash-omni-2.0 发布：感知无界，创造有形

蚂蚁百灵推出全模态模型 Ming-flash-omni-2.0，融合感知与创造能力，旨在通过多模态交互焕新生活体验。具体技术参数和性能数据暂未披露。

多模态模型发布

18:55

蚂蚁 inclusionAI：GitHub 新仓库

精选61

inclusionAI 发布高性能量化推理 GEMM 内核库 Humming

inclusionAI 开源了 Humming，这是一个专为量化推理设计的高性能、轻量级即时编译 GEMM 内核库。它支持在 FP16、BF16、FP8 等多种激活数据类型下进行 8 比特以下任意权重类型的推理，兼容多种量化策略与缩放类型，并同时支持稠密 GEMM 和混合专家 GEMM 运算。该库兼容 SM75+ 及以上的所有 NVIDIA GPU，在多种计算场景下能提供业界领先的吞吐量和效率。其依赖极简，仅需 PyTorch 和 NVCC，软件包大小仅约 100 KB，便于超轻量化部署。

开源/仓库推理部署/工程

推荐理由：蚂蚁 inclusionAI 开源了一个 100KB 级的量化 GEMM 库，支持从 INT1 到 FP8 全家桶，SM75+ 全覆盖，做推理部署的工程师值得花半小时跑一下 benchmark，看看能不能替换掉现有的 Marlin 方案。

18:52

蚂蚁 inclusionAI：GitHub 新仓库

精选65

inclusionAI发布新一代即时大模型Ling-2.5-1T

inclusionAI推出新一代旗舰即时模型Ling-2.5-1T，其总参数量达1T，活跃参数为63B，预训练语料扩展至29T tokens。该模型采用混合线性注意力架构，支持1M tokens上下文长度，并通过结合“正确性”与“过程冗余”的复合奖励机制，在相近的token效率下，其推理能力显著超越前代，接近前沿思维模型水平。经双向RL反馈和智能体验证等对齐策略优化，模型在创意写作和指令遵循任务上表现提升。它已兼容主流智能体平台，并在通用工具调用基准BFCL-V4上取得领先的开源性能。

开源/仓库推理模型发布部署/工程

推荐理由：蚂蚁把 1T 参数的即时模型开源了，63B 活跃参数加 1M 上下文，主打效率而非堆算力，对国内做开源推理模型的团队来说是个值得对标的基线。

18:52

蚂蚁 inclusionAI：GitHub 新仓库

精选78

inclusionAI发布全球首个开源万亿参数思维模型Ring-2.5-1T

inclusionAI发布了全球首个基于混合线性注意力架构的开源万亿参数思维模型Ring-2.5-1T。该模型通过高效的1:7 MLA与闪电线性注意力提升了推理速度与探索能力，并借助扩展的强化学习训练增强了深度思考和长程任务执行能力。其在IMO 2025和CMO 2025数学竞赛中均达到了金牌级别的性能。模型支持128K上下文长度，并可通过YaRN技术扩展至256K，现已于Hugging Face和ModelScope平台开源。部署方面，已支持SGLang，并提供了多GPU节点的服务器启动示例。

开源/仓库推理模型发布部署/工程

推荐理由：蚂蚁把万亿参数的开源 thinking model 放出来了，混合线性注意力架构是真新路线而非换皮，IMO/CMO 金牌级数学推理说明这不是纯堆参数。做开源大模型部署的团队值得认真看看它的架构选择。

14:11

Steve Yegge：Medium（RSS）

精选75

AI 吸血鬼

AI（如 Claude Code）确实能带来 10 倍生产力提升，但创造的价值大部分被公司捕获，员工可能过度劳累却收获甚微。微软内部已自发大量采用 Claude Code。这种效率加速迫使工作节奏不断加快，导致许多早期采用者（包括作者自己）出现严重的“午睡攻击”和日常疲劳。公司作为资本机器难以放缓脚步，形成一种让从业者无论是否使用 AI 都被持续“抽血”的困境。

Anthropic大佬观点编码

推荐理由：Steve Yegge 提出的 'AI 吸血鬼' 概念精准捕捉了 AI 生产力带来的过劳危机，并给出了对抗资本压榨的实用公式，每个在 AI 浪潮中奔命的开发者都该停下看看。

11:12

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/Ming-omni-tts-tokenizer-12Hz

inclusionAI团队发布了Ming-omni-tts-tokenizer-12Hz开源项目，这是一个面向文本转语音（TTS）的通用分词器。该模型支持12Hz的高采样率，旨在提升语音合成的自然度与表现力。项目基于开源与开放科学的理念推进，致力于让人工智能技术更加普及和易得。

开源生态模型发布语音

11:10

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/Ming-omni-tts-0.5B

inclusionAI 发布了 Ming-omni-tts-0.5B，这是一个参数规模为 0.5B（5亿）的文本转语音模型。该模型旨在通过开源和开放科学的方式，推动人工智能技术的进步与普及。发布标志着在语音合成领域，一个中等规模、可公开访问的模型正式加入开源生态。

开源生态模型发布语音

10:49

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/Ming-omni-tts-16.8B-A3B

inclusionAI发布了开源文本转语音模型Ming-omni-tts-16.8B-A3B，参数量达168亿。该模型采用创新的A3B混合专家架构，在语音自然度、多语言支持和情感表现方面实现显著提升。项目遵循开源开放科学理念，旨在推动人工智能技术的民主化进程。

开源生态模型发布语音

08:00

蚂蚁百灵：Developer Blog（网页）

精选83

感知无界·创造有形：百灵全模态 Ming-flash-omni-2.0 焕新生活想象

百灵全模态大模型Ming-flash-omni-2.0正式发布。该模型基于MoE架构，在视觉、语音、图像等全模态能力上实现代际跃迁，其核心突破在于一个统一模型同时具备了强大的通用泛化能力和特定模态的专家级表现。具体特色包括：视觉百科能精准识别万物并关联知识；语音生成可控制情绪、方言，提供百种音色，并能统一生成语音、音效与背景音乐；图像创作可实现氛围重构、场景合成与智能擦除。技术层面通过亿级数据细粒度感知、知识对齐及超低帧率音频表征等创新实现性能飞跃。模型已在多个平台开源。

图像生成多模态模型发布

关联讨论 1 条

推荐理由：国产全模态模型开源，多模态能力达领先水准，开发者可直接体验或集成。

00:00

LMSYS：Blog（Chatbot Arena 团队）

基于AMD MI300X的Qwen3及Qwen3-VL极致延迟优化实践

阿里云Qwen团队与AMD AI框架团队基于SGLang框架，在AMD MI300X GPU上实现了Qwen3-235B与Qwen3-VL-235B的极致延迟优化。通过PTPC FP8量化、TP8张量并行、MoE负载均衡及rocJPEG图像解码等技术，Qwen3-235B的TTFT和TPOT性能分别提升1.67倍与2.12倍，Qwen3-VL-235B分别提升1.62倍与1.90倍。相关优化代码已全面开源。

多模态论文/研究部署/工程

2月10日

20:45

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/Ring-2.5-1T

inclusionAI 发布了 Ring-2.5-1T，这是一个拥有 1 万亿参数规模的大型语言模型。该模型旨在通过开源和开放科学的方式，推动人工智能技术的进步与普及。此次发布标志着在构建超大规模、可访问的 AI 模型方面取得了重要进展，为更广泛的研究社区提供了强大的基础工具。

开源生态推理模型发布

20:09

公众号：小红书技术（dots.llm）

懂剪辑，更懂叙事：FireRed-OpenStoryline--首个开源具备导演思维的视频剪辑Agent

FireRed-OpenStoryline 今日正式开源，成为首个具备导演思维的视频剪辑Agent，将大模型能力从文本、图像拓展至视频剪辑领域。

智能体多模态开源/仓库视频

15:55

公众号：月之暗面（Kimi）

Kimi K2.5 已入驻阿里、腾讯、字节 AI 编程工具

Kimi K2.5 是月之暗面迄今最智能且最全能的模型，在 Agent、代码、图像、视频及通用智能任务上取得开源 SOTA 表现。原生多模态架构同时支持视觉与文本输入、思考与非思考模式、对话与 Agent 任务。发布后在 OpenRouter 上周调用量达 1.3 万亿 tokens，超越 Gemini 3、Claude Sonnet 4.5，成为全球开发者调用量最大的模型。

产品更新开源生态编码

14:57

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/Ming-flash-omni-2.0

inclusionAI 发布了 Ming-flash-omni 2.0 版本。该项目致力于通过开源与开放科学的方式，推动人工智能技术的进步与民主化。新版本意味着模型能力、效率或应用范围的进一步升级，延续了其降低AI技术门槛、促进广泛可及性与协作创新的核心目标。

多模态开源生态模型发布

14:02

公众号：可灵AI（快手·视频）

可灵春节特效限免及奖励活动

可灵春节特效限免，邀请好友可获奖励，会员卡与灵感值免费领取，最高可领12000灵感值。

行业动态视频

14:02

公众号：可灵AI（快手·视频）

可灵AI春节贺岁片，让爱马力全开！

可灵AI发布2026贺岁短片，用AI生成暖心内容。用户参与评论区互动，有机会获得黑金会员奖励。

行业动态视频

13:08

Qwen：Blog Retrieval（API）

Qwen-Image-2.0：专业信息图表与精美照片级真实感

Qwen-Image-2.0 发布，主打专业信息图表与照片级真实感图像生成。Qwen Studio 平台同步集成聊天、多模态理解、文档处理、网页搜索及工具调用等综合能力。

图像生成多模态模型发布

11:39

公众号：腾讯混元

首个产业级2Bit量化新突破，腾讯混元开源0.3B端侧模型

腾讯混元开源0.3B端侧模型，实现首个产业级2Bit量化突破。在真实端侧设备上，相比原始精度模型，生成速度提升2—3倍。

开源/仓库模型发布端侧

10:00

公众号：豆包（字节）

豆包要上春晚了，超10万份科技好礼等你带回家

字节跳动旗下AI产品豆包宣布即将亮相春晚，并同步送出超过10万份科技好礼，用户可通过互动环节参与领取，不容错过。

多模态行业动态

00:12

Google DeepMind：Blog（RSS）

借助 Gemini Deep Think 加速数学与科学发现

研究论文显示，Gemini Deep Think 在数学与科学等多个领域的影响力持续扩大，正加速科研发现进程。

DeepMindGoogle推理论文/研究

00:00

Runway：News（网页）

Runway 获 3.15 亿美元 E 轮融资，用于扩展 World Simulation

Runway 宣布完成 3.15 亿美元 E 轮融资，由 General Atlantic 领投，NVIDIA、Adobe Ventures 等参投。本轮资金将用于预训练下一代 world models 并拓展至新产品和行业。公司正在招聘。

多模态行业动态视频

2月9日

18:47

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/LLaDA2.1-flash

inclusionAI 团队发布了 LLaDA2.1-flash 模型，致力于通过开源与开放科学推动人工智能的进步与民主化。该版本在推理速度与内存效率上显著提升，响应延迟降低约40%，同时保持与前一版本相当的准确率。模型参数规模为70亿，支持多模态输入，并优化了边缘设备部署能力。这一进展旨在降低AI技术应用门槛，促进更广泛的研究与产业落地。

开源/仓库模型发布端侧

15:55

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/UI-Venus-1.5-30B-A3B 发布

inclusionAI 团队发布了 UI-Venus-1.5-30B-A3B 模型。该模型参数量达到 300亿（30B），是 Venus 系列的最新版本。此次发布延续了通过开源和开放科学来推进人工智能民主化的核心目标，旨在让先进AI技术更广泛可及。新版本预计在模型性能或效率上有所提升，具体技术细节和基准测试结果有待进一步公布。

开源/仓库模型发布端侧

08:00

Hugging Face：Blog（RSS）

精选76

Transformers.js v4：现已在 NPM 上发布！

Transformers.js 发布第四个主要版本 v4，该版本现已通过 NPM 包管理器提供。这一更新延续了项目通过开源与开放科学推动人工智能技术进步与普及的使命，使开发者能够更便捷地获取并在项目中集成这一机器学习库。

Hugging Face开源/仓库端侧部署/工程

推荐理由：浏览器和 Node.js 直接跑 HF 模型的大版本升级，前端开发者可零门槛接入 AI

00:00

Moonshot AI：Kimi Blog（VitePress）

精选

Agent Swarm多代理协作系统

Kimi推出Agent Swarm系统，支持100个子代理并行工作，可执行超1500次工具调用，任务完成速度比顺序执行快4.5倍。该系统突破单模型上下文限制，采用自我组织架构，用户下达指令后自动"招聘"CEO、研究员等角色并动态分配工作流，无需人工编写脚本。适用于大规模信息搜集、长文档生成及多视角辩论等场景，通过结构性分歧避免AI群体思维。

智能体产品更新

关联讨论 1 条

推荐理由：Kimi发布Agent Swarm，支持100个AI子代理并行协作，可自动分解复杂研究任务