AIHOT

全部动态

全部一手资讯 X 论文

2月11日周三

2月10日周二

2月9日周一

2月6日周五

1月28日周三

1月27日周二

1月8日周四

1月7日周三

12月23日周二

12月18日周四

12月17日周三

12月11日周四

12月9日周二

12月2日周二

12月1日周一

10月27日周一

10月10日周五

9月30日周二

9月29日周一

9月22日周一

9月19日周五

9月4日周四

8月21日周四

8月8日周五

8月7日周四

8月5日周二

7月30日周三

7月15日周二

2月11日

11:12

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/Ming-omni-tts-tokenizer-12Hz

inclusionAI团队发布了Ming-omni-tts-tokenizer-12Hz开源项目，这是一个面向文本转语音（TTS）的通用分词器。该模型支持12Hz的高采样率，旨在提升语音合成的自然度与表现力。项目基于开源与开放科学的理念推进，致力于让人工智能技术更加普及和易得。

开源生态模型发布语音

11:10

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/Ming-omni-tts-0.5B

inclusionAI 发布了 Ming-omni-tts-0.5B，这是一个参数规模为 0.5B（5亿）的文本转语音模型。该模型旨在通过开源和开放科学的方式，推动人工智能技术的进步与普及。发布标志着在语音合成领域，一个中等规模、可公开访问的模型正式加入开源生态。

开源生态模型发布语音

10:49

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/Ming-omni-tts-16.8B-A3B

inclusionAI发布了开源文本转语音模型Ming-omni-tts-16.8B-A3B，参数量达168亿。该模型采用创新的A3B混合专家架构，在语音自然度、多语言支持和情感表现方面实现显著提升。项目遵循开源开放科学理念，旨在推动人工智能技术的民主化进程。

开源生态模型发布语音

2月10日

20:45

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/Ring-2.5-1T

inclusionAI 发布了 Ring-2.5-1T，这是一个拥有 1 万亿参数规模的大型语言模型。该模型旨在通过开源和开放科学的方式，推动人工智能技术的进步与普及。此次发布标志着在构建超大规模、可访问的 AI 模型方面取得了重要进展，为更广泛的研究社区提供了强大的基础工具。

开源生态推理模型发布

14:57

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/Ming-flash-omni-2.0

inclusionAI 发布了 Ming-flash-omni 2.0 版本。该项目致力于通过开源与开放科学的方式，推动人工智能技术的进步与民主化。新版本意味着模型能力、效率或应用范围的进一步升级，延续了其降低AI技术门槛、促进广泛可及性与协作创新的核心目标。

多模态开源生态模型发布

11:39

公众号：腾讯混元

首个产业级2Bit量化新突破，腾讯混元开源0.3B端侧模型

腾讯混元开源0.3B端侧模型，实现首个产业级2Bit量化突破。在真实端侧设备上，相比原始精度模型，生成速度提升2—3倍。

开源/仓库模型发布端侧

2月9日

18:47

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/LLaDA2.1-flash

inclusionAI 团队发布了 LLaDA2.1-flash 模型，致力于通过开源与开放科学推动人工智能的进步与民主化。该版本在推理速度与内存效率上显著提升，响应延迟降低约40%，同时保持与前一版本相当的准确率。模型参数规模为70亿，支持多模态输入，并优化了边缘设备部署能力。这一进展旨在降低AI技术应用门槛，促进更广泛的研究与产业落地。

开源/仓库模型发布端侧

15:55

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/UI-Venus-1.5-30B-A3B 发布

inclusionAI 团队发布了 UI-Venus-1.5-30B-A3B 模型。该模型参数量达到 300亿（30B），是 Venus 系列的最新版本。此次发布延续了通过开源和开放科学来推进人工智能民主化的核心目标，旨在让先进AI技术更广泛可及。新版本预计在模型性能或效率上有所提升，具体技术细节和基准测试结果有待进一步公布。

开源/仓库模型发布端侧

2月6日

18:00

公众号：生数科技（Vidu·视频）

生数科技携手清华大学开源统一世界模型Motus，性能全面超越Pi0.5 40%

生数科技与清华大学联合开源统一世界模型Motus，该模型在性能上全面超越Pi0.5，提升幅度达40%。

具身智能开源生态模型发布

1月28日

15:51

公众号：腾讯混元

10亿红包后，我们打算开源这个800亿的模型

图像生成开源生态模型发布

1月27日

19:11

公众号：月之暗面（Kimi）

精选61

Kimi 发布并开源 K2.5 模型，带来全新视觉理解、代码和 Agent 集群能力

智能体多模态开源/仓库模型发布

关联讨论 1 条

推荐理由：Kimi K2.5把视觉理解和Agent集群能力打包开源，国内模型里比较早做这个组合的，虽然参数规模争议不小，但对想搭多模态Agent的团队是个可用的起点。

00:00

MiniMax：Blog（网页）

MiniMax-M2-her 技术解析：专为角色扮演打造的 AI 智能体

MiniMax 基于产品 Talkie/Xingye 三年的观察，推出了专为角色扮演场景优化的模型 MiniMax-M2-her。团队发现，深度角色扮演的核心是“叙事精度”和“情感连接”。该模型旨在解决三大挑战：保留每个角色与世界观的“灵魂”、维持故事随时间推进的叙事活力、以及解读用户的隐式意图。其目标是提供高保真的世界体验，能主动推动故事发展以赋予张力，并动态适应用户的长期习惯，实现直觉性的偏好对齐。

智能体模型发布评测/基准

1月8日

04:00

VentureBeat：AI（RSS）

Nous Research发布开源编程模型NousCoder-14B，直面Claude Code竞争

开源AI公司Nous Research近日发布了编程模型NousCoder-14B。该模型基于Qwen3-14B，在LiveCodeBench v6评测中准确率达67.87%，较基础模型提升7.08个百分点。其最大特点是完全开源，不仅公开模型权重，还发布了完整的强化学习环境、基准测试套件和训练框架，使研究者能够复现其工作。模型仅用4天时间在48块NVIDIA B200 GPU上完成训练，性能可匹配或超越部分大型专有系统。此次发布正值Anthropic的Claude Code引发广泛讨论之际，凸显了AI编程助手领域的激烈竞争。

开源/仓库模型发布编码

1月7日

12:07

公众号：蚂蚁百灵（Ling）

蚂蚁·安诊儿开源：基于百灵的医疗大模型

蚂蚁集团联合浙江省卫健委开源基于百灵高效 MoE 基座 Ling-flash-base-2.0 训练的医疗大模型 AntAngelMed（蚂蚁·安诊儿）。模型总参数 100B，仅 1/32 激活（6.1B）即可媲美约 40B 稠密模型性能，实现约 7 倍性能杠杆。基于 40T+ tokens 高质量语料、20T+ tokens 预训练。在 OpenAI 发起的 HealthBench 评测中登顶全球开源医疗模型第一。训练采用三阶段流程：持续预训练注入医学语料、监督微调、双阶段 GRPO 强化学习。模型已开源，可在 HuggingFace 和 ModelScope 获取。

开源生态模型发布

12月23日

00:00

MiniMax：Blog（网页）

MiniMax M2.1：显著增强多语言编程能力，专为现实世界复杂任务打造

MiniMax 发布 M2.1 模型，是对 M2 的更新。其核心升级在于系统提升了在 Rust、Java、Golang 等多语言编程任务上的性能，并达到行业领先水平。同时，模型显著增强了原生 Android 与 iOS 开发能力，以及在 Web/App 场景下的设计理解与美学表达。M2.1 优化了复合指令约束以更好地支持办公场景，响应更简洁高效。该模型在 Claude Code、Cline 等各类编程工具与 AI 智能体框架中表现出色。在衡量全栈开发能力的 VIBE 新基准上，取得了平均 88.6 分的成绩。

开源/仓库模型发布编码

12月18日

16:11

公众号：豆包（字节）

豆包大模型1.8发布，Seedance模型同步升级

字节跳动发布豆包大模型1.8版本，同步升级Seedance模型。

多模态模型发布

12月17日

08:01

公众号：小米 MiMo

小米 MiMo-V2-Flash 开源：高效推理、代码与 Agent 基座模型

小米开源了 MiMo-V2-Flash 模型，定位为高效推理、代码与 Agent 基座模型，其 Agent 综合能力在全球开源模型中排名第二。

智能体开源生态模型发布

00:00

Mistral AI：News（网页）

Mistral OCR 3 发布

Mistral AI 发布 Mistral OCR 3，这是一款专为从各类文档中高保真提取文本与嵌入图像而设计的 OCR 模型。在表单、扫描文档、复杂表格和手写体处理等基准测试中，该模型的整体胜率达到 74%，超越了 Mistral OCR 2 以及企业级与 AI 原生 OCR 方案。作为一款体积更小的模型，其定价为行业领先的每 1,000 页 2 美元（通过 Batch API 可享 50% 折扣，即 1 美元）。开发者可通过 API（模型标识符 `mistral-ocr-2512`）进行集成，其输出为包含 HTML 表格标签的 markdown 格式，便于下游系统理解文档结构。该模型适用于高量级企业文档处理流水线。

多模态模型发布

12月11日

23:36

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/LLaDA2.X

蚂蚁集团InclusionAI团队推出扩散语言模型系列LLaDA2.0。该系列模型基于扩散架构开发，专注于语言生成任务，是团队在大型语言模型领域的最新成果。

开源/仓库数据/训练模型发布

12月9日

00:00

Mistral AI：News（网页）

Mistral AI 发布下一代代码模型 Devstral 2 及命令行工具 Mistral Vibe CLI

Mistral AI 发布新一代代码模型家族 Devstral 2，包含 Devstral 2 (123B) 和 Devstral Small 2 (24B) 两个开源版本。Devstral 2 采用修改的 MIT 许可证，在 SWE-bench Verified 上达到 72.2%，成本效益比 Claude Sonnet 高达 7 倍。Devstral Small 2 (24B) 采用 Apache 2.0 许可证，可部署在消费级硬件上。两者均支持 256K 上下文窗口。同步发布由 Devstral 驱动的开源命令行工具 Mistral Vibe CLI，用于在终端实现代码的自动化探索与修改。

开源/仓库模型发布编码

关联讨论 1 条

12月2日

00:00

Mistral AI：News（网页）

Mistral AI 发布 Mistral 3 系列模型（2025年12月2日）

Mistral AI 发布下一代 Mistral 3 系列模型。旗舰 Mistral Large 3 是稀疏 MoE 模型，拥有 41B 活跃参数和 675B 总参数，在 LMArena 开源非推理模型榜单排名第二。系列包含三款密集模型（Ministral 14B/8B/3B），在各自类别中提供最佳性价比，其中 14B 推理变体在 AIME '25 上达到 85% 准确率。所有模型以 Apache 2.0 协议开源，具备图像理解能力，现已在 Mistral AI Studio、Amazon Bedrock、Hugging Face 等多个平台上线。

多模态推理模型发布

关联讨论 1 条

12月1日

18:52

公众号：DeepSeek（深度求索）

精选66

DeepSeek V3.2 正式版：强化 Agent 能力，融入思考推理

智能体DeepSeek推理模型发布

关联讨论 1 条

推荐理由：半年前的这版更新，把 Agent 和思考推理揉进了开源模型，回头看算是 DeepSeek 在智能体能力上的关键一刀，做 Agent 开发的至今绕不开它。

10月27日

00:00

MiniMax：Blog（网页）

精选62

MiniMax M2与AI智能体：简中见巧

MiniMax正式开源并发布了专为AI智能体（Agent）和代码场景设计的大语言模型MiniMax M2。该模型API定价极具竞争力，仅为Claude Sonnet价格的约8%，且推理速度更快。在关键的智能体能力方面，其工具调用和深度搜索表现接近顶尖模型，编程能力在国内处于领先地位。MiniMax M2旨在解决性能、价格与速度的“不可能三角”，为构建更普及的AI智能体应用提供基础，体现了其“智能平权”的愿景。

智能体开源/仓库模型发布编码

关联讨论 2 条

推荐理由：MiniMax M2 把 Agent 模型的价格打到了 Claude 的 8%，速度还翻倍，开源权重直接可用，做 Agent 的开发者值得上手试试。

10月10日

10:20

蚂蚁 inclusionAI：GitHub 新仓库

精选66

Ming-VideoMAR：基于连续令牌的自回归视频生成模型

Ming-VideoMAR 是一款仅解码器的自回归图像到视频生成模型，采用连续令牌统一视觉表征。它首次将时间因果性与空间双向性作为视频自回归核心原则，并提出了整合掩码生成的下一帧扩散损失。该模型首次实现了视频生成的零样本分辨率缩放，能灵活生成远超训练分辨率的视频。其在训练与推理效率上表现突出，参数量、训练数据量和GPU消耗仅为之前最佳模型Cosmos的极小比例（9.3%、0.5%和0.2%），同时在定量与定性评估中均实现超越。模型代码与检查点已开源，论文已被NeurIPS 2025接收。

开源/仓库数据/训练模型发布视频

推荐理由：蚂蚁把自回归视频生成的训练成本砍到 Cosmos 的 0.2% 还能赢，这个效率信号比分数本身更值得关注，做视频生成的团队该认真看看它的课程学习和渐进分辨率策略。

9月30日

19:36

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/Ming-UniVision

inclusionAI 发布了 Ming-UniVision 的代码。该项目提出了一种创新的连续统一分词器，旨在联合处理图像理解与生成任务。该技术试图将视觉识别和图像合成整合进一个统一的框架内，通过连续化的表示来桥接两类不同性质的视觉任务，有望提升多模态模型的效率和协同能力。此次代码开源意味着相关方法将可供社区研究、复现与应用。

图像生成多模态模型发布

9月29日

18:01

公众号：DeepSeek（深度求索）

DeepSeek-V3.2-Exp 发布，训练推理提效，API 同步降价

DeepSeek推理模型发布

关联讨论 1 条

11:23

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/Ming-UniAudio

研究团队发布了Ming-UniAudio，这是一个基于统一表示的大语言模型，专门用于语音任务。该模型能够联合处理语音的理解、生成与编辑，实现了多种语音功能的集成。它通过统一的框架，将传统上分离的语音识别、合成和修改任务整合进单一系统，提升了处理效率与协同能力。

开源生态模型发布语音

11:19

蚂蚁 inclusionAI：GitHub 新仓库

精选57

inclusionAI发布MingTok-Audio：首个统一连续语音分词器

inclusionAI团队推出了MingTok-Audio，这是首个能有效融合语义与声学特征的统一连续语音分词器，适用于语音理解与生成任务。该模型基于纯因果Transformer架构，去除了卷积层以提升效率，并采用VAE进行连续特征建模以实现高质量音频重建。在语音重建性能上，其帧率为50，在SEED-ZH和SEED-EN测试集上的PESQ分别达到4.21和4.04，SIM为0.96，STOI为0.98，显著优于对比模型。在下游ASR任务中，其在多个方言数据集上取得了更低的错误率，例如在Hunan Minnan数据集上WER低至9.80%。

开源/仓库模型发布语音

推荐理由：蚂蚁把语音 tokenizer 做到了 PESQ 4.2 的离谱分数，比第二名翻了快一倍，做语音理解和生成的团队值得拿这个当新 baseline 跑一下。

9月22日

23:49

蚂蚁 inclusionAI：GitHub 新仓库

InclusionAI/Ring-V2

InclusionAI 发布并开源了 Ring-V2，这是一个基于混合专家架构的推理大语言模型。该模型采用 MoE 设计，旨在提升复杂推理任务的性能。作为开源项目，Ring-V2 可供研究者和开发者直接使用与进一步探索。

开源生态推理模型发布

21:15

公众号：DeepSeek（深度求索）

DeepSeek-V3.1 版本更新

DeepSeek-V3.1 版本更新发布，主要包括修复若干已知问题，Agent 能力进一步提升。这是本次版本更新的核心内容，旨在优化用户体验。

智能体DeepSeek模型发布

9月19日

09:10

公众号：小米 MiMo

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

小米开源其首个原生端到端语音大模型 Xiaomi-MiMo-Audio，被定位为语音开源领域的“LLaMA 时刻”，对标此前语音闭源领域的“GPT-3 时刻”。该模型具体参数、评测分数及开源协议尚未披露。

多模态模型发布语音

9月4日

14:54

蚂蚁 inclusionAI：GitHub 新仓库

InclusionAI 开源 MoE 大语言模型 Ling-V2

InclusionAI 发布并开源了其混合专家大语言模型 Ling-V2。该模型采用 MoE 架构，旨在通过更高效的参数利用来提升模型性能。此次开源意味着研究者和开发者可以自由访问、使用并基于此模型进行进一步的创新与开发。

开源/仓库模型发布端侧

8月21日

14:25

公众号：DeepSeek（深度求索）

精选63

DeepSeek-V3.1 发布，迈向 Agent 时代的第一步

DeepSeek-V3.1 以混合推理模型形式开源，用户可一键切换思考模式，同时 Agent 智能体支持性能得到增强。

智能体DeepSeek开源生态推理

推荐理由：DeepSeek V3.1 不是小修小补，混合推理和 Agent 支持让它从‘对话模型’转向‘行动模型’，开源这一步让 Agent 开发有了新底座。

8月8日

20:11

公众号：小米 MiMo

小米发布 MiMo-VL-7B-2508 多模态模型</br>summary_zh：小米推出了 MiMo-VL-7B-2508 多模态模型。

多模态推理模型发布

8月7日

08:00

OpenRouter：Announcements（RSS）

精选68

GPT-5 已在 OpenRouter 上线

GPT-5 现已登陆 OpenRouter 平台，具备长上下文能力，专为复杂推理和代码工作流设计。

OpenAI推理模型发布编码

推荐理由：GPT-5 是 AI 史上的分水岭，长上下文和推理能力直接催生了一整代 agent 工具，哪怕过了快一年回头看，仍然值得搞清楚它改变了什么。

08:00

OpenRouter：Announcements（RSS）

精选68

GPT-5 现已上线

OpenRouter 平台已发布 GPT-5，该模型支持长上下文，专为复杂推理与代码工作流构建。

OpenAI推理模型发布编码

推荐理由：这是 GPT-5 首次以大上下文和推理能力亮相，1M token 上下文让 code agent 直接从 demo 变成可用，现在看虽是旧闻，但节点意义不减。

05:04

Hao AI Lab@haoailab

精选81

【Lmgame Bench】 🔥 OpenAI 刚刚发布了两款开放权重的推理模型：gpt-oss-120B（约1170亿参数）和 gpt-oss-20B（约210亿参数），它们是自 GPT-2 以来首批开放权重的 OpenAI 模型。我们在 Lmgame Bench 中对两者进行了测试，涵盖4款互动游戏： 🧱 推箱子 | 🟦 俄罗斯方块 | 🔢 2048 | 🍬 糖果传奇以下是它们的排名（满分25分）： → gpt-oss-120b → 第12名 → gpt-oss-20b → 第13名

OpenAI开源/仓库推理模型发布

推荐理由：OpenAI 终于开源了，这是 GPT-2 之后第一次放开权重，120B 和 20B 两个尺寸直接对标 Llama 和 Qwen 的开源生态。虽然游戏 benchmark 排名不算惊艳，但信号本身比分数重要得多，所有基于开源模型做产品的团队都得重新评估选型。

8月5日

05:25

Hao AI Lab@haoailab

精选67

FastVideo团队推出FastWan系列快速视频生成模型。该模型采用名为"稀疏蒸馏"的新训练方法，能将视频去噪速度提升70倍。在单块H200 GPU上，仅需5秒即可生成一段5秒的视频。团队提供了在线演示，并依据Apache-2.0许可证完全开源了模型、代码和数据。

Hao AI Lab: (1/n) 🚀 With FastVideo, you can now generate a 5-second video in 5 seconds on a single H200 GPU! Introducing FastWan se...

开源生态模型发布视频部署/工程

推荐理由：视频生成终于从「等一分钟」进化到「实时出片」，FastWan 用稀疏蒸馏把去噪压了 70 倍，单卡 H200 五秒出五秒视频，做短视频工具和实时交互产品的团队该认真看看这个开源方案。

7月30日

00:00

Mistral AI：News（网页）

发布 Codestral 25.08 及 Mistral 完整企业编程方案栈

Mistral AI 发布了 Codestral 25.08 及其完整的企业编码解决方案栈。该方案旨在通过一个集成的系统，解决企业在采用 AI 编程工具时遇到的核心障碍，如部署限制、定制化不足和架构分散。新版 Codestral 25.08 的性能有所提升，其代码接受完成率提高30%，保留代码增加10%，失控生成减少50%。方案中的 Codestral Embed 是专为代码设计的嵌入向量模型，在代码检索基准测试中性能优于其他模型。整个解决方案支持部署在云端、VPC 或本地环境。

开源生态模型发布编码

7月15日

00:00

Mistral AI：News（网页）

Mistral AI 发布 Voxtral 开源语音理解模型

Mistral AI 发布了开源语音理解模型 Voxtral，提供 24B 和 3B 两个参数版本，均基于 Apache 2.0 协议开放。模型支持 32k token 上下文窗口，可处理最长 30 分钟的音频转录或 40 分钟的内容理解。其 API 提供了针对转录优化的 Voxtral Mini Transcribe 版本，在成本和延迟效率上表现突出。根据基准测试，Voxtral 在英语短文本及 Mozilla Common Voice 等多项指标上超越了 OpenAI Whisper 与 ElevenLabs Scribe，实现了同等性能下价格不到同类闭源 API 一半的优势。

开源生态模型发布语音