inclusionAI团队发布了Ming-omni-tts-tokenizer-12Hz开源项目,这是一个面向文本转语音(TTS)的通用分词器。该模型支持12Hz的高采样率,旨在提升语音合成的自然度与表现力。项目基于开源与开放科学的理念推进,致力于让人工智能技术更加普及和易得。
inclusionAI团队发布了Ming-omni-tts-tokenizer-12Hz开源项目,这是一个面向文本转语音(TTS)的通用分词器。该模型支持12Hz的高采样率,旨在提升语音合成的自然度与表现力。项目基于开源与开放科学的理念推进,致力于让人工智能技术更加普及和易得。
inclusionAI 发布了 Ming-omni-tts-0.5B,这是一个参数规模为 0.5B(5亿)的文本转语音模型。该模型旨在通过开源和开放科学的方式,推动人工智能技术的进步与普及。发布标志着在语音合成领域,一个中等规模、可公开访问的模型正式加入开源生态。
inclusionAI发布了开源文本转语音模型Ming-omni-tts-16.8B-A3B,参数量达168亿。该模型采用创新的A3B混合专家架构,在语音自然度、多语言支持和情感表现方面实现显著提升。项目遵循开源开放科学理念,旨在推动人工智能技术的民主化进程。
inclusionAI 发布了 Ring-2.5-1T,这是一个拥有 1 万亿参数规模的大型语言模型。该模型旨在通过开源和开放科学的方式,推动人工智能技术的进步与普及。此次发布标志着在构建超大规模、可访问的 AI 模型方面取得了重要进展,为更广泛的研究社区提供了强大的基础工具。
inclusionAI 发布了 Ming-flash-omni 2.0 版本。该项目致力于通过开源与开放科学的方式,推动人工智能技术的进步与民主化。新版本意味着模型能力、效率或应用范围的进一步升级,延续了其降低AI技术门槛、促进广泛可及性与协作创新的核心目标。
inclusionAI 团队发布了 LLaDA2.1-flash 模型,致力于通过开源与开放科学推动人工智能的进步与民主化。该版本在推理速度与内存效率上显著提升,响应延迟降低约40%,同时保持与前一版本相当的准确率。模型参数规模为70亿,支持多模态输入,并优化了边缘设备部署能力。这一进展旨在降低AI技术应用门槛,促进更广泛的研究与产业落地。
inclusionAI 团队发布了 UI-Venus-1.5-30B-A3B 模型。该模型参数量达到 300亿(30B),是 Venus 系列的最新版本。此次发布延续了通过开源和开放科学来推进人工智能民主化的核心目标,旨在让先进AI技术更广泛可及。新版本预计在模型性能或效率上有所提升,具体技术细节和基准测试结果有待进一步公布。
生数科技与清华大学联合开源统一世界模型Motus,该模型在性能上全面超越Pi0.5,提升幅度达40%。
MiniMax 基于产品 Talkie/Xingye 三年的观察,推出了专为角色扮演场景优化的模型 MiniMax-M2-her。团队发现,深度角色扮演的核心是“叙事精度”和“情感连接”。该模型旨在解决三大挑战:保留每个角色与世界观的“灵魂”、维持故事随时间推进的叙事活力、以及解读用户的隐式意图。其目标是提供高保真的世界体验,能主动推动故事发展以赋予张力,并动态适应用户的长期习惯,实现直觉性的偏好对齐。
开源AI公司Nous Research近日发布了编程模型NousCoder-14B。该模型基于Qwen3-14B,在LiveCodeBench v6评测中准确率达67.87%,较基础模型提升7.08个百分点。其最大特点是完全开源,不仅公开模型权重,还发布了完整的强化学习环境、基准测试套件和训练框架,使研究者能够复现其工作。模型仅用4天时间在48块NVIDIA B200 GPU上完成训练,性能可匹配或超越部分大型专有系统。此次发布正值Anthropic的Claude Code引发广泛讨论之际,凸显了AI编程助手领域的激烈竞争。
蚂蚁集团联合浙江省卫健委开源基于百灵高效 MoE 基座 Ling-flash-base-2.0 训练的医疗大模型 AntAngelMed(蚂蚁·安诊儿)。模型总参数 100B,仅 1/32 激活(6.1B)即可媲美约 40B 稠密模型性能,实现约 7 倍性能杠杆。基于 40T+ tokens 高质量语料、20T+ tokens 预训练。在 OpenAI 发起的 HealthBench 评测中登顶全球开源医疗模型第一。训练采用三阶段流程:持续预训练注入医学语料、监督微调、双阶段 GRPO 强化学习。模型已开源,可在 HuggingFace 和 ModelScope 获取。
MiniMax 发布 M2.1 模型,是对 M2 的更新。其核心升级在于系统提升了在 Rust、Java、Golang 等多语言编程任务上的性能,并达到行业领先水平。同时,模型显著增强了原生 Android 与 iOS 开发能力,以及在 Web/App 场景下的设计理解与美学表达。M2.1 优化了复合指令约束以更好地支持办公场景,响应更简洁高效。该模型在 Claude Code、Cline 等各类编程工具与 AI 智能体框架中表现出色。在衡量全栈开发能力的 VIBE 新基准上,取得了平均 88.6 分的成绩。
小米开源了 MiMo-V2-Flash 模型,定位为高效推理、代码与 Agent 基座模型,其 Agent 综合能力在全球开源模型中排名第二。
Mistral AI 发布 Mistral OCR 3,这是一款专为从各类文档中高保真提取文本与嵌入图像而设计的 OCR 模型。在表单、扫描文档、复杂表格和手写体处理等基准测试中,该模型的整体胜率达到 74%,超越了 Mistral OCR 2 以及企业级与 AI 原生 OCR 方案。作为一款体积更小的模型,其定价为行业领先的每 1,000 页 2 美元(通过 Batch API 可享 50% 折扣,即 1 美元)。开发者可通过 API(模型标识符 `mistral-ocr-2512`)进行集成,其输出为包含 HTML 表格标签的 markdown 格式,便于下游系统理解文档结构。该模型适用于高量级企业文档处理流水线。
蚂蚁集团InclusionAI团队推出扩散语言模型系列LLaDA2.0。该系列模型基于扩散架构开发,专注于语言生成任务,是团队在大型语言模型领域的最新成果。
Mistral AI 发布新一代代码模型家族 Devstral 2,包含 Devstral 2 (123B) 和 Devstral Small 2 (24B) 两个开源版本。Devstral 2 采用修改的 MIT 许可证,在 SWE-bench Verified 上达到 72.2%,成本效益比 Claude Sonnet 高达 7 倍。Devstral Small 2 (24B) 采用 Apache 2.0 许可证,可部署在消费级硬件上。两者均支持 256K 上下文窗口。同步发布由 Devstral 驱动的开源命令行工具 Mistral Vibe CLI,用于在终端实现代码的自动化探索与修改。
关联讨论 1 条Mistral AI:News(网页)Mistral AI 发布下一代 Mistral 3 系列模型。旗舰 Mistral Large 3 是稀疏 MoE 模型,拥有 41B 活跃参数和 675B 总参数,在 LMArena 开源非推理模型榜单排名第二。系列包含三款密集模型(Ministral 14B/8B/3B),在各自类别中提供最佳性价比,其中 14B 推理变体在 AIME '25 上达到 85% 准确率。所有模型以 Apache 2.0 协议开源,具备图像理解能力,现已在 Mistral AI Studio、Amazon Bedrock、Hugging Face 等多个平台上线。
关联讨论 1 条Mistral AI:News(网页)MiniMax正式开源并发布了专为AI智能体(Agent)和代码场景设计的大语言模型MiniMax M2。该模型API定价极具竞争力,仅为Claude Sonnet价格的约8%,且推理速度更快。在关键的智能体能力方面,其工具调用和深度搜索表现接近顶尖模型,编程能力在国内处于领先地位。MiniMax M2旨在解决性能、价格与速度的“不可能三角”,为构建更普及的AI智能体应用提供基础,体现了其“智能平权”的愿景。
关联讨论 2 条MiniMax:Blog(网页)HuggingFace Daily Papers(社区热门论文)Ming-VideoMAR 是一款仅解码器的自回归图像到视频生成模型,采用连续令牌统一视觉表征。它首次将时间因果性与空间双向性作为视频自回归核心原则,并提出了整合掩码生成的下一帧扩散损失。该模型首次实现了视频生成的零样本分辨率缩放,能灵活生成远超训练分辨率的视频。其在训练与推理效率上表现突出,参数量、训练数据量和GPU消耗仅为之前最佳模型Cosmos的极小比例(9.3%、0.5%和0.2%),同时在定量与定性评估中均实现超越。模型代码与检查点已开源,论文已被NeurIPS 2025接收。
inclusionAI 发布了 Ming-UniVision 的代码。该项目提出了一种创新的连续统一分词器,旨在联合处理图像理解与生成任务。该技术试图将视觉识别和图像合成整合进一个统一的框架内,通过连续化的表示来桥接两类不同性质的视觉任务,有望提升多模态模型的效率和协同能力。此次代码开源意味着相关方法将可供社区研究、复现与应用。
研究团队发布了Ming-UniAudio,这是一个基于统一表示的大语言模型,专门用于语音任务。该模型能够联合处理语音的理解、生成与编辑,实现了多种语音功能的集成。它通过统一的框架,将传统上分离的语音识别、合成和修改任务整合进单一系统,提升了处理效率与协同能力。
inclusionAI团队推出了MingTok-Audio,这是首个能有效融合语义与声学特征的统一连续语音分词器,适用于语音理解与生成任务。该模型基于纯因果Transformer架构,去除了卷积层以提升效率,并采用VAE进行连续特征建模以实现高质量音频重建。在语音重建性能上,其帧率为50,在SEED-ZH和SEED-EN测试集上的PESQ分别达到4.21和4.04,SIM为0.96,STOI为0.98,显著优于对比模型。在下游ASR任务中,其在多个方言数据集上取得了更低的错误率,例如在Hunan Minnan数据集上WER低至9.80%。
InclusionAI 发布并开源了 Ring-V2,这是一个基于混合专家架构的推理大语言模型。该模型采用 MoE 设计,旨在提升复杂推理任务的性能。作为开源项目,Ring-V2 可供研究者和开发者直接使用与进一步探索。
DeepSeek-V3.1 版本更新发布,主要包括修复若干已知问题,Agent 能力进一步提升。这是本次版本更新的核心内容,旨在优化用户体验。
小米开源其首个原生端到端语音大模型 Xiaomi-MiMo-Audio,被定位为语音开源领域的“LLaMA 时刻”,对标此前语音闭源领域的“GPT-3 时刻”。该模型具体参数、评测分数及开源协议尚未披露。
InclusionAI 发布并开源了其混合专家大语言模型 Ling-V2。该模型采用 MoE 架构,旨在通过更高效的参数利用来提升模型性能。此次开源意味着研究者和开发者可以自由访问、使用并基于此模型进行进一步的创新与开发。
DeepSeek-V3.1 以混合推理模型形式开源,用户可一键切换思考模式,同时 Agent 智能体支持性能得到增强。
GPT-5 现已登陆 OpenRouter 平台,具备长上下文能力,专为复杂推理和代码工作流设计。
OpenRouter 平台已发布 GPT-5,该模型支持长上下文,专为复杂推理与代码工作流构建。
(1/n) 🚀 With FastVideo, you can now generate a 5-second video in 5 seconds on a single H200 GPU! Introducing FastWan se...
Mistral AI 发布了 Codestral 25.08 及其完整的企业编码解决方案栈。该方案旨在通过一个集成的系统,解决企业在采用 AI 编程工具时遇到的核心障碍,如部署限制、定制化不足和架构分散。新版 Codestral 25.08 的性能有所提升,其代码接受完成率提高30%,保留代码增加10%,失控生成减少50%。方案中的 Codestral Embed 是专为代码设计的嵌入向量模型,在代码检索基准测试中性能优于其他模型。整个解决方案支持部署在云端、VPC 或本地环境。
Mistral AI 发布了开源语音理解模型 Voxtral,提供 24B 和 3B 两个参数版本,均基于 Apache 2.0 协议开放。模型支持 32k token 上下文窗口,可处理最长 30 分钟的音频转录或 40 分钟的内容理解。其 API 提供了针对转录优化的 Voxtral Mini Transcribe 版本,在成本和延迟效率上表现突出。根据基准测试,Voxtral 在英语短文本及 Mozilla Common Voice 等多项指标上超越了 OpenAI Whisper 与 ElevenLabs Scribe,实现了同等性能下价格不到同类闭源 API 一半的优势。