AIHOT

MiniMax (official)@MiniMax_AI

精选78

Mem0 是 MiniMax M3 的官方启动合作伙伴！ M3 的 1M token 上下文窗口 + @mem0ai 的记忆层 = 真正记住的 AI 应用。构建具有持久记忆的个性化 AI 智能体，现在启动周内 M3 享五折优惠。开始使用 Minimax → https：//platform.minimax.io/docs/guides/models-intro 注册 mem0 → http：//app.mem0.ai/？utm_source=minimax_x_post

智能体MCP/工具模型发布

关联讨论 11 条

推荐理由：MiniMax 把 1M 上下文和 Mem0 记忆层绑在一起，不是单纯秀参数，是给 Agent 装了个硬盘，做长期记忆产品的该关注一下。

Greg Brockman@gdb

GPT-Rosalind 重大升级，药物发现、分析、设计和实验工作流的智能大幅提升：

OpenAI: We're bringing new capabilities to GPT-Rosalind, a model series purpose-built for life sciences research at enterprise s...

智能体OpenAI模型发布

fofr@fofrAI

Ideogram v4 表现出色，开放权重。图像清晰，感觉焕然一新。

fofr: Ideogram v4 is really good, and open weights. Images are crisp and feel fresh.

图像生成开源生态模型发布

MiniMax (official)@MiniMax_AI

@mem0ai 是 MiniMax M3 的官方发布合作伙伴！ M3 的百万 token 上下文窗口 + @mem0ai 的记忆层 = 真正能记住的 AI 应用。构建带有持久记忆的个性化 AI 智能体，发布周期间 M3 可享 5 折优惠。开始使用 Minimax → https：//platform.minimax.io/docs/guides/models-intro 注册 mem0 → http：//app.mem0.ai/？utm_source=minimax_x_post

智能体MCP/工具模型发布

关联讨论 11 条

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选71

GPT-Rosalind 新功能发布

GPT-Rosalind 在生命科学研究领域推出新功能，增强了生物推理、药物化学专业知识、基因组学分析以及实验工作流处理能力。

OpenAI推理模型发布

关联讨论 2 条

推荐理由：GPT-Rosalind 的这次更新把生物推理和药物化学能力做实了，对生命科学领域的人来说，可能比通用模型升级更关键。

The Decoder：AI News（RSS）

Google DeepMind 发布 Gemma 4 12B：开源多模态模型，16GB 内存笔记本即可运行

Gemma 4 12B 是 Google DeepMind 推出的开源模型，原生支持处理文本、图像和音频，仅需 16GB RAM 即可在笔记本上运行。在基准测试中几乎追平两倍参数规模的 26B 模型，采用 Apache 2.0 许可证，可用于商业用途。

Google多模态开源生态模型发布

关联讨论 4 条

Sundar Pichai@sundarpichai

精选73

Gemma 4 系列累计下载量突破1.5亿次，Google随之推出新成员Gemma 4 12B。该模型仅12B参数，可在16GB VRAM笔记本上本地运行，兼顾尺寸与性能，支持多步推理和智能体工作流。采用Apache 2.0开源许可，供社区使用。

Demis Hassabis: Celebrating the milestone of a massive 150+ million downloads of Gemma 4 with the release of the new Gemma 4 12B model! ...

Google开源生态模型发布端侧

关联讨论 1 条

推荐理由：Gemma 4 12B 把多步推理塞进笔记本能跑的尺寸，Apache 2.0 开源，对想做本地 agent 的开发者是实实在在的新弹药，小模型的可用性正在逼近临界点。

fofr@fofrAI

Ideogram v4 真的很好，而且开源权重。图像清新锐利，令人耳目一新。

Ideogram: Introducing Ideogram 4.0: the best open image model in the world. Think it. Make it. Own it. Download the weights, fine-...

图像生成多模态开源/仓库模型发布

Ars Technica：AI（RSS）

Google 新发布的 Gemma 4 12B 模型可在任何 16GB 内存笔记本电脑上运行

Gemma 4 12B 采用新的编码方案与 token 预测，实现了超越自身参数规模的性能表现。该模型专为在 16GB RAM 的笔记本电脑上本地运行而设计。

Google开源生态模型发布端侧

Chubby♨️@kimmonismus

Google 开源 Gemma 4 12B：无编码器架构，本地 16GB VRAM 运行

Google 开源 Gemma 4 12B（密集参数，Apache 2.0 许可），采用全新无编码器架构：移除独立的视觉（550M 参数、27 层 Transformer）和音频（300M 参数、12 层 Conformer）编码器。视觉改为 35M 嵌入层（约缩小 15 倍），音频以 40ms 帧直接投影到大语言模型。模型在 16GB VRAM 笔记本上即可运行智能体推理、视觉和音频任务，性能接近 26B 参数模型。共享权重支持一次 LoRA 调优覆盖视觉、音频和文本。

Google: Today we're introducing Gemma 4 12B - our latest open model that brings advanced agentic reasoning, vision and audio dir...

Google多模态开源生态模型发布

DogeDesigner@cb_doge

Grok Imagine 1.5 预览版已发布，即日起可在 API 中体验。SpaceXAI 正在发力。

Grok: Grok @Imagine 1.5 Preview is here Try it today in the API: http://x.ai/api/imagine

xAI图像生成模型发布

关联讨论 1 条

MarkTechPost（RSS）

Google DeepMind 发布 Gemma 4 12B：无需编码器的多模态模型，支持原生音频，可在16GB笔记本上运行

Gemma 4 12B 是 Google DeepMind 发布的无需编码器的多模态模型，直接将视觉和音频输入大语言模型骨干，支持原生音频，可在 16 GB 笔记本电脑上本地运行，采用 Apache 2.0 开源许可。

Google多模态开源/仓库模型发布

The Decoder：AI News（RSS）

Ideogram 4.0 发布：开放权重模型，原生2K分辨率与改进文本渲染

Ideogram 发布 4.0 版本文本到图像模型，采用开放权重，支持原生2K分辨率、边界框控制和改进的文本渲染。在 DesignArena 排行榜上，该模型位列所有开放模型之首；仅 OpenAI 和 Google 的闭源系统得分更高。商业使用需购买付费许可证。

图像生成开源生态模型发布

Demis Hassabis@demishassabis

精选74

Demis Hassabis 宣布 Gemma 4 系列下载量突破 1.5 亿，并正式发布新版 Gemma 4 12B 模型。该模型是一个统一的、无编码器的多模态模型，兼具边缘端效率与高级推理能力。尽管参数规模仅为 12B，但性能强劲，且足够小巧，可在仅需 16GB VRAM 的笔记本上本地运行。采用 Apache 2.0 开源许可证，方便开发者自由构建。

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google开源生态模型发布端侧

关联讨论 1 条

推荐理由：Gemma 4 12B 用 Apache 2.0 许可把多模态模型压进笔记本，16GB 显存就能跑，端侧智能的性价比又一次被 Google 拉高，做本地推理的可以马上试试。

AYi@AYi_AInotes

世界最好的开源图像模型，仅次于GPT-image-2和Nanobanana2

Ideogram: Introducing Ideogram 4.0: the best open image model in the world. Think it. Make it. Own it. Download the weights, fine-...

图像生成开源生态模型发布

Krea@krea_ai

精选74

介绍 Ideogram v4.0。原生 2K 分辨率，出色的文字渲染，支持 JSON 提示词。立即在 Krea 中体验。

图像生成模型发布

关联讨论 1 条

推荐理由：图像生成模型的军备竞赛又添一员，Ideogram v4.0的2k原生分辨率和JSON prompt对接工作流，做设计生成的同学可以直接上手试试。

elvis@omarsar0

Miso One 8B开源情感TTS模型发布

Miso Labs 开源 8B 参数文本转语音模型 Miso One，专注于生成富有情感的表达，如温暖、犹豫或兴奋，告别机械音。模型专为短视频、播客和教育内容等旁白场景设计，推理延迟仅 110 毫秒，快于人类反应时间。模型权重完全开源，支持自托管、微调和数据私有化，API 即将开放。

Aoden Teo: Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...

开源生态模型发布语音

Hacker News 热门（buzzing.cc 中文翻译）

Gemma 4 12B：一种统一的、无需编码器的多模态模型

Gemma 4 12B 是 Google 发布的一款统一架构、无需独立视觉编码器的多模态大语言模型（LLM）。该模型直接处理图像与文本输入，无需传统视觉编码器，简化了多模态推理流程。基于 12B 参数规模，Gemma 4 12B 面向开发者工具生态开放。目前其具体 benchmark 分数、上下文窗口、价格及开源/API 可用性等细节尚未披露。

Google多模态模型发布

关联讨论 4 条

🚨 AI News | TestingCatalog@testingcatalog

Ideogram 4.0 开源图像生成模型发布，在 LM Arena 文生图类别排名第 8，Design Arena 第 5，评分 1204，成为该领域排名最高的开放模型，性能接近 Nano Banana Pro。主要特性包括密集准确的文本渲染、原生 2K 分辨率、活动背景透明度及精确布局控制。

Arena.ai: New open model Ideogram-4.0-Quality has landed at #8 in the Text-to-Image Arena. This makes the new model by @ideogram_a...

图像生成开源生态模型发布

Chubby♨️@kimmonismus

精选75

Miso One 正式发布，一个 8B 参数的开源权重语音模型（TTS），旨在模拟真实人类朗读的温暖与节奏。它支持一次语音克隆（只需短样本），推理延迟仅 110ms。模型权重已开源至 GitHub，无需 API 即可自托管，音频数据不离开本地。API 访问即将推出。演示已上线，可先试听再克隆仓库。

Aoden Teo: Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...

开源生态模型发布语音

推荐理由：Miso One这种8B参数、110ms延迟的情感TTS模型，直接把声音克隆和自托管做成了开箱即用，做语音产品的可以马上 clone 一个玩玩，比等 API 爽多了。

Google AI Developers@googleaidevs

Google推出Gemma 4 12B无编码器多模态模型

Google发布Gemma 4 12B，一款无编码器的统一多模态模型，可直接将视觉和音频输入送入LLM主干，无需传统多模态编码器。该模型填补了移动端E4B模型与26B MoE模型之间的空白，封装前沿推理与原生音频能力，采用Apache 2.0许可。在16GB VRAM下即可本地运行复杂多步骤智能体工作流，性能接近26B模型。

Google多模态开源生态模型发布

关联讨论 4 条

Google Developers Blog（RSS）

精选78

Gemma 4 12B：开发者指南

Gemma 4 12B 是一款密集多模态模型，专为消费级设备上的高性能本地 AI 执行而设计。其采用新颖的无编码器架构，绕过传统视觉和音频编码器，将多模态数据直接输入大语言模型主干。

Google多模态模型发布端侧

关联讨论 4 条

推荐理由：Google 把多模态模型直接塞进消费级设备，靠的不再是缩水而是架构层面的创新。12B 放在本地跑，这次玩法变了。

SenseTime@SenseTime_AI

精选73

商汤开源SenseNova U1：视觉理解推理生成一体模型

商汤（SenseTime）开源SenseNova U1模型，宣称实现“看、思考、创作”一体——从一张普通运动鞋图片直接生成营销视觉效果。该模型代表了架构上的范式转变。用户可通过SenseNova Studio、HuggingFace和GitHub尝试使用。

GitHubHugging Face图像生成多模态

关联讨论 1 条

推荐理由：商汤把理解、推理、创作塞进一个模型，而且直接开源，做视觉营销的可以不用再拼凑工具链了。

The Decoder：AI News（RSS）

Build 2026：Microsoft 在图像生成上超越 Google，在推理上仍追赶

微软在 Build 2026 大会上发布七款自研新 AI 模型，其中包括其首款推理模型。公司还推出了一种新的调优方法和一个自主后台 AI 智能体。

Microsoft图像生成推理模型发布

关联讨论 1 条

MarkTechPost（RSS）

NVIDIA发布Cosmos 3：统一物理推理、世界生成与动作生成的双塔混合Transformer基础模型

NVIDIA发布Cosmos 3，这是一款开放的全模态世界模型。该模型采用双塔混合Transformer架构，统一了物理推理、世界生成与动作生成能力，结合了自回归VLM推理器与扩散生成器，旨在赋能物理AI。

具身智能多模态开源生态模型发布

Alibaba Cloud@alibaba_cloud

Qwen：面向智能体时代的基座模型，由通义大模型BU多模态交互负责人Steven Hoi介绍。 Qwen3.7在推理方面取得重大突破，全面升级了工具使用、编码和长程任务的原生智能体能力。

智能体推理模型发布

关联讨论 10 条

Berryxia.AI@berryxia

微软在Build大会发布七款MAI新模型

微软在Build大会宣布推出七个全新的MAI模型家族。该家族以“干净数据血统”从零开始训练，旨在任务专精并能无缝协作。其中，MAI-Code-1-Flash在SWE-Bench Verified上得分71.6，比Claude Haiku 4.5高出5分，并能节省60% token。MAI-Transcribe-1.5处理一小时音频仅需15秒，在43种语言上实现速度与准度领先。微软此次发布旨在展示其从零构建、专精且能协同工作的模型发展路径。

Microsoft AI: Seven new models launching at Build: let's go! Reasoning. Code. Image. Transcribe. Voice. Built from scratch on a clean ...

Microsoft图像生成模型发布编码

Berryxia.AI@berryxia

微软MAI-Image-2.5在图像编辑评测中位列第二

微软发布新模型MAI-Image-2.5，并在Image Edit Arena（单图编辑）评测中取得第二名，得分为1401。根据评测数据，该模型分数比Nano Banana 2、Grok Imagine Image Quality和ChatGPT-Image-Latest-High Fidelity高出10分。尽管取得了进步，但评测显示当前的第一名仍是GPT-Image-2模型。该消息来源于X用户@berryxia。

Arena.ai: MAI-Image-2.5 has officially released from @MicrosoftAI landing at #2 in the Image Edit Arena (Single-Image-Edit) with a...

Microsoft图像生成模型发布

meng shao@shao__meng

微软Build大会一口气发布了7个模型！微软，最后再信你一次（1）（1）（1）（1）（1）（1）（1） 😄

Satya Nadella: 5/With our 7 new MAI models + Frontier Tuning, we are helping every company move from just consuming frontier models to ...

Microsoft模型发布

MiniMax (official)@MiniMax_AI

MiniMax M3模型发布细节公开

MiniMax M3模型通过Live Session分享了核心信息。其MSA技术采用块级Top-K选择，保持真实、未压缩的KV缓存，使1M token上下文窗口高效运行。该技术将长上下文生成的注意力内核解码时间从约30%降至约5%，效率提升显著。M3是原生多模态模型，支持图像视频输入，可处理长程智能体任务及桌面操作，并具备视觉自评估迭代能力。模型在金融任务中展现出初级分析师水平。未来版本将聚焦更复杂的长程任务，并扩展金融、法律与生物领域。Together AI为其提供推理服务。

Together AI: MiniMax M3 is live and Together AI is powering its inference 🚀 Tomorrow at 6pm PT we're going live on X Spaces with the...

多模态推理模型发布编码

关联讨论 11 条

MiniMax (official)@MiniMax_AI

精选80

MiniMax-M3 在 @ValsAI 排名中位列第六新的开源权重 SOTA 🚀

Vals AI: MiniMax just released MiniMax-M3, their first multimodal model. It is the new open-weight SOTA on the Vals Index and the...

多模态开源生态模型发布

关联讨论 11 条

推荐理由：MiniMax 闷声干大事，第一个多模态模型就拿下 open-weight SOTA 和总榜第 6，做多模态应用的可以蹲一下权重。

Hacker News 热门（buzzing.cc 中文翻译）

微软推出 MAI-Thinking-1 模型

微软通过其AI官方网站 microsoft.ai 发布了新模型 “MAI-Thinking-1”。该消息随链接一同发布，并出现在相关技术社区中。

Microsoft推理模型发布

关联讨论 1 条

Rohan Paul@rohanpaul_ai

微软发布 MAI-Thinking-1 模型

微软发布了 MAI-Thinking-1，这是一款采用 MoE 架构的模型，拥有 35B 活跃参数和 1T 总参数。该模型从零开始在 30T tokens 上完成预训练，且未使用第三方模型蒸馏。微软称其迭代优化流程为“爬山机器”。在基准测试中，该模型于 AIME 2025 获得 97.0%，在 LiveCodeBench v6 获得 87.7%，在 SWE-Bench Pro 获得 52.8% 的成绩。

Microsoft推理模型发布

关联讨论 1 条

Hacker News 热门（buzzing.cc 中文翻译）

微软 MAI-Code-1-Flash 以 50 亿参数在 SWE-Bench Pro 取得 51% 成绩

微软推出 MAI-Code-1-Flash 模型，仅使用 50 亿个活动参数（5B Active Params），在 SWE-Bench Pro 基准测试中获得了 51% 的成绩，展示了高参数效率。

Microsoft推理模型发布编码

IT之家（RSS）

微软发布其首款高级推理模型 MAI-Thinking-1：承诺未蒸馏第三方模型，自研 AI 模型阵容进一步扩充

微软在 Build 2026 大会上发布了其首款高级推理模型 MAI-Thinking-1。该模型为中等规模，在软件工程基准测试中达到业界领先水平，且完全基于干净数据从零开始训练，未使用第三方模型的蒸馏数据。同时，微软还推出了 MAI-Image 2.5（文生图/图像编辑）、MAI-Transcribe-1.5（语音转写，速度达竞争对手五倍）、MAI-Voice-2（语音合成，新增15种语言支持）和 MAI-Code-1（编程辅助，已集成至 GitHub Copilot 和 VS Code）等多款新模型。

Microsoft推理模型发布编码