AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态
全部一手资讯X论文
6月4日周四
6月3日周三
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月4日
06:59
DogeDesigner@cb_doge
70
SpaceXAI 不断刷新标准。🔥 Grok Imagine Video 1.5 预览版现已上线 API,效果看起来极为电影感。📽️ 去亲自试试吧。💻 祝 SpaceXAI 好运。🚀
多模态模型发布视频
05:58
MiniMax (official)@MiniMax_AI
精选78
Mem0 是 MiniMax M3 的官方启动合作伙伴! M3 的 1M token 上下文窗口 + @mem0ai 的记忆层 = 真正记住的 AI 应用。 构建具有持久记忆的个性化 AI 智能体,现在启动周内 M3 享五折优惠。 开始使用 Minimax → https://platform.minimax.io/docs/guides/models-intro 注册 mem0 → http://app.mem0.ai/?utm_source=minimax_x_post
智能体MCP/工具模型发布
关联讨论 11 条X:MiniMax (@MiniMax_AI)IT之家(RSS)MiniMax:Blog(网页)X:Testing Catalog (@testingcatalog)公众号:MiniMax(稀宇科技)X:opencode (@opencode)X:Kim (@kimmonismus)X:OpenRouter (@OpenRouter)X:歸藏 (@op7418)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)
推荐理由:MiniMax 把 1M 上下文和 Mem0 记忆层绑在一起,不是单纯秀参数,是给 Agent 装了个硬盘,做长期记忆产品的该关注一下。
05:57
Greg Brockman@gdb
71
GPT-Rosalind 重大升级,药物发现、分析、设计和实验工作流的智能大幅提升:

OpenAI: We're bringing new capabilities to GPT-Rosalind, a model series purpose-built for life sciences research at enterprise s...

智能体OpenAI模型发布
05:57
🚨 AI News | TestingCatalog@testingcatalog
53
新模型 Reve 2.0 上线,在 Text-to-Image 竞技场中排名第二,超越 Nano Banana 2 和 GPT-Image-1.5。该模型采用全新图像生成与编辑方式,利用精确布局实现可交互的图像创作:图像被表示为代码,每个区域均可寻址、编辑和操控;图像被自动分割并标注,用户可对每一元素进行精细化控制。

Reve: Our independent research lab ranks top 2 on @arena Text-to-Image, ahead of Nano Banana 2 and GPT-Image-1.5.

图像生成模型发布
05:39
OpenAI@OpenAI
67
我们正在为 GPT-Rosalind 带来新功能,这是一个专为企业级生命科学研究打造的模型系列。 它将 GPT-5.5 的智能体编码和工具使用能力与更强大的智能相结合,用于药物发现、分析、设计和实验工作流程。 https://openai.com/index/introducing-new-capabilities-to-gpt-rosalind
OpenAI推理模型发布
关联讨论 2 条OpenAI:官网动态(RSS · 排除企业/客户案例)X:Sam Altman (@sama)
04:31
fofr@fofrAI
61
Ideogram v4 表现出色,开放权重。图像清晰,感觉焕然一新。

fofr: Ideogram v4 is really good, and open weights. Images are crisp and feel fresh.

图像生成开源生态模型发布
04:28
MiniMax (official)@MiniMax_AI
65
@mem0ai 是 MiniMax M3 的官方发布合作伙伴! M3 的百万 token 上下文窗口 + @mem0ai 的记忆层 = 真正能记住的 AI 应用。 构建带有持久记忆的个性化 AI 智能体,发布周期间 M3 可享 5 折优惠。 开始使用 Minimax → https://platform.minimax.io/docs/guides/models-intro 注册 mem0 → http://app.mem0.ai/?utm_source=minimax_x_post
智能体MCP/工具模型发布
关联讨论 11 条X:MiniMax (@MiniMax_AI)IT之家(RSS)MiniMax:Blog(网页)X:Testing Catalog (@testingcatalog)公众号:MiniMax(稀宇科技)X:opencode (@opencode)X:Kim (@kimmonismus)X:OpenRouter (@OpenRouter)X:歸藏 (@op7418)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)
04:26
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选71
GPT-Rosalind 新功能发布

GPT-Rosalind 在生命科学研究领域推出新功能,增强了生物推理、药物化学专业知识、基因组学分析以及实验工作流处理能力。

OpenAI推理模型发布
关联讨论 2 条OpenAI:官网动态(RSS · 排除企业/客户案例)X:Sam Altman (@sama)
推荐理由:GPT-Rosalind 的这次更新把生物推理和药物化学能力做实了,对生命科学领域的人来说,可能比通用模型升级更关键。
04:17
The Decoder:AI News(RSS)
72
Google DeepMind 发布 Gemma 4 12B:开源多模态模型,16GB 内存笔记本即可运行

Gemma 4 12B 是 Google DeepMind 推出的开源模型,原生支持处理文本、图像和音频,仅需 16GB RAM 即可在笔记本上运行。在基准测试中几乎追平两倍参数规模的 26B 模型,采用 Apache 2.0 许可证,可用于商业用途。

Google多模态开源生态模型发布
关联讨论 4 条Google Developers Blog(RSS)X:Google AI for Developers (@googleaidevs)X:Jeff Dean (@JeffDean)Hacker News 热门(buzzing.cc 中文翻译)
03:40
Sundar Pichai@sundarpichai
精选73
Gemma 4 系列累计下载量突破1.5亿次,Google随之推出新成员Gemma 4 12B。该模型仅12B参数,可在16GB VRAM笔记本上本地运行,兼顾尺寸与性能,支持多步推理和智能体工作流。采用Apache 2.0开源许可,供社区使用。

Demis Hassabis: Celebrating the milestone of a massive 150+ million downloads of Gemma 4 with the release of the new Gemma 4 12B model! ...

Google开源生态模型发布端侧
关联讨论 1 条Google DeepMind:Blog(RSS)
推荐理由:Gemma 4 12B 把多步推理塞进笔记本能跑的尺寸,Apache 2.0 开源,对想做本地 agent 的开发者是实实在在的新弹药,小模型的可用性正在逼近临界点。
03:31
fofr@fofrAI
69
Ideogram v4 真的很好,而且开源权重。图像清新锐利,令人耳目一新。

Ideogram: Introducing Ideogram 4.0: the best open image model in the world. Think it. Make it. Own it. Download the weights, fine-...

图像生成多模态开源/仓库模型发布
03:22
Ars Technica:AI(RSS)
69
Google 新发布的 Gemma 4 12B 模型可在任何 16GB 内存笔记本电脑上运行

Gemma 4 12B 采用新的编码方案与 token 预测,实现了超越自身参数规模的性能表现。该模型专为在 16GB RAM 的笔记本电脑上本地运行而设计。

Google开源生态模型发布端侧
03:20
Chubby♨️@kimmonismus
71
Google 开源 Gemma 4 12B:无编码器架构,本地 16GB VRAM 运行

Google 开源 Gemma 4 12B(密集参数,Apache 2.0 许可),采用全新无编码器架构:移除独立的视觉(550M 参数、27 层 Transformer)和音频(300M 参数、12 层 Conformer)编码器。视觉改为 35M 嵌入层(约缩小 15 倍),音频以 40ms 帧直接投影到大语言模型。模型在 16GB VRAM 笔记本上即可运行智能体推理、视觉和音频任务,性能接近 26B 参数模型。共享权重支持一次 LoRA 调优覆盖视觉、音频和文本。

Google: Today we're introducing Gemma 4 12B - our latest open model that brings advanced agentic reasoning, vision and audio dir...

Google多模态开源生态模型发布
02:58
DogeDesigner@cb_doge
78
Grok Imagine 1.5 预览版已发布,即日起可在 API 中体验。SpaceXAI 正在发力。

Grok: Grok @Imagine 1.5 Preview is here Try it today in the API: http://x.ai/api/imagine

xAI图像生成模型发布
关联讨论 1 条xAI:News(网页)
02:48
MarkTechPost(RSS)
68
Google DeepMind 发布 Gemma 4 12B:无需编码器的多模态模型,支持原生音频,可在16GB笔记本上运行

Gemma 4 12B 是 Google DeepMind 发布的无需编码器的多模态模型,直接将视觉和音频输入大语言模型骨干,支持原生音频,可在 16 GB 笔记本电脑上本地运行,采用 Apache 2.0 开源许可。

Google多模态开源/仓库模型发布
02:47
The Decoder:AI News(RSS)
66
Ideogram 4.0 发布:开放权重模型,原生2K分辨率与改进文本渲染

Ideogram 发布 4.0 版本文本到图像模型,采用开放权重,支持原生2K分辨率、边界框控制和改进的文本渲染。在 DesignArena 排行榜上,该模型位列所有开放模型之首;仅 OpenAI 和 Google 的闭源系统得分更高。商业使用需购买付费许可证。

图像生成开源生态模型发布
02:36
Demis Hassabis@demishassabis
精选74
Demis Hassabis 宣布 Gemma 4 系列下载量突破 1.5 亿,并正式发布新版 Gemma 4 12B 模型。该模型是一个统一的、无编码器的多模态模型,兼具边缘端效率与高级推理能力。尽管参数规模仅为 12B,但性能强劲,且足够小巧,可在仅需 16GB VRAM 的笔记本上本地运行。采用 Apache 2.0 开源许可证,方便开发者自由构建。

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google开源生态模型发布端侧
关联讨论 1 条Google DeepMind:Blog(RSS)
推荐理由:Gemma 4 12B 用 Apache 2.0 许可把多模态模型压进笔记本,16GB 显存就能跑,端侧智能的性价比又一次被 Google 拉高,做本地推理的可以马上试试。
02:16
AYi@AYi_AInotes
70
世界最好的开源图像模型, 仅次于GPT-image-2和Nanobanana2

Ideogram: Introducing Ideogram 4.0: the best open image model in the world. Think it. Make it. Own it. Download the weights, fine-...

图像生成开源生态模型发布
01:49
Krea@krea_ai
精选74
介绍 Ideogram v4.0。 原生 2K 分辨率,出色的文字渲染,支持 JSON 提示词。 立即在 Krea 中体验。
图像生成模型发布
关联讨论 1 条IT之家(RSS)
推荐理由:图像生成模型的军备竞赛又添一员,Ideogram v4.0的2k原生分辨率和JSON prompt对接工作流,做设计生成的同学可以直接上手试试。
01:48
elvis@omarsar0
76
Miso One 8B开源情感TTS模型发布

Miso Labs 开源 8B 参数文本转语音模型 Miso One,专注于生成富有情感的表达,如温暖、犹豫或兴奋,告别机械音。模型专为短视频、播客和教育内容等旁白场景设计,推理延迟仅 110 毫秒,快于人类反应时间。模型权重完全开源,支持自托管、微调和数据私有化,API 即将开放。

Aoden Teo: Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...

开源生态模型发布语音
01:38
Hacker News 热门(buzzing.cc 中文翻译)
84
Gemma 4 12B:一种统一的、无需编码器的多模态模型

Gemma 4 12B 是 Google 发布的一款统一架构、无需独立视觉编码器的多模态大语言模型(LLM)。该模型直接处理图像与文本输入,无需传统视觉编码器,简化了多模态推理流程。基于 12B 参数规模,Gemma 4 12B 面向开发者工具生态开放。目前其具体 benchmark 分数、上下文窗口、价格及开源/API 可用性等细节尚未披露。

Google多模态模型发布
关联讨论 4 条Google Developers Blog(RSS)X:Google AI for Developers (@googleaidevs)X:Jeff Dean (@JeffDean)Hacker News 热门(buzzing.cc 中文翻译)
00:55
🚨 AI News | TestingCatalog@testingcatalog
74
Ideogram 4.0 开源图像生成模型发布,在 LM Arena 文生图类别排名第 8,Design Arena 第 5,评分 1204,成为该领域排名最高的开放模型,性能接近 Nano Banana Pro。主要特性包括密集准确的文本渲染、原生 2K 分辨率、活动背景透明度及精确布局控制。

Arena.ai: New open model Ideogram-4.0-Quality has landed at #8 in the Text-to-Image Arena. This makes the new model by @ideogram_a...

图像生成开源生态模型发布
00:50
Chubby♨️@kimmonismus
精选75
Miso One 正式发布,一个 8B 参数的开源权重语音模型(TTS),旨在模拟真实人类朗读的温暖与节奏。它支持一次语音克隆(只需短样本),推理延迟仅 110ms。模型权重已开源至 GitHub,无需 API 即可自托管,音频数据不离开本地。API 访问即将推出。演示已上线,可先试听再克隆仓库。

Aoden Teo: Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...

开源生态模型发布语音

推荐理由:Miso One这种8B参数、110ms延迟的情感TTS模型,直接把声音克隆和自托管做成了开箱即用,做语音产品的可以马上 clone 一个玩玩,比等 API 爽多了。
00:25
🚨 AI News | TestingCatalog@testingcatalog
65
Google 最新的 Gemma 4 12B 模型已上线 Hugging Face,采用 Apache 2.0 许可证。该模型与 Gemma 4 E2B/E4B 共享相同多模态能力,支持文本、音频、图像和视频输入,无需单独编码器即可实现原生音频和视觉理解。这种无编码器统一设计方案使其部署体积更小,非常适合消费级设备和本地执行环境。官方称其旨在弥合边缘效率与高级推理之间的差距。

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google多模态模型发布端侧
00:19
Google AI Developers@googleaidevs
77
Google推出Gemma 4 12B无编码器多模态模型

Google发布Gemma 4 12B,一款无编码器的统一多模态模型,可直接将视觉和音频输入送入LLM主干,无需传统多模态编码器。该模型填补了移动端E4B模型与26B MoE模型之间的空白,封装前沿推理与原生音频能力,采用Apache 2.0许可。在16GB VRAM下即可本地运行复杂多步骤智能体工作流,性能接近26B模型。

Google多模态开源生态模型发布
关联讨论 4 条Google Developers Blog(RSS)X:Google AI for Developers (@googleaidevs)X:Jeff Dean (@JeffDean)Hacker News 热门(buzzing.cc 中文翻译)
00:07
Google Developers Blog(RSS)
精选78
Gemma 4 12B:开发者指南

Gemma 4 12B 是一款密集多模态模型,专为消费级设备上的高性能本地 AI 执行而设计。其采用新颖的无编码器架构,绕过传统视觉和音频编码器,将多模态数据直接输入大语言模型主干。

Google多模态模型发布端侧
关联讨论 4 条Google Developers Blog(RSS)X:Google AI for Developers (@googleaidevs)X:Jeff Dean (@JeffDean)Hacker News 热门(buzzing.cc 中文翻译)
推荐理由:Google 把多模态模型直接塞进消费级设备,靠的不再是缩水而是架构层面的创新。12B 放在本地跑,这次玩法变了。
6月3日
22:39
SenseTime@SenseTime_AI
精选73
商汤开源SenseNova U1:视觉理解推理生成一体模型

商汤(SenseTime)开源SenseNova U1模型,宣称实现“看、思考、创作”一体——从一张普通运动鞋图片直接生成营销视觉效果。该模型代表了架构上的范式转变。用户可通过SenseNova Studio、HuggingFace和GitHub尝试使用。

GitHubHugging Face图像生成多模态
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
推荐理由:商汤把理解、推理、创作塞进一个模型,而且直接开源,做视觉营销的可以不用再拼凑工具链了。
19:16
The Decoder:AI News(RSS)
71
Build 2026:Microsoft 在图像生成上超越 Google,在推理上仍追赶

微软在 Build 2026 大会上发布七款自研新 AI 模型,其中包括其首款推理模型。公司还推出了一种新的调优方法和一个自主后台 AI 智能体。

Microsoft图像生成推理模型发布
关联讨论 1 条The Verge:AI(RSS)
16:47
MarkTechPost(RSS)
69
NVIDIA发布Cosmos 3:统一物理推理、世界生成与动作生成的双塔混合Transformer基础模型

NVIDIA发布Cosmos 3,这是一款开放的全模态世界模型。该模型采用双塔混合Transformer架构,统一了物理推理、世界生成与动作生成能力,结合了自回归VLM推理器与扩散生成器,旨在赋能物理AI。

具身智能多模态开源生态模型发布
13:08
Alibaba Cloud@alibaba_cloud
71
Qwen:面向智能体时代的基座模型,由通义大模型BU多模态交互负责人Steven Hoi介绍。 Qwen3.7在推理方面取得重大突破,全面升级了工具使用、编码和长程任务的原生智能体能力。
智能体推理模型发布
关联讨论 10 条X:OpenRouter (@OpenRouter)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen:Blog Retrieval(API)X:通义千问 / Qwen (@Alibaba_Qwen)X:Kim (@kimmonismus)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)X:opencode (@opencode)
10:32
Satya Nadella@satyanadella
82
凭借我们今天宣布的全新MAI模型和前沿调优能力,我们致力于帮助每家公司从仅仅使用前沿模型,转变为全面参与前沿领域。
Microsoft数据/训练模型发布
关联讨论 1 条The Verge:AI(RSS)
09:48
Berryxia.AI@berryxia
74
微软在Build大会发布七款MAI新模型

微软在Build大会宣布推出七个全新的MAI模型家族。该家族以“干净数据血统”从零开始训练,旨在任务专精并能无缝协作。其中,MAI-Code-1-Flash在SWE-Bench Verified上得分71.6,比Claude Haiku 4.5高出5分,并能节省60% token。MAI-Transcribe-1.5处理一小时音频仅需15秒,在43种语言上实现速度与准度领先。微软此次发布旨在展示其从零构建、专精且能协同工作的模型发展路径。

Microsoft AI: Seven new models launching at Build: let's go! Reasoning. Code. Image. Transcribe. Voice. Built from scratch on a clean ...

Microsoft图像生成模型发布编码
09:48
Berryxia.AI@berryxia
64
微软MAI-Image-2.5在图像编辑评测中位列第二

微软发布新模型MAI-Image-2.5,并在Image Edit Arena(单图编辑)评测中取得第二名,得分为1401。根据评测数据,该模型分数比Nano Banana 2、Grok Imagine Image Quality和ChatGPT-Image-Latest-High Fidelity高出10分。尽管取得了进步,但评测显示当前的第一名仍是GPT-Image-2模型。该消息来源于X用户@berryxia。

Arena.ai: MAI-Image-2.5 has officially released from @MicrosoftAI landing at #2 in the Image Edit Arena (Single-Image-Edit) with a...

Microsoft图像生成模型发布
09:13
meng shao@shao__meng
72
微软Build大会一口气发布了7个模型! 微软,最后再信你一次 (1)(1)(1)(1)(1)(1)(1) 😄

Satya Nadella: 5/With our 7 new MAI models + Frontier Tuning, we are helping every company move from just consuming frontier models to ...

Microsoft模型发布
06:55
MiniMax (official)@MiniMax_AI
74
MiniMax M3模型发布细节公开

MiniMax M3模型通过Live Session分享了核心信息。其MSA技术采用块级Top-K选择,保持真实、未压缩的KV缓存,使1M token上下文窗口高效运行。该技术将长上下文生成的注意力内核解码时间从约30%降至约5%,效率提升显著。M3是原生多模态模型,支持图像视频输入,可处理长程智能体任务及桌面操作,并具备视觉自评估迭代能力。模型在金融任务中展现出初级分析师水平。未来版本将聚焦更复杂的长程任务,并扩展金融、法律与生物领域。Together AI为其提供推理服务。

Together AI: MiniMax M3 is live and Together AI is powering its inference 🚀 Tomorrow at 6pm PT we're going live on X Spaces with the...

多模态推理模型发布编码
关联讨论 11 条X:MiniMax (@MiniMax_AI)IT之家(RSS)MiniMax:Blog(网页)X:Testing Catalog (@testingcatalog)公众号:MiniMax(稀宇科技)X:opencode (@opencode)X:Kim (@kimmonismus)X:OpenRouter (@OpenRouter)X:歸藏 (@op7418)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)
06:25
MiniMax (official)@MiniMax_AI
精选80
MiniMax-M3 在 @ValsAI 排名中位列第六 新的开源权重 SOTA 🚀

Vals AI: MiniMax just released MiniMax-M3, their first multimodal model. It is the new open-weight SOTA on the Vals Index and the...

多模态开源生态模型发布
关联讨论 11 条X:MiniMax (@MiniMax_AI)IT之家(RSS)MiniMax:Blog(网页)X:Testing Catalog (@testingcatalog)公众号:MiniMax(稀宇科技)X:opencode (@opencode)X:Kim (@kimmonismus)X:OpenRouter (@OpenRouter)X:歸藏 (@op7418)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)
推荐理由:MiniMax 闷声干大事,第一个多模态模型就拿下 open-weight SOTA 和总榜第 6,做多模态应用的可以蹲一下权重。
05:35
Hacker News 热门(buzzing.cc 中文翻译)
81
微软推出 MAI-Thinking-1 模型

微软通过其AI官方网站 microsoft.ai 发布了新模型 “MAI-Thinking-1”。该消息随链接一同发布,并出现在相关技术社区中。

Microsoft推理模型发布
关联讨论 1 条The Verge:AI(RSS)
05:16
Rohan Paul@rohanpaul_ai
81
微软发布 MAI-Thinking-1 模型

微软发布了 MAI-Thinking-1,这是一款采用 MoE 架构的模型,拥有 35B 活跃参数和 1T 总参数。该模型从零开始在 30T tokens 上完成预训练,且未使用第三方模型蒸馏。微软称其迭代优化流程为“爬山机器”。在基准测试中,该模型于 AIME 2025 获得 97.0%,在 LiveCodeBench v6 获得 87.7%,在 SWE-Bench Pro 获得 52.8% 的成绩。

Microsoft推理模型发布
关联讨论 1 条The Verge:AI(RSS)
04:05
Hacker News 热门(buzzing.cc 中文翻译)
69
微软 MAI-Code-1-Flash 以 50 亿参数在 SWE-Bench Pro 取得 51% 成绩

微软推出 MAI-Code-1-Flash 模型,仅使用 50 亿个活动参数(5B Active Params),在 SWE-Bench Pro 基准测试中获得了 51% 的成绩,展示了高参数效率。

Microsoft推理模型发布编码
03:09
IT之家(RSS)
69
微软发布其首款高级推理模型 MAI-Thinking-1:承诺未蒸馏第三方模型,自研 AI 模型阵容进一步扩充

微软在 Build 2026 大会上发布了其首款高级推理模型 MAI-Thinking-1。该模型为中等规模,在软件工程基准测试中达到业界领先水平,且完全基于干净数据从零开始训练,未使用第三方模型的蒸馏数据。同时,微软还推出了 MAI-Image 2.5(文生图/图像编辑)、MAI-Transcribe-1.5(语音转写,速度达竞争对手五倍)、MAI-Voice-2(语音合成,新增15种语言支持)和 MAI-Code-1(编程辅助,已集成至 GitHub Copilot 和 VS Code)等多款新模型。

Microsoft推理模型发布编码
‹ 上一页
1…45678…27
下一页 ›