We're bringing new capabilities to GPT-Rosalind, a model series purpose-built for life sciences research at enterprise s...
Our independent research lab ranks top 2 on @arena Text-to-Image, ahead of Nano Banana 2 and GPT-Image-1.5.
Ideogram v4 is really good, and open weights. Images are crisp and feel fresh.
GPT-Rosalind 在生命科学研究领域推出新功能,增强了生物推理、药物化学专业知识、基因组学分析以及实验工作流处理能力。
关联讨论 2 条OpenAI:官网动态(RSS · 排除企业/客户案例)X:Sam Altman (@sama)Gemma 4 12B 是 Google DeepMind 推出的开源模型,原生支持处理文本、图像和音频,仅需 16GB RAM 即可在笔记本上运行。在基准测试中几乎追平两倍参数规模的 26B 模型,采用 Apache 2.0 许可证,可用于商业用途。
关联讨论 4 条Google Developers Blog(RSS)X:Google AI for Developers (@googleaidevs)X:Jeff Dean (@JeffDean)Hacker News 热门(buzzing.cc 中文翻译)Celebrating the milestone of a massive 150+ million downloads of Gemma 4 with the release of the new Gemma 4 12B model! ...
关联讨论 1 条Google DeepMind:Blog(RSS)Introducing Ideogram 4.0: the best open image model in the world. Think it. Make it. Own it. Download the weights, fine-...
Gemma 4 12B 采用新的编码方案与 token 预测,实现了超越自身参数规模的性能表现。该模型专为在 16GB RAM 的笔记本电脑上本地运行而设计。
Google 开源 Gemma 4 12B(密集参数,Apache 2.0 许可),采用全新无编码器架构:移除独立的视觉(550M 参数、27 层 Transformer)和音频(300M 参数、12 层 Conformer)编码器。视觉改为 35M 嵌入层(约缩小 15 倍),音频以 40ms 帧直接投影到大语言模型。模型在 16GB VRAM 笔记本上即可运行智能体推理、视觉和音频任务,性能接近 26B 参数模型。共享权重支持一次 LoRA 调优覆盖视觉、音频和文本。
Today we're introducing Gemma 4 12B - our latest open model that brings advanced agentic reasoning, vision and audio dir...
Grok @Imagine 1.5 Preview is here Try it today in the API: http://x.ai/api/imagine
关联讨论 1 条xAI:News(网页)Gemma 4 12B 是 Google DeepMind 发布的无需编码器的多模态模型,直接将视觉和音频输入大语言模型骨干,支持原生音频,可在 16 GB 笔记本电脑上本地运行,采用 Apache 2.0 开源许可。
Ideogram 发布 4.0 版本文本到图像模型,采用开放权重,支持原生2K分辨率、边界框控制和改进的文本渲染。在 DesignArena 排行榜上,该模型位列所有开放模型之首;仅 OpenAI 和 Google 的闭源系统得分更高。商业使用需购买付费许可证。
Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...
关联讨论 1 条Google DeepMind:Blog(RSS)Introducing Ideogram 4.0: the best open image model in the world. Think it. Make it. Own it. Download the weights, fine-...
Miso Labs 开源 8B 参数文本转语音模型 Miso One,专注于生成富有情感的表达,如温暖、犹豫或兴奋,告别机械音。模型专为短视频、播客和教育内容等旁白场景设计,推理延迟仅 110 毫秒,快于人类反应时间。模型权重完全开源,支持自托管、微调和数据私有化,API 即将开放。
Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...
Gemma 4 12B 是 Google 发布的一款统一架构、无需独立视觉编码器的多模态大语言模型(LLM)。该模型直接处理图像与文本输入,无需传统视觉编码器,简化了多模态推理流程。基于 12B 参数规模,Gemma 4 12B 面向开发者工具生态开放。目前其具体 benchmark 分数、上下文窗口、价格及开源/API 可用性等细节尚未披露。
关联讨论 4 条Google Developers Blog(RSS)X:Google AI for Developers (@googleaidevs)X:Jeff Dean (@JeffDean)Hacker News 热门(buzzing.cc 中文翻译)New open model Ideogram-4.0-Quality has landed at #8 in the Text-to-Image Arena. This makes the new model by @ideogram_a...
Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...
Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...
Google发布Gemma 4 12B,一款无编码器的统一多模态模型,可直接将视觉和音频输入送入LLM主干,无需传统多模态编码器。该模型填补了移动端E4B模型与26B MoE模型之间的空白,封装前沿推理与原生音频能力,采用Apache 2.0许可。在16GB VRAM下即可本地运行复杂多步骤智能体工作流,性能接近26B模型。
关联讨论 4 条Google Developers Blog(RSS)X:Google AI for Developers (@googleaidevs)X:Jeff Dean (@JeffDean)Hacker News 热门(buzzing.cc 中文翻译)Gemma 4 12B 是一款密集多模态模型,专为消费级设备上的高性能本地 AI 执行而设计。其采用新颖的无编码器架构,绕过传统视觉和音频编码器,将多模态数据直接输入大语言模型主干。
关联讨论 4 条Google Developers Blog(RSS)X:Google AI for Developers (@googleaidevs)X:Jeff Dean (@JeffDean)Hacker News 热门(buzzing.cc 中文翻译)商汤(SenseTime)开源SenseNova U1模型,宣称实现“看、思考、创作”一体——从一张普通运动鞋图片直接生成营销视觉效果。该模型代表了架构上的范式转变。用户可通过SenseNova Studio、HuggingFace和GitHub尝试使用。
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)微软在 Build 2026 大会上发布七款自研新 AI 模型,其中包括其首款推理模型。公司还推出了一种新的调优方法和一个自主后台 AI 智能体。
关联讨论 1 条The Verge:AI(RSS)NVIDIA发布Cosmos 3,这是一款开放的全模态世界模型。该模型采用双塔混合Transformer架构,统一了物理推理、世界生成与动作生成能力,结合了自回归VLM推理器与扩散生成器,旨在赋能物理AI。
微软在Build大会宣布推出七个全新的MAI模型家族。该家族以“干净数据血统”从零开始训练,旨在任务专精并能无缝协作。其中,MAI-Code-1-Flash在SWE-Bench Verified上得分71.6,比Claude Haiku 4.5高出5分,并能节省60% token。MAI-Transcribe-1.5处理一小时音频仅需15秒,在43种语言上实现速度与准度领先。微软此次发布旨在展示其从零构建、专精且能协同工作的模型发展路径。
Seven new models launching at Build: let's go! Reasoning. Code. Image. Transcribe. Voice. Built from scratch on a clean ...
微软发布新模型MAI-Image-2.5,并在Image Edit Arena(单图编辑)评测中取得第二名,得分为1401。根据评测数据,该模型分数比Nano Banana 2、Grok Imagine Image Quality和ChatGPT-Image-Latest-High Fidelity高出10分。尽管取得了进步,但评测显示当前的第一名仍是GPT-Image-2模型。该消息来源于X用户@berryxia。
MAI-Image-2.5 has officially released from @MicrosoftAI landing at #2 in the Image Edit Arena (Single-Image-Edit) with a...
5/With our 7 new MAI models + Frontier Tuning, we are helping every company move from just consuming frontier models to ...
MiniMax M3模型通过Live Session分享了核心信息。其MSA技术采用块级Top-K选择,保持真实、未压缩的KV缓存,使1M token上下文窗口高效运行。该技术将长上下文生成的注意力内核解码时间从约30%降至约5%,效率提升显著。M3是原生多模态模型,支持图像视频输入,可处理长程智能体任务及桌面操作,并具备视觉自评估迭代能力。模型在金融任务中展现出初级分析师水平。未来版本将聚焦更复杂的长程任务,并扩展金融、法律与生物领域。Together AI为其提供推理服务。
MiniMax M3 is live and Together AI is powering its inference 🚀 Tomorrow at 6pm PT we're going live on X Spaces with the...
关联讨论 11 条X:MiniMax (@MiniMax_AI)IT之家(RSS)MiniMax:Blog(网页)X:Testing Catalog (@testingcatalog)公众号:MiniMax(稀宇科技)X:opencode (@opencode)X:Kim (@kimmonismus)X:OpenRouter (@OpenRouter)X:歸藏 (@op7418)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)MiniMax just released MiniMax-M3, their first multimodal model. It is the new open-weight SOTA on the Vals Index and the...
关联讨论 11 条X:MiniMax (@MiniMax_AI)IT之家(RSS)MiniMax:Blog(网页)X:Testing Catalog (@testingcatalog)公众号:MiniMax(稀宇科技)X:opencode (@opencode)X:Kim (@kimmonismus)X:OpenRouter (@OpenRouter)X:歸藏 (@op7418)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)微软通过其AI官方网站 microsoft.ai 发布了新模型 “MAI-Thinking-1”。该消息随链接一同发布,并出现在相关技术社区中。
关联讨论 1 条The Verge:AI(RSS)微软发布了 MAI-Thinking-1,这是一款采用 MoE 架构的模型,拥有 35B 活跃参数和 1T 总参数。该模型从零开始在 30T tokens 上完成预训练,且未使用第三方模型蒸馏。微软称其迭代优化流程为“爬山机器”。在基准测试中,该模型于 AIME 2025 获得 97.0%,在 LiveCodeBench v6 获得 87.7%,在 SWE-Bench Pro 获得 52.8% 的成绩。
关联讨论 1 条The Verge:AI(RSS)微软推出 MAI-Code-1-Flash 模型,仅使用 50 亿个活动参数(5B Active Params),在 SWE-Bench Pro 基准测试中获得了 51% 的成绩,展示了高参数效率。
微软在 Build 2026 大会上发布了其首款高级推理模型 MAI-Thinking-1。该模型为中等规模,在软件工程基准测试中达到业界领先水平,且完全基于干净数据从零开始训练,未使用第三方模型的蒸馏数据。同时,微软还推出了 MAI-Image 2.5(文生图/图像编辑)、MAI-Transcribe-1.5(语音转写,速度达竞争对手五倍)、MAI-Voice-2(语音合成,新增15种语言支持)和 MAI-Code-1(编程辅助,已集成至 GitHub Copilot 和 VS Code)等多款新模型。