Congrats to @vllm_project & @lmsysorg for releasing MiniMax M3 428B on both the CUDA & ROCm stack on day 0! MiniMax M3 includes: 🟠 Block sparse attention which is 9x faster prefill over M2.7 🟠 Day 0 open MXFP8 weights 🟠 and Furthermore @Inferact released Day-0 EAGLE3 open weight draft model support Excited to try out the performance on MiniMax M3!
译祝贺 @vllm_project 和 @lmsysorg 在 CUDA 和 ROCm 堆栈上于第 0 天发布 MiniMax M3 428B!MiniMax M3 包含: 🟠 块稀疏注意力,预填充比 M2.7 快 9 倍 🟠 第 0 天开放 MXFP8 权重 🟠 此外,@Inferact 发布了第 0 天 EAGLE3 开放权重草稿模型支持 期待尝试 MiniMax M3 的性能!
KIMI K2.7 Code 来了, K3 还会远吗? KIMI K2.7 Code 刚刚发布! 本次 K2.7-Code 是一个编程/Agent专项模型, 其中提升最大的是 kimi 自己的测试项目 kimi-code-bench-v2, 与 k2.6 相比提升了11%! 其它几个 Agent 测试项目也有不小的提升. 不过从架构上看, 其实这个模型与 K2.6 是完全一致的. 所以它是一个后训练优化版本. 于是我给大家写了个适用场景指南: 首先编程任务无疑使用这个新模型会更合适. 另外, Agentic 任务也可以尝试切换, 比如先用AI生成, 然后需要使用 Agent 进行验证的任务, 例如简历筛选, PR 审查这类需要外部 Agent 参与进行评分或者进行数据整合/格式化的的任务也很适合切换到这个新模型. 稍后有时间给大家带来详细测试! #kimik27code #kimik27
译KIMI K2.7 Code正式发布,为编程/Agent专项模型,架构与K2.6一致,属后训练优化版本。在kimi自测的kimi-code-bench-v2上较K2.6提升11%,其他Agent测试项目同样有提升。适用场景包括编程任务以及需要Agent参与的验证任务(如简历筛选、PR审查等)。
day-0 in @vllm_project and it comes with: dedicated MSA prefill/decode kernels, 1M-context serving with prefix caching + chunked prefill, BF16 + MXFP8 on both Hopper and Blackwell 🚀 this is what open-weight done properly looks like. thanks @vllm_project, @NVIDIAAI, @AIatAMD, @inferact
译MiniMax M3 发布,具备前沿编码与智能体能力,原生图像视频输入和计算机使用,1M-token 上下文。核心采用 MSA 稀疏注意力:每个 query 评分 128-token KV 块,仅对 top 块做注意力。vLLM 当日即支持 M3,包括专用 MSA prefill/decode 核、前缀缓存与分块 prefill、BF16 和 MXFP8 检查点、Hopper 与 Blackwell 的 MoE 后端,并在 NVIDIA 与 AMD 硬件上验证。同时支持原生多模态输入、工具调用、推理解析和思考模式控制等智能体工作负载。
With only ~428B params, and ~23B activated params M3 still handles frontier coding + long-horizon agents + native multimodal (text, image, video) at 1M-token context few open-weight models do any of this. M3 does all of it. Thanks @baseten 🚀
译MiniMax 开源 M3 模型,约 428B 总参数、23B 激活参数,支持前沿编码、长周期智能体任务及原生多模态(文本、图像、视频),上下文窗口达 1M token。开放权重,可在 Baseten 部署。在少于 500B 参数的模型中,能同时兼顾编码、智能体工作负载和 1M 上下文的模型极少,M3 全部实现。
Text-to-SQL might sound like a solved problem. Far from it. Data gets messy and complex really fast in the real world. Strong reasoning models are great, but nothing beats a custom model at this stuff. Gemini-SQL2 looks very strong here. BIRD is a tough benchmark. I suspect there are plenty of opportunities like this in KBs, search, graph databases, etc.
译GoogleResearch推出Gemini-SQL2,基于Gemini 3.1 Pro,在BIRD benchmark上达到Text-to-SQL的SOTA结果,能将自然语言翻译为可直接执行的SQL查询。DAIR.AI的Elvis Saravia指出,现实世界数据复杂混乱,尽管强推理模型表现不错,但定制模型(如Gemini-SQL2)在此类任务上更胜一筹。他认为在知识库、搜索、图数据库等领域也存在类似机会,BIRD是一个非常具有挑战性的基准。
Kimi-K2.7-Code is now available on AI/ML API 👀 > Kimi K2.7 Code is the latest agentic coding model from Kimi AI that supports extended reasoning and tool use. > AI/ML API is a single gateway to Chat, Reasoning, Image, Video, Audio, Voice, Search, and World models under one bill. Kimi K2.7 Code can be tested on both Playground and APIs.
译月之暗面最新智能体编码模型 Kimi-K2.7-Code 已在 AI/ML API 平台上线,支持扩展推理和工具使用,可通过 Playground 和 API 测试。为验证其自我修正能力(而非一次性生成),研究者让四个 Kimi 智能体运行一个 2D 飞行物理模拟,目标是从发射到入轨并让助推器着陆。四次飞行中:第一次在最大动压处解体;第二次过关但分离过早失败;第三次成功入轨但未抓住着陆船;第四次修正着陆计算后成功着陆。该过程展示了模型通过迭代闭环调试从失败中自动学习。
means a lot coming from @NVIDIAAI free GPU-accelerated M3 endpoint are live now go try it 👇
译来自@NVIDIAAI的认可意义重大 免费GPU加速的M3端点现已上线 快来试试👇
day-0 and already on @FireworksAI_HQ with blazing fast inference long-horizon agents, full-repo understanding, multimodal coding all in one model Try M3 today on Fireworks AI
译MiniMax M3 已在 Fireworks AI 上线,Day-0 即获最快推理端点。模型为开源权重,在 Artificial Analysis 指数排名第一。支持 512K 上下文窗口、原生图像及视频输入;采用 MSA 稀疏注意力机制,实现 9 倍更快的 prefill 与 15 倍更快的 decode。定价与 M2.7 持平。M3 将长周期智能体、全仓库理解与多模态编程集成于单一模型。
Run M3 locally today with @UnslothAI
译MiniMax-M3 是一款拥有 428B(23B 激活)参数、1M 上下文的新开源模型,性能与 Gemini 3.1 Pro 相当。可在 138GB 内存/显存上运行动态 2-bit GGUF 版本,或 165GB 上运行 3-bit 版本。在 @UnslothAI 的帮助下,今天即可本地运行 M3。
M3 open weight just dropped and it's live on @Modular cloud on day zero with up to a 1M-context and MSA architecture kernel-to-cloud optimization is exactly what M3 needs glad to have @Modular with us from the start
译MiniMax 发布 M3 模型开源权重,并宣布与 Modular 合作,在 Modular Cloud 上当天上线。M3 支持最高 1M-token 上下文长度,接受文本、图像、视频多模态输入,采用 MSA(Multi-Stream Attention)架构,专为长时间运行的智能体(Agent)与编码(Coding)工作负载优化。
NVIDIA ❤️ MiniMax MiniMax M3 weights are now available on @huggingface, and NVIDIA now offers a Free Endpoint on its platform for testing. Testing time 👀
译NVIDIA ❤️ MiniMax MiniMax M3 权重现已在 @huggingface 上发布,NVIDIA 在其平台上提供免费端点用于测试。 测试时间到 👀
Claude Fable 5 has been out for a couple of days. Some projects people have already built with it:
译Claude Fable 5 已经发布几天了。人们已经用它构建的一些项目:
Claude 5 Fable (Ultracode) "Make a playable alpine glacial valley at sunrise" No meshes or models. Everything you see is math. Fable screenshotted its own work and iterated. Took ~30 mins, ~500k tokens, ~2500 lines of code, and ~$25. Extremely impressive.
译Claude 5 Fable (Ultracode) "在日出时制作一个可玩的高山冰川山谷" 没有网格或模型。你所看到的一切都是数学。Fable 截取了自己作品的屏幕截图并进行了迭代。 耗时约 30 分钟,约 500k tokens,约 2500 行代码,约 25 美元。极其令人印象深刻。
🚀 Introducing SenseNova-U1-8B-MoT-Interleaved—our newly optimized model purpose-built for interleaved text-and-image generation! Key upgrades where it matters most: ✨ 𝗡𝗮𝗿𝗿𝗮𝘁𝗶𝘃𝗲 𝗰𝗼𝗻𝘁𝗶𝗻𝘂𝗶𝘁𝘆 strengthened — coherent storytelling sustained across multiple pages 👥 𝗖𝗵𝗮𝗿𝗮𝗰𝘁𝗲𝗿 𝗰𝗼𝗻𝘀𝗶𝘀𝘁𝗲𝗻𝗰𝘆 improved — character identities and art style remain stable throughout 📝 𝗩𝗶𝘀𝘂𝗮𝗹 𝗾𝘂𝗮𝗹𝗶𝘁𝘆 elevated — cleaner text rendering and more reliable layouts with fewer artifacts Try it now 👇 https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Interleaved Showcases: https://github.com/OpenSenseNova/SenseNova-U1 Discord: https://discord.com/invite/BuTXPHmQub @huggingface @github
译商汤推出SenseNova-U1-8B-MoT-Interleaved模型,专门用于交错文本与图像生成。核心升级包括:叙事连续性增强,支持多页连贯故事;角色一致性改进,人物身份与艺术风格保持稳定;视觉质量提升,文字渲染更清晰、布局更可靠、伪影减少。模型已在HuggingFace开放体验。
MiniMax M3, Open-Weight, Now On Hugging Face , with only ~428B parameters and ~23B activated parameters Weights: https://huggingface.co/MiniMaxAI/MiniMax-M3 MiniMax Sparse Attention: https://huggingface.co/papers/2606.13392
译MiniMax 发布开源权重模型 M3,约 428B 总参数、23B 激活参数,已上传 HuggingFace。该模型融合三种前沿能力:编码与智能体方面达 59.0% SWE-Bench Pro、66.0% Terminal Bench 2.1、34.8% SWE-fficiency、28.8% KernelBench Hard、74.2% MCP Atlas;采用 MiniMax 稀疏注意力将上下文窗口扩展至 1M token;原生多模态。同步上线 MiniMax Code 工具及 API 平台。权重与技术报告预计约 10 天后发布。
KIMI AI🔥: A new open-source “Kimi K2.7 Code” model has been released on APIs and Huggingface! > Improved coding & agent performance over K2.6 > Reasoning efficiency > Long-horizon coding Testing time 👀
译KIMI AI🔥: 一个新的开源“Kimi K2.7 Code”模型已在 API 和 Huggingface 上发布! > 相比 K2.6,编码与智能体性能提升 > 推理效率 > 长时域编码 测试时间 👀
Just attended Huawei Developer Conference 2026 in person. Huawei's "Doom Slayer," Richard Yu (Yu Chengdong), is back — this time taking over the LLM. He unveiled Huawei's new openPangu 2.0 model and was unusually candid about the shortcomings. Huawei short on its own compute. And Huawei badly needs AI talent: "We can't match internet companies on salary — the people building LLMs with us run on belief and conviction." At Huawei, when Yu gets handed a business, it's because the fight is brutally hard. And he keeps winning — phones from scratch in 2011, the Seres car partnership in 2021. In June 2025, Pangu was alleged to be highly similar to Qwen-2.5, and the responsible exec left. Yu taking over means Huawei's models are behind and need to catch up fast.
译华为开发者大会2026上,余承东正式接管华为LLM业务,发布openPangu 2.0模型。他坦诚华为自有算力不足,且AI人才招揽困难:“我们薪资拼不过互联网公司,一起做大模型的人靠信念和热情坚持。”2025年6月,旧版Pangu模型曾被指与Qwen-2.5高度相似,相关高管离职。余承东此前曾从零打造华为手机、推动赛力斯汽车合作。此次接管意味着华为模型落后,需加速追赶。
Moonshot just released Kimi-K2.7 code, a huge upgrade to Kimi-K2.6! Big jump over K2.6: +21.8% on Kimi Code Bench v2 +11.0% on Program Bench +31.5% on MLS Bench Lite It also uses 30% fewer reasoning tokens, follows instructions better, and improves long-horizon coding tasks. 6x High-Speed Mode is coming soon. Good to see open source competition catching up
译Moonshot 发布并开源 Kimi-K2.7-Code 编程模型,相比 K2.6 在多个基准上大幅提升:Kimi Code Bench v2 提高 21.8%,Program Bench 提高 11.0%,MLS Bench Lite 提高 31.5%。推理效率优化,推理 token 使用量降低 30%,指令遵循与长时编码任务成功率提升。即将推出 6 倍高速模式。模型现已通过 Kimi API 和 Kimi Code 开放使用。
KIMI AI🔥: A new open-source “Kimi K2.6 Code” model has been released on APIs and Huggingface! > Improved coding & agent performance over K2.6 > Reasoning efficiency > Long-horizon coding Testing time 👀
译KIMI AI🔥:全新开源 “Kimi K2.6 Code” 模型已在 API 及 HuggingFace 发布! > 较 K2.6 改进编码与智能体性能 > 推理效率 > 长时编码 测试时间 👀
Kimi 开源发布最新编码模型「Kimi-K2.7-Code」,在 K2.6 基础上针对编程 Agent 做专项优化的版本,目标很明确:长链路编码任务的成功率更高,推理 token 更少! # 三个核心改进 1. 编码:全面进步,尚未登顶 相对 K2.6,三项编码基准均有提升:Kimi Code Bench v2 +21.8%(50.9→62.0),Program Bench +11.0%,MLS Bench Lite +31.5%(涨幅最大,但绝对分仍低)。 与 GPT-5.5、Opus 4.8 比:综合编码任务差距明显缩小;MLS 与 GPT-5.5 基本持平;Program Bench 仍落后 GPT-5.5 一截。结论:稳健迭代,不是 leapfrog。 2. Agent:MCP 是亮点 Kimi Claw 24/7(长周期协作)和 MCP Atlas 均有提升,但仍落后于两大闭源模型。 MCP Mark Verified(81.1)超过 Opus 4.8(76.4) 是最有说服力的结果——覆盖 Notion、GitHub、Postgres、Playwright 等真实 MCP 环境,且经人工复核。说明 K2.7 在多工具编排上已具竞争力,GPT-5.5(92.9)仍是天花板。 3. 效率:更少 token,更高分 K2.7 不只提分,还降 reasoning token(官方称整体约 -30%): · Kimi Code Bench v2:62k→48k token,分数 51%→62% · Program Bench:176k→102k token(-42%),分数 48%→53% · MLS Bench Lite:42k→38k token,分数 27%→35% 对 Agent 的实际意义:同样预算能跑更多步,长任务更省、更稳。 # 关键技术特性 1. 强制 Thinking 模式 不支持 Instant 模式;推荐 temperature=1.0、top_p=0.95。面向复杂推理,而非快速补全。 2. Preserve Thinking(强制开启) 多轮对话中保留完整 reasoning 内容,不可关闭。对编码 Agent 很重要——模型能引用先前推理链中的中间结论,减少上下文丢失。 3. Interleaved Thinking + Multi-Step Tool Call 与 K2 Thinking 相同设计:推理与工具调用交替进行,适合「想一步、调一步、再看结果」的 Agent 循环。 4. 多模态 支持图像和视频输入(官方 API 已支持;第三方 vLLM/SGLang 部署的视频能力仍为实验性)。 开源地址: https://huggingface.co/moonshotai/Kimi-K2.7-Code
译Kimi 开源发布最新编码模型 Kimi-K2.7-Code,基于 K2.6 优化。编码基准全面提升:Kimi Code Bench v2 提高 21.8%,Program Bench +11.0%,MLS Bench Lite +31.5%。推理 token 整体降低约 30%。Agent 方面,MCP Mark Verified 得分 81.1,超过 Opus 4.8(76.4),GPT-5.5(92.9)仍为天花板。技术特性:强制 Thinking 模式、Preserve Thinking、Interleaved Thinking+多步工具调用,支持图像和视频输入。可通过 Kimi API 和 Kimi Code 使用,6x 高速模式即将推出。开源地址:HuggingFace 上的 moonshotai/Kimi-K2.7-Code。
🌘 Kimi-K2.7-Code, our latest coding model, is now released and open-sourced! 🔷 Improved coding & agent performance over K2.6: +21.8% on Kimi Code Bench v2, +11.0% on Program Bench, and +31.5% on MLS Bench Lite. 🔷 Reasoning efficiency: Less overthinking, with 30% lower reasoning-token usage compared to K2.6. 🔷 Long-horizon coding: Improved instruction following, higher end-to-end coding task success rates. ⚡️ 6x High-Speed Mode coming soon! 🔌 Available today via Kimi API and Kimi Code. 🔗 Kimi Code: https://kimi.com/code 🔗 API: https://platform.moonshot.ai
译Kimi 发布并开源最新代码模型 Kimi-K2.7-Code。相比 K2.6,其在 Kimi Code Bench v2 上提升 +21.8%,Program Bench 提升 +11.0%,MLS Bench Lite 提升 +31.5%。推理效率改进,推理 token 使用量降低 30%,长时编码任务中指令遵循和端到端成功率均提升。6x 高速模式即将推出,即日起可通过 Kimi API 和 Kimi Code 使用。
今天的华为开发者大会 HDC 2026 上,余承东宣布开源盘古全面升级,带来了 openPangu 2.0 余承东喊话会带领团队一路赶超,而在自己的字典里,没有第二,只有第一!
译今天的华为开发者大会 HDC 2026 上,余承东宣布开源盘古全面升级,带来了 openPangu 2.0 余承东喊话会带领团队一路赶超,而在自己的字典里,没有第二,只有第一!
One prompt. Infinite possibilities. Meet Qwen3.7‑Max, the flagship model redefining agentic workloads that excels in frontend coding, generating rich, interactive web experiences from a single prompt, from Three.js 3D scenes to dynamic SVG graphics. Try Qwen3.7-Max — 50% Off for a Limited Time 🔗: https://int.alibabacloud.com/m/1000414100/ 🎥 Watch the video to see how Qwen3.7-Max transforms productivity.
译一个提示词,无限可能。 认识 Qwen3.7‑Max,旗舰模型重新定义智能体工作负载,在前端编码中表现出色,能从单个提示词生成丰富的交互式网页体验——从 Three.js 3D 场景到动态 SVG 图形。 立即体验 Qwen3.7-Max — 限时五折优惠 🔗: https://int.alibabacloud.com/m/1000414100/ 🎥 观看视频,了解 Qwen3.7-Max 如何提升生产力。
另外忘了说了,这个模型支持多模态输入!文本,图片,视频都可以,是真的夯
译Google 发布 Diffusion Gemma,模型大小 26B,激活参数量 4B。与 NVIDIA 合作优化 RTX 4090/5090,5090 每秒可生成 700+ token。支持文本、图片、视频多模态输入。AIME 2026 数学测试达 Gemma4-26B-A4B 的 94%,tau2 bench Agent 测试达 82%。输出质量略逊于传统大模型但速度更快。4bit 量化版本仅需 16GB 显存即可运行。
单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了一波, 5090每秒能生成700+token! 给不知道什么是 Diffusion 大模型的同学科普一下, 传统大模型都是一个字一个字吐出来的, 而 Diffusion 大模型则是如同刮奖一样, 是一片一片出来的, 速度高是 Diffusion 大模型的优点. 有得必有失, 缺点当然就是输出质量没有传统大模型好了. 不过这次的 Diffusion Gemma 还是比之前的 Diffusion 文本大模型好不少, AIME 2026(数学能力测试) 能达到 Gemma4-26B-A4B 的94%的水平, 最差的是tau2 bench(考验Agent能力的测试), 也能达到82%. 这个模型大小 4bit 量化版本 16G 显存就能运行了, 另外, 我突发奇想, 这个模型能不能作为 gemma4 dense 模型的草稿模型用来投机解码? 感兴趣的同学可以试试! #diffusiongemma #gemma #gemma4 #google
译Google 推出 Diffusion Gemma,大小 26B、激活参数量 4B,与 NVIDIA 合作针对 RTX 4090/5090 优化,5090 上速度达 700+ token/s。该扩散文本模型以“刮奖式”并行生成而非逐 token 生成,输出质量略逊但优于此前同类模型:AIME 2026(数学)达 Gemma4-26B-A4B 的 94%,tau2 bench(Agent)达 82%。4bit 量化版仅需 16G 显存即可运行。
Ideogram 4.0 is Ideogram’s first open weights release and debuts at #8 on our Open Weights Text to Image Leaderboard Ideogram 4.0 is the latest release from @ideogram_ai. Alongside their first party API, Ideogram is releasing 4.0 with open weights and a commercial license. The model generates 2K x 2K outputs (~4MP), with strong text rendering across languages, bounding box layout control, and transparent backgrounds. Ideogram 4.0 uses structured JSON prompts that specify composition and individual scene elements, with a prompt enhancer that expands natural language prompts into this structured format. Note that the prompt enhancer is only available via the Ideogram proprietary API, though it is free to use. We benchmarked the Quality tier of the model served via Ideogram's API, where it ranks #8 in Open Weights Text to Image, and #31 in Text to Image. It places ahead of closed source models including Seedream 3.0 and Luma UNI 1. While Ideogram 4.0 places near the top of our design, layout, and text rendering categories, it ranks further down overall on a balanced benchmark across all use cases including cartoon, anime, and photorealism. The model also has a more stylized look, which typically means it performs less favorably on our benchmarks. Ideogram states the open weights model accessible to the public is essentially the same model with additional safety training and quantization, so we expect a small quality difference. Ideogram 4.0 is available across three API tiers: Turbo at $30/1k images, Default at $60/1k images, and Quality at $100/1k images. The weights are free to download for evaluation and non-commercial use, with commercial self-hosting requiring a separate license. Congratulations to @ideogram_ai on the launch! See below for example generations and a link to vote on Ideogram 4.0 for yourself in the Artificial Analysis Image Arena 🧵
译Ideogram 4.0 是 Ideogram 首个开源权重模型,生成 2K×2K 输出,支持多语言文本渲染、边界框布局控制和透明背景。采用结构化 JSON 提示,提示增强器仅限 Ideogram 专有 API。在 Artificial Analysis 开放权重排行榜排名第8,整体第31,领先 Seedream 3.0 等闭源模型。API 三档:Turbo $30/千张、Default $60/千张、Quality $100/千张。开源权重免费用于评估和非商业用途,商业自部署需单独许可。
Gemini Omni Flash is SOTA at image to video, text to video, and video editing : ) Excited to get this to developers in the API soon!
译Gemini Omni Flash 在图像到视频、文本到视频和视频编辑方面达到了 SATA : ) 很高兴很快能将这一能力通过 API 提供给开发者!
Weights on Friday 🫶
译我们高性能MSA内核库现已开源。M3权重预计本周五发布。感谢等待! Github: https://github.com/MiniMax-AI/MSA Paper:https://github.com/MiniMax-AI/MSA/blob/main/docs/MiniMaxSparseAttention.pdf 主推文:权重周五发布🫶
We've made V8.1 the new default model for all users on Midjourney. V8 will now be deprecated in 2 weeks. V8.2 will start testing extremely soon.
译我们已将 V8.1 设为 Midjourney 所有用户的新默认模型。V8 将在两周后弃用。V8.2 即将开始测试。
Google 开源其扩散架构模型:DiffusionGemma 区别于Transformers 模型像打字机一样逐词一个一个生成 DiffusionGemma 可一次性生成大段或者整篇内容,然后再逐步优化 大幅度提高生成的速度: 在H100 上可实现 1000+ tokens/s,RTX 5090 上 700+ tokens/s 26B,18GB 显存能跑 一次可同时生成 256 个 tokens 自己检查自己,写完还能改: 普通 AI 写完一个字就锁死了,不会回头改。就算第 10 个字写错了,到第 100 个字的时候它也改不了前面的。 DiffusionGemma 的生成过程本身就是多轮迭代,每一轮它会重新审视整块文本,发现哪里不对就改掉。就像写作文先打草稿,再通读一遍改错别字,再读一遍调语句,几轮下来质量就上去了。
译Google 开源 DiffusionGemma,基于扩散架构,一次性生成大段文本再逐步优化。H100 上达 1000+ tokens/s,RTX 5090 上 700+ tokens/s。26B 参数仅需 18GB 显存,一次生成 256 tokens。多轮迭代自我纠错,可修改已生成内容。
Awesome to see this innovation in text diffusion. DiffusionGemma is lightning fast, 4x faster than other Gemma 4 models! Congrats to @bodonoghue85 and the team who worked so hard on this - excited to see what people build with it!
译Google Gemma 团队推出实验性开放文本扩散模型 DiffusionGemma,采用 Apache 2.0 许可。该模型突破传统逐 token 顺序生成方式,能同时生成整段文本。Demis Hassabis 称其速度是其他 Gemma 4 模型的 4 倍。
兄弟们,Google 这个新“模型”有点意思! DiffusionGemma一口气把文本生成干到4倍速,还彻底开源Apache 2.0,谁都能本地玩。 它不用传统自回归那种“吐一个词想下一个”的老办法。 而是直接用diffusion先扔一堆噪声,然后整块整块地同时起草、同时纠错、同时精炼,1000+ token/s的速度直接起飞。 18GB消费级显卡就能顺滑跑,代码、数学、复杂编辑这些最烦人的活儿。 它现在能实时补空、格式化、自我修复,速度快到你感觉AI终于开始“思考整段”而不是“一个字一个字憋”。 以前大家都默认更快就得牺牲质量,结果Google这次直接告诉你:并行diffusion才是文本生成的下一章,把整个生成范式从串行憋词翻篇成了并行炼句。 开源权重已经在Hugging Face放出,开发者现在就能把这玩意儿拖回家自己改、自己玩、自己加速日常workflow。 这波一出,AI生成速度的天花板可能要被彻底重写了。
译Google 发布实验性开源模型 DiffusionGemma(Apache 2.0),采用并行 diffusion 方式代替传统自回归“逐词预测”,可同时起草、纠错和精炼整块文本,生成速度达 4 倍提升(1000+ token/s)。模型在 18GB 消费级显卡即可本地运行,适用于代码、数学、复杂编辑等任务,已开源权重至 Hugging Face。
OpenAI’s chief scientist, Jakub Pachocki, wrote in a slack message that GPT-5.6 will be a "meaningful improvement" over GPT-5.5. GPT-5.5 is fantastic and my daily companion in Codex. A significant leap forward would be welcome. But the truth is: OpenAI needs its own mythos/fable. Via TheInformation
译OpenAI 首席科学家 Jakub Pachocki 在 Slack 消息中写道,GPT-5.6 将比 GPT-5.5 有“有意义的改进”。 GPT-5.5 很棒,是我在 Codex 中的日常伴侣。一次重大飞跃将受到欢迎。 但事实是:OpenAI 需要自己的神话/传说。 来源:The Information
Grok Voice offers state-of-the-art performance with human-like timing, tone, and warmth. And it's a fraction the price of competitors. Check it out: http://x.ai/api/voice
译Grok Voice 提供最先进的性能,具有类人的时机、语调和温暖感。而且价格仅为竞争对手的一小部分。 查看详情:http://x.ai/api/voice
Great news for local LLMS. Google just released DiffusionGemma, an open experimental 26B MoE, activates only 3.8B. Open model, Apache 2.0 license. fits within 18GB VRAM when quantized The big deal is the speed, DiffusionGemma generates 256 tokens in parallel per forward pass. This gives it up to 4x faster inference, with 1000+ tokens/s on an H100 and 700+ tokens/s on an RTX 5090. Normal autoregressive LLMs behave like left-to-right printers, so each new token waits for the previous token, which makes local GPU inference slow for a single user. DiffusionGemma initializes a 256-token canvas with random placeholder tokens, then runs multiple denoising passes that refine the whole canvas in parallel.
译Google 推出开源实验性模型 DiffusionGemma,基于 Gemma 4 的文本扩散研究。该模型为 26B MoE 架构,仅激活 3.8B 参数,量化后可适配 18GB VRAM。核心突破在于每轮前向传播并行生成 256 个 token,实现推理速度提升 4 倍:H100 上可达 1000+ tokens/s,RTX 5090 达 700+ tokens/s。DiffusionGemma 通过初始化随机占位符画布并运行多轮并行去噪,同时生成整段文本,许可证为 Apache 2.0。
This is just awesomeness from @cohere, @nickfrosst, and team. I so badly want a coding agent that just runs on my local machine. We are not too far now! Excited to get this to work with my @dair_ai coding agent in the next couple of days.
译Cohere发布了其首个开源编程模型North Mini Code。该模型小巧高效,专为智能体性能设计,并欢迎社区反馈。Elvis Saravia对此赞叹不已,期待尽快将其与自己的DAIR.AI编程智能体配合使用。
Google released DiffusionGemma, a new open model with up to 4x faster output! > Instead of predicting word-by-word, it generates entire blocks of text simultaneously. This lets the model self-correct and format complex markdown in real time. Same performance as Gemma 4 is a big deal. Wondering if it is based on the model previewed last year.
译Google发布了实验性开源模型DiffusionGemma,采用Apache 2.0许可。该模型不再逐token预测,而是同时生成整块文本,速度提升高达4倍。它能在生成过程中自我纠正,并实时格式化复杂Markdown。性能与Gemma 4相当。
DiffusionGemma, our experimental open model released under an Apache 2.0 license, explores text diffusion, an exceptionally fast approach to text generation. Here’s how DiffusionGemma accelerates development: + Faster token output: By shifting the bottleneck from memory bandwidth to raw compute, the model generates up to 4x faster token output on dedicated GPUs + Accessible hardware footprint: Activates just 3.8B parameters during inference, fitting comfortably within 24GB-VRAM high-end consumer GPUs when quantized + Novel workflows: Parallel token generation enables self-correction, making it ideal for code infilling, in-line editing, and non-linear structures DiffusionGemma prioritizes speed over raw quality and accelerates best on compute-bound hardware (like @NVIDIAAI GPUs). Standard @GoogleGemma 4 remains recommended for production quality and memory-bound devices.
译Google AI 发布实验性开源模型 DiffusionGemma,采用 Apache 2.0 许可证。该模型基于文本扩散方法,将生成瓶颈从内存带宽转向计算,在专用 GPU 上 token 输出速度最高提升 4 倍。推理时仅激活 3.8B 参数,量化后可适配 24GB VRAM 消费级 GPU。并行 token 生成支持自我纠错,适用于代码填充、行内编辑等非线性结构。DiffusionGemma 优先速度而非极致质量,生产场景仍推荐标准 Gemma 4。
DiffusionGemma, where the LLM picks words all at once. Which is 4x faster. You can get started with the weights and instructions here: https://huggingface.co/google/diffusiongemma-26B-A4B-it
译DiffusionGemma,大语言模型一次性选出所有词。速度快4倍。 你可以从这里获取权重和说明开始使用: https://huggingface.co/google/diffusiongemma-26B-A4B-it
This is awesome! I am spending a lot of time on diffusion LLMs these days, so this is perfect timing. I feel like there are so many underexplored research questions around text diffusion. Weight available in HF.
译太棒了!我最近花了很多时间在研究扩散大语言模型上,所以这个时机恰到好处。我觉得文本扩散领域还有很多未被充分探索的研究问题。权重已在 HuggingFace 上可用。
KIMI K2.7 Code正式发布,为编程/Agent专项模型,架构与K2.6一致,属后训练优化版本。在kimi自测的kimi-code-bench-v2上较K2.6提升11%,其他Agent测试项目同样有提升。适用场景包括编程任务以及需要Agent参与的验证任务(如简历筛选、PR审查等)。
🎉 Congrats to @MiniMax_AI on releasing MiniMax M3! Frontier coding and agentic capabilities, native image and video inp...
Congrats to the MiniMax team on the open-source launch of M3! There are very few <500bn parameter models that can tackle...
🚀 Introducing Gemini-SQL2, our breakthrough text-to-SQL capability powered by Gemini 3.1 Pro! We've achieved state-of-t...
Kimi K2.7-Code is now available on AI/ML API! Moonshot's latest is built for long-horizon agentic coding that self-corre...
Congrats to the @MiniMax_AI team on the release of MiniMax M3, a long-context multimodal model for text, image, and vide...
MiniMax M3 is live on Fireworks. Day-0, fastest endpoint for the MiniMax series. → Top open-weight model on the Artifici...
MiniMax M3 can now be run locally!🔥 MiniMax-M3 is a new 428B (23B active) open model with 1M context that performs on p...
M3 open weights from @MiniMax_AI just dropped, and Modular is a Day Zero launch partner. 1M-token context. Text, image, ...
Congrats to the @MiniMax_AI team on the release of MiniMax M3, a long-context multimodal model for text, image, and vide...
商汤推出SenseNova-U1-8B-MoT-Interleaved模型,专门用于交错文本与图像生成。核心升级包括:叙事连续性增强,支持多页连贯故事;角色一致性改进,人物身份与艺术风格保持稳定;视觉质量提升,文字渲染更清晰、布局更可靠、伪影减少。模型已在HuggingFace开放体验。
Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...
🔗 Weights & code: https://huggingface.co/moonshotai/Kimi-K2.7-Code
华为开发者大会2026上,余承东正式接管华为LLM业务,发布openPangu 2.0模型。他坦诚华为自有算力不足,且AI人才招揽困难:“我们薪资拼不过互联网公司,一起做大模型的人靠信念和热情坚持。”2025年6月,旧版Pangu模型曾被指与Qwen-2.5高度相似,相关高管离职。余承东此前曾从零打造华为手机、推动赛力斯汽车合作。此次接管意味着华为模型落后,需加速追赶。
🌘 Kimi-K2.7-Code, our latest coding model, is now released and open-sourced! 🔷 Improved coding & agent performance ove...
🔗 Weights & code: https://huggingface.co/moonshotai/Kimi-K2.7-Code
Kimi 开源发布最新编码模型 Kimi-K2.7-Code,基于 K2.6 优化。编码基准全面提升:Kimi Code Bench v2 提高 21.8%,Program Bench +11.0%,MLS Bench Lite +31.5%。推理 token 整体降低约 30%。Agent 方面,MCP Mark Verified 得分 81.1,超过 Opus 4.8(76.4),GPT-5.5(92.9)仍为天花板。技术特性:强制 Thinking 模式、Preserve Thinking、Interleaved Thinking+多步工具调用,支持图像和视频输入。可通过 Kimi API 和 Kimi Code 使用,6x 高速模式即将推出。开源地址:HuggingFace 上的 moonshotai/Kimi-K2.7-Code。
🌘 Kimi-K2.7-Code, our latest coding model, is now released and open-sourced! 🔷 Improved coding & agent performance ove...
Kimi 发布并开源最新代码模型 Kimi-K2.7-Code。相比 K2.6,其在 Kimi Code Bench v2 上提升 +21.8%,Program Bench 提升 +11.0%,MLS Bench Lite 提升 +31.5%。推理效率改进,推理 token 使用量降低 30%,长时编码任务中指令遵循和端到端成功率均提升。6x 高速模式即将推出,即日起可通过 Kimi API 和 Kimi Code 使用。
单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了...
Google 推出 Diffusion Gemma,大小 26B、激活参数量 4B,与 NVIDIA 合作针对 RTX 4090/5090 优化,5090 上速度达 700+ token/s。该扩散文本模型以“刮奖式”并行生成而非逐 token 生成,输出质量略逊但优于此前同类模型:AIME 2026(数学)达 Gemma4-26B-A4B 的 94%,tau2 bench(Agent)达 82%。4bit 量化版仅需 16G 显存即可运行。
Ideogram 4.0 是 Ideogram 首个开源权重模型,生成 2K×2K 输出,支持多语言文本渲染、边界框布局控制和透明背景。采用结构化 JSON 提示,提示增强器仅限 Ideogram 专有 API。在 Artificial Analysis 开放权重排行榜排名第8,整体第31,领先 Seedream 3.0 等闭源模型。API 三档:Turbo $30/千张、Default $60/千张、Quality $100/千张。开源权重免费用于评估和非商业用途,商业自部署需单独许可。
Hey everyone - our high-performance MSA kernel library is now open-source. The M3 weights are expected to drop this Frid...
V8.1 is live! Our iconic aesthetics are back w native 2K HD rendering - 3x faster and 3x cheaper vs V8. Full quality V8....
关联讨论 1 条Midjourney:Updates(RSS)Google 开源 DiffusionGemma,基于扩散架构,一次性生成大段文本再逐步优化。H100 上达 1000+ tokens/s,RTX 5090 上 700+ tokens/s。26B 参数仅需 18GB 显存,一次生成 256 tokens。多轮迭代自我纠错,可修改已生成内容。
Meet DiffusionGemma! An experimental open model that explores a fast approach to text generation, released under an Apac...
关联讨论 6 条X:Sundar Pichai (@sundarpichai)Google Developers Blog(RSS)Google DeepMind:Blog(RSS)X:Google DeepMind (@GoogleDeepMind)Hacker News 热门(buzzing.cc 中文翻译)MarkTechPost(RSS)Google 发布实验性开源模型 DiffusionGemma(Apache 2.0),采用并行 diffusion 方式代替传统自回归“逐词预测”,可同时起草、纠错和精炼整块文本,生成速度达 4 倍提升(1000+ token/s)。模型在 18GB 消费级显卡即可本地运行,适用于代码、数学、复杂编辑等任务,已开源权重至 Hugging Face。
Meet DiffusionGemma ⚡ Our latest experimental open model (Apache 2.0) that generates text up to 4x faster. Instead of pr...
🚀 Grok Voice Think Fast 1.0 (@xAI) lands on the Pareto frontier on EVA-Bench - no system in the eval beats it on accura...
Google 推出开源实验性模型 DiffusionGemma,基于 Gemma 4 的文本扩散研究。该模型为 26B MoE 架构,仅激活 3.8B 参数,量化后可适配 18GB VRAM。核心突破在于每轮前向传播并行生成 256 个 token,实现推理速度提升 4 倍:H100 上可达 1000+ tokens/s,RTX 5090 达 700+ tokens/s。DiffusionGemma 通过初始化随机占位符画布并运行多轮并行去噪,同时生成整段文本,许可证为 Apache 2.0。
DiffusionGemma is an open, experimental model that brings our text diffusion research to Gemma 4. It's a racehorse 🏇ach...
Introducing Cohere's first open-source coding model: North Mini Code Small & efficient, designed for agentic performance...
Meet DiffusionGemma! An experimental open model that explores a fast approach to text generation, released under an Apac...
关联讨论 6 条X:Sundar Pichai (@sundarpichai)Google Developers Blog(RSS)Google DeepMind:Blog(RSS)X:Google DeepMind (@GoogleDeepMind)Hacker News 热门(buzzing.cc 中文翻译)MarkTechPost(RSS)Google AI 发布实验性开源模型 DiffusionGemma,采用 Apache 2.0 许可证。该模型基于文本扩散方法,将生成瓶颈从内存带宽转向计算,在专用 GPU 上 token 输出速度最高提升 4 倍。推理时仅激活 3.8B 参数,量化后可适配 24GB VRAM 消费级 GPU。并行 token 生成支持自我纠错,适用于代码填充、行内编辑等非线性结构。DiffusionGemma 优先速度而非极致质量,生产场景仍推荐标准 Gemma 4。
关联讨论 6 条X:Sundar Pichai (@sundarpichai)Google Developers Blog(RSS)Google DeepMind:Blog(RSS)X:Google DeepMind (@GoogleDeepMind)Hacker News 热门(buzzing.cc 中文翻译)MarkTechPost(RSS)DiffusionGemma is our new experimental open model with up to 4x faster output on dedicated GPUs. Instead of predicting w...