AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态X · 611 条
全部一手资讯X论文
MiniMax (official)@MiniMax_AI · 1小时前80

the kernels are doing the lord's work today, day-0 on @vllm_project, verified on nvidia and amd. go read the writeup 👇

译MiniMax 发布全新开源模型 M3,具备前沿编码、智能体能力、原生图像视频输入、Computer Use 及 1M-token 上下文窗口。核心采用 MSA 稀疏注意力架构:每个 query 仅对 128-token 的 KV 块打分,只关注 top 块,使超长上下文实际可部署。M3 在 vLLM 获 Day-0 支持,已在 NVIDIA 和 AMD 硬件验证,包括 MSA 专用 prefill/decode kernel、1M-token 上下文服务(prefix caching + chunked prefill)、BF16/MXFP8 检查点(Hopper 和 Blackwell 的 MoE 后端)、原生多模态输入,以及工具调用、推理解析和思考模式控制等功能。

查看原推 ↗
Berryxia.AI@berryxia · 3小时前72

兄弟们,这几天国产模型都在疯狂更新啊! Kimi直接把coding model最烦人的“过度思考”这个毛病给治好了,2.7版比上一代少烧30% token,agent长任务成功率却反而大幅提升。 Kimi-K2.7-Code今天正式开源,Kimi Code Bench v2涨21.8%、Program Bench涨11%、MLS Bench Lite直接拉高31.5%,指令跟随和端到端完成率都明显更好。 以前大家做长horizon coding agent最头疼的就是模型越想越多、token越烧越多、最后半途而废! 现在Kimi用更高效的推理直接把这个瓶颈给砸开了,还顺手把权重和代码全扔到Hugging Face。 最狠的是他们还预告了即将到来的6x High-Speed Mode,coding效率要继续起飞。 开放API和Kimi Code今天就能用,同时开了Beta计划让开发者先试新功能。 这波更新证明了真正的coding agent进步,不是单纯堆参数,而是把“想得少但干得好”这件事做到极致。 开源之后,社区直接能把这个能力拿去魔改、组合、部署。 以前coding model总在“聪明但低效”和“高效但笨”之间摇摆,结果Kimi直接给出了第三条路。

译Kimi 发布并开源最新编码模型 Kimi-K2.7-Code。相比 K2.6,该模型在 Kimi Code Bench v2 提升 21.8%,Program Bench 提升 11%,MLS Bench Lite 提升 31.5%。核心改进是解决编码模型“过度思考”问题,推理 token 使用量降低 30%,long-horizon 编码任务的指令跟随和端到端成功率显著提升。权重与代码已上传 Hugging Face,支持通过 Kimi API 和 Kimi Code 使用,同时开放 Beta 计划。团队预告即将推出 6x High-Speed Mode,进一步提升编码效率。

查看原推 ↗
SemiAnalysis@SemiAnalysis_ · 4小时前63

Congrats to @vllm_project & @lmsysorg for releasing MiniMax M3 428B on both the CUDA & ROCm stack on day 0! MiniMax M3 includes: 🟠 Block sparse attention which is 9x faster prefill over M2.7 🟠 Day 0 open MXFP8 weights 🟠 and Furthermore @Inferact released Day-0 EAGLE3 open weight draft model support Excited to try out the performance on MiniMax M3!

译祝贺 @vllm_project 和 @lmsysorg 在 CUDA 和 ROCm 堆栈上于第 0 天发布 MiniMax M3 428B!MiniMax M3 包含: 🟠 块稀疏注意力,预填充比 M2.7 快 9 倍 🟠 第 0 天开放 MXFP8 权重 🟠 此外,@Inferact 发布了第 0 天 EAGLE3 开放权重草稿模型支持 期待尝试 MiniMax M3 的性能!

查看原推 ↗
karminski-牙医@karminski3 · 5小时前63

KIMI K2.7 Code 来了, K3 还会远吗? KIMI K2.7 Code 刚刚发布! 本次 K2.7-Code 是一个编程/Agent专项模型, 其中提升最大的是 kimi 自己的测试项目 kimi-code-bench-v2, 与 k2.6 相比提升了11%! 其它几个 Agent 测试项目也有不小的提升. 不过从架构上看, 其实这个模型与 K2.6 是完全一致的. 所以它是一个后训练优化版本. 于是我给大家写了个适用场景指南: 首先编程任务无疑使用这个新模型会更合适. 另外, Agentic 任务也可以尝试切换, 比如先用AI生成, 然后需要使用 Agent 进行验证的任务, 例如简历筛选, PR 审查这类需要外部 Agent 参与进行评分或者进行数据整合/格式化的的任务也很适合切换到这个新模型. 稍后有时间给大家带来详细测试! #kimik27code #kimik27

译KIMI K2.7 Code正式发布,为编程/Agent专项模型,架构与K2.6一致,属后训练优化版本。在kimi自测的kimi-code-bench-v2上较K2.6提升11%,其他Agent测试项目同样有提升。适用场景包括编程任务以及需要Agent参与的验证任务(如简历筛选、PR审查等)。

查看原推 ↗
MiniMax (official)@MiniMax_AI · 6小时前82

day-0 in @vllm_project and it comes with: dedicated MSA prefill/decode kernels, 1M-context serving with prefix caching + chunked prefill, BF16 + MXFP8 on both Hopper and Blackwell 🚀 this is what open-weight done properly looks like. thanks @vllm_project, @NVIDIAAI, @AIatAMD, @inferact

译MiniMax M3 发布,具备前沿编码与智能体能力,原生图像视频输入和计算机使用,1M-token 上下文。核心采用 MSA 稀疏注意力:每个 query 评分 128-token KV 块,仅对 top 块做注意力。vLLM 当日即支持 M3,包括专用 MSA prefill/decode 核、前缀缓存与分块 prefill、BF16 和 MXFP8 检查点、Hopper 与 Blackwell 的 MoE 后端,并在 NVIDIA 与 AMD 硬件上验证。同时支持原生多模态输入、工具调用、推理解析和思考模式控制等智能体工作负载。

查看原推 ↗
MiniMax (official)@MiniMax_AI · 7小时前73

With only ~428B params, and ~23B activated params M3 still handles frontier coding + long-horizon agents + native multimodal (text, image, video) at 1M-token context few open-weight models do any of this. M3 does all of it. Thanks @baseten 🚀

译MiniMax 开源 M3 模型,约 428B 总参数、23B 激活参数,支持前沿编码、长周期智能体任务及原生多模态(文本、图像、视频),上下文窗口达 1M token。开放权重,可在 Baseten 部署。在少于 500B 参数的模型中,能同时兼顾编码、智能体工作负载和 1M 上下文的模型极少,M3 全部实现。

查看原推 ↗
elvis@omarsar0 · 7小时前62

Text-to-SQL might sound like a solved problem. Far from it. Data gets messy and complex really fast in the real world. Strong reasoning models are great, but nothing beats a custom model at this stuff. Gemini-SQL2 looks very strong here. BIRD is a tough benchmark. I suspect there are plenty of opportunities like this in KBs, search, graph databases, etc.

译GoogleResearch推出Gemini-SQL2,基于Gemini 3.1 Pro,在BIRD benchmark上达到Text-to-SQL的SOTA结果,能将自然语言翻译为可直接执行的SQL查询。DAIR.AI的Elvis Saravia指出,现实世界数据复杂混乱,尽管强推理模型表现不错,但定制模型(如Gemini-SQL2)在此类任务上更胜一筹。他认为在知识库、搜索、图数据库等领域也存在类似机会,BIRD是一个非常具有挑战性的基准。

查看原推 ↗
🚨 AI News | TestingCatalog@testingcatalog · 8小时前48

Kimi-K2.7-Code is now available on AI/ML API 👀 > Kimi K2.7 Code is the latest agentic coding model from Kimi AI that supports extended reasoning and tool use. > AI/ML API is a single gateway to Chat, Reasoning, Image, Video, Audio, Voice, Search, and World models under one bill. Kimi K2.7 Code can be tested on both Playground and APIs.

译月之暗面最新智能体编码模型 Kimi-K2.7-Code 已在 AI/ML API 平台上线,支持扩展推理和工具使用,可通过 Playground 和 API 测试。为验证其自我修正能力(而非一次性生成),研究者让四个 Kimi 智能体运行一个 2D 飞行物理模拟,目标是从发射到入轨并让助推器着陆。四次飞行中:第一次在最大动压处解体;第二次过关但分离过早失败;第三次成功入轨但未抓住着陆船;第四次修正着陆计算后成功着陆。该过程展示了模型通过迭代闭环调试从失败中自动学习。

查看原推 ↗
MiniMax (official)@MiniMax_AI · 8小时前56

means a lot coming from @NVIDIAAI free GPU-accelerated M3 endpoint are live now go try it 👇

译来自@NVIDIAAI的认可意义重大 免费GPU加速的M3端点现已上线 快来试试👇

查看原推 ↗
MiniMax (official)@MiniMax_AI · 9小时前64

day-0 and already on @FireworksAI_HQ with blazing fast inference long-horizon agents, full-repo understanding, multimodal coding all in one model Try M3 today on Fireworks AI

译MiniMax M3 已在 Fireworks AI 上线,Day-0 即获最快推理端点。模型为开源权重,在 Artificial Analysis 指数排名第一。支持 512K 上下文窗口、原生图像及视频输入;采用 MSA 稀疏注意力机制,实现 9 倍更快的 prefill 与 15 倍更快的 decode。定价与 M2.7 持平。M3 将长周期智能体、全仓库理解与多模态编程集成于单一模型。

查看原推 ↗
MiniMax (official)@MiniMax_AI · 9小时前69

Run M3 locally today with @UnslothAI

译MiniMax-M3 是一款拥有 428B(23B 激活)参数、1M 上下文的新开源模型,性能与 Gemini 3.1 Pro 相当。可在 138GB 内存/显存上运行动态 2-bit GGUF 版本,或 165GB 上运行 3-bit 版本。在 @UnslothAI 的帮助下,今天即可本地运行 M3。

查看原推 ↗
MiniMax (official)@MiniMax_AI · 11小时前70

M3 open weight just dropped and it's live on @Modular cloud on day zero with up to a 1M-context and MSA architecture kernel-to-cloud optimization is exactly what M3 needs glad to have @Modular with us from the start

译MiniMax 发布 M3 模型开源权重,并宣布与 Modular 合作,在 Modular Cloud 上当天上线。M3 支持最高 1M-token 上下文长度,接受文本、图像、视频多模态输入,采用 MSA(Multi-Stream Attention)架构,专为长时间运行的智能体(Agent)与编码(Coding)工作负载优化。

查看原推 ↗
🚨 AI News | TestingCatalog@testingcatalog · 11小时前51

NVIDIA ❤️ MiniMax MiniMax M3 weights are now available on @huggingface, and NVIDIA now offers a Free Endpoint on its platform for testing. Testing time 👀

译NVIDIA ❤️ MiniMax MiniMax M3 权重现已在 @huggingface 上发布,NVIDIA 在其平台上提供免费端点用于测试。 测试时间到 👀

查看原推 ↗
Claude@claudeai · 12小时前40

Claude Fable 5 has been out for a couple of days. Some projects people have already built with it:

译Claude Fable 5 已经发布几天了。人们已经用它构建的一些项目:

查看原推 ↗
Deedy@deedydas · 12小时前72

Claude 5 Fable (Ultracode) "Make a playable alpine glacial valley at sunrise" No meshes or models. Everything you see is math. Fable screenshotted its own work and iterated. Took ~30 mins, ~500k tokens, ~2500 lines of code, and ~$25. Extremely impressive.

译Claude 5 Fable (Ultracode) "在日出时制作一个可玩的高山冰川山谷" 没有网格或模型。你所看到的一切都是数学。Fable 截取了自己作品的屏幕截图并进行了迭代。 耗时约 30 分钟,约 500k tokens,约 2500 行代码,约 25 美元。极其令人印象深刻。

查看原推 ↗
SenseTime@SenseTime_AI · 14小时前61

🚀 Introducing SenseNova-U1-8B-MoT-Interleaved—our newly optimized model purpose-built for interleaved text-and-image generation! Key upgrades where it matters most: ✨ 𝗡𝗮𝗿𝗿𝗮𝘁𝗶𝘃𝗲 𝗰𝗼𝗻𝘁𝗶𝗻𝘂𝗶𝘁𝘆 strengthened — coherent storytelling sustained across multiple pages 👥 𝗖𝗵𝗮𝗿𝗮𝗰𝘁𝗲𝗿 𝗰𝗼𝗻𝘀𝗶𝘀𝘁𝗲𝗻𝗰𝘆 improved — character identities and art style remain stable throughout 📝 𝗩𝗶𝘀𝘂𝗮𝗹 𝗾𝘂𝗮𝗹𝗶𝘁𝘆 elevated — cleaner text rendering and more reliable layouts with fewer artifacts Try it now 👇 https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Interleaved Showcases: https://github.com/OpenSenseNova/SenseNova-U1 Discord: https://discord.com/invite/BuTXPHmQub @huggingface @github

译商汤推出SenseNova-U1-8B-MoT-Interleaved模型,专门用于交错文本与图像生成。核心升级包括:叙事连续性增强,支持多页连贯故事;角色一致性改进,人物身份与艺术风格保持稳定;视觉质量提升,文字渲染更清晰、布局更可靠、伪影减少。模型已在HuggingFace开放体验。

查看原推 ↗
MiniMax (official)@MiniMax_AI · 13小时前81

MiniMax M3, Open-Weight, Now On Hugging Face , with only ~428B parameters and ~23B activated parameters Weights: https://huggingface.co/MiniMaxAI/MiniMax-M3 MiniMax Sparse Attention: https://huggingface.co/papers/2606.13392

译MiniMax 发布开源权重模型 M3,约 428B 总参数、23B 激活参数,已上传 HuggingFace。该模型融合三种前沿能力:编码与智能体方面达 59.0% SWE-Bench Pro、66.0% Terminal Bench 2.1、34.8% SWE-fficiency、28.8% KernelBench Hard、74.2% MCP Atlas;采用 MiniMax 稀疏注意力将上下文窗口扩展至 1M token;原生多模态。同步上线 MiniMax Code 工具及 API 平台。权重与技术报告预计约 10 天后发布。

查看原推 ↗
🚨 AI News | TestingCatalog@testingcatalog · 14小时前57

KIMI AI🔥: A new open-source “Kimi K2.7 Code” model has been released on APIs and Huggingface! > Improved coding & agent performance over K2.6 > Reasoning efficiency > Long-horizon coding Testing time 👀

译KIMI AI🔥: 一个新的开源“Kimi K2.7 Code”模型已在 API 和 Huggingface 上发布! > 相比 K2.6,编码与智能体性能提升 > 推理效率 > 长时域编码 测试时间 👀

查看原推 ↗
X.PIN@thexpin · 14小时前72

Just attended Huawei Developer Conference 2026 in person. Huawei's "Doom Slayer," Richard Yu (Yu Chengdong), is back — this time taking over the LLM. He unveiled Huawei's new openPangu 2.0 model and was unusually candid about the shortcomings. Huawei short on its own compute. And Huawei badly needs AI talent: "We can't match internet companies on salary — the people building LLMs with us run on belief and conviction." At Huawei, when Yu gets handed a business, it's because the fight is brutally hard. And he keeps winning — phones from scratch in 2011, the Seres car partnership in 2021. In June 2025, Pangu was alleged to be highly similar to Qwen-2.5, and the responsible exec left. Yu taking over means Huawei's models are behind and need to catch up fast.

译华为开发者大会2026上,余承东正式接管华为LLM业务,发布openPangu 2.0模型。他坦诚华为自有算力不足,且AI人才招揽困难:“我们薪资拼不过互联网公司,一起做大模型的人靠信念和热情坚持。”2025年6月,旧版Pangu模型曾被指与Qwen-2.5高度相似,相关高管离职。余承东此前曾从零打造华为手机、推动赛力斯汽车合作。此次接管意味着华为模型落后,需加速追赶。

查看原推 ↗
Chubby♨️@kimmonismus · 15小时前66

Moonshot just released Kimi-K2.7 code, a huge upgrade to Kimi-K2.6! Big jump over K2.6: +21.8% on Kimi Code Bench v2 +11.0% on Program Bench +31.5% on MLS Bench Lite It also uses 30% fewer reasoning tokens, follows instructions better, and improves long-horizon coding tasks. 6x High-Speed Mode is coming soon. Good to see open source competition catching up

译Moonshot 发布并开源 Kimi-K2.7-Code 编程模型,相比 K2.6 在多个基准上大幅提升:Kimi Code Bench v2 提高 21.8%,Program Bench 提高 11.0%,MLS Bench Lite 提高 31.5%。推理效率优化,推理 token 使用量降低 30%,指令遵循与长时编码任务成功率提升。即将推出 6 倍高速模式。模型现已通过 Kimi API 和 Kimi Code 开放使用。

查看原推 ↗
🚨 AI News | TestingCatalog@testingcatalog · 15小时前60

KIMI AI🔥: A new open-source “Kimi K2.6 Code” model has been released on APIs and Huggingface! > Improved coding & agent performance over K2.6 > Reasoning efficiency > Long-horizon coding Testing time 👀

译KIMI AI🔥:全新开源 “Kimi K2.6 Code” 模型已在 API 及 HuggingFace 发布! > 较 K2.6 改进编码与智能体性能 > 推理效率 > 长时编码 测试时间 👀

查看原推 ↗
meng shao@shao__meng · 16小时前70

Kimi 开源发布最新编码模型「Kimi-K2.7-Code」,在 K2.6 基础上针对编程 Agent 做专项优化的版本,目标很明确:长链路编码任务的成功率更高,推理 token 更少! # 三个核心改进 1. 编码:全面进步,尚未登顶 相对 K2.6,三项编码基准均有提升:Kimi Code Bench v2 +21.8%(50.9→62.0),Program Bench +11.0%,MLS Bench Lite +31.5%(涨幅最大,但绝对分仍低)。 与 GPT-5.5、Opus 4.8 比:综合编码任务差距明显缩小;MLS 与 GPT-5.5 基本持平;Program Bench 仍落后 GPT-5.5 一截。结论:稳健迭代,不是 leapfrog。 2. Agent:MCP 是亮点 Kimi Claw 24/7(长周期协作)和 MCP Atlas 均有提升,但仍落后于两大闭源模型。 MCP Mark Verified(81.1)超过 Opus 4.8(76.4) 是最有说服力的结果——覆盖 Notion、GitHub、Postgres、Playwright 等真实 MCP 环境,且经人工复核。说明 K2.7 在多工具编排上已具竞争力,GPT-5.5(92.9)仍是天花板。 3. 效率:更少 token,更高分 K2.7 不只提分,还降 reasoning token(官方称整体约 -30%): · Kimi Code Bench v2:62k→48k token,分数 51%→62% · Program Bench:176k→102k token(-42%),分数 48%→53% · MLS Bench Lite:42k→38k token,分数 27%→35% 对 Agent 的实际意义:同样预算能跑更多步,长任务更省、更稳。 # 关键技术特性 1. 强制 Thinking 模式 不支持 Instant 模式;推荐 temperature=1.0、top_p=0.95。面向复杂推理,而非快速补全。 2. Preserve Thinking(强制开启) 多轮对话中保留完整 reasoning 内容,不可关闭。对编码 Agent 很重要——模型能引用先前推理链中的中间结论,减少上下文丢失。 3. Interleaved Thinking + Multi-Step Tool Call 与 K2 Thinking 相同设计:推理与工具调用交替进行,适合「想一步、调一步、再看结果」的 Agent 循环。 4. 多模态 支持图像和视频输入(官方 API 已支持;第三方 vLLM/SGLang 部署的视频能力仍为实验性)。 开源地址: https://huggingface.co/moonshotai/Kimi-K2.7-Code

译Kimi 开源发布最新编码模型 Kimi-K2.7-Code,基于 K2.6 优化。编码基准全面提升:Kimi Code Bench v2 提高 21.8%,Program Bench +11.0%,MLS Bench Lite +31.5%。推理 token 整体降低约 30%。Agent 方面,MCP Mark Verified 得分 81.1,超过 Opus 4.8(76.4),GPT-5.5(92.9)仍为天花板。技术特性:强制 Thinking 模式、Preserve Thinking、Interleaved Thinking+多步工具调用,支持图像和视频输入。可通过 Kimi API 和 Kimi Code 使用,6x 高速模式即将推出。开源地址:HuggingFace 上的 moonshotai/Kimi-K2.7-Code。

查看原推 ↗
Kimi.ai@Kimi_Moonshot · 17小时前70

🌘 Kimi-K2.7-Code, our latest coding model, is now released and open-sourced! 🔷 Improved coding & agent performance over K2.6: +21.8% on Kimi Code Bench v2, +11.0% on Program Bench, and +31.5% on MLS Bench Lite. 🔷 Reasoning efficiency: Less overthinking, with 30% lower reasoning-token usage compared to K2.6. 🔷 Long-horizon coding: Improved instruction following, higher end-to-end coding task success rates. ⚡️ 6x High-Speed Mode coming soon! 🔌 Available today via Kimi API and Kimi Code. 🔗 Kimi Code: https://kimi.com/code 🔗 API: https://platform.moonshot.ai

译Kimi 发布并开源最新代码模型 Kimi-K2.7-Code。相比 K2.6,其在 Kimi Code Bench v2 上提升 +21.8%,Program Bench 提升 +11.0%,MLS Bench Lite 提升 +31.5%。推理效率改进,推理 token 使用量降低 30%,长时编码任务中指令遵循和端到端成功率均提升。6x 高速模式即将推出,即日起可通过 Kimi API 和 Kimi Code 使用。

查看原推 ↗
meng shao@shao__meng · 18小时前64

今天的华为开发者大会 HDC 2026 上,余承东宣布开源盘古全面升级,带来了 openPangu 2.0 余承东喊话会带领团队一路赶超,而在自己的字典里,没有第二,只有第一!

译今天的华为开发者大会 HDC 2026 上,余承东宣布开源盘古全面升级,带来了 openPangu 2.0 余承东喊话会带领团队一路赶超,而在自己的字典里,没有第二,只有第一!

查看原推 ↗
Alibaba Cloud@alibaba_cloud · 20小时前84

One prompt. Infinite possibilities. Meet Qwen3.7‑Max, the flagship model redefining agentic workloads that excels in frontend coding, generating rich, interactive web experiences from a single prompt, from Three.js 3D scenes to dynamic SVG graphics. Try Qwen3.7-Max — 50% Off for a Limited Time 🔗: https://int.alibabacloud.com/m/1000414100/ 🎥 Watch the video to see how Qwen3.7-Max transforms productivity.

译一个提示词,无限可能。 认识 Qwen3.7‑Max,旗舰模型重新定义智能体工作负载,在前端编码中表现出色,能从单个提示词生成丰富的交互式网页体验——从 Three.js 3D 场景到动态 SVG 图形。 立即体验 Qwen3.7-Max — 限时五折优惠 🔗: https://int.alibabacloud.com/m/1000414100/ 🎥 观看视频,了解 Qwen3.7-Max 如何提升生产力。

查看原推 ↗
karminski-牙医@karminski3 · 1天前62

另外忘了说了,这个模型支持多模态输入!文本,图片,视频都可以,是真的夯

译Google 发布 Diffusion Gemma,模型大小 26B,激活参数量 4B。与 NVIDIA 合作优化 RTX 4090/5090,5090 每秒可生成 700+ token。支持文本、图片、视频多模态输入。AIME 2026 数学测试达 Gemma4-26B-A4B 的 94%,tau2 bench Agent 测试达 82%。输出质量略逊于传统大模型但速度更快。4bit 量化版本仅需 16GB 显存即可运行。

查看原推 ↗
karminski-牙医@karminski3 · 1天前65

单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了一波, 5090每秒能生成700+token! 给不知道什么是 Diffusion 大模型的同学科普一下, 传统大模型都是一个字一个字吐出来的, 而 Diffusion 大模型则是如同刮奖一样, 是一片一片出来的, 速度高是 Diffusion 大模型的优点. 有得必有失, 缺点当然就是输出质量没有传统大模型好了. 不过这次的 Diffusion Gemma 还是比之前的 Diffusion 文本大模型好不少, AIME 2026(数学能力测试) 能达到 Gemma4-26B-A4B 的94%的水平, 最差的是tau2 bench(考验Agent能力的测试), 也能达到82%. 这个模型大小 4bit 量化版本 16G 显存就能运行了, 另外, 我突发奇想, 这个模型能不能作为 gemma4 dense 模型的草稿模型用来投机解码? 感兴趣的同学可以试试! #diffusiongemma #gemma #gemma4 #google

译Google 推出 Diffusion Gemma,大小 26B、激活参数量 4B,与 NVIDIA 合作针对 RTX 4090/5090 优化,5090 上速度达 700+ token/s。该扩散文本模型以“刮奖式”并行生成而非逐 token 生成,输出质量略逊但优于此前同类模型:AIME 2026(数学)达 Gemma4-26B-A4B 的 94%,tau2 bench(Agent)达 82%。4bit 量化版仅需 16G 显存即可运行。

查看原推 ↗
Artificial Analysis@ArtificialAnlys · 1天前52

Ideogram 4.0 is Ideogram’s first open weights release and debuts at #8 on our Open Weights Text to Image Leaderboard Ideogram 4.0 is the latest release from @ideogram_ai. Alongside their first party API, Ideogram is releasing 4.0 with open weights and a commercial license. The model generates 2K x 2K outputs (~4MP), with strong text rendering across languages, bounding box layout control, and transparent backgrounds. Ideogram 4.0 uses structured JSON prompts that specify composition and individual scene elements, with a prompt enhancer that expands natural language prompts into this structured format. Note that the prompt enhancer is only available via the Ideogram proprietary API, though it is free to use. We benchmarked the Quality tier of the model served via Ideogram's API, where it ranks #8 in Open Weights Text to Image, and #31 in Text to Image. It places ahead of closed source models including Seedream 3.0 and Luma UNI 1. While Ideogram 4.0 places near the top of our design, layout, and text rendering categories, it ranks further down overall on a balanced benchmark across all use cases including cartoon, anime, and photorealism. The model also has a more stylized look, which typically means it performs less favorably on our benchmarks. Ideogram states the open weights model accessible to the public is essentially the same model with additional safety training and quantization, so we expect a small quality difference. Ideogram 4.0 is available across three API tiers: Turbo at $30/1k images, Default at $60/1k images, and Quality at $100/1k images. The weights are free to download for evaluation and non-commercial use, with commercial self-hosting requiring a separate license. Congratulations to @ideogram_ai on the launch! See below for example generations and a link to vote on Ideogram 4.0 for yourself in the Artificial Analysis Image Arena 🧵

译Ideogram 4.0 是 Ideogram 首个开源权重模型,生成 2K×2K 输出,支持多语言文本渲染、边界框布局控制和透明背景。采用结构化 JSON 提示,提示增强器仅限 Ideogram 专有 API。在 Artificial Analysis 开放权重排行榜排名第8,整体第31,领先 Seedream 3.0 等闭源模型。API 三档:Turbo $30/千张、Default $60/千张、Quality $100/千张。开源权重免费用于评估和非商业用途,商业自部署需单独许可。

查看原推 ↗
Logan Kilpatrick@OfficialLoganK · 1天前81

Gemini Omni Flash is SOTA at image to video, text to video, and video editing : ) Excited to get this to developers in the API soon!

译Gemini Omni Flash 在图像到视频、文本到视频和视频编辑方面达到了 SATA : ) 很高兴很快能将这一能力通过 API 提供给开发者!

查看原推 ↗
MiniMax (official)@MiniMax_AI · 1天前49

Weights on Friday 🫶

译我们高性能MSA内核库现已开源。M3权重预计本周五发布。感谢等待! Github: https://github.com/MiniMax-AI/MSA Paper:https://github.com/MiniMax-AI/MSA/blob/main/docs/MiniMaxSparseAttention.pdf 主推文:权重周五发布🫶

查看原推 ↗
Midjourney@midjourney · 2天前84

We've made V8.1 the new default model for all users on Midjourney. V8 will now be deprecated in 2 weeks. V8.2 will start testing extremely soon.

译我们已将 V8.1 设为 Midjourney 所有用户的新默认模型。V8 将在两周后弃用。V8.2 即将开始测试。

查看原推 ↗
小互@xiaohu · 2天前74

Google 开源其扩散架构模型:DiffusionGemma 区别于Transformers 模型像打字机一样逐词一个一个生成 DiffusionGemma 可一次性生成大段或者整篇内容,然后再逐步优化 大幅度提高生成的速度: 在H100 上可实现 1000+ tokens/s,RTX 5090 上 700+ tokens/s 26B,18GB 显存能跑 一次可同时生成 256 个 tokens 自己检查自己,写完还能改: 普通 AI 写完一个字就锁死了,不会回头改。就算第 10 个字写错了,到第 100 个字的时候它也改不了前面的。 DiffusionGemma 的生成过程本身就是多轮迭代,每一轮它会重新审视整块文本,发现哪里不对就改掉。就像写作文先打草稿,再通读一遍改错别字,再读一遍调语句,几轮下来质量就上去了。

译Google 开源 DiffusionGemma,基于扩散架构,一次性生成大段文本再逐步优化。H100 上达 1000+ tokens/s,RTX 5090 上 700+ tokens/s。26B 参数仅需 18GB 显存,一次生成 256 tokens。多轮迭代自我纠错,可修改已生成内容。

查看原推 ↗
Demis Hassabis@demishassabis · 2天前77

Awesome to see this innovation in text diffusion. DiffusionGemma is lightning fast, 4x faster than other Gemma 4 models! Congrats to @bodonoghue85 and the team who worked so hard on this - excited to see what people build with it!

译Google Gemma 团队推出实验性开放文本扩散模型 DiffusionGemma,采用 Apache 2.0 许可。该模型突破传统逐 token 顺序生成方式,能同时生成整段文本。Demis Hassabis 称其速度是其他 Gemma 4 模型的 4 倍。

查看原推 ↗
Berryxia.AI@berryxia · 2天前64

兄弟们,Google 这个新“模型”有点意思! DiffusionGemma一口气把文本生成干到4倍速,还彻底开源Apache 2.0,谁都能本地玩。 它不用传统自回归那种“吐一个词想下一个”的老办法。 而是直接用diffusion先扔一堆噪声,然后整块整块地同时起草、同时纠错、同时精炼,1000+ token/s的速度直接起飞。 18GB消费级显卡就能顺滑跑,代码、数学、复杂编辑这些最烦人的活儿。 它现在能实时补空、格式化、自我修复,速度快到你感觉AI终于开始“思考整段”而不是“一个字一个字憋”。 以前大家都默认更快就得牺牲质量,结果Google这次直接告诉你:并行diffusion才是文本生成的下一章,把整个生成范式从串行憋词翻篇成了并行炼句。 开源权重已经在Hugging Face放出,开发者现在就能把这玩意儿拖回家自己改、自己玩、自己加速日常workflow。 这波一出,AI生成速度的天花板可能要被彻底重写了。

译Google 发布实验性开源模型 DiffusionGemma(Apache 2.0),采用并行 diffusion 方式代替传统自回归“逐词预测”,可同时起草、纠错和精炼整块文本,生成速度达 4 倍提升(1000+ token/s)。模型在 18GB 消费级显卡即可本地运行,适用于代码、数学、复杂编辑等任务,已开源权重至 Hugging Face。

查看原推 ↗
Chubby♨️@kimmonismus · 2天前49

OpenAI’s chief scientist, Jakub Pachocki, wrote in a slack message that GPT-5.6 will be a "meaningful improvement" over GPT-5.5. GPT-5.5 is fantastic and my daily companion in Codex. A significant leap forward would be welcome. But the truth is: OpenAI needs its own mythos/fable. Via TheInformation

译OpenAI 首席科学家 Jakub Pachocki 在 Slack 消息中写道,GPT-5.6 将比 GPT-5.5 有“有意义的改进”。 GPT-5.5 很棒,是我在 Codex 中的日常伴侣。一次重大飞跃将受到欢迎。 但事实是:OpenAI 需要自己的神话/传说。 来源:The Information

查看原推 ↗
xAI@xai · 2天前74

Grok Voice offers state-of-the-art performance with human-like timing, tone, and warmth. And it's a fraction the price of competitors. Check it out: http://x.ai/api/voice

译Grok Voice 提供最先进的性能,具有类人的时机、语调和温暖感。而且价格仅为竞争对手的一小部分。 查看详情:http://x.ai/api/voice

查看原推 ↗
Rohan Paul@rohanpaul_ai · 2天前70

Great news for local LLMS. Google just released DiffusionGemma, an open experimental 26B MoE, activates only 3.8B. Open model, Apache 2.0 license. fits within 18GB VRAM when quantized The big deal is the speed, DiffusionGemma generates 256 tokens in parallel per forward pass. This gives it up to 4x faster inference, with 1000+ tokens/s on an H100 and 700+ tokens/s on an RTX 5090. Normal autoregressive LLMs behave like left-to-right printers, so each new token waits for the previous token, which makes local GPU inference slow for a single user. DiffusionGemma initializes a 256-token canvas with random placeholder tokens, then runs multiple denoising passes that refine the whole canvas in parallel.

译Google 推出开源实验性模型 DiffusionGemma,基于 Gemma 4 的文本扩散研究。该模型为 26B MoE 架构,仅激活 3.8B 参数,量化后可适配 18GB VRAM。核心突破在于每轮前向传播并行生成 256 个 token,实现推理速度提升 4 倍:H100 上可达 1000+ tokens/s,RTX 5090 达 700+ tokens/s。DiffusionGemma 通过初始化随机占位符画布并运行多轮并行去噪,同时生成整段文本,许可证为 Apache 2.0。

查看原推 ↗
elvis@omarsar0 · 2天前67

This is just awesomeness from @cohere, @nickfrosst, and team. I so badly want a coding agent that just runs on my local machine. We are not too far now! Excited to get this to work with my @dair_ai coding agent in the next couple of days.

译Cohere发布了其首个开源编程模型North Mini Code。该模型小巧高效,专为智能体性能设计,并欢迎社区反馈。Elvis Saravia对此赞叹不已,期待尽快将其与自己的DAIR.AI编程智能体配合使用。

查看原推 ↗
🚨 AI News | TestingCatalog@testingcatalog · 2天前77

Google released DiffusionGemma, a new open model with up to 4x faster output! > Instead of predicting word-by-word, it generates entire blocks of text simultaneously. This lets the model self-correct and format complex markdown in real time. Same performance as Gemma 4 is a big deal. Wondering if it is based on the model previewed last year.

译Google发布了实验性开源模型DiffusionGemma,采用Apache 2.0许可。该模型不再逐token预测,而是同时生成整块文本,速度提升高达4倍。它能在生成过程中自我纠正,并实时格式化复杂Markdown。性能与Gemma 4相当。

查看原推 ↗
Google AI Developers@googleaidevs · 2天前67

DiffusionGemma, our experimental open model released under an Apache 2.0 license, explores text diffusion, an exceptionally fast approach to text generation. Here’s how DiffusionGemma accelerates development: + Faster token output: By shifting the bottleneck from memory bandwidth to raw compute, the model generates up to 4x faster token output on dedicated GPUs + Accessible hardware footprint: Activates just 3.8B parameters during inference, fitting comfortably within 24GB-VRAM high-end consumer GPUs when quantized + Novel workflows: Parallel token generation enables self-correction, making it ideal for code infilling, in-line editing, and non-linear structures DiffusionGemma prioritizes speed over raw quality and accelerates best on compute-bound hardware (like @NVIDIAAI GPUs). Standard @GoogleGemma 4 remains recommended for production quality and memory-bound devices.

译Google AI 发布实验性开源模型 DiffusionGemma,采用 Apache 2.0 许可证。该模型基于文本扩散方法,将生成瓶颈从内存带宽转向计算,在专用 GPU 上 token 输出速度最高提升 4 倍。推理时仅激活 3.8B 参数,量化后可适配 24GB VRAM 消费级 GPU。并行 token 生成支持自我纠错,适用于代码填充、行内编辑等非线性结构。DiffusionGemma 优先速度而非极致质量,生产场景仍推荐标准 Gemma 4。

查看原推 ↗
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月13日
10:45
MiniMax (official)@MiniMax_AI
80
MiniMax 发布全新开源模型 M3,具备前沿编码、智能体能力、原生图像视频输入、Computer Use 及 1M-token 上下文窗口。核心采用 MSA 稀疏注意力架构:每个 query 仅对 128-token 的 KV 块打分,只关注 top 块,使超长上下文实际可部署。M3 在 vLLM 获 Day-0 支持,已在 NVIDIA 和 AMD 硬件验证,包括 MSA 专用 prefill/decode kernel、1M-token 上下文服务(prefix caching + chunked prefill)、BF16/MXFP8 检查点(Hopper 和 Blackwell 的 MoE 后端)、原生多模态输入,以及工具调用、推理解析和思考模式控制等功能。

vLLM: 🎉 Congrats to @MiniMax_AI on releasing MiniMax M3! Frontier coding and agentic capabilities, native image and video inp...

多模态开源生态推理模型发布
09:14
Berryxia.AI@berryxia
72
Kimi 开源编码模型 Kimi-K2.7-Code,解决过度思考问题

Kimi 发布并开源最新编码模型 Kimi-K2.7-Code。相比 K2.6,该模型在 Kimi Code Bench v2 提升 21.8%,Program Bench 提升 11%,MLS Bench Lite 提升 31.5%。核心改进是解决编码模型“过度思考”问题,推理 token 使用量降低 30%,long-horizon 编码任务的指令跟随和端到端成功率显著提升。权重与代码已上传 Hugging Face,支持通过 Kimi API 和 Kimi Code 使用,同时开放 Beta 计划。团队预告即将推出 6x High-Speed Mode,进一步提升编码效率。

Kimi.ai: 🌘 Kimi-K2.7-Code, our latest coding model, is now released and open-sourced! 🔷 Improved coding & agent performance ove...

智能体模型发布编码
08:07
SemiAnalysis@SemiAnalysis_
63
祝贺 @vllm_project 和 @lmsysorg 在 CUDA 和 ROCm 堆栈上于第 0 天发布 MiniMax M3 428B!MiniMax M3 包含: 🟠 块稀疏注意力,预填充比 M2.7 快 9 倍 🟠 第 0 天开放 MXFP8 权重 🟠 此外,@Inferact 发布了第 0 天 EAGLE3 开放权重草稿模型支持 期待尝试 MiniMax M3 的性能!
开源生态推理模型发布部署/工程
07:14
karminski-牙医@karminski3
63
KIMI K2.7 Code发布,编程/Agent专项模型

KIMI K2.7 Code正式发布,为编程/Agent专项模型,架构与K2.6一致,属后训练优化版本。在kimi自测的kimi-code-bench-v2上较K2.6提升11%,其他Agent测试项目同样有提升。适用场景包括编程任务以及需要Agent参与的验证任务(如简历筛选、PR审查等)。

智能体模型发布编码
05:43
MiniMax (official)@MiniMax_AI
精选82
MiniMax M3 发布,具备前沿编码与智能体能力,原生图像视频输入和计算机使用,1M-token 上下文。核心采用 MSA 稀疏注意力:每个 query 评分 128-token KV 块,仅对 top 块做注意力。vLLM 当日即支持 M3,包括专用 MSA prefill/decode 核、前缀缓存与分块 prefill、BF16 和 MXFP8 检查点、Hopper 与 Blackwell 的 MoE 后端,并在 NVIDIA 与 AMD 硬件上验证。同时支持原生多模态输入、工具调用、推理解析和思考模式控制等智能体工作负载。

vLLM: 🎉 Congrats to @MiniMax_AI on releasing MiniMax M3! Frontier coding and agentic capabilities, native image and video inp...

多模态开源生态推理模型发布

推荐理由:M3把1M上下文从‘理论上能做’变成了‘今天就能部署’,MSA稀疏注意力是关键,开源社区和推理框架的深度合作值得关注。
05:13
MiniMax (official)@MiniMax_AI
73
MiniMax 开源 M3 模型,约 428B 总参数、23B 激活参数,支持前沿编码、长周期智能体任务及原生多模态(文本、图像、视频),上下文窗口达 1M token。开放权重,可在 Baseten 部署。在少于 500B 参数的模型中,能同时兼顾编码、智能体工作负载和 1M 上下文的模型极少,M3 全部实现。

Baseten: Congrats to the MiniMax team on the open-source launch of M3! There are very few <500bn parameter models that can tackle...

多模态模型发布编码
04:38
elvis@omarsar0
62
GoogleResearch推出Gemini-SQL2,基于Gemini 3.1 Pro,在BIRD benchmark上达到Text-to-SQL的SOTA结果,能将自然语言翻译为可直接执行的SQL查询。DAIR.AI的Elvis Saravia指出,现实世界数据复杂混乱,尽管强推理模型表现不错,但定制模型(如Gemini-SQL2)在此类任务上更胜一筹。他认为在知识库、搜索、图数据库等领域也存在类似机会,BIRD是一个非常具有挑战性的基准。

Google Research: 🚀 Introducing Gemini-SQL2, our breakthrough text-to-SQL capability powered by Gemini 3.1 Pro! We've achieved state-of-t...

Google数据/训练模型发布
04:13
🚨 AI News | TestingCatalog@testingcatalog
48
月之暗面最新智能体编码模型 Kimi-K2.7-Code 已在 AI/ML API 平台上线,支持扩展推理和工具使用,可通过 Playground 和 API 测试。为验证其自我修正能力(而非一次性生成),研究者让四个 Kimi 智能体运行一个 2D 飞行物理模拟,目标是从发射到入轨并让助推器着陆。四次飞行中:第一次在最大动压处解体;第二次过关但分离过早失败;第三次成功入轨但未抓住着陆船;第四次修正着陆计算后成功着陆。该过程展示了模型通过迭代闭环调试从失败中自动学习。

AI/ML API: Kimi K2.7-Code is now available on AI/ML API! Moonshot's latest is built for long-horizon agentic coding that self-corre...

智能体模型发布编码
03:43
MiniMax (official)@MiniMax_AI
56
来自@NVIDIAAI的认可意义重大 免费GPU加速的M3端点现已上线 快来试试👇

NVIDIA AI: Congrats to the @MiniMax_AI team on the release of MiniMax M3, a long-context multimodal model for text, image, and vide...

多模态模型发布视频
03:13
MiniMax (official)@MiniMax_AI
64
MiniMax M3 已在 Fireworks AI 上线,Day-0 即获最快推理端点。模型为开源权重,在 Artificial Analysis 指数排名第一。支持 512K 上下文窗口、原生图像及视频输入;采用 MSA 稀疏注意力机制,实现 9 倍更快的 prefill 与 15 倍更快的 decode。定价与 M2.7 持平。M3 将长周期智能体、全仓库理解与多模态编程集成于单一模型。

Fireworks AI: MiniMax M3 is live on Fireworks. Day-0, fastest endpoint for the MiniMax series. → Top open-weight model on the Artifici...

智能体多模态推理模型发布
02:43
MiniMax (official)@MiniMax_AI
69
MiniMax-M3 是一款拥有 428B(23B 激活)参数、1M 上下文的新开源模型,性能与 Gemini 3.1 Pro 相当。可在 138GB 内存/显存上运行动态 2-bit GGUF 版本,或 165GB 上运行 3-bit 版本。在 @UnslothAI 的帮助下,今天即可本地运行 M3。

Unsloth AI: MiniMax M3 can now be run locally!🔥 MiniMax-M3 is a new 428B (23B active) open model with 1M context that performs on p...

Hugging Face开源生态模型发布
00:43
MiniMax (official)@MiniMax_AI
70
MiniMax 发布 M3 模型开源权重,并宣布与 Modular 合作,在 Modular Cloud 上当天上线。M3 支持最高 1M-token 上下文长度,接受文本、图像、视频多模态输入,采用 MSA(Multi-Stream Attention)架构,专为长时间运行的智能体(Agent)与编码(Coding)工作负载优化。

Modular: M3 open weights from @MiniMax_AI just dropped, and Modular is a Day Zero launch partner. 1M-token context. Text, image, ...

智能体多模态开源/仓库模型发布
00:42
🚨 AI News | TestingCatalog@testingcatalog
51
NVIDIA ❤️ MiniMax MiniMax M3 权重现已在 @huggingface 上发布,NVIDIA 在其平台上提供免费端点用于测试。 测试时间到 👀

NVIDIA AI: Congrats to the @MiniMax_AI team on the release of MiniMax M3, a long-context multimodal model for text, image, and vide...

Hugging Face多模态开源/仓库模型发布
6月12日
23:54
Claude@claudeai
40
Claude Fable 5 已经发布几天了。人们已经用它构建的一些项目:
Anthropic模型发布编码
23:32
Deedy@deedydas
72
Claude 5 Fable (Ultracode) "在日出时制作一个可玩的高山冰川山谷" 没有网格或模型。你所看到的一切都是数学。Fable 截取了自己作品的屏幕截图并进行了迭代。 耗时约 30 分钟,约 500k tokens,约 2500 行代码,约 25 美元。极其令人印象深刻。
Anthropic多模态模型发布编码
22:34
SenseTime@SenseTime_AI
61
商汤SenseNova-U1-8B-MoT-Interleaved发布

商汤推出SenseNova-U1-8B-MoT-Interleaved模型,专门用于交错文本与图像生成。核心升级包括:叙事连续性增强,支持多页连贯故事;角色一致性改进,人物身份与艺术风格保持稳定;视觉质量提升,文字渲染更清晰、布局更可靠、伪影减少。模型已在HuggingFace开放体验。

图像生成多模态开源/仓库模型发布
22:12
MiniMax (official)@MiniMax_AI
精选81
MiniMax 发布开源权重模型 M3,约 428B 总参数、23B 激活参数,已上传 HuggingFace。该模型融合三种前沿能力:编码与智能体方面达 59.0% SWE-Bench Pro、66.0% Terminal Bench 2.1、34.8% SWE-fficiency、28.8% KernelBench Hard、74.2% MCP Atlas;采用 MiniMax 稀疏注意力将上下文窗口扩展至 1M token;原生多模态。同步上线 MiniMax Code 工具及 API 平台。权重与技术报告预计约 10 天后发布。

MiniMax (official): Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...

Hugging Face多模态推理模型发布

推荐理由:开放权重模型首次把编码 Agent 和多模态拉满,SWE-bench Pro 59% 逼近专有前沿,附带稀疏注意力 1M 上下文。做代码工具和 Agent 的团队应该都盯上它了。
21:41
🚨 AI News | TestingCatalog@testingcatalog
57
KIMI AI🔥: 一个新的开源"Kimi K2.7 Code"模型已在 API 和 Huggingface 上发布! > 相比 K2.6,编码与智能体性能提升 > 推理效率 > 长时域编码 测试时间 👀

Kimi.ai: 🔗 Weights & code: https://huggingface.co/moonshotai/Kimi-K2.7-Code

Hugging Face开源生态推理模型发布
21:28
X.PIN@thexpin
72
余承东发布华为openPangu 2.0,坦诚AI短板

华为开发者大会2026上,余承东正式接管华为LLM业务,发布openPangu 2.0模型。他坦诚华为自有算力不足,且AI人才招揽困难:“我们薪资拼不过互联网公司,一起做大模型的人靠信念和热情坚持。”2025年6月,旧版Pangu模型曾被指与Qwen-2.5高度相似,相关高管离职。余承东此前曾从零打造华为手机、推动赛力斯汽车合作。此次接管意味着华为模型落后,需加速追赶。

开源生态模型发布
21:20
Chubby♨️@kimmonismus
66
Moonshot 发布并开源 Kimi-K2.7-Code 编程模型,相比 K2.6 在多个基准上大幅提升:Kimi Code Bench v2 提高 21.8%,Program Bench 提高 11.0%,MLS Bench Lite 提高 31.5%。推理效率优化,推理 token 使用量降低 30%,指令遵循与长时编码任务成功率提升。即将推出 6 倍高速模式。模型现已通过 Kimi API 和 Kimi Code 开放使用。

Kimi.ai: 🌘 Kimi-K2.7-Code, our latest coding model, is now released and open-sourced! 🔷 Improved coding & agent performance ove...

开源生态推理模型发布编码
21:11
🚨 AI News | TestingCatalog@testingcatalog
60
KIMI AI🔥:全新开源 "Kimi K2.6 Code" 模型已在 API 及 HuggingFace 发布! > 较 K2.6 改进编码与智能体性能 > 推理效率 > 长时编码 测试时间 👀

Kimi.ai: 🔗 Weights & code: https://huggingface.co/moonshotai/Kimi-K2.7-Code

开源/仓库模型发布编码
19:32
meng shao@shao__meng
70
Kimi 开源发布编码模型 Kimi-K2.7-Code

Kimi 开源发布最新编码模型 Kimi-K2.7-Code,基于 K2.6 优化。编码基准全面提升:Kimi Code Bench v2 提高 21.8%,Program Bench +11.0%,MLS Bench Lite +31.5%。推理 token 整体降低约 30%。Agent 方面,MCP Mark Verified 得分 81.1,超过 Opus 4.8(76.4),GPT-5.5(92.9)仍为天花板。技术特性:强制 Thinking 模式、Preserve Thinking、Interleaved Thinking+多步工具调用,支持图像和视频输入。可通过 Kimi API 和 Kimi Code 使用,6x 高速模式即将推出。开源地址:HuggingFace 上的 moonshotai/Kimi-K2.7-Code。

Kimi.ai: 🌘 Kimi-K2.7-Code, our latest coding model, is now released and open-sourced! 🔷 Improved coding & agent performance ove...

智能体开源生态推理模型发布
18:24
Kimi.ai@Kimi_Moonshot
精选70
Kimi 发布并开源最新代码模型 Kimi-K2.7-Code

Kimi 发布并开源最新代码模型 Kimi-K2.7-Code。相比 K2.6,其在 Kimi Code Bench v2 上提升 +21.8%,Program Bench 提升 +11.0%,MLS Bench Lite 提升 +31.5%。推理效率改进,推理 token 使用量降低 30%,长时编码任务中指令遵循和端到端成功率均提升。6x 高速模式即将推出,即日起可通过 Kimi API 和 Kimi Code 使用。

开源生态推理模型发布编码

推荐理由:月之暗面这次把编码模型做到 K2.7 还直接开源,Bench 提升不小,关键是把「想太多」的毛病治了,推理 token 省了三成,做 coding agent 的可以立刻换上试试。
18:01
meng shao@shao__meng
64
今天的华为开发者大会 HDC 2026 上,余承东宣布开源盘古全面升级,带来了 openPangu 2.0 余承东喊话会带领团队一路赶超,而在自己的字典里,没有第二,只有第一!
开源生态模型发布
15:38
Alibaba Cloud@alibaba_cloud
精选84
一个提示词,无限可能。 认识 Qwen3.7-Max,旗舰模型重新定义智能体工作负载,在前端编码中表现出色,能从单个提示词生成丰富的交互式网页体验--从 Three.js 3D 场景到动态 SVG 图形。 立即体验 Qwen3.7-Max - 限时五折优惠 🔗: https://int.alibabacloud.com/m/1000414100/ 🎥 观看视频,了解 Qwen3.7-Max 如何提升生产力。
智能体模型发布编码
关联讨论 1 条公众号:通义实验室(千问)
推荐理由:Qwen3.7‑Max不只是参数升级,它主打从单个prompt直接生成可交互网页,Three.js 3D场景都不在话下,做前端或agent的可以认真看看,这方向比刷榜有意思。
08:06
karminski-牙医@karminski3
62
Google 发布 Diffusion Gemma,模型大小 26B,激活参数量 4B。与 NVIDIA 合作优化 RTX 4090/5090,5090 每秒可生成 700+ token。支持文本、图片、视频多模态输入。AIME 2026 数学测试达 Gemma4-26B-A4B 的 94%,tau2 bench Agent 测试达 82%。输出质量略逊于传统大模型但速度更快。4bit 量化版本仅需 16GB 显存即可运行。

karminski-牙医: 单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了...

Google多模态推理模型发布
07:35
karminski-牙医@karminski3
65
Google 发布 Diffusion Gemma:26B/4B 激活,5090 达 700+ token/s

Google 推出 Diffusion Gemma,大小 26B、激活参数量 4B,与 NVIDIA 合作针对 RTX 4090/5090 优化,5090 上速度达 700+ token/s。该扩散文本模型以“刮奖式”并行生成而非逐 token 生成,输出质量略逊但优于此前同类模型:AIME 2026(数学)达 Gemma4-26B-A4B 的 94%,tau2 bench(Agent)达 82%。4bit 量化版仅需 16G 显存即可运行。

Google推理模型发布部署/工程
02:32
Artificial Analysis@ArtificialAnlys
52
Ideogram 4.0 开源权重文生图模型发布

Ideogram 4.0 是 Ideogram 首个开源权重模型,生成 2K×2K 输出,支持多语言文本渲染、边界框布局控制和透明背景。采用结构化 JSON 提示,提示增强器仅限 Ideogram 专有 API。在 Artificial Analysis 开放权重排行榜排名第8,整体第31,领先 Seedream 3.0 等闭源模型。API 三档:Turbo $30/千张、Default $60/千张、Quality $100/千张。开源权重免费用于评估和非商业用途,商业自部署需单独许可。

图像生成开源生态模型发布
01:20
Logan Kilpatrick@OfficialLoganK
精选81
Gemini Omni Flash 在图像到视频、文本到视频和视频编辑方面达到了 SATA : ) 很高兴很快能将这一能力通过 API 提供给开发者!
Google图像生成多模态模型发布

推荐理由:视频生成正式进入全模态一体时代,Gemini Omni Flash 把图生视频、文生视频和剪辑整合在一个模型里,API 很快上线,做视频工具的可以提前琢磨对手在哪了。
6月11日
21:08
MiniMax (official)@MiniMax_AI
49
我们高性能MSA内核库现已开源。M3权重预计本周五发布。感谢等待! Github: https://github.com/MiniMax-AI/MSA Paper:https://github.com/MiniMax-AI/MSA/blob/main/docs/MiniMaxSparseAttention.pdf 主推文:权重周五发布🫶

RyanLee: Hey everyone - our high-performance MSA kernel library is now open-source. The M3 weights are expected to drop this Frid...

开源/仓库模型发布
12:18
Midjourney@midjourney
84
我们已将 V8.1 设为 Midjourney 所有用户的新默认模型。V8 将在两周后弃用。V8.2 即将开始测试。

Midjourney: V8.1 is live! Our iconic aesthetics are back w native 2K HD rendering - 3x faster and 3x cheaper vs V8. Full quality V8....

图像生成模型发布
关联讨论 1 条Midjourney:Updates(RSS)
10:51
小互@xiaohu
74
Google 开源扩散架构模型 DiffusionGemma

Google 开源 DiffusionGemma,基于扩散架构,一次性生成大段文本再逐步优化。H100 上达 1000+ tokens/s,RTX 5090 上 700+ tokens/s。26B 参数仅需 18GB 显存,一次生成 256 tokens。多轮迭代自我纠错,可修改已生成内容。

Google开源/仓库推理模型发布
09:19
Demis Hassabis@demishassabis
77
Google Gemma 团队推出实验性开放文本扩散模型 DiffusionGemma,采用 Apache 2.0 许可。该模型突破传统逐 token 顺序生成方式,能同时生成整段文本。Demis Hassabis 称其速度是其他 Gemma 4 模型的 4 倍。

Google Gemma: Meet DiffusionGemma! An experimental open model that explores a fast approach to text generation, released under an Apac...

Google开源/仓库模型发布
关联讨论 6 条X:Sundar Pichai (@sundarpichai)Google Developers Blog(RSS)Google DeepMind:Blog(RSS)X:Google DeepMind (@GoogleDeepMind)Hacker News 热门(buzzing.cc 中文翻译)MarkTechPost(RSS)
07:09
Berryxia.AI@berryxia
64
Google DiffusionGemma:4倍速文本生成开源模型

Google 发布实验性开源模型 DiffusionGemma(Apache 2.0),采用并行 diffusion 方式代替传统自回归“逐词预测”,可同时起草、纠错和精炼整块文本,生成速度达 4 倍提升(1000+ token/s)。模型在 18GB 消费级显卡即可本地运行,适用于代码、数学、复杂编辑等任务,已开源权重至 Hugging Face。

Google: Meet DiffusionGemma ⚡ Our latest experimental open model (Apache 2.0) that generates text up to 4x faster. Instead of pr...

Google开源生态模型发布部署/工程
05:47
Chubby♨️@kimmonismus
49
OpenAI 首席科学家 Jakub Pachocki 在 Slack 消息中写道,GPT-5.6 将比 GPT-5.5 有"有意义的改进"。 GPT-5.5 很棒,是我在 Codex 中的日常伴侣。一次重大飞跃将受到欢迎。 但事实是:OpenAI 需要自己的神话/传说。 来源:The Information
OpenAI模型发布
02:48
xAI@xai
精选74
Grok Voice 提供最先进的性能,具有类人的时机、语调和温暖感。而且价格仅为竞争对手的一小部分。 查看详情:http://x.ai/api/voice

ServiceNow AI Research: 🚀 Grok Voice Think Fast 1.0 (@xAI) lands on the Pareto frontier on EVA-Bench - no system in the eval beats it on accura...

xAI模型发布语音

推荐理由:语音AI的SOTA这次不是OpenAI了,Grok Voice在EVA-Bench上无死角领先,价格还打到对手十分之一,做语音产品的可以认真看看这个帕累托前沿选手。
01:53
Rohan Paul@rohanpaul_ai
70
Google 发布开源扩散模型 DiffusionGemma

Google 推出开源实验性模型 DiffusionGemma,基于 Gemma 4 的文本扩散研究。该模型为 26B MoE 架构,仅激活 3.8B 参数,量化后可适配 18GB VRAM。核心突破在于每轮前向传播并行生成 256 个 token,实现推理速度提升 4 倍:H100 上可达 1000+ tokens/s,RTX 5090 达 700+ tokens/s。DiffusionGemma 通过初始化随机占位符画布并运行多轮并行去噪,同时生成整段文本,许可证为 Apache 2.0。

Sundar Pichai: DiffusionGemma is an open, experimental model that brings our text diffusion research to Gemma 4. It's a racehorse 🏇ach...

Google开源生态推理模型发布
01:25
elvis@omarsar0
67
Cohere发布了其首个开源编程模型North Mini Code。该模型小巧高效,专为智能体性能设计,并欢迎社区反馈。Elvis Saravia对此赞叹不已,期待尽快将其与自己的DAIR.AI编程智能体配合使用。

Cohere: Introducing Cohere's first open-source coding model: North Mini Code Small & efficient, designed for agentic performance...

开源生态模型发布编码
01:02
🚨 AI News | TestingCatalog@testingcatalog
77
Google发布了实验性开源模型DiffusionGemma,采用Apache 2.0许可。该模型不再逐token预测,而是同时生成整块文本,速度提升高达4倍。它能在生成过程中自我纠正,并实时格式化复杂Markdown。性能与Gemma 4相当。

Google Gemma: Meet DiffusionGemma! An experimental open model that explores a fast approach to text generation, released under an Apac...

Google开源生态模型发布
关联讨论 6 条X:Sundar Pichai (@sundarpichai)Google Developers Blog(RSS)Google DeepMind:Blog(RSS)X:Google DeepMind (@GoogleDeepMind)Hacker News 热门(buzzing.cc 中文翻译)MarkTechPost(RSS)
00:44
Google AI Developers@googleaidevs
67
Google AI 发布实验性开源模型 DiffusionGemma

Google AI 发布实验性开源模型 DiffusionGemma,采用 Apache 2.0 许可证。该模型基于文本扩散方法,将生成瓶颈从内存带宽转向计算,在专用 GPU 上 token 输出速度最高提升 4 倍。推理时仅激活 3.8B 参数,量化后可适配 24GB VRAM 消费级 GPU。并行 token 生成支持自我纠错,适用于代码填充、行内编辑等非线性结构。DiffusionGemma 优先速度而非极致质量,生产场景仍推荐标准 Gemma 4。

Google开源生态模型发布编码
关联讨论 6 条X:Sundar Pichai (@sundarpichai)Google Developers Blog(RSS)Google DeepMind:Blog(RSS)X:Google DeepMind (@GoogleDeepMind)Hacker News 热门(buzzing.cc 中文翻译)MarkTechPost(RSS)
‹ 上一页
123…16
下一页 ›