AIHOT

全部动态资讯 · 433 条

全部一手资讯 X 论文

今天6月13日周六

6月12日周五

6月11日周四

6月10日周三

6月9日周二

6月13日

05:28

MarkTechPost（RSS）

Google 发布 Gemini-SQL2：Gemini 3.1 Pro Text-to-SQL 在 BIRD 单模型排行榜上取得 80.04% 执行准确率

Google Research 于 2026 年 6 月 12 日发布 Gemini-SQL2，基于 Gemini 3.1 Pro 驱动的文本转 SQL（Text-to-SQL）能力，在 BIRD 单模型排行榜上达到 80.04% 的执行准确率。

Google推理模型发布编码

6月12日

21:18

Hacker News 热门（buzzing.cc 中文翻译）

Kimi K2.7-Code：具有更高模型 token 效率的开源编码模型

Kimi K2.7-Code 是一个开源编码模型，相比同类模型拥有更高的模型 token 效率，能够用更少的 token 完成相同的代码生成任务。模型已在 HuggingFace 上发布。

Hugging Face模型发布编码

19:36

IT之家（RSS）

月之暗面开源 Kimi K2.7 Code 编程模型，预告 6 倍速高速版

月之暗面发布并开源 Kimi K2.7 Code 编程模型。相比 K2.6，长上下文编程指令遵循和长程任务性能提升，过度思考倾向改善，平均 token 消耗减少 30%。Kimi Code Bench v2 提升 21.8%、Program-Bench 提升 11%、MLS Bench Lite 提升 31.5%；Agent 基准提升约 10%。即日起通过 Kimi API 调用，输入 6.5 元/百万 token、输出 27 元、缓存输入 1.3 元。非编程任务仍推荐 K2.6，模型需开启思考模式。预告高速版（输出约 180 Token/s），6 月 15 日可调用，6x 速度仅需 2x 价格。

Hugging Face模型发布编码

17:35

IT之家（RSS）

商汤开源 SenseNova U1 图文交错生成增强版模型：支持多页连续创作，角色风格不"跑偏"

商汤科技开源日日新 SenseNova U1 系列新成员 U1-8B-MoT-Interleaved 图文交错增强版模型。该模型面向图文交错创作与生成场景强化，支持绘本、故事书、多页 PPT 等连续内容创作，解决了多轮生成后角色形象飘移、画风断裂、图文脱节等痛点。核心升级包括叙事一致性与角色连贯性提升、图文对应关系增强、视觉质量改善，以及新增多页 PPT 自动生成能力。模型已开源。

Hugging Face图像生成多模态模型发布

16:26

MarkTechPost（RSS）

Zyphra 发布 Zamba2-VL：混合 Mamba2-Transformer 视觉语言模型，首 token 延迟降低约一个数量级

Zyphra 推出 Zamba2-VL 系列开源视觉语言模型，包含 1.2B、2.7B 和 7B 三种参数规模。采用混合 Mamba2 状态空间与 Transformer 骨干架构，基于 Apache 2.0 许可证开源。在保持与同类 Transformer VLM 相当性能的同时，首 token 生成时间（time-to-first-token）缩短约一个数量级。

多模态开源生态推理模型发布

15:35

IT之家（RSS）

华为发布开源盘古2.0模型：最高505B参数，余承东坦言算力有限

华为在HDC 2026上发布开源盘古openPangu 2.0模型，拥有512K上下文，提供Pro和Flash两个版本：Pro总参数505B、激活18B，Flash总参数92B、激活6B。该模型更亲和昇腾算力，单卡吞吐率可达其他主流开源模型2倍；更适配鸿蒙，Agent任务更快更准更省。计划从6月30日起陆续开源7大组件，包括预训练代码、后训练代码、训练算子。余承东解释总参数仅505B，因算力大量支持国内其他企业，自身留用有限，且AI算力成本高，华为更聚焦时延和吞吐率提升。

开源生态推理模型发布

13:53

TechCrunch：AI（RSS）

Avataar AI 发布蒸馏视频生成模型，面向印度市场

Avataar AI 推出蒸馏视频生成模型，专为印度的大规模应用打造，定价为每生成一秒视频 0.005 美元。该模型主打更廉价、更快速且具有文化意识，旨在适应印度本地需求。

数据/训练模型发布视频

6月11日

16:54

MarkTechPost（RSS）

Cohere 发布 North Mini Code：30B 参数 MoE 编码模型，3B 活跃参数，单卡 H100 运行，支持 256K 上下文

Cohere 推出首款开发者编码模型 North Mini Code，采用 30B 总参数的混合专家（MoE）架构，每次推理仅激活 3B 参数，可在单块 H100 GPU 上运行，支持 256K token 上下文窗口，专为智能体编码场景设计，模型权重开源。

模型发布编码

12:10

Midjourney：Updates（RSS）

精选64

Midjourney V8.1 已成为默认模型

Midjourney 已将默认模型从 V7 升级为 V8.1。V8.1 在智能性、连贯性、对详细提示的遵循度以及文本渲染效果上均有提升，HD 模式也已支持。

图像生成模型发布

关联讨论 1 条

推荐理由：虽然V8.1不是大版本，但设为默认后所有用户自动升级，尤其是文本和复杂提示词的理解增强，做设计的朋友值得重新测试一下关键词。

08:30

IT之家（RSS）

因安全顾虑，Anthropic 最强 AI 模型 Claude Fable 5 拒绝回答基础生物问题

Anthropic 昨日推出最强 AI 模型 Claude Fable 5（Mythos 级），其在生物学领域能力突出，但为防范生物武器风险，设置极为保守的安全限制，导致模型拒绝回答“细胞膜”“线粒体”等大量基础生物问题，仅“什么是癌症”等极少数问题获回复，被拒提问转由 Claude Opus 4.8 解答。化学、网络安全类问题接纳度较高。Anthropic 表示此防护策略为临时取舍，未来计划面向生物专业群体推出解除限制的 Mythos 级模型。

Anthropic安全/对齐模型发布

07:30

IT之家（RSS）

谷歌推出 DiffusionGemma 文本扩散模型：本地 AI 推理速度提升 4 倍

谷歌6月11日发布开源文本扩散模型DiffusionGemma，本地推理速度较自回归模型提升4倍。采用Apache 2.0许可证，可从Hugging Face下载权重。采样速度1479 tokens/秒，开销0.84秒。代码生成HumanEval达89.6%，数学AIME 2025达23.3%超越对比模型。在H100 GPU上每秒生成1000 token，DGX Station上可达2000 token。

Google开源生态推理模型发布

04:23

Simon Willison 博客

DiffusionGemma 发布：Google 开源 26B 参数扩散模型，NVIDIA 免费托管

Google 将去年 5 月短暂发布的 Gemini Diffusion 研究成果转化为开放权重的 Gemma 模型，模型名为 google/diffusiongemma-26B-A4B-it，采用 Apache 2 许可证开源。NVIDIA 正通过其 NIM 云 API 免费托管该模型。实测生成 2,409 个模型 token 仅需 4.4 秒，速度至少达到 500 token/s。

Google多模态开源生态模型发布

03:56

Ars Technica：AI（RSS）

Google DeepMind 发布 DiffusionGemma，本地 AI 推理速度提升 4 倍

Google DeepMind 发布 DiffusionGemma，一款利用扩散模型加速文本输出的新模型，本地 AI 推理速度达到传统模型的 4 倍。

DeepMindGoogle开源/仓库模型发布

03:22

The Decoder：AI News（RSS）

Google 新开源模型 DiffusionGemma：从噪声生成文本，而非逐字逐词

Google 发布 260 亿参数的 DiffusionGemma 模型，文本生成方式不再逐 token 预测，而是通过扩散过程从噪声直接生成，类似图像 AI 将噪声转化为图片。Nvidia 测试显示，该模型在单块 H100 GPU 上可达约每秒 1,000 tokens，速度约为可比自回归模型的四倍。代价是输出质量较低，因此 Google 目前将其定位为面向开发者的实验性工具。模型已开源。

Google多模态开源生态模型发布

02:52

MarkTechPost（RSS）

Google AI 发布 DiffusionGemma：基于文本扩散的 26B MoE 开源模型，生成速度最高提升 4 倍

Google DeepMind 发布实验性开源模型 DiffusionGemma，参数量 26B，采用混合专家（MoE）架构，通过文本扩散（text diffusion）技术实现在 GPU 上最高 4 倍生成速度提升。模型权重已开放。

Google开源生态推理模型发布

关联讨论 5 条

02:16

Hacker News 热门（buzzing.cc 中文翻译）

DiffusionGemma：文本生成速度提升4倍

DiffusionGemma 是 Google 推出的文本生成模型，其文本生成速度相比前代提升 4 倍。该模型详情已发布在 Google 官方博客。

Google推理模型发布

关联讨论 5 条

00:40

Google DeepMind：Blog（RSS）

精选84

DiffusionGemma：文本生成速度提升4倍的开源扩散模型

Google DeepMind 发布开源实验模型 DiffusionGemma，采用文本扩散技术，突破自回归逐 token 生成方式，每次前向并行生成 256 个 token。该 26B MoE 模型推理时仅激活 3.8B 参数，量化后适配 18GB 显存消费级 GPU。在 H100 上达 1000+ tokens/s，RTX 5090 上 700+ tokens/s，速度提升 4 倍。具备双向注意力和自我修正能力，面向内联编辑、代码填充等本地交互工作流，以 Apache 2.0 许可证开放。

Hugging Face开源/仓库推理模型发布

关联讨论 5 条

推荐理由：DiffusionGemma 用扩散方式把推理速度拉到 4 倍，这是把本地部署的瓶颈从内存带宽转向了计算，对于实时编辑、代码补全这类场景，这个思路比单纯提升模型质量更有价值。

00:39

Google Developers Blog（RSS）

DiffusionGemma 开发者指南

DiffusionGemma 是 Google 基于 Gemma 4 架构的实验性文本生成模型，采用扩散式并行生成替代逐 token 自回归，实现更快推理、双向上下文感知和实时自我修正，并可在消费级 GPU 上部署。模型通过迭代去噪并行生成并细化 256-token 块，在处理数独等复杂约束任务上优于传统语言模型，且微调效果显著。它已集成 vLLM 等推理框架，为开发者提供一种高性能、高效长上下文扩展且易于定制部署的非自回归新方法。

Google推理模型发布部署/工程

关联讨论 5 条

6月10日

21:48

The Decoder：AI News（RSS）

Claude Fable 5：首个 Mythos 模型--强大、昂贵且经过严格过滤

Anthropic 发布 Claude Fable 5，这是新 Mythos 类别的首个模型。该模型在 SWE-bench Verified 上达到 95%，几乎在所有基准测试中领先，但成本是 Opus 4.8 的两倍，每百万 token 价格为 10 美元或 50 美元。严格的安全过滤器会阻止约 9% 的请求，同时新增 30 天数据保留政策，即使签订零数据保留合同也适用。

Anthropic安全/对齐推理模型发布

关联讨论 24 条

21:16

TechCrunch：AI（RSS）

Decart 发布 Oasis 3：实时世界模型可模拟数小时逼真驾驶场景

Decart 推出 Oasis 3，一个实时世界模型，能够生成逼真的驾驶环境用于自动驾驶车辆测试，现已通过 API 向开发者开放。

模型发布视频

16:46

MarkTechPost（RSS）

Anthropic 发布 Claude Fable 5 和 Claude Mythos 5：同款基础模型，不同安全防护，新增 Mythos 级层次

Anthropic 正式推出 Claude Fable 5，附带分类器，全面开放使用；同时发布 Claude Mythos 5，仍保持受限访问，但通过 Project Glasswing 解除了网络安全防护。两款模型基于同一底层模型，区别在于安全机制配置，并新增了 Mythos-Class 层级。

Anthropic安全/对齐模型发布

16:28

IT之家（RSS）

精选72

摩尔线程开源 MusaCoder 代码大模型，9B/27B 参数基于国产 GPU 全链路训练

摩尔线程发布并开源 MusaCoder 代码大模型，含 9B 和 27B 两个参数规模，是业内首个基于国产 GPU 算力底座完成全链路训练与验证的开源模型。后训练流程在基于 MTT S5000 的夸娥智算集群上完成，支持从 PyTorch 标准算子自动生成高性能 CUDA/MUSA 原生 Kernel 代码。在 KernelBench 评测中，MusaCoder-27B-RL 以 Overall Pass@8 93.2%、Avg.@8 88.60% 超越 Claude Opus、DeepSeek-V4 Pro、GLM-5.1、Kimi K2.6 等主流 SOTA 代码模型。

开源生态模型发布编码

推荐理由：摩尔线程这个模型直接瞄准GPU底层算子，KernelBench分数压过了不少主流大模型，虽然场景窄，但在国产硬件自建软件生态的路上，迈出了挺关键一步。

07:27

IT之家（RSS）

Anthropic 发布 Claude Fable 5 与 Mythos 5

Anthropic 于 6 月 9 日推出 Claude Fable 5 和 Mythos 5。Fable 5 面向普通用户，是目前公开最强的 Claude 模型，在软件工程、知识工作、视觉、科学研究等领域优于 Opus，自主运行时间更长。Mythos 5 通过 Project Glasswing 向网络安全防御方和基础设施提供商开放，具备全球最强网络安全能力，并在药物设计、分子生物学和基因组学中表现突出。两款模型本质相同，仅安全护栏不同。Fable 5 采用新分类器拦截网络安全、生物化学和蒸馏请求，命中后转由 Claude Opus 4.8 响应。定价均为每百万输入 10 美元、每百万输出 50 美元。Fable 5 已全面上线，Mythos 5 暂限 Glasswing 合作伙伴及少量生物研究者。

Anthropic多模态推理模型发布

关联讨论 24 条

05:43

TechCrunch：AI（RSS）

Anthropic 发布 Claude Fable 5，首个面向公众的 Mythos 级模型

Anthropic 推出 Claude Fable 5，这是其首个向公众开放的 Mythos 级大语言模型。该模型配备了内容护栏，可在网络安全和生物学等高危领域阻止生成响应。

Anthropic安全/对齐模型发布

关联讨论 24 条

04:55

Hugging Face：Blog（RSS）

精选73

Cohere发布North Mini Code：面向开发者的开源编码模型

Cohere发布North Mini Code，一款30B参数MoE模型（3B活跃参数），Apache 2.0开源。在Artificial Analysis Coding Index上得分33.4，超越Qwen3.5、Gemma 4等同类模型。后训练采用两阶段SFT和RLVR，在SWE-Bench Verified上pass@10达80.2%，Terminal-Bench v2上达55.1%。支持64K/128K上下文长度，专为智能体编码任务优化。

智能体开源生态模型发布编码

关联讨论 1 条

推荐理由：Cohere的新编码模型North Mini Code以30B参数MoE架构，在SWE-bench pass@1达到61%，Apache 2.0开源，是小模型在agent coding领域真正可用的信号。

02:45

The Decoder：AI News（RSS）

Anthropic 发布 Claude Fable 5 和 Mythos 5，编程和科学能力大幅提升

Anthropic 推出 Claude Fable 5 和 Mythos 5 两款新模型，声称全面超越当前 Opus 代，尤其在编程与科研方面。Fable 5 一天内完成 Stripe 的代码迁移，原需团队两个月工作量；Mythos 5 可自主设计候选药物，但因具备进攻性网络能力，目前仍保持封闭不开放。

Anthropic安全/对齐模型发布编码

关联讨论 24 条

02:18

Claude Code：GitHub Releases（RSS）

Claude Code v2.1.170 发布：引入 Claude Fable 5 模型

Claude Code v2.1.170 更新引入新模型 Claude Fable 5（Mythos-class），Anthropic 称其能力超过以往所有已开放使用的模型，并已确保安全。该版本同时修复了从 VS Code 集成终端或继承了 Claude Code 环境变量的 shell 启动时 session 无法保存 transcript 且无法用 `--resume` 恢复的问题。

Anthropic模型发布

关联讨论 24 条

02:08

Hacker News 热门（buzzing.cc 中文翻译）

系统卡：Claude Fable 5 和 Claude Mythos 5 【pdf】

Anthropic 发布了 Claude Fable 5 和 Claude Mythos 5 的系统卡（System Card），以 PDF 格式公开，内容涵盖两个模型的架构、安全评估与部署限制。

Anthropic安全/对齐模型发布

关联讨论 24 条

01:44

MarkTechPost（RSS）

Google 发布 Gemini 3.5 Live Translate：覆盖 70+ 语言的流式语音到语音翻译模型

Gemini 3.5 Live Translate 是一款流式语音到语音翻译模型，支持 70 多种语言。它会持续生成音频，仅落后说话人几秒。该模型通过 Gemini Live API、Google Meet 和翻译应用向开发者开放。

Google多模态模型发布语音

01:38

Hacker News 热门（buzzing.cc 中文翻译）

Claude Fable 5

Claude Fable 5 登上 Hacker News 热门，获得 158 个赞同，源页面为 Anthropic 官网。

Anthropic推理模型发布

关联讨论 24 条

01:17

Bloomberg：Technology（RSS）

Anthropic 发布无网络安全能力的 Mythos 模型

Anthropic 广泛发布 Mythos 的一个版本，该版本被阻止执行网络安全任务。Anthropic 此前数月曾警告，这一强大 AI 模型能够发现并利用关键软件中的漏洞。

Anthropic安全/对齐模型发布

01:13

The Verge：AI（RSS）

Anthropic 发布首个 Mythos 系列模型 Claude Fable 5

Anthropic 发布 Claude Fable 5，称其为迄今广泛可用的最强模型。该模型在软件工程、知识工作与视觉任务中表现突出，且随着任务变长、变复杂，领先优势进一步扩大。Fable 5 是 Anthropic 首次大规模发布的 Mythos 类 AI 模型，此前该公司因该类模型在网络安全任务中能力过强、风险过高而未公开。此次发布得益于新增的安全措施，可在特定高风险领域阻止模型生成响应。

Anthropic多模态推理模型发布

关联讨论 24 条

01:12

TechCrunch：AI（RSS）

Anthropic 发布首个公众可用的 Mythos 级模型 Claude Fable 5

Anthropic 推出 Claude Fable 5，这是其首个面向公众的 Mythos 级模型。该模型配备了安全护栏，可在网络安全和生物学等高风险领域阻止生成回复。

Anthropic安全/对齐模型发布

关联讨论 24 条

01:04

Anthropic：Newsroom（网页）

精选90

Claude Fable 5 和 Claude Mythos 5

Anthropic 今日推出 Claude Fable 5（通用安全版）和 Claude Mythos 5（受限安全版）。Fable 5 在软件工程、知识工作、视觉、科研等几乎所有测试基准上达到 SOTA，Stripe 称其将数月工程压缩至数天，FrontierCode 评分居前沿模型之首，可仅凭截图重建网页应用源码。Mythos 5 在药物设计中实现约 10 倍加速，其分子生物学假说盲测获科学家偏好的概率约 80%。两模型售价均为 $10/百万输入 tokens、$50/百万输出 tokens，较 Claude Mythos Preview 降价过半。Fable 5 在部分敏感主题上回退至 Claude Opus 4.8，安全触发率低于 5% 的会话。Mythos 5 通过 Project Glasswing 向网络安全防御者开放。

Anthropic多模态安全/对齐模型发布

关联讨论 24 条

推荐理由：Anthropic把最危险的模型安全地放出来了，Fable 5在编码、科研上不是小数点级别的提升，价格还砍半，95%的请求直接跑满血版，必读。

00:26

IT之家（RSS）

谷歌发布实时语音互译模型 Gemini 3.5 Live Translate，谷歌翻译 App 即用

谷歌发布实时语音互译音频模型 Gemini 3.5 Live Translate，可自动识别 70 多种语言并保留说话者的语调、语速和音高。该模型连续生成语音，在提升翻译质量与跟上说话者节奏间取得平衡，全程仅慢几秒。开发者即日起可通过 Gemini Live API 和 Google AI Studio 使用公开预览版；企业客户本月起可在 Google Meet 中使用私有预览版；普通用户通过 Android 和 iOS 版谷歌翻译即可使用。Android 用户还将获得“聆听模式”，可将手机贴耳通过听筒收听翻译音频。

Google多模态模型发布语音

关联讨论 9 条

6月9日

22:34

Google DeepMind：Blog（RSS）

精选81

Google DeepMind 发布 Gemma 4 12B：统一的无编码器多模态模型

Gemma 4 12B 是 Google DeepMind 最新推出的中等规模多模态模型，采用无编码器统一架构，原生支持音频输入。其基准测试性能接近 26B MoE 模型，但内存占用不到一半，仅需 16GB 显存或统一内存即可在消费级笔记本上本地运行。模型内置多 token 预测（MTP）drafter 以降低延迟，基于 Apache 2.0 开源许可发布，已累计超过 1.5 亿次下载。

多模态开源生态模型发布端侧

关联讨论 2 条

推荐理由：把多模态模型的视觉和音频编码器全砍了，仅靠12B就在笔记本上跑出接近26B的效果，而且Apache 2.0开源，做端侧Agent的现在有了一个高性价比的本地推理选项。

15:26

IT之家（RSS）

Anthropic 明日发布公开版 Mythos 网络安全模型（Fable 5）

Anthropic 计划以“Fable 5”之名推出公开版 Mythos 网络安全模型。公开版将配备严格安全防护措施，网络操作权限低于“玻璃之翼”（Project Glasswing）合作伙伴专供版本。该版本在长周期、多步骤任务方面带来显著性能提升，能更高效执行复杂工作。Mythos 于今年 4 月发布，最初仅对经审核的机构开放。

Anthropic安全/对齐模型发布

15:26

IT之家（RSS）

小米MiMo发布V2.5-Pro-UltraSpeed模式，突破万亿参数模型千tokens/s输出速度

小米与TileRT联合推出MiMo-V2.5-Pro的UltraSpeed模式，在1万亿参数模型上首次达到超1000 tokens/s输出速度。UltraSpeed API同步上线，定价为原版的3倍，输出速度提升约10倍。由于资源有限，采取申请制限时开放，通过用户可在2026年6月9日至6月23日23:59接入API体验，并获限时免费Chat。试用规则：每账号每日最多成功进入队列10次，单次会话上限30分钟，空闲超5分钟自动释放资源。

推理模型发布部署/工程

关联讨论 2 条

11:40

公众号：小米 MiMo

精选80

小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式，1T 模型输出突破 1000 tokens/s

小米 MiMo 与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed 模式，使 1T 参数旗舰模型输出速度首次突破 1000 tokens/s。模型侧采用 FP4 混合量化（仅量化 MoE Expert）与 DFlash 块级 masked 并行推测解码（coding 场景平均接受长度 6.30 tokens）；系统侧 TileRT 引入常驻内核引擎与异构流水线协作。API 限时开放（2026 年 6 月 9 日至 23 日），定价为 MiMo-V2.5-Pro 的 3 倍，速度提升约 10 倍。FP4 权重与 DFlash 模型 checkpoint 已开源至 HuggingFace。

开源生态推理模型发布部署/工程

关联讨论 2 条

推荐理由：万亿模型首次在通用GPU上突破1000 tokens/s，不是专用硬件的胜利而是模型与系统Codesign的胜利，做实时AI应用的都应该盯紧这一套方案。

07:21

IT之家（RSS）

苹果回应"套壳 Gemini"猜测：iOS 27 版 Siri AI AFM 自研打造

苹果在 2026 年 WWDC 主题演讲后回应，Apple Foundation Models（AFM）并非 Gemini 套壳，而是完全自主控制。AFM 体系包含 5 个模型：端侧 AFM Core（基础 AI）、AFM Core Advanced（原生多模态、稀疏架构）、云端 AFM Cloud（高负载）、AFM Cloud Image（图像生成与编辑）、AFM Cloud Pro（智能体工具与重负载任务）。每个模型针对 Apple Silicon 定制，训练使用专有数据并结合 Gemini 蒸馏优化。用户不接触谷歌代码或 Gemini 智能体。AFM Cloud Pro 采用 Google 云服务器与 NVIDIA GPU 资源，但保持 Private Cloud Compute 认证。

多模态模型发布端侧