AIHOT

5月20日

04:38

Demis Hassabis@demishassabis

Gemini Omni在世界理解与多模态编辑方面实现了重大飞跃！它能处理照片、视频和音频，并构建全新的场景。随着时间的推移，它将能够处理任何输入和任何输出--从视频开始。你甚至可以提供自己的视频，并在此基础上迭代你的想法：

Google多模态模型发布视频

关联讨论 4 条

04:29

Hacker News 热门（buzzing.cc 中文翻译）

精选80

Gemini Omni

Google DeepMind 于 2026 年 5 月 19 日发布了新一代多模态大模型 Gemini Omni。该模型整合了文本、图像、音频与视频的理解与生成能力，旨在实现更自然的人机交互。在同期 Hacker News 讨论中获得 112 点赞，显示出技术社区对多模态融合趋势的持续关注。这标志着大模型从单模态向全模态感知与响应能力的进一步演进。

多模态模型发布视频

关联讨论 4 条

推荐理由：Gemini Omni 把视频编辑变成自然语言对话，多轮编辑和物理理解让它从玩具变成创作工具，做视频的值得一试。

03:40

Google AI@GoogleAI

到现在，你可能已经听说了 Gemini Omni，这是我们新推出的模型，旨在从任意输入（从视频开始）创造任何内容。但……这有什么大不了的？让我们来分解一下 🧵👇

Google多模态模型发布视频

关联讨论 4 条

03:29

Sundar Pichai@sundarpichai

Gemini Omni不仅能构建逼真的场景，还能推理接下来应该发生什么。它结合了对物理的直观理解与Gemini在历史、科学和文化背景方面的知识。今日起，通过@Geminiapp + Google Flow和@YouTube Shorts，向全球Google AI Plus、Pro和Ultra订阅用户推出视频生成功能。

Google多模态模型发布视频

关联讨论 4 条

03:08

Google Gemini@GeminiApp

介绍Gemini Omni，我们的新模型，可以从任何输入创建任何内容，首先从视频开始。借助Gemini Omni，您可以将图像、视频和文本作为输入组合，并生成基于Gemini现实世界知识的高质量视频。#GoogleIO

Google多模态模型发布视频

关联讨论 4 条

03:03

Hugging Face：Blog（RSS）

OlmoEarth v1.1：更高效的地球观测模型家族

OlmoEarth v1.1 是新一代地球观测模型家族，将计算成本降低最多 3 倍，同时保持与 v1 相近的性能。通过将 Sentinel‑2 不同分辨率（10m、20m、60m）的 token 合并为单个 token，大幅缩短输入序列长度，从而减少预训练、微调和推理所需算力。提供 Base、Tiny、Nano 三种尺寸，权重与训练代码已开源。该模型已在红树林变化追踪、森林退化成因分类、国家级作物图绘制等任务中得到验证。

Hugging Face开源/仓库数据/训练模型发布

03:03

OpenRouter@OpenRouter

来自@GoogleDeepMind的Gemini 3.5 Flash现已登陆OpenRouter！在编码、智能体任务和工具使用方面超越Gemini 3.1 Pro，同时保持Flash级别的价格和速度。支持100万上下文、6.5万最大输出、多模态。输入$1.50/百万token，输出$9/百万token。

Google多模态模型发布

关联讨论 8 条

02:59

Hacker News 热门（buzzing.cc 中文翻译）

Gemini 3.5 Flash：前沿智能，即刻行动

谷歌于2026年5月19日发布了Gemini 3.5 Flash模型，这是Gemini系列的最新版本，主打“前沿智能，即刻行动”。该模型强调高效的实时响应与处理能力，适用于需要快速决策的场景。该发布在技术社区Hacker News上获得了116分的关注度，显示出开发者对其性能与应用潜力的浓厚兴趣。不过，目前关于该模型在速度、准确率等具体性能指标上的提升幅度，官方尚未提供详细数据。

Google多模态推理模型发布

关联讨论 8 条

02:55

AYi@AYi_AInotes

Google Gemini Omni重新定义视频生成

Google推出Gemini Omni，首个面向消费者的世界模型。它通过自然语言交互，将Gemini的智能与生成媒体系统结合，实现了对物理规律、历史、生物等世界的深刻理解。用户可以像编辑ChatGPT文本一样用单句指令编辑视频，实现人物一致性、风格迁移、角度调整等功能。它不是单纯生成像素，而是模拟连贯的物理与语义世界，标志着AI视频生成从拼接工具向智能创作系统的飞跃。

Google DeepMind: We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....

DeepMindGoogle图像生成多模态

关联讨论 4 条

02:30

Chubby♨️@kimmonismus

真正的"哇"时刻是 Gemini Omni。一个迈向 AGI 的世界模型。它可以从任何输入创建任何内容。这太疯狂了。

Logan Kilpatrick: Introducing Gemini Omni 🔮........ Omni is our new model that can create anything from any input - starting with video (...

Google多模态模型发布视频

02:29

Google AI Developers@googleaidevs

✨ 推出 Gemini 3.5，这是我们最新的模型家族，将前沿智能与行动能力相结合。该系列为智能体模型树立了新标准，它们不仅能推理，更能执行。

智能体Google推理模型发布

关联讨论 8 条

02:29

Sundar Pichai@sundarpichai

刚结束 #GoogleIO 活动，分享今早的一些亮点 🧵 Gemini 3.5 Flash 今日起面向所有用户开放，可在 @antigravity 及我们的产品和 API 中使用。与 3.1 Pro 相比，3.5 Flash 在几乎所有基准测试中表现更优，编程能力大幅提升。它性能可比肩顶尖模型，但速度极快（每秒生成 token 数是其他前沿模型的 4 倍）。从智能水平与输出速度的综合表现来看，它在右上象限独占鳌头。

Google推理模型发布

关联讨论 8 条

02:18

Google Blog：AI（RSS）

精选83

Gemini 3.5：前沿智能与行动能力相结合

Google 在 I/O 大会上正式发布了最新的 Gemini 3.5 模型系列。该系列模型将前沿的人工智能能力与执行操作的功能相结合，旨在提供更强的综合性能。作为 Google 最新推出的模型，它代表了其在大模型技术上的最新进展。

智能体Google多模态推理

关联讨论 8 条

推荐理由：Google 在 I/O 上甩出 Gemini 3.5，这次不只拼多模态，更强调‘行动’，是所有做 Agent 的团队必须对标的新基座。

02:18

Google Blog：AI（RSS）

精选89

I/O 2026：欢迎来到自主的 Gemini 时代

Google 在 I/O 2026 大会上宣布 Gemini 进入自主代理时代，新功能使其能够自动执行复杂任务，显著提升用户工作效率。大会展示了 Gemini 如何通过代理操作简化工作流程，实现自动化处理，例如自动管理邮件、安排日程或生成报告，帮助用户从重复性工作中解放出来，专注于创造性任务。这一更新基于先进机器学习模型，强调准确性与效率，标志着 AI 助手向更智能、更自主的方向发展。

智能体Google模型发布

推荐理由：谷歌 I/O 大会上 Sundar Pichai 亲自宣布 agentic Gemini 时代到来，这是把 Gemini 从对话助手升级成真正能自主执行任务的 agent，所有做 AI 应用的接下来都得重新看一遍技术选型。

02:11

Ars Technica：AI（RSS）

Gemini 3.5 Flash 可能足够快，让生成式AI真正实用起来

Google发布了更高效的Gemini 3.5 Flash模型。该公司表示，这款模型的效率提升是实现智能体式AI未来的关键所在，意味着生成式AI的应用将更为便捷和实用。

智能体Google模型发布

02:09

Google AI@GoogleAI

三年前，Gemini从理解世界开始。随着Gemini 2，模型学会了思考和推理。去年底，Gemini 3将任何想法变为现实。今天，我们继续这段旅程，推出Gemini 3.5系列，首先发布Gemini 3.5 Flash，为智能体和编程提供前沿性能。

智能体Google推理模型发布

关联讨论 8 条

02:06

🚨 AI News | TestingCatalog@testingcatalog

谷歌I/O大会🔥：Gemini 3.5 Flash已发布！ Gemini 3.5在人工智能分析智能基准测试中表现与Gemini 3.1 Pro相当，但速度更快。【引用 @GeminiApp】：Gemini 3.5 Flash来了，这是我们迄今为止在快速高效完成任务方面最好的模型。无论您需要日常任务帮助还是多步骤创意项目，Gemini 3.5 Flash都能应对现实世界的复杂性，助您采取行动。#GoogleIO

Google Gemini: Gemini 3.5 Flash is here and it's our best model yet for getting things done quickly and efficiently. Whether you need h...

Google多模态模型发布

关联讨论 8 条

02:06

🚨 AI News | TestingCatalog@testingcatalog

GOOGLE I/O 🔥：Gemini 3.5 Flash现已在AI Studio上开放测试！你试过了吗？👀

🚨 AI News | TestingCatalog: GOOGLE I/O 🔥: GEMINI 3.5 FLASH HAS BEEN ANNOUNCED! Gemini 3.5 performs on par with Gemini 3.1 Pro on Artificial Analysi...

Google模型发布

关联讨论 8 条

02:03

Artificial Analysis@ArtificialAnlys

速度智能兼得的新一代AI：谷歌Gemini 3.5 Flash发布

谷歌发布新模型Gemini 3.5 Flash，其在智能指数上提升9分至55分，超越Grok 4.3和Claude Sonnet 4.6，尤其在代理任务和知识真实性（大幅减少幻觉）方面进步显著。输出速度超280 tokens/s，使其位于速度与智能的领先前沿。然而，模型运行成本相比前代增加5.5倍，主要由于输入令牌用量及定价上涨。此外，它在多模态评估MMMU-Pro中取得最高分，支持多模态输入，展现了谷歌的综合优势。

智能体DeepMindGoogle多模态

关联讨论 8 条

02:00

Chubby♨️@kimmonismus

Gemini 3.5 Pro下月发布！！！

Chubby♨️: Gemini 3.5 Flash official! Insanely fast an capable model

Google模型发布

02:00

Chubby♨️@kimmonismus

一个Flash模型的评测结果太疯狂了！Gemini 3.5 Flash对于其尺寸来说真的非常出色！

Chubby♨️: Gemini 3.5 Flash official! Insanely fast an capable model

Google多模态模型发布

01:59

Jeff Dean@JeffDean

谷歌发布Gemini 3.5 Flash，专为复杂代理工作流设计

在Google I/O大会上，谷歌正式推出Gemini 3.5系列模型，首个发布的Gemini 3.5 Flash专为执行复杂、长周期的代理工作流而设计。该模型在Terminal-Bench和MCP Atlas等编程与代理基准测试中得分超越3.1 Pro，且运行速度可达其他前沿模型的4倍。若在Google Antigravity环境中使用，速度提升可高达12倍。它能高效部署协同工作的子代理，通过高频迭代循环来解决现实世界的大规模问题。

智能体Google模型发布编码

关联讨论 8 条

01:55

IT之家（RSS）

谷歌 Gemini Omni 全能模型发布：可从任意输入生成任意输出，一句话让 AI 修改视频

在2026年谷歌I/O开发者大会上，谷歌正式推出Gemini Omni模型。该模型代表了Gemini家族迄今最全面的能力，“Omni”意为全能，能够无缝处理文本、图像、音频和视频等多种信息模态，实现“从任何输入生成任何输出”。其核心亮点在于支持对话式编辑，用户可通过自然语言指令轻松修改视频元素。同时，谷歌发布了首款衍生模型Gemini Omni Flash，现已在Gemini App、Google Flow和YouTube Shorts中可用，后续将提供API服务。

Google多模态模型发布视频

关联讨论 4 条

01:55

IT之家（RSS）

谷歌 Gemini 3.5 Pro 模型官宣下月登场：已在内部使用，进步超强

谷歌在2026年I/O开发者大会上宣布，新一代模型Gemini 3.5 Pro将于下月正式发布。该模型目前已在谷歌内部投入使用，官方表示其性能相比前代有显著提升。不过，具体的技术细节和性能指标尚未公开。

Google模型发布

01:55

IT之家（RSS）

谷歌发布 Gemini 3.5 Flash 模型：AI 输出速度 4 倍于 GPT-5.5

谷歌在2026年I/O开发者大会上推出了Gemini 3.5 Flash模型。该模型在多项基准测试中性能超越前代，并实现了每秒289 tokens的输出速度，较Claude Opus 4.7和GPT-5.5 xhigh快约4倍。此外，谷歌团队使用Antigravity工具，在12小时内启动93个子智能体，生成26亿tokens，成功构建出一个可运行的操作系统核心，展示了模型的强大能力。

Google推理模型发布

关联讨论 8 条

01:48

Google DeepMind：Blog（RSS）

精选83

推出Gemini Omni多模态AI模型

谷歌推出原生多模态AI模型Gemini Omni，能够整合视频、图像、音频和文本等多种输入，生成高质量视频内容。其核心能力是通过自然语言对话进行视频编辑，并能保持角色一致性、物理规律与场景连贯性。首个模型Gemini Omni Flash已上线，未来将支持图像和音频输出。Gemini Omni结合了对物理世界的直觉理解与丰富的知识库，支持从写实到叙事的创意生成，并可通过多轮对话持续编辑视频，而不丢失原始场景上下文。

DeepMindGoogle多模态模型发布

关联讨论 4 条

推荐理由：Gemini Omni 把视频生成从画面堆砌推到了物理世界叙事，多轮自然语言编辑和世界知识融合是真正的代际升级，做视频内容的该重新理解工具的定义了。

01:41

Google DeepMind@GoogleDeepMind

我们推出Gemini Omni：这是迈向一个能从任何内容生成任何内容的模型的第一步--从视频开始。它结合了Gemini的智能与我们的生成式媒体系统--代表了在世界理解、多模态和编辑方面的飞跃🧵

DeepMindGoogle多模态模型发布

关联讨论 4 条

01:41

Google DeepMind@GoogleDeepMind

智能体Google模型发布编码

关联讨论 8 条

01:37

Google Gemini@GeminiApp

Gemini 3.5 Flash现已推出，这是我们迄今为止在快速高效完成任务方面表现最佳的模型。无论您需要处理日常任务还是多步骤创意项目，Gemini 3.5 Flash都能应对现实世界的复杂性，助您采取行动。#GoogleIO

Google推理模型发布

关联讨论 8 条

01:36

🚨 AI News | TestingCatalog@testingcatalog

谷歌I/O 🔥：Gemini 3.5 Flash 已开始在 Gemini 和 API 上推出！即将开始测试 👀

Google多模态模型发布

01:36

🚨 AI News | TestingCatalog@testingcatalog

精选75

谷歌 I/O 🔥：GEMINI OMNI FLASH 已发布，现已在 GEMINI 和 GOOGLE FLOW 上可用。 GEMINI OMNI PRO 即将推出 🤩

Google DeepMind: Omni brings together an improved understanding of physics with Gemini's knowledge of history, biology, and culture, brid...

Google多模态模型发布

关联讨论 1 条

推荐理由：Gemini Omni Flash 是 Google 对多模态生成的新尝试，把物理模拟和历史叙事揉在一起，做视频内容的人可以盯着看。

01:36

🚨 AI News | TestingCatalog@testingcatalog

谷歌I/O 🔥：GEMINI 3.5 FLASH 已发布！ Gemini 3.6 在人工智能分析智能基准测试中表现与 Gemini 3.1 Pro 相当，但速度更快。

Google Gemini: Gemini 3.5 Flash is here and it's our best model yet for getting things done quickly and efficiently. Whether you need h...

Google模型发布

01:30

Chubby♨️@kimmonismus

精选77

"迈向AGI的进展"：Gemini Omni - 世界模型 -Gemini Omni官方发布！！它可以从任何输入创建任何内容！！！

Chubby♨️: Cap-ex at google is increasing at roughly 6x per year!

Google多模态模型发布

推荐理由：Google 放出 Gemini Omni，从任何输入生成任何内容，这个能力宣言直接把生成式 AI 的边界推到极限。虽然细节还不明朗，但看这架势，模型竞赛又要烧一把火。

01:30

Chubby♨️@kimmonismus

Gemini 3.5 Flash官方发布！速度极快且能力强大的模型

Chubby♨️: "Progress towards AGI": Gemini Omni - world models -Gemini Omni official!! It can create anything from any input!!!

Google多模态模型发布

00:18

小互@xiaohu

Google 全新Omni 模型 🫡

Google多模态模型发布

00:09

歸藏(guizang.ai)@op7418

哇！谷歌新视频模型 Gemini Omni Flash 已经上线 FLow

Google多模态模型发布视频

5月19日

23:18

Qwen：Blog Retrieval（API）

精选77

Qwen3.5-LiveTranslate：从声音到视觉，从词语到准确

Qwen3.5-LiveTranslate-Flash 是 Qwen 家族最新的同声传译模型，基于 Qwen3.5-Omni 架构，支持实时多模态翻译（音频、视频及视觉上下文）。语言覆盖大幅扩展：输入音频与输出文本从18种增至60种，输出音频从10种增至29种。采用 Readable Unit 技术，平均端到端每 token 延迟降至2.8秒，相比前代首 token 延迟降低3.45秒、每 token 延迟降低1.88秒。支持一句话启动的实时语音克隆和可动态配置的热词增强。在 FLEURS 和 CoVoST2 基准上翻译准确率超越主流商用大语音模型。

多模态模型发布语音

推荐理由：这个版本让同声传译从“能用”变成了“好用”，语言覆盖从 18 跃升 60，延迟压到 2.8 秒，加上视觉消除歧义，做国际业务和直播的人值得跟进。

23:09

歸藏(guizang.ai)@op7418

谷歌新的视频模型 Gemini Omni 已经开始放量了

Charlie L.: Gemini Omni is starting to rollout for some users!

Google模型发布视频

23:01

Hugging Face：Blog（RSS）

精选60

引入 Ettin Reranker 系列

Hugging Face 发布六个 Ettin Reranker 重排序模型（17m、32m、68m、150m、400m、1b），基于 Ettin ModernBERT 编码器，蒸馏 self-mxbai-rerank-large-v2 分数训练，在 MTEB(eng, v2) Retrieval 达各自规模 SOTA。模型以 Sentence Transformers CrossEncoder 接口提供，三行代码可调用。同时发布 train-sentence-transformers Agent Skill（v5.5.0），允许 AI 编码智能体在用户数据上微调模型。训练配方、数据集和脚本已全部开源。

Hugging Face检索增强开源/仓库搜索

推荐理由：从17M到1B的全尺寸reranker家族，每个量级都是SOTA，而且训练数据和代码全开放，做搜索和RAG的开发者可以无痛替换旧模型。

22:27

The Decoder：AI News（RSS）

Agora-1 将 N64 经典游戏《GoldenEye》转变为可供四人游玩的 AI 模拟

Odyssey 公司发布了世界模型 Agora-1，该模型允许最多四名玩家同时在 AI 生成的虚拟世界中进行行动。该技术已在经典游戏《GoldenEye》上得到验证，其核心是使用两个独立的模型分别实时处理游戏状态模拟与画面渲染。开发团队认为，这项技术未来在协作机器人和 AI 智能体训练领域具有应用潜力。

智能体多模态模型发布