Gemini Omni 来了！Google 的优势，果然还是在多模态模型吧？！

meng shao@shao__meng

2026-05-20 09:02·26天前

AI 摘要

Google发布了原生多模态模型Gemini Omni。与传统模型需逐帧描述不同，它采用底层原生设计，支持以意图驱动生成视频，并能通过多轮对话进行编辑，每一步都基于上一结果，确保一致性。该模型融合了Gemini的世界知识与物理直觉，并能将图、文、音视频等任意参考物组合，实现跨模态叙事生成。其目标是“从任何东西创造任何东西”，并从视频生成起步。

Gemini 3.0 发布时，最惊艳的就是之前 Claude 和 GPT 都没有的多模态理解能力；Nano Banana 和 Veo 在多模态生成方面也是断档的强（发布时，后来被超越了）

现在 Google I/O 发布的 Gemini Omni，又是一个原生多模态的「理解 + 生成」模型，当前主攻视频，可用任意组合输入（图、文、视频、音频）产出或编辑视频。

来看看官方对 Omni 和 Veo 的对比： 1. 工作方式 Veo：多模态常被压成文本再生成 Omni：从底层原生多模态设计 2. 提示词 Veo：需非常具体、逐帧描述 Omni：可只给意图，由推理补细节 3. 编辑 Veo：多为单次生成 Omni：多轮对话式编辑，每步叠加上一步 4. 知识 Veo：偏视觉模式匹配 Omni：结合 Gemini 的世界知识、物理直觉

注意：这里的 Veo 代表了 Veo、Sora、Seedance 等几乎全部之前的视频生成模型，这个对比感觉几乎是吊打了。

Omni 三大能力 1. 对话式视频编辑（核心差异化） · 用自然语言改已有视频，每轮指令建立在上一轮结果上。 · 强调一致性：角色、物理、场景记忆在多轮修改后仍连贯。 · 典型操作：换背景、改机位、换物体/角色、改动作、加特效，无需每次重述整段 prompt。

2. 世界知识 + 物理直觉 · 物理：重力、动能、流体等，用于更可信的运动（如弹珠连锁轨道）。 · 知识：历史、科学、文化语境，用于科普/叙事类内容（如粘土定格「蛋白质折叠」）。 · 文字：不只「能写字」，而是文字与画面动作、节奏同步（如字母表 26 项 + 对应 lower third）。

3. 任意参考物组合（Reference anything） · 图、文、视频、音频可混用为「配料」，合成一条叙事。 · 能力包括：动作/风格迁移、参考图换角色（保留动作与口型）、草图仅作运动引导转实拍、分镜图按节拍生成等。 · 音频：首发主要支持人声参考；其他音频输入类型将陆续开放。

Google DeepMindWe're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video. It combines Gemini's intelligence with ...

DeepMindGoogle多模态模型发布

在 X 查看原推

meng shao@shao__meng · X

2026-05-20 09:02·26天前

AI 摘要

Gemini Omni 来了！Google 的优势，果然还是在多模态模型吧？！

Gemini 3.0 发布时，最惊艳的就是之前 Claude 和 GPT 都没有的多模态理解能力；Nano Banana 和 Veo 在多模态生成方面也是断档的强（发布时，后来被超越了）

注意：这里的 Veo 代表了 Veo、Sora、Seedance 等几乎全部之前的视频生成模型，这个对比感觉几乎是吊打了。

Google DeepMindWe're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video. It combines Gemini's intelligence with ...

DeepMindGoogle多模态模型发布视频

在 X 查看原推