Google发布了原生多模态模型Gemini Omni。与传统模型需逐帧描述不同,它采用底层原生设计,支持以意图驱动生成视频,并能通过多轮对话进行编辑,每一步都基于上一结果,确保一致性。该模型融合了Gemini的世界知识与物理直觉,并能将图、文、音视频等任意参考物组合,实现跨模态叙事生成。其目标是“从任何东西创造任何东西”,并从视频生成起步。
Gemini Omni 来了!Google 的优势,果然还是在多模态模型吧?!
Gemini 3.0 发布时,最惊艳的就是之前 Claude 和 GPT 都没有的多模态理解能力;Nano Banana 和 Veo 在多模态生成方面也是断档的强(发布时,后来被超越了)
现在 Google I/O 发布的 Gemini Omni,又是一个原生多模态的「理解 + 生成」模型,当前主攻视频,可用任意组合输入(图、文、视频、音频)产出或编辑视频。
来看看官方对 Omni 和 Veo 的对比: 1. 工作方式 Veo:多模态常被压成文本再生成 Omni:从底层原生多模态设计 2. 提示词 Veo:需非常具体、逐帧描述 Omni:可只给意图,由推理补细节 3. 编辑 Veo:多为单次生成 Omni:多轮对话式编辑,每步叠加上一步 4. 知识 Veo:偏视觉模式匹配 Omni:结合 Gemini 的世界知识、物理直觉
注意:这里的 Veo 代表了 Veo、Sora、Seedance 等几乎全部之前的视频生成模型,这个对比感觉几乎是吊打了。
Omni 三大能力 1. 对话式视频编辑(核心差异化) · 用自然语言改已有视频,每轮指令建立在上一轮结果上。 · 强调 一致性:角色、物理、场景记忆在多轮修改后仍连贯。 · 典型操作:换背景、改机位、换物体/角色、改动作、加特效,无需每次重述整段 prompt。
2. 世界知识 + 物理直觉 · 物理: 重力、动能、流体等,用于更可信的运动(如弹珠连锁轨道)。 · 知识: 历史、科学、文化语境,用于科普/叙事类内容(如粘土定格「蛋白质折叠」)。 · 文字: 不只「能写字」,而是文字与画面动作、节奏同步(如字母表 26 项 + 对应 lower third)。
3. 任意参考物组合(Reference anything) · 图、文、视频、音频可混用为「配料」,合成一条叙事。 · 能力包括:动作/风格迁移、参考图换角色(保留动作与口型)、草图仅作运动引导转实拍、分镜图按节拍生成等。 · 音频: 首发主要支持 人声参考;其他音频输入类型将陆续开放。