Google DeepMind发布Gemini Omni，迈向“生成万物”愿景

Berryxia.AI@berryxia

2026-05-20 07:37·26天前

AI 摘要

Google DeepMind在I/O大会上发布了Gemini Omni模型，旨在迈出“从任何东西生成任何东西”的第一步。该模型将Gemini的智能与生成媒体系统深度融合，在世界理解、多模态和编辑能力上实现飞跃。其核心特点在于生成的视频能保持角色、光影等逻辑一致性，并支持通过自然语言进行实时编辑和风格调整，将视频转变为可动态演进的“世界素材”。该模型目前已在部分应用上线并即将开放API，不过其实际效果，尤其是在中文生成方面，仍存在一些讨论。

Google I/O 大会发布会重要的一个发布就是它！ Google DeepMind今天直接把"从任何东西生成任何东西"这件事，迈出了第一步。

他们发布了Gemini Omni。

不仅仅是又一个视频生成工具，而是想把Gemini和生成媒体系统彻底融合。

它真正懂物理、懂历史、懂文化、懂故事逻辑。

你能定义一个角色，然后随便扔进任何场景，它都能保持一致的外貌、动作和光影。

你能用自然语言改风格、加效果，或者直接把你自己拍的视频重新想象--改环境、加物体、换动作，全程对话式操作。

以前生成视频是"拍完一段就结束"，现在它是活的、可编辑的、能持续演进的世界。

视频终于不再是死的内容，是可以被实时重写的"世界素材"。

Gemini Omni Flash已经在Gemini App、Flow by Google和YouTube Shorts上线，几周后也会开放API。

PS：有人说效果不如SD2，尤其中文就更不用说了。但是支持片段编辑的效果还不错。

Google DeepMindWe're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video. It combines Gemini's intelligence with ...

Google多模态模型发布视频

在 X 查看原推

Berryxia.AI@berryxia · X