Google DeepMind在I/O大会上发布了Gemini Omni模型,旨在迈出“从任何东西生成任何东西”的第一步。该模型将Gemini的智能与生成媒体系统深度融合,在世界理解、多模态和编辑能力上实现飞跃。其核心特点在于生成的视频能保持角色、光影等逻辑一致性,并支持通过自然语言进行实时编辑和风格调整,将视频转变为可动态演进的“世界素材”。该模型目前已在部分应用上线并即将开放API,不过其实际效果,尤其是在中文生成方面,仍存在一些讨论。
Google I/O 大会发布会重要的一个发布就是它! Google DeepMind今天直接把"从任何东西生成任何东西"这件事,迈出了第一步。
他们发布了Gemini Omni。
不仅仅是又一个视频生成工具,而是想把Gemini和生成媒体系统彻底融合。
它真正懂物理、懂历史、懂文化、懂故事逻辑。
你能定义一个角色,然后随便扔进任何场景,它都能保持一致的外貌、动作和光影。
你能用自然语言改风格、加效果,或者直接把你自己拍的视频重新想象--改环境、加物体、换动作,全程对话式操作。
以前生成视频是"拍完一段就结束",现在它是活的、可编辑的、能持续演进的世界。
视频终于不再是死的内容,是可以被实时重写的"世界素材"。
Gemini Omni Flash已经在Gemini App、Flow by Google和YouTube Shorts上线,几周后也会开放API。
PS:有人说效果不如SD2,尤其中文就更不用说了。 但是支持片段编辑的效果还不错。