xAI前视频多模态负责人Ethan He访谈：视频模型的天花板，其实是语言模型

向阳乔木@vista8

2026-06-03 16:22·13天前

AI 摘要

xAI前视频多模态负责人Ethan He在离职转向语言模型研究时表示，视频模型最大的瓶颈是语言模型。他曾在NVIDIA参与Cosmos模型开发，并在加入xAI后三个月内从零搭建出Grok Imagine 0.9。他指出训练视频模型成本高昂，例如存储10亿个视频需5PB，仅AWS月费就达数百万人民币。视频模型需先预训练图像模型，再通过VLM生成合成字幕以解决数据对齐问题。当前模型在生成长视频时上下文容易爆炸，而他认为扩散模型对文本的理解过于字面化，对语言意图的深层理解才是突破关键。

http：//x.com/i/article/2062080260586283008

# xAI 视频多模态负责人访谈：视频模型的天花板，其实是语言模型

一个在英伟达造出 Cosmos 世界模型、又在 xAI 三个月从零搭出 Grok Imagine 的人，离职时说的理由是：视频模型最大的瓶颈，其实是语言模型。

Laten Space最近访谈了Ethan He，内容很不错，让AI转写一篇文章。

> https：//www.latent.space/p/video-agents

## 他是谁，做过什么

Ethan He 是一位多模态 AI 研究员，职业轨迹横跨图像识别、自监督学习、大规模模型训练和视频生成。

在英伟达期间，他是 Cosmos 视频基础模型的核心作者之一。

Cosmos 是一个大规模视频生成模型，目标是模拟物理世界，作为机器人研究的基础底座，于 2024 年底发布。

2025 年中，他加入 xAI，主导 Grok Imagine 的视频和多模态方向，包括：

- 音频视频联合生成（Grok Imagine 0.9）

- 视频扩展（Video Extension，支持完整历史上下文的长视频生成）

- 参考视频生成（Reference-to-Video，支持上传最多 7 张图片作为角色或场景条件）

- 内部世界模型团队（专注实时长时程视频生成）

访谈时他刚刚离开 xAI，准备转向语言模型方向的研究。

## 三个月从零到视频模型，靠的不是算法

加入 xAI 时，团队没有数据、没有基础设施、没有现成模型，只有几个工程师。

三个月后 Grok Imagine 0.9 发布。

他总结了两个关键因素。

第一是人的密度，而非人的数量。

团队里每个人都很强，目标高度一致，沟通成本极低。

每天只有一个例会，其余时间全部用来构建。

他的观察是：小团队减少沟通带宽，反而比大团队更容易快速迭代。

第二是迭代速度，而非单次训练质量。

他的核心判断是：训练模型最重要的指标，不是某次实验的结果有多好，而是每天能跑多少轮实验。

迭代越快，发现 bug 的机会越多。

而且他特别强调：模型质量最大的提升，往往不来自新算法，而来自数据管道和训练流程里那些不起眼的小 bug。

这听起来有点怪，但这是他在英伟达和 xAI 两次从零搭建视频模型的共同经验。

他还提到一个时间节点：2025 年中加入时，代码模型还不够好，写出来的代码经常是几千行的"意大利面条"，连模型自己都搞不清楚怎么维护。

到 2025 年 12 月，代码模型已经强到可以快速实现任何想法。

这带来了一个新的瓶颈反转：以前是写代码慢，现在是算力跟不上想法的速度。

代码几小时就能写完，但训练一个新模型可能要等好几周。

## 视频模型是怎么炼出来的：完整路径

第一步：先训图像模型，再训视频模型

原因很实际，图像比视频便宜得多，而且语言和图像之间的对应关系更密集。

举个具体数字：训练 10 亿张图文对，和训练 10 亿个视频文本对，成本完全不在一个量级。

但前者能给模型打下更扎实的语言理解基础。

视频模型对语言的理解，完全来自这种文本到视觉内容的映射关系。

如果映射数量不够，模型就不能充分理解人类意图。

所以标准做法是：先训图像扩散模型，再用它作为基础，迁移到视频模型。

第二步：解决数据对齐问题

互联网上的视频天然缺少精准的文字描述。

YouTube 上的标题和评论，和视频内容本身几乎没有关联。

一段山川自然风光，标题可能是"今天真开心"，二者毫无关系。

所以必须用 VLM（视觉语言模型，能同时理解图像和文字的 AI 模型）给视频打字幕，生成合成的文本视频对。

但 VLM 本身在早期也需要人工标注来冷启动。

Cosmos 的标注要求非常具体：描述要详细到让一个盲人听完文字，就能在脑海中重建出这段视频。

所有物体、角色、互动、对话，都要覆盖。

这个标准直接决定了后来视频模型能不能真正理解人类意图。

第三步：训练 VAE（变分自编码器，一种把图像压缩成低维表示再还原的压缩器）

原始视频帧的像素量太大，1000×1000 的图像就有 100 万个像素，Transformer（一种主流的 AI 模型架构）根本无法直接处理。

VAE 把图像映射到一个低维的连续潜空间（latent space，可以理解为图像的"压缩编码"），再从潜空间还原回图像。

具体做法是把图像切成小块（patch），每个小块映射成一个向量，这样一张图就变成了几十个向量，而不是 100 万个像素。

时间维度的压缩比例是个关键决策。

Wan 2.1 采用 8×8×4 的压缩率，时间维度压缩 4 倍，上下文长度大幅缩短，训练效率更高。

但代价是实时性：如果要做实时交互，时间维度的压缩会引入固定的延迟，无法做到即时响应。

如果不压缩时间维度，只做帧内压缩（8×8×1），上下文长度会是 4 倍压缩方案的 4 倍，计算量大得多，但可以支持帧级别的实时输出。

第四步：训练扩散 Transformer（Diffusion Transformer）

流程和语言模型非常相似，区别只是输入输出换成了视觉 token（图像的压缩表示），以及加入了去噪过程：向视觉 token 加入随机噪声，训练模型把噪声去掉，推理时从纯噪声开始迭代生成干净的图像或视频。

推理侧的主要优化手段是步骤蒸馏（Step Distillation）：用完整模型跑 100 步生成高质量结果，再训练一个只需要 10 步的小模型去模仿它。

这背后的逻辑是：完整模型要学的是整个互联网的图像分布，极其复杂，蒸馏模型只需要学老师模型的分布，简单得多。

Cosmos 的生产版本已经可以做到 4 步甚至 1 步生成（针对图生图等简单任务）。

## 训练一个视频模型到底要花多少钱

Ethan He 做了一个粗略的估算，数字很有参考价值。

模型规模：视频模型和中等规模语言模型相当。

LTX 是 19B（190 亿）参数的稠密模型，也有人在探索 MoE（混合专家模型，一种让模型只激活部分参数的架构），激活参数约 20B，总参数可能达到数百 B。

Cosmos 公开披露的视觉 token 数量也在数十万亿量级，和语言模型的训练规模接近。

存储成本：假设有 10 亿个视频，每个视频 5MB，光存储就需要 5PB（5000TB）。

加上 VAE 提取的特征文件，总存储量翻倍，达到约 10PB。

在 AWS S3 标准存储上，5PB 的月存储费用约 23 万人民币，加上数据出口费用，每月总成本可能达到数百万人民币，还没算 GPU 训练成本。

他特别提到：数据出口费用（把数据从云端传输出去的费用）比存储本身更贵。

每次训练都需要把数据拉取一遍，如果多次训练，费用成倍叠加。

这也是为什么大规模训练团队通常会自建存储基础设施，而不是完全依赖公有云。

I/O 瓶颈：视频训练天然是 I/O 密集型任务，数据加载速度很容易成为 GPU 利用率的瓶颈。

Ethan He 在英伟达做 Cosmos 时专门做了大量 I/O 优化。

## 世界模型的定义：三个缺一不可的条件

Ethan He 给世界模型下了一个工程意义上的定义，三个维度。

交互性：模型可以响应键盘、鼠标、语音等多种输入，并给出合理的反馈。

实时性：响应延迟要足够低。

CS 职业选手需要亚 3 毫秒的响应（300FPS 对应约 3 毫秒每帧），60FPS 游戏需要 16 毫秒，实时语音交互的容忍上限大约是 200 毫秒。现有视频模型大多达不到这个要求。

长时程：不是生成几秒钟的片段，而是能持续生成几分钟甚至几小时的内容，同时保持角色、场景、声音的一致性。

三个条件同时满足，才算世界模型。

目前的视频模型在任何一个维度上都还有很大差距。

长时程的工程难题

Cosmos 里 5 秒视频就有约 55K 到 60K 个 token，50 秒就是 500K token，再长就很难处理。

现有视频模型的上下文窗口大约在几百万 token 量级，但实际使用中很快就会爆炸。

Ethan He 在 xAI 主导的视频扩展（Video Extension）功能，是迈向长时程的第一步：让模型在生成下一段视频时，能访问之前所有视频的完整历史上下文，而不只是最后一帧或最后一秒。

这解决了多次扩展后视频质量退化、人物声音漂移的问题。

参考视频（Reference-to-Video）是另一个折中方案：允许用户上传最多 7 张图片作为条件，让模型在生成时参考特定角色或场景。

Ethan He 自己也承认这是个"作弊"方案，真正的解法是让模型自己学会从历史中选择性地提取相关上下文。

FramePack（一篇论文提出的方法）提供了一个启发式思路：最近的历史保留完整分辨率，越早的历史压缩得越小，总 token 数保持固定上限。

这和人类记忆的工作方式有些相似，但 Ethan He 认为更理想的状态是让模型自己决定哪些历史值得保留，而不是靠人工设计的规则。

## 视频模型最大的进步，来自语言模型

这是整个访谈里最反直觉的判断，也是 Ethan He 离职的核心原因。

扩散模型本身其实很"笨"

扩散模型（Diffusion Model，一种通过去噪生成图像或视频的模型）在训练时被要求按照极其详细的文字描述生成视频，所以推理时也会字面理解用户的输入。

你说"一只猫"，它就生成一只猫，白色背景，静止不动，因为你没说背景，没说动作。

它取的是训练数据里那种极度详细的描述风格，用户的简短输入和这个分布完全不匹配。

提示词重写器才是真正的智能来源

真正让模型变聪明的，是提示词重写器（Prompt Rewriter），一个更大的语言模型，负责把用户的简单描述扩展成极其详细的视频描述。

Cosmos 用的是 Llama 或 Mixtral，而且提示词重写器比视频扩散模型本身（7B 参数）还要大。

他举了一个具体例子：同样是生成一只快乐的羊，不经过重写，结果看起来像 CGI；经过重写之后，画面质量有质的飞跃，而且这个提升不需要任何联合训练。

GPT Image 生成一张图需要 3 分钟，其中大部分时间不是在生成像素，而是在"思考"，也就是提示词重写和规划阶段。

语言模型的角色还在扩展

提示词重写只是第一步。

现在语言模型在视频生成中的角色已经扩展到：

- 工具调用：生成图片前先联网查今天的新闻，处理后再生成

- 智能体协调：调用视频生成、视频编辑、图像处理、FFmpeg 等多种工具，迭代生成高质量内容

- 布局规划：决定视频的结构、时间线和内容组织

Grok Imagine 已经有了一个智能体模式的早期版本，可以通过调用不同工具来生成更长的视频。

## 音频：被低估的难题

Grok Imagine 0.9 是 Ethan He 认为业内首个大规模部署的音频视频联合生成模型。

音频的难点在于它有两个截然不同的成分：

- 语音部分：接近离散 token（可以理解为有限词汇表里的单词），可以用类似语言模型的方式处理

- 音乐部分：完全连续，无法离散化，现有语言模型对音乐的理解非常有限

让语言模型描述音乐细节，就像让盲人描述颜色一样困难。

大多数语言模型可以识别"这是哪首歌"，但无法描述音乐的节拍、音调和细节，更无法生成高质量的音乐。

更大的挑战是时间对齐。

文本和图像之间的对应是松散的，你可以用一段话描述整张图。

但音频和视频必须在时间轴上精确对齐：哪一秒有什么声音，必须和画面严格同步。

这种精确的时间感知，是现有多模态模型普遍缺失的能力。

## 生成式 UI：扩散模型作为前端

访谈中展示了两个产品案例，代表了 Ethan He 对未来交互方式的判断。

Flipbook：一个用图像生成模型实时渲染的浏览器界面。

页面里的所有内容都是模型生成的，公司不存在，场景是虚构的。

用户点击链接，模型就生成新的子页面。

比如点击"金字塔建造技术"，模型会生成一个详细介绍杠杆技术的新页面，配有对应的生成图像。

Neural OS（神经操作系统）：用视频模型模拟一个完整的操作系统，可以运行 Doom、Firefox 等应用，所有画面都是模型实时生成的。

Ethan He 的预测是：随着推理成本下降，扩散模型会成为人机交互的前端层，语言模型和确定性代码在后端运行，用户看到的所有界面都由生成模型实时渲染。

每个用户可以有完全不同的界面，邮件可以像 TikTok 一样滑动，Instagram 可以去掉你总是误触的点赞按钮。

他估算了一下成本：如果每 100 个请求 1 美元，每天用 8 小时，每月大约 240 美元。

现在确实贵，但推理成本每年大约下降 2 倍，他认为这个未来会到来。

他还提出了一个关于人机带宽的判断：人类的最大输入带宽是视觉（看），最大输出带宽是语音（说）。

所以未来最自然的人机交互方式，是用户说话，AI 用生成式画面回应，这是神经链接（Neuralink）出现之前的最高带宽交互形式。

## 为什么离开 xAI

Ethan He 的回答很直接：有些研究在公司里做不了，而且公司的优先级会快速变化。

他想做的，是语言模型方向的研究，特别是模型如何自主管理自己的上下文。

他的具体预测是：语言模型很快会出现真正的上下文感知能力，模型知道自己的上下文窗口用了多少，能主动决定压缩、丢弃或保留哪些内容，而不是依赖外部 harness（智能体框架，一种包裹模型的工程系统）的启发式规则。

他举了一个例子：现在 Claude（Anthropic 的 AI 模型）在上下文接近上限时会自动触发压缩，但模型本身对这个过程毫不知情，还在按照原来的方式工作。

理想状态是模型自己感知到"我快到上限了"，并主动调整策略。

他认为视频模型在这方面的探索某种程度上比语言模型更超前，因为视频的长时程问题更紧迫，研究者被迫更早面对这个问题。

他还提到一个更激进的想法：如果把智能体框架的代码直接放进模型的上下文，让模型能够修改自己的运行规则，比如决定"读长文档时我要分块处理还是只读前 200 行"，这种自我修改的智能体框架可能是一个值得探索的方向。

## 职业轨迹：每一次转型都是主动押注

Ethan He 的职业路径本身也值得单独说一下。

十年前他在做 ResNet（残差网络，一种经典的图像识别模型架构）时代的图像识别和目标检测研究，同时做模型压缩。

他当时想当教授，已经有几篇顶会一作论文，自信地申请了顶校博士，结果全部被拒。

被迫进入工业界，反而让他在 Facebook FAIR（Meta 的 AI 研究院，由 Yann LeCun 领导）做了自监督学习，之后到英伟达做 Cosmos 和 MoE（混合专家模型）扩展，再到 xAI 做视频多模态。

他在英伟达的另一个重要工作是 Megatron MoE，这是第一个开源的、能够高效训练超大规模 MoE 模型的框架，支持从 1000 亿参数到万亿参数的训练，MFU（模型浮点利用率，衡量 GPU 利用效率的指标）达到约 40%。

他的结论是：在机器学习内部切换方向，比大多数人想象的容易。训练大模型的核心原则是通用的，换个方向并不需要从零开始。

很多人觉得"我做计算机视觉，就只能做计算机视觉"，但他的经验证明这个边界没有那么硬。

## 关键判断汇总

## 局限性和没说清楚的地方

这篇访谈有几个地方值得注意：

信息不对称： Ethan He 在涉及 Grok Imagine 具体架构时多次说"不方便评论"，比如它是否是端到端扩散模型还是语言模型加扩散头的组合。这意味着一些关键技术细节仍然不透明。

成本估算是粗略的：他的存储和训练成本计算是信封背面的估算，实际情况会因数据规模、训练次数、基础设施选择而有很大差异。

"语言模型是瓶颈"这个判断有边界：他承认扩散模型本身的改进仍然重要，只是说在当前阶段，语言模型的改进带来的增益更大。这不等于视频模型架构研究没有价值。

世界模型的定义是他个人的：他在访谈开头就声明，世界模型有很多定义，他只是分享自己的视角，不打算辩论谁对谁错。

本文根据 Latent Space 播客对 Ethan He 的访谈整理重写。

Ethan He 曾任英伟达 Cosmos 视频基础模型核心作者，xAI Grok Imagine 视频多模态负责人。

xAI多模态大佬观点视频

在 X 查看原推

向阳乔木@vista8 · X