xAI前视频多模态负责人Ethan He访谈:视频模型的天花板,其实是语言模型 · AI HOT
向阳乔木@vista865
2026-06-03 16:22·13天前
AI 摘要xAI前视频多模态负责人Ethan He在离职转向语言模型研究时表示,视频模型最大的瓶颈是语言模型。他曾在NVIDIA参与Cosmos模型开发,并在加入xAI后三个月内从零搭建出Grok Imagine 0.9。他指出训练视频模型成本高昂,例如存储10亿个视频需5PB,仅AWS月费就达数百万人民币。视频模型需先预训练图像模型,再通过VLM生成合成字幕以解决数据对齐问题。当前模型在生成长视频时上下文容易爆炸,而他认为扩散模型对文本的理解过于字面化,对语言意图的深层理解才是突破关键。
xAI多模态大佬观点视频
向阳乔木@vista8 · X65
2026-06-03 16:22·13天前
AI 摘要xAI前视频多模态负责人Ethan He在离职转向语言模型研究时表示,视频模型最大的瓶颈是语言模型。他曾在NVIDIA参与Cosmos模型开发,并在加入xAI后三个月内从零搭建出Grok Imagine 0.9。他指出训练视频模型成本高昂,例如存储10亿个视频需5PB,仅AWS月费就达数百万人民币。视频模型需先预训练图像模型,再通过VLM生成合成字幕以解决数据对齐问题。当前模型在生成长视频时上下文容易爆炸,而他认为扩散模型对文本的理解过于字面化,对语言意图的深层理解才是突破关键。
原因很实际,图像比视频便宜得多,而且语言和图像之间的对应关系更密集。
举个具体数字:训练 10 亿张图文对,和训练 10 亿个视频文本对,成本完全不在一个量级。
视频模型对语言的理解,完全来自这种文本到视觉内容的映射关系。
所以标准做法是:先训图像扩散模型,再用它作为基础,迁移到视频模型。
YouTube 上的标题和评论,和视频内容本身几乎没有关联。
一段山川自然风光,标题可能是"今天真开心",二者毫无关系。
所以必须用 VLM(视觉语言模型,能同时理解图像和文字的 AI 模型)给视频打字幕,生成合成的文本视频对。
Cosmos 的标注要求非常具体:描述要详细到让一个盲人听完文字,就能在脑海中重建出这段视频。
这个标准直接决定了后来视频模型能不能真正理解人类意图。
第三步:训练 VAE(变分自编码器,一种把图像压缩成低维表示再还原的压缩器)
原始视频帧的像素量太大,1000×1000 的图像就有 100 万个像素,Transformer(一种主流的 AI 模型架构)根本无法直接处理。
VAE 把图像映射到一个低维的连续潜空间(latent space,可以理解为图像的"压缩编码"),再从潜空间还原回图像。
具体做法是把图像切成小块(patch),每个小块映射成一个向量,这样一张图就变成了几十个向量,而不是 100 万个像素。
Wan 2.1 采用 8×8×4 的压缩率,时间维度压缩 4 倍,上下文长度大幅缩短,训练效率更高。
但代价是实时性:如果要做实时交互,时间维度的压缩会引入固定的延迟,无法做到即时响应。
如果不压缩时间维度,只做帧内压缩(8×8×1),上下文长度会是 4 倍压缩方案的 4 倍,计算量大得多,但可以支持帧级别的实时输出。
第四步:训练扩散 Transformer(Diffusion Transformer)
流程和语言模型非常相似,区别只是输入输出换成了视觉 token(图像的压缩表示),以及加入了去噪过程:向视觉 token 加入随机噪声,训练模型把噪声去掉,推理时从纯噪声开始迭代生成干净的图像或视频。
推理侧的主要优化手段是步骤蒸馏(Step Distillation):用完整模型跑 100 步生成高质量结果,再训练一个只需要 10 步的小模型去模仿它。
这背后的逻辑是:完整模型要学的是整个互联网的图像分布,极其复杂,蒸馏模型只需要学老师模型的分布,简单得多。
Cosmos 的生产版本已经可以做到 4 步甚至 1 步生成(针对图生图等简单任务)。
Ethan He 做了一个粗略的估算,数字很有参考价值。
LTX 是 19B(190 亿)参数的稠密模型,也有人在探索 MoE(混合专家模型,一种让模型只激活部分参数的架构),激活参数约 20B,总参数可能达到数百 B。
Cosmos 公开披露的视觉 token 数量也在数十万亿量级,和语言模型的训练规模接近。
存储成本: 假设有 10 亿个视频,每个视频 5MB,光存储就需要 5PB(5000TB)。
加上 VAE 提取的特征文件,总存储量翻倍,达到约 10PB。
在 AWS S3 标准存储上,5PB 的月存储费用约 23 万人民币,加上数据出口费用,每月总成本可能达到数百万人民币,还没算 GPU 训练成本。
他特别提到:数据出口费用(把数据从云端传输出去的费用)比存储本身更贵。
每次训练都需要把数据拉取一遍,如果多次训练,费用成倍叠加。
这也是为什么大规模训练团队通常会自建存储基础设施,而不是完全依赖公有云。
I/O 瓶颈: 视频训练天然是 I/O 密集型任务,数据加载速度很容易成为 GPU 利用率的瓶颈。
Ethan He 在英伟达做 Cosmos 时专门做了大量 I/O 优化。
Ethan He 给世界模型下了一个工程意义上的定义,三个维度。
交互性: 模型可以响应键盘、鼠标、语音等多种输入,并给出合理的反馈。
CS 职业选手需要亚 3 毫秒的响应(300FPS 对应约 3 毫秒每帧),60FPS 游戏需要 16 毫秒,实时语音交互的容忍上限大约是 200 毫秒。现有视频模型大多达不到这个要求。
长时程: 不是生成几秒钟的片段,而是能持续生成几分钟甚至几小时的内容,同时保持角色、场景、声音的一致性。
Cosmos 里 5 秒视频就有约 55K 到 60K 个 token,50 秒就是 500K token,再长就很难处理。
现有视频模型的上下文窗口大约在几百万 token 量级,但实际使用中很快就会爆炸。
Ethan He 在 xAI 主导的视频扩展(Video Extension)功能,是迈向长时程的第一步:让模型在生成下一段视频时,能访问之前所有视频的完整历史上下文,而不只是最后一帧或最后一秒。
这解决了多次扩展后视频质量退化、人物声音漂移的问题。
参考视频(Reference-to-Video)是另一个折中方案:允许用户上传最多 7 张图片作为条件,让模型在生成时参考特定角色或场景。
Ethan He 自己也承认这是个"作弊"方案,真正的解法是让模型自己学会从历史中选择性地提取相关上下文。
FramePack(一篇论文提出的方法)提供了一个启发式思路:最近的历史保留完整分辨率,越早的历史压缩得越小,总 token 数保持固定上限。
这和人类记忆的工作方式有些相似,但 Ethan He 认为更理想的状态是让模型自己决定哪些历史值得保留,而不是靠人工设计的规则。
这是整个访谈里最反直觉的判断,也是 Ethan He 离职的核心原因。
扩散模型(Diffusion Model,一种通过去噪生成图像或视频的模型)在训练时被要求按照极其详细的文字描述生成视频,所以推理时也会字面理解用户的输入。
你说"一只猫",它就生成一只猫,白色背景,静止不动,因为你没说背景,没说动作。
它取的是训练数据里那种极度详细的描述风格,用户的简短输入和这个分布完全不匹配。
真正让模型变聪明的,是提示词重写器(Prompt Rewriter),一个更大的语言模型,负责把用户的简单描述扩展成极其详细的视频描述。
Cosmos 用的是 Llama 或 Mixtral,而且提示词重写器比视频扩散模型本身(7B 参数)还要大。
他举了一个具体例子:同样是生成一只快乐的羊,不经过重写,结果看起来像 CGI;经过重写之后,画面质量有质的飞跃,而且这个提升不需要任何联合训练。
GPT Image 生成一张图需要 3 分钟,其中大部分时间不是在生成像素,而是在"思考",也就是提示词重写和规划阶段。
- 工具调用: 生成图片前先联网查今天的新闻,处理后再生成
- 智能体协调: 调用视频生成、视频编辑、图像处理、FFmpeg 等多种工具,迭代生成高质量内容
Grok Imagine 已经有了一个智能体模式的早期版本,可以通过调用不同工具来生成更长的视频。
Grok Imagine 0.9 是 Ethan He 认为业内首个大规模部署的音频视频联合生成模型。
- 语音部分: 接近离散 token(可以理解为有限词汇表里的单词),可以用类似语言模型的方式处理
- 音乐部分: 完全连续,无法离散化,现有语言模型对音乐的理解非常有限
让语言模型描述音乐细节,就像让盲人描述颜色一样困难。
大多数语言模型可以识别"这是哪首歌",但无法描述音乐的节拍、音调和细节,更无法生成高质量的音乐。
文本和图像之间的对应是松散的,你可以用一段话描述整张图。
但音频和视频必须在时间轴上精确对齐:哪一秒有什么声音,必须和画面严格同步。
这种精确的时间感知,是现有多模态模型普遍缺失的能力。
访谈中展示了两个产品案例,代表了 Ethan He 对未来交互方式的判断。
Flipbook: 一个用图像生成模型实时渲染的浏览器界面。
页面里的所有内容都是模型生成的,公司不存在,场景是虚构的。
比如点击"金字塔建造技术",模型会生成一个详细介绍杠杆技术的新页面,配有对应的生成图像。
Neural OS(神经操作系统): 用视频模型模拟一个完整的操作系统,可以运行 Doom、Firefox 等应用,所有画面都是模型实时生成的。
Ethan He 的预测是:随着推理成本下降,扩散模型会成为人机交互的前端层,语言模型和确定性代码在后端运行,用户看到的所有界面都由生成模型实时渲染。
每个用户可以有完全不同的界面,邮件可以像 TikTok 一样滑动,Instagram 可以去掉你总是误触的点赞按钮。
他估算了一下成本:如果每 100 个请求 1 美元,每天用 8 小时,每月大约 240 美元。
现在确实贵,但推理成本每年大约下降 2 倍,他认为这个未来会到来。
他还提出了一个关于人机带宽的判断:人类的最大输入带宽是视觉(看),最大输出带宽是语音(说)。
所以未来最自然的人机交互方式,是用户说话,AI 用生成式画面回应,这是神经链接(Neuralink)出现之前的最高带宽交互形式。
Ethan He 的回答很直接:有些研究在公司里做不了,而且公司的优先级会快速变化。
他想做的,是语言模型方向的研究,特别是模型如何自主管理自己的上下文。
他的具体预测是:语言模型很快会出现真正的上下文感知能力,模型知道自己的上下文窗口用了多少,能主动决定压缩、丢弃或保留哪些内容,而不是依赖外部 harness(智能体框架,一种包裹模型的工程系统)的启发式规则。
他举了一个例子:现在 Claude(Anthropic 的 AI 模型)在上下文接近上限时会自动触发压缩,但模型本身对这个过程毫不知情,还在按照原来的方式工作。
理想状态是模型自己感知到"我快到上限了",并主动调整策略。
他认为视频模型在这方面的探索某种程度上比语言模型更超前,因为视频的长时程问题更紧迫,研究者被迫更早面对这个问题。
他还提到一个更激进的想法:如果把智能体框架的代码直接放进模型的上下文,让模型能够修改自己的运行规则,比如决定"读长文档时我要分块处理还是只读前 200 行",这种自我修改的智能体框架可能是一个值得探索的方向。
Ethan He 的职业路径本身也值得单独说一下。
十年前他在做 ResNet(残差网络,一种经典的图像识别模型架构)时代的图像识别和目标检测研究,同时做模型压缩。
他当时想当教授,已经有几篇顶会一作论文,自信地申请了顶校博士,结果全部被拒。
被迫进入工业界,反而让他在 Facebook FAIR(Meta 的 AI 研究院,由 Yann LeCun 领导)做了自监督学习,之后到英伟达做 Cosmos 和 MoE(混合专家模型)扩展,再到 xAI 做视频多模态。
他在英伟达的另一个重要工作是 Megatron MoE,这是第一个开源的、能够高效训练超大规模 MoE 模型的框架,支持从 1000 亿参数到万亿参数的训练,MFU(模型浮点利用率,衡量 GPU 利用效率的指标)达到约 40%。
他的结论是:在机器学习内部切换方向,比大多数人想象的容易。训练大模型的核心原则是通用的,换个方向并不需要从零开始。
很多人觉得"我做计算机视觉,就只能做计算机视觉",但他的经验证明这个边界没有那么硬。
信息不对称: Ethan He 在涉及 Grok Imagine 具体架构时多次说"不方便评论",比如它是否是端到端扩散模型还是语言模型加扩散头的组合。这意味着一些关键技术细节仍然不透明。
成本估算是粗略的: 他的存储和训练成本计算是信封背面的估算,实际情况会因数据规模、训练次数、基础设施选择而有很大差异。
"语言模型是瓶颈"这个判断有边界: 他承认扩散模型本身的改进仍然重要,只是说在当前阶段,语言模型的改进带来的增益更大。这不等于视频模型架构研究没有价值。
世界模型的定义是他个人的: 他在访谈开头就声明,世界模型有很多定义,他只是分享自己的视角,不打算辩论谁对谁错。
本文根据 Latent Space 播客对 Ethan He 的访谈整理重写。
Ethan He 曾任英伟达 Cosmos 视频基础模型核心作者,xAI Grok Imagine 视频多模态负责人。