Laten Space 访谈 Ethan He：AI模型开发的实战洞察

向阳乔木@vista8

2026-06-03 16:32·13天前

AI 摘要

本文转述了Laten Space对Ethan He的访谈。他分享了AI开发的核心经验：模型进步取决于团队迭代速度；质量提升常源于修复数据与训练流程的BUG而非新算法；视频模型需要极详尽的文本标注。他还指出，图像生成耗时主要在“思考”重写提示词，且语言模型描述音乐细节非常困难。在脑机接口普及前，最自然的人机交互将是用户说话，AI用生成式画面回应。

果然做过的人的分享就是不一样，Laten Space 访谈了 Ethan He，罗列一些观点：

1. 模型进步速度，来自于团队迭代速度。

2. 模型质量提升，往往不来自新算法，而是来自修数据和训练流程里的BUG（最近好多研究员播客访谈都提到类似观点）

3. 视频模型训练需要文本视频对标注，画面描述要详细到让盲人听完文字，能在脑海中重建这段视频。

4. GPT Image 生成一张图要几分钟，大部分时间不是在生成像素，而是在"思考"重写提示词。

5. 让语言模型描述音乐细节，就像让盲人描述颜色一样困难。

6. 扩散模型会成为人机交互的前端层，用户看到的所有界面都由生成模型实时渲染。

7. 人类的最大输入带宽是视觉（看），最大输出带宽是语音（说）。

在脑机接口普及前，最自然的人机交互方式，是用户说话，AI 用生成式画面回应。

向阳乔木http://x.com/i/article/2062080260586283008

多模态大佬观点

在 X 查看原推

向阳乔木@vista8 · X