本文转述了Laten Space对Ethan He的访谈。他分享了AI开发的核心经验:模型进步取决于团队迭代速度;质量提升常源于修复数据与训练流程的BUG而非新算法;视频模型需要极详尽的文本标注。他还指出,图像生成耗时主要在“思考”重写提示词,且语言模型描述音乐细节非常困难。在脑机接口普及前,最自然的人机交互将是用户说话,AI用生成式画面回应。
果然做过的人的分享就是不一样,Laten Space 访谈了 Ethan He,罗列一些观点:
1. 模型进步速度,来自于团队迭代速度。
2. 模型质量提升,往往不来自新算法,而是来自修数据和训练流程里的BUG(最近好多研究员播客访谈都提到类似观点)
3. 视频模型训练需要文本视频对标注,画面描述要详细到让盲人听完文字,能在脑海中重建这段视频。
4. GPT Image 生成一张图要几分钟,大部分时间不是在生成像素,而是在"思考"重写提示词。
5. 让语言模型描述音乐细节,就像让盲人描述颜色一样困难。
6. 扩散模型会成为人机交互的前端层,用户看到的所有界面都由生成模型实时渲染。
7. 人类的最大输入带宽是视觉(看),最大输出带宽是语音(说)。
在脑机接口普及前,最自然的人机交互方式,是用户说话,AI 用生成式画面回应。