63
AI 摘要
Doubao-Seed-2.0-lite 0428 内测版本升级,新增音频理解功能,能同时支持图片、视频、音频和文本四种输入,成为豆包大模型家族首款全模态理解模型。该版本在 Agent、Coding 和 GUI 能力上也有明显提升。通过 API 测试,验证了其在前端动效复刻、视频Hooks建议和字幕识别等场景的应用潜力,具体案例详见后续推文线程。
前段时间参与了 Doubao-Seed-2.0-lite 0428 内测。
这个版本升级,增加了音频理解,能同时支持图片、视频、音频、文本四种输入,成为豆包大模型家族首款全模态理解模型。
除了全模态理解,据说 Agent、Coding、GUI 能力这次也都有明显提升。
拿 API 做了一些测试,分享几个场景:前端动效复刻、视频Hooks建议、字幕识别等
案例见后续 Thread