Matthew Berman 一周实测 Fable(Mythos),认为这是真正的下一代模型,但存在明显怪癖。优点:Workflow 模式能瞬间拉起几百个 agent 并行全量代码审查,找出 bug 和边缘 case 的数量是 Claude/GPT 的一倍以上;自主性极强,敢于长时间自主完成超长时域任务。缺点:极度啰嗦、信息密度过高;喜欢反复问澄清问题;速度慢,简单任务五分钟才输出几千 token。建议把 effort level 调到最低。总结:Fable 5 是当前最强模型,适合最复杂的任务,但价格高昂,简单任务不推荐。
http://x.com/i/article/2064479983104602112
# Fable 测评了一周的真实感受:这才是真正的下一代模型,但也是也有不少"怪癖"!(译)
【Matthew Berman 最新测评】Fable(Mythos)测了一周:这才是真正的下一代模型,但也有一堆"怪癖"!
原帖见👇
申明: 本文由海外博主@MatthewBerman 测评,以下的"我"指其本人哈,请悉知。
tl;dr:我这周一直在狂测 Fable(Mythos),用完之后只有一个感觉--它和其他模型完全不是一个次元的东西。
无论是使用体验还是定价,都给我一种"下一代正式登场"的震撼。但它也确实有一些很明显的怪癖。
优点篇(The Good)
Workflow 模式直接封神。我随便扔给它一个"full code review"的指令,结果它瞬间拉起几百个 agent 并行狂干,给我项目里的几乎每个文件都单独配了一个专属 agent。
bug、边缘 case、文档缺失、UX 体验问题……全都被它挖出来了。
我之前给 Claude、GPT 下过一模一样的 prompt,它们找出来的问题连它一半都不到。
更离谱的是它的自主性。比以前任何 Claude 或 GPT 都敢自己闷头干活,一干就是好几个小时。
最关键的是--我敢把任务彻底扔给它。
它会毫不犹豫地烧一大堆 token,直到把目标彻底干完。
每次我一启动 Fable,就感觉它像接了个史诗级大项目一样,斗志满满。
我现在给它扔超级复杂、长周期的任务时,信心前所未有的足。
几乎想不出有什么任务能把它难住,它也特别"渴望"挑战这种硬骨头。
这就是 Fable 最亮眼的地方--超长时域任务(long horizon tasks)。
我现在都想象不出它的超长时域任务 极限到底在哪。
槽点篇(Quirks)
不过它也不是无敌神模型,有几个毛病还挺明显:
1. 极度啰嗦 + 信息密度爆炸 解释一个东西能直接钻进草丛深处。
我专门更新了 claude.md 来压它,结果还是压不住。
我得反复让它"说人话"。
不光是字多,信息密度高到让我一度怀疑自己是不是变笨了……
说真的,信息密度这事儿我以前真没那么重视。
现在发现:在固定 token 预算下,谁能塞更多有效信息,谁就等于"更聪明且更便宜"。
这也是未来 agent 自己发明超高密度语言的绝佳理由。
1. 疯狂问 clarifying questions 一个简单 prompt 能被它拆成:问问题 → 总结我的回答 → 确认总结 → 出 spec → 确认 spec → 确认 agent 策略(并行还是串行)→ 最后才开始干活…… 我其实希望它自己做决策。Anthropic 官方说更新 system prompt 之后就能好。
1. 速度真的慢 比之前的 Opus 甚至 GPT 都慢。启动慢,思考过程也慢,和我以前爱 Opus 的点完全相反(Opus 以前又快又会抄近道)。