Matthew Berman 一周实测 Fable（Mythos）：下一代模型但怪癖明显

Berryxia.AI@berryxia

2026-06-10 06:59·5天前

AI 摘要

Matthew Berman 一周实测 Fable（Mythos），认为这是真正的下一代模型，但存在明显怪癖。优点：Workflow 模式能瞬间拉起几百个 agent 并行全量代码审查，找出 bug 和边缘 case 的数量是 Claude/GPT 的一倍以上；自主性极强，敢于长时间自主完成超长时域任务。缺点：极度啰嗦、信息密度过高；喜欢反复问澄清问题；速度慢，简单任务五分钟才输出几千 token。建议把 effort level 调到最低。总结：Fable 5 是当前最强模型，适合最复杂的任务，但价格高昂，简单任务不推荐。

http：//x.com/i/article/2064479983104602112

# Fable 测评了一周的真实感受：这才是真正的下一代模型，但也是也有不少"怪癖"！（译）

【Matthew Berman 最新测评】Fable（Mythos）测了一周：这才是真正的下一代模型，但也有一堆"怪癖"！

原帖见👇

申明：本文由海外博主@MatthewBerman 测评，以下的"我"指其本人哈，请悉知。

tl；dr：我这周一直在狂测 Fable（Mythos），用完之后只有一个感觉--它和其他模型完全不是一个次元的东西。

无论是使用体验还是定价，都给我一种"下一代正式登场"的震撼。但它也确实有一些很明显的怪癖。

优点篇（The Good）

Workflow 模式直接封神。我随便扔给它一个"full code review"的指令，结果它瞬间拉起几百个 agent 并行狂干，给我项目里的几乎每个文件都单独配了一个专属 agent。

bug、边缘 case、文档缺失、UX 体验问题……全都被它挖出来了。

我之前给 Claude、GPT 下过一模一样的 prompt，它们找出来的问题连它一半都不到。

更离谱的是它的自主性。比以前任何 Claude 或 GPT 都敢自己闷头干活，一干就是好几个小时。

最关键的是--我敢把任务彻底扔给它。

它会毫不犹豫地烧一大堆 token，直到把目标彻底干完。

每次我一启动 Fable，就感觉它像接了个史诗级大项目一样，斗志满满。

我现在给它扔超级复杂、长周期的任务时，信心前所未有的足。

几乎想不出有什么任务能把它难住，它也特别"渴望"挑战这种硬骨头。

这就是 Fable 最亮眼的地方--超长时域任务（long horizon tasks）。

我现在都想象不出它的超长时域任务极限到底在哪。

槽点篇（Quirks）

不过它也不是无敌神模型，有几个毛病还挺明显：

1. 极度啰嗦 + 信息密度爆炸解释一个东西能直接钻进草丛深处。

我专门更新了 claude.md 来压它，结果还是压不住。

我得反复让它"说人话"。

不光是字多，信息密度高到让我一度怀疑自己是不是变笨了……

说真的，信息密度这事儿我以前真没那么重视。

现在发现：在固定 token 预算下，谁能塞更多有效信息，谁就等于"更聪明且更便宜"。

这也是未来 agent 自己发明超高密度语言的绝佳理由。

1. 疯狂问 clarifying questions 一个简单 prompt 能被它拆成：问问题 → 总结我的回答 → 确认总结 → 出 spec → 确认 spec → 确认 agent 策略（并行还是串行）→ 最后才开始干活…… 我其实希望它自己做决策。Anthropic 官方说更新 system prompt 之后就能好。

1. 速度真的慢比之前的 Opus 甚至 GPT 都慢。启动慢，思考过程也慢，和我以前爱 Opus 的点完全相反（Opus 以前又快又会抄近道）。

Fable 哪怕简单任务也慢慢爬，我看着计时器往上跳，输出 tokens 半天不动，五分钟才用几千 token。它就是想把每件事都做到极致彻底，这就必然要花时间。

总结 & 小贴士

Pro tip：把 effort level 直接拉到最低，比你以为的还低。

它在中档的时候就已经想得非常非常多，低档依然强得离谱，只是思考时间会短一些。

所有这些怪癖其实都是能修的--模型优化 + 更多算力提速，再加上 fine-tuning/RL 和 system prompt 调教，就能解决啰嗦和过度谨慎的问题。

最终结果： Fable5 真的强到离谱，我现在还在摸索怎么把它用出最爽的体验。

它给我的感觉是--它就想吃最难的任务，简单活儿都觉得不过瘾。

这是全新测试运行的第一次公开亮相，就已经是我用过的最强模型了。

这点，才是我这几天一直忍不住反复思考的。

Berryxia：原文来自 Matthew Berman，实际测评等我门自己来看看。

目前这么高的价格来说，还是用起我的opus4.7 吧，博主大哥说的就是简单的任务就没有必要选择它。

难啃的骨头更适合它，而不是拿小Case测试它。就一点才大用的感觉，杀鸡焉用牛刀啊！

智能体推理评测/基准

在 X 查看原推

Berryxia.AI@berryxia · X