Anthropic发布Claude Fable 5与Mythos 5:安全版免费至6月22日,价格公布 · AI HOT
数字生命卡兹克@Khazix091883
2026-06-10 11:13·5天前
AI 摘要Anthropic今日发布Claude Fable 5(加安全限制)与Mythos 5(底层相同),价格每百万输入token $10、输出$50。即日起至6月22日,Pro/Max/Team/企业版订阅用户可免费使用Fable 5,之后仅API可用。跑分全面碾压,三方基准达SOTA。案例:Stripe用Fable 5一天迁移5000万行Ruby代码;纯视觉通关宝可梦火红;自建3D CAD编辑器并设计可打印模型;Mythos 5加速药物设计10倍,基因组学自主训练模型超越Science论文成果。
Anthropic大佬观点安全/对齐编码
数字生命卡兹克@Khazix0918 · X83
2026-06-10 11:13·5天前
AI 摘要Anthropic今日发布Claude Fable 5(加安全限制)与Mythos 5(底层相同),价格每百万输入token $10、输出$50。即日起至6月22日,Pro/Max/Team/企业版订阅用户可免费使用Fable 5,之后仅API可用。跑分全面碾压,三方基准达SOTA。案例:Stripe用Fable 5一天迁移5000万行Ruby代码;纯视觉通关宝可梦火红;自建3D CAD编辑器并设计可打印模型;Mythos 5加速药物设计10倍,基因组学自主训练模型超越Science论文成果。
这就能看出来,DeepSeek到底有多大善人了吧。
我现在绝大多数的在工作流里跑的一些自动化的AI的API,全都是DeepSeek V4 Pro,因为真的便宜,智能水平也不错。
在所有的维度,全面碾压,我看了很多的三方基准评测,也是清一色的SOTA,究极水桶模型我只能说。
我是200刀的Claude Max会员,我就就跑了3个任务,其中一个还没跑完,直接就干没了我5小时额度的73%,这在我用Opus 4.8做开发的时候,几乎是难以想象的。
我这种并不是特别重度的外行开发者,第一次感受到的Token的不够用。
但是这个能力,确实有点强到爆炸了,跟我用Opus 4.8开发完全不是一个级别的聪明程度。
比如我的AIHOT,很多朋友在后台反馈说,不希望只看到时间线的模式,还希望能看到当前的热点,其实今天就已经遇到这种情况了,Claude Fable 5很炸,AIHOT确实也第一时间抓到了。
但是它很快就会被淹没在信息流的长河中,你早上起床以后,你需要翻很久才能看到它,这个绝对不是一个很好的体验。
所以过去我其实一直想优化这个点,来看看怎么在我们的精选首页里面加一个当前的热点排序,但是因为我们其实是以时间线和这个评分来抓的。那天然的这种热度还有这种衰减的机制,我不知道该怎么做,我没想好。
Opus 4.8我确实跟他讨论过两次方案,但是效果我其实觉得都不是很满意。
这次我就直接扔给了Claude Fable 5,在说明了我的需求之后。
用的是我们聚簇的概念+时间衰减,很多细节也都考虑到了,甚至要求宁缺毋滥,安静的日子整个区块直接消失,页面回到纯时间轴,不留空壳。
然后因为最近加的监控源比较多,我也在优化整个的评分机制,因为涉及到prompt的打分,还有线上几万条数据的评分,还有各种加权、维度、阈值、聚簇等等的计算,所以我也没啥想法,前两天让Opus 4.8给我回测过一版完整的最近一个月的数据报告,但是我也不太满意,确实没给我什么有用的洞见。
给我了我从来没有见到过,详细到我直接懵了的超级详细的网页报告。
看这个报告,我看了大概20分钟,有很多地方都给了我非常非常强的洞见和启发,我完全没发现我们过去的评分体系还有这样的问题,居然还有这么多不足的需要优化的地方。。。
信息量过大,一时间我甚至都不知道怎么进行下一步的优化。。。
移动端适配也是,在我现有代码的基础之上,我想把移动端的适配、小程序、APP都提上日程,之前让Opus 4.8改过一般,但是给我都干生气了,因为问题实在是太多了。
但是同样的任务,我扔给Fable 5,我感觉,我有一种直接在用Claude Design Pro Max版的错觉。
它直接跟上面的评分方案报告类似,给我出了一个详细的设计方案。。。
最离谱的是,甚至给我考虑了推送、桌面组件、分享海报。。。
虽然这个设计风格我还要调很多,UI设计我也肯定不会用这版的,但是,这个方案的详细程度,在我没有任何刻意的引导之下,还是超乎了我过去使用Claude的预期。
而官方自己的例子,更是比我体验到的还要离谱的多的多。
比如Stripe拿Fable 5在他们5000万行的Ruby代码库里做了一次全库迁移。
这个活如果用人来干,一整个团队,可能需要两个多月,而且5000万行代码,那基本上就是一个活了十几年的超大型商业系统的全部家当了。
之前的Claude模型玩宝可梦火红,需要一个复杂的辅助工具框架,给它提供地图信息、导航辅助、游戏状态数据,才能勉强跑起来。
Fable 5不需要了,纯视觉,只看屏幕截图,自己想,不给任何额外信息,然后,从头到尾通关了。
一个AI,只用看屏幕这一种方式,打通了一整个RPG游戏。
要知道,我是个重度模拟经营玩家,戴森球计划,城市天际线等等,都是我的最爱,而这里面,最复杂最难的,可能就是异星工厂了。。。
你要是玩个双点医院我感觉我心里都好受点,你上来直接玩异星工厂。。。
Fable 5自己做了一个基于浏览器的3D CAD编辑器,然后用这个编辑器,设计了一个可以3D打印的模型。
不是用一个现有的CAD工具,是它先做了一个CAD工具出来,然后再用这个工具去设计。。。
生命科学方面,Mythos 5(没有ban一些药物之类的安全版本,Fable 5你碰不了药相关的东西)把药物设计流程中的某些环节加速了大约十倍。
他们做了一个蛋白质设计实验,给模型配上了蛋白质设计和生物信息学工具,不给任何人类辅助,让它自己干。
结果,它在14个蛋白质靶点中产出了9个有潜力的药物设计候选方案。
它完成的工作,包括选择结合位点、挑选和运行蛋白质设计工具、从失败中恢复,这些在过去,都是由科学家来执行的全流程操作的。。。
基因组学,Mythos 5在超过一周的基本自主工作中,整合了跨138个动物物种、数百万个细胞的单细胞数据,自己设计并训练了一个机器学习模型,用来识别在不同物种中执行相同功能的细胞。
在只有高层级人类输入的情况下,Mythos 5训练出来的模型,超过了一个最近发表在Science上的模型,而且小了100倍。。。
不过在关于药物和基因这块的科学研究,都只能在Mythos 5上用,Fable 5因为做了安全限制,所以都会被ban掉,你一旦问了这个问题,就会默认给你退回到Opus 4.8。
安全限制主要就是三类:网络安全、生物与化学、模型蒸馏。
他们也说现在为了安全,可能会有很多误杀,后面会优化。
比如我让他帮我看下我AIHOT里面有没有一些漏洞或者安全问题,让他根据我的代码库给我审查一下,居然就直接拒绝了。。。
不让我攻击我能理解,不让我加固我自己这个确实还得优化一下。
坦诚的讲,我今晚体验Fable 5的时候,因为额度确实烧的很快,2个小时多一点,我的额度就快空了。
我额度大概还有最后10%的时候,我新起了一个任务,想搓点有趣的东西,这时候,看着界面上闪烁的光标,我突然有一种不真实感,或者说是,空白感。
就像一个不会画画的人,面前摆着一块一望无际的白板。就像一个不会写作的人,打开了一个空白的Word文档。
你知道你理论上可以往上面放任何东西了,但突然一下,我不知道该放什么了。
在AI的加持之下,我们好像已经开始变得无所不能了。
但今天坐在Claude Code面前,我觉得这真不是吹牛逼,一个被Fable 5这种级别的AI加持过的人,放到十年前,可能真的算是一种全新的人类。
他能写代码,能做研究,能设计蛋白质,能做内容创作,能一天迁移5000万行代码,能开发外挂,能在这个互联网上横行霸道。
但就在这个无所不能的感觉升起来的同一秒,另一个感觉也跟着来了。
以前,AI的能力还没有那么强的时候,我还可以拼尽了全力去榨干AI的每一分能力,去摸清楚他们的边界在哪里。
那时候瓶颈在AI那边,我是那个推着它往前走的人,我的价值感很清晰,我也知道我在这个链条里的位置。
我即使已经拼尽了全力,坦诚的讲,我也有点跟不上了,那些模型的能力边界,开始离我越来越远。
我不再是那个可以推着AI往前走的人了,我变成了那个在后面追着跑、气喘吁吁、越追越远的人。
而当你被越来越远地甩开之后,你能感觉到的只有一件事。
以前我们聊AI的未来,聊AGI,聊通用人工智能,这些词听起来都像科幻小说的标题,遥远的,模糊的,可能在十年后也可能永远不会来的。
Anthropic大佬观点安全/对齐编码评测/基准