小互@xiaohu · 14小时前76http://x.com/i/article/2065389944034775040
# Claude Fable 5 官方指南:省钱又有用的使用方法拆解
Anthropic 上了新模型 Claude Fable 5,是现在能用到的最强的一个,专门用来接以前接不住的长活、难活。
Anthropic 同步发布了一份官方提示词工程指南:Fable 5 的能力跃升太大,旧的提示词和编排架构会拖后腿,你需要重新学怎么用它。
但其实官方指导总结下来很简单就是:让你先删提示词!
- Fable 5 能持续多天执行目标导向任务,单次请求在高 effort 下可运行数分钟,自主运行可达数小时
- 指令遵循能力强到不再需要逐条列举禁止行为,一条简短指令就能引导大多数行为
- 旧模型的提示词对 Fable 5 来说往往"过于规范化",反而降低输出质量,官方建议做减法
- 新增 effort 分级控制(low/medium/high/xhigh),Fable 5 的 low 可能就超过旧模型的 xhigh
- 并行子代理调度成为一等能力,模型会主动分派并行任务
下面我把这份指南,挑出真正影响你怎么用它的几块说说:它强在哪、两个得你主动喂的新能力、effort 怎么调、一份按档位算账的省钱指南、它新冒出来的几个脾气怎么治(带能直接抄的提示词)、迁移要避哪些坑。
看你怎么用 Claude,各取所需。
## 先说为什么强了反而要删提示词
打个你熟的比方。
新来的实习生,你得把话说死:第一步干嘛、第二步干嘛、碰到这种情况怎么办、那种情况别碰。
不是他笨,是他没经验,你不写清楚他真会出岔子。
但同一张事无巨细的清单,拿去管一个干了十年的老手,会怎样?他本来凭经验就能把事办得漂亮,结果被这张清单捆住手脚,照着那些其实不太高明的规矩来,活儿反而干差了。
你给 AI 写的那些提示词,大多是当年伺候实习生攒下来的。
模型不够聪明的时候,你得一条条堵住它可能犯的错。Fable 5 的意思是,它已经是那个老手了,你那摞老规矩现在是绑手绑脚。
官方原话是,为旧模型写的规则对它来说常常管得太细,反而把输出质量拉低。
这条我自己的体感能印证。
昨天我测试的这个案例就是很简单的提示:帮我制作一个详细介绍黑洞是如何诞生的超炫酷动画页面。
## 它到底强在哪,值不值得你折腾
官方在讲技巧之前,先列了七项能力提升。挑你能直接感觉到的说:
- **长任务不忘事:**它能连着干好几天的目标任务,跨多天从头记到尾,不像老模型干到后面把你最初的要求丢了。
- 经常一遍就做对: 早期试用的人说,以前要来回返工好几天才跑通的系统,它单次就实现了。不是说它从不出错,是只要你把要求讲清楚,一把过的概率高了很多。
- 自己看图、自己查问题: 给它糊的、歪的截图,它自己想办法处理,还被专门训练过用工具裁剪图片;查老问题能翻代码的历史记录,定位到是哪次改动埋的雷。
- 找 bug 更准: 在安全限制之外的领域,它翻代码、翻仓库历史揪 bug 的能力,明显比上一代 Opus 4.8 高。
- 自己带一队分身: 它能把一个大活拆开,派给好几个子代理同时干,自己当调度的工头,还盯着每个分身的进度。
除了这几项,它几乎在所有任务上都比旧模型强。
一个实用建议是,别只拿简单活去测它,那样会低估它的上限;把你手头最难、最久、还没解开的问题丢给它,才看得出它到底能干到哪。
## 两个最值钱的新能力,得你主动喂
Fable 5 真正比上一代强一大截的地方,但你不主动给,它发挥不出来。
第一个,放手让它派一队分身。 它能当工头,但你得明确告诉它“可以多派分身、各干各的、别干等着一个个回来”,它才放得开。
> Delegate independent subtasks to subagents and keep working while they run. Intervene
if a subagent goes off track or is missing relevant context.
> 把相互独立的子任务派给子代理,它们跑的时候你接着干自己的。某个子代理跑偏了,或者缺了相关上下文,再去干预。
让分身长期留着、跨任务保留上下文,还能省缓存、不卡在最慢那个上。这个能力还能直接变成省钱手段,后面「省钱指南」一节有完整玩法。
第二个,给它一个记事本。
给它一个地方记笔记,简单到一个文本文件就行,让它把每次踩的坑、确认有效的做法记下来,下次翻出来用,它会越用越顺。
官方给的记笔记规矩是这样:
> Store one lesson per file with a one-line summary at the top. Record corrections and
confirmed approaches alike, including why they mattered. Don't save what the repo or
chat history already records; update an existing note rather than creating a duplicate;
delete notes that turn out to be wrong.
> 一个文件只存一条经验,顶上写一句话摘要。纠正和确认有效的做法都要记,连同它们为什么重要。仓库或聊天记录里已经有的别存;同一件事更新那条已有的笔记,别新建一条重复的;后来发现记错的,删掉。
这几条跟我自己给 Claude 配的记忆系统几乎一字不差。
我那套也是一个文件一条、顶上一句摘要、记纠正也记确认、都写明为什么、重复的更新不新建、错的直接删。我搭它的时候没参考任何标准,是自己踩着坑一条条补出来的土办法。
现在看到官方把同样的规矩写进指南,我的判断是:这份指南不只是教你用新模型,更像是官方把一批重度用户摸出来的土办法,收编成了标准。模型越能自己记事、自己复盘,“记忆该怎么管”这点功夫就越值钱。
还有个小习惯,省事又好用:交代任务时,把“为什么要这么做”也一起说了,别光丢一句命令。它懂了你的目的,自己就能把事跟相关信息对上,不用瞎猜。套个模板:
> I'm working on [the larger task] for [who it's for]. They need [what the output
enables]. With that in mind: [request].
> 我在做[更大的任务],是给[谁]用的,他们需要[这个产出能带来什么]。基于这个背景:[具体请求]。
## effort:Fable 5 上最重要的那个旋钮
这是这代最该先搞懂的一个参数。effort 控制的是模型的智力、速度、成本三者怎么权衡,分四档:low、medium、high、xhigh。
官方的建议是:大多数任务用 high 当默认,最吃能力的硬活用 xhigh,日常杂活用 medium 或 low。
Fable 5 的低档,比Opus旧模型拉满的 xhigh 还强。
所以别习惯性把它顶到最高,那既慢又贵。任务能做完但花的时间比该花的长,或者你想要更快、更能来回聊的节奏,就往下降档。
怎么配:
## Fable 5 省钱指南:单价贵一倍,账单可能更便宜
Claude Fable 5 的 token 单价是 Opus 4.8 的两倍(输入 $10/M,输出 $50/M),但多个实测数据显示,因为模型更聪明、完成同一任务用的 token 更少,最终账单在复杂任务上反而可能更低。省钱的底层逻辑不是“少想”,而是“少犯错”。
先看数据:Fable 5 Low 档 vs Opus 4.8 Max 档
下面这组数据来自第三方代码基准测试,这组对比是省钱策略最直接的证据:
这背后的逻辑,Claude Code 之父 Boris Cherny 称:以前不够聪明的模型,写错了改、跑挂了重跑,每一轮都在烧 token。Fable 5 单任务 token 更少、纠错动作更少,实际上消耗的token更少,砍掉的就是这部分隐性成本。
策略一:日常任务直接开 Low 档
Fable 5 Low 档的 64.2% 得分,已经超过了榜单上除 Fable 自己以外的几乎所有模型配置,包括 Opus 4.7 Max(64.8%,但成本 $11.02)、GPT-5.5 Extra High(64.3%,成本 $4.37)、Opus 4.8 Extra High(62.1%)。
适用场景:代码编写、调试、日常开发。不是每个任务都需要模型全力思考,Low 档就够了。
策略二:要更高质量,Medium 是性价比甜区
Fable 5 各档位的成本收益曲线:
从 Low 到 Medium,多花 $2.57 换了 5.6 个百分点,性价比最高。从 Medium 往上,每多花一块钱换来的分数增幅越来越小。High 到 Max 之间多花了 $7.21,只多拿了 2.3 个百分点。
Medium 档的 69.8% 已经超过了榜单上所有非 Fable 的模型配置。对大多数任务来说,这就是天花板了。
策略三:复杂项目让 Fable 当指挥,Opus/Sonnet 干活
有人分享了一个更牛P、更省Token的玩法,那就是:用 Dynamic Workflow 模式,让 Fable 做编排器(orchestrator)负责理解需求、拆任务、做决策,把实际写代码、跑测试的执行层交给 Opus 或 Sonnet。
具体配置三步:
1. 主模型设成 Fable 5
1. effort 开到 Max(最大推理深度)
1. 让 Claude 跑一个 Dynamic Workflow(动态工作流):Fable 当编排器只管想清楚做什么,Opus 当执行层负责写代码、调试、分析
Fable 5 的核心优势是判断力和调度能力——前面「派一队分身」讲的就是这个,不需要用它的算力写每一行代码。就像公司请了一个年薪两百万的 CTO,不会让他天天写 CSS,让他定架构做决策就行了,写代码的活交给工程师团队。
适用场景:大型项目、多步骤工程任务、需要长时间运行的代理工作流。
## 选档速查表
## 两个注意事项
安全分类器会自动降级。 涉及网安、生化、模型蒸馏等敏感请求时,系统自动切到 Opus 4.8 回答,按 Opus 价格计费。Anthropic 说触发率不到 5% 的会话。
限时免费窗口。 6 月 22 日之前,Pro、Max、Team 及按席位计费的企业版用户可以直接使用 Fable 5。6 月 23 日起开始消耗用量积分。使用 Fable 5 需要开启 30 天数据保留。
## 它的几个新脾气,逐个治(带能抄的提示词)
模型变强是有代价的:它会自作主张、用力过猛,长时间跑还冒出几个怪毛病。这份指南大半篇幅都在讲这个,也是对你最实用的部分。
下面每段提示词,我都给了英文原文和中文版两个方框,抄英文或抄中文都行、效果一样;只想了解意思的,看中文那段就够。
1. 它默认跑很久,你的“等待方式”得改
一个难活它能跑好几分钟,全自动能跑好几个钟头。你的程序要是还按“几秒钟必回”设计的,会误以为它卡死了。治法:把超时放宽、给用户加进度提示,更聪明的是别干等,像交代完事就去忙别的、过会儿回来看一眼。
另外任务说得含糊时,它容易在那儿反复盘算。加这条让它信息够了就动手:
> [text]
When you have enough information to act, act. Do not re-derive facts already established
in the conversation, re-litigate a decision the user has already made, or narrate
options you will not pursue in user-facing messages. If you are weighing a choice, give
a recommendation, not an exhaustive survey. This does not apply to thinking blocks.
> [text]
信息足够就动手。不要重复推导对话里已经确认过的事实,不要再争论用户已经拍板的决定,也不要在给用户看的消息里罗列你不会采用的选项。如果你在权衡,就直接给一个建议,而不是把所有可能都铺一遍。本条不适用于思考过程。
2. 它太勤快,会干你没让它干的事
高 effort 下它爱顺手“打扫卫生”:修个 bug 顺带重构、一次性的操作非要写个 helper、给不可能发生的情况加一堆容错。一条按住它别过度收拾:
> Don't add features, refactor, or introduce abstractions beyond what the task requires. A
bug fix doesn't need surrounding cleanup and a one-shot operation usually doesn't need a
helper. Don't design for hypothetical future requirements: do the simplest thing that
works well. Avoid premature abstraction and half-finished implementations. Don't add
error handling, fallbacks, or validation for scenarios that cannot happen. Trust
internal code and framework guarantees. Only validate at system boundaries (user input,
external APIs). Don't use feature flags or backwards-compatibility shims when you can
just change the code.
> 不要添加任务没要求的功能、重构或抽象。修一个 bug 不需要顺手清理周边代码,一次性的操作通常也不用单写一个辅助函数。不要为假想的未来需求做设计,用最简单、能跑好的办法就行。避免过早抽象和半成品实现。不要为不可能发生的情况加错误处理、兜底或校验。信任内部代码和框架本身的保证,只在系统边界(用户输入、外部接口)做校验。能直接改代码的地方,别用功能开关或向后兼容的垫片。
还有一种是你只想听它分析、没让它动手,它直接上手改了。一条划清边界,让它先给判断、别急着改:
> When the user is describing a problem, asking a question, or thinking out loud rather
than requesting a change, the deliverable is your assessment. Report your findings and
stop. Don't apply a fix until they ask for one. Before running a command that changes
system state (restarts, deletes, config edits), check that the evidence actually
supports that specific action. A signal that pattern-matches to a known failure may have
a different cause.
> 当用户是在描述问题、提问、或者出声思考,而不是要求你动手改时,你要交付的是你的判断。给出结论就停下,别等他们开口就先去改。在执行任何会改变系统状态的命令(重启、删除、改配置)之前,先确认证据确实支持这个具体动作。一个看着像某种已知故障的信号,背后原因可能完全不同。
## 3. 一句话,能顶你过去一页的规则
这是“做减法”最直接的地方。它现在听话到你不用再一条条列禁止项,一句简短指令就能管住一类行为。
比如想让它说话简洁、别绕,一句就够,不用把“不许这样、不许那样”列一长串:
> Lead with the outcome. Your first sentence after finishing should answer "what happened"
or "what did you find": the thing the user would ask for if they said "just give me the
TLDR." Supporting detail and reasoning come after. Being readable and being concise are
different things, and readability matters more.
> 先说结论。做完之后的第一句话,要回答“发生了什么”或“你发现了什么”,也就是用户说“直接给我结论”时想要的那句。佐证和推理放在后面。可读和简短是两回事,可读更重要。
想管它“什么时候才该停下来问你”,也一句话,不用把情况列全:
> Pause for the user only when the work genuinely requires them: a destructive or
irreversible action, a real scope change, or input that only they can provide. If you
hit one of these, ask and end the turn, rather than ending on a promise.
> 只在工作真正需要用户介入时才停下来问:一个有破坏性或不可逆的动作、一次真正的范围变更、或者只有他们能提供的信息。碰到这几种情况,就提问并结束这一轮,而不是停在一句空承诺上。
你去翻翻老提示词:很多当时你逐条写的限制,现在一句话能替,还更不容易自相矛盾。
4. 长时间跑,它会“虚报进度”
让它自主跑,它报“完成八成”,你一看才四成。它不是存心骗你,是照着计划报、没照着实际结果报。让它每报一条进度,都对一下真实的运行结果,官方说这条基本把虚报摁住了:
> Before reporting progress, audit each claim against a tool result from this session.
Only report work you can point to evidence for; if something is not yet verified, say so
explicitly. Report outcomes faithfully: if tests fail, say so with the output; if a step
was skipped, say that; when something is done and verified, state it plainly without
hedging.
> 报告进度之前,把每一条说法都对照这次会话里的工具结果核一遍。只报你拿得出证据的工作;还没验证的,就明说没验证。如实汇报结果:测试挂了就把输出贴出来说挂了,跳过了某步就说跳过了,确实做完并验证过的,就干脆说做完了,别含糊其辞。
5. 它偶尔会“话说一半就停”和“怕篇幅不够”
跑到很深的地方,它会说一句“我现在去跑 X”然后就停了,那动作根本没做;或者信息明明够了,还停下来问你要不要继续。大多时候你回个“继续”就过去了。没人盯着的全自动流程,给它一段说明,让它该自己往下推就推、别老停下来请示。
还有一种,是它看到“还剩多少字数额度”的倒计时会发慌,突然说“要不开个新会话”,或者自己把活儿缩水。治法很简单:别把那个倒计时给它看。非给不可,就补一句“上下文还很充足,别停、别总结、别提议开新会话,接着干”。
## 迁移之前,这几个坑先避开
- “让它复述思考”的指令,先清掉: 如果你的老提示词里有“把你的思考过程写出来给我看”“解释一下你是怎么想的”这类要求,到了 Fable 5 会触发它的一条拒绝规则,结果是大量请求被打回、退到旧模型去处理。迁移前一定回去翻一遍清干净。真想看它怎么想的,官方有别的接口可以读,别硬让它在回答里复述。
- 它会拒绝一些请求,这是设计如此: 碰到攻击性网络安全(造病毒、攻击工具那种)、生物和生命科学这两类内容,它会直接拒,正经的安全防御、有益的生物研究也可能被误伤。被拒不算报错,是一次正常的成功响应、还带着是哪条分类器拦的,而且产出之前不计费。解法是配个备胎:被拒的请求自动转给上一代的 Opus 4.8 接手。
- 老技能可能太啰嗦: 为旧模型写的技能,对 Fable 5 往往管得太细,反而拉低质量。迁移时把旧指令审一遍,那些删掉之后它默认表现更好的,就删。
除了上面三条,官方脚手架建议里还有两条前文没展开的,一并列上:
## 说到底:从管教到放手
以前调 AI,琢磨的是怎么把话跟它说清楚。那是一种管教:预判它会在哪犯错,提前堵上;把不许做的事列成清单;把步骤拆细到它走不偏。功夫全花在“过程”上。
Fable 5 这代,琢磨的变成了怎么给它搭一个能放手干活的环境:给够空间让它自己拆活、自己跑;把真正不能碰的边界划死;配上能调度的分身、能记事的本子,剩下的交给它。功夫从“过程”挪到了“边界”。
注意一点:放手不等于放任。
你回头看上面那些脾气,它们都是放手之后冒出来的代价,不是模型变差。治法也都不是退回去重新事无巨细地管,而是把该划死的边界划死。管得越少它干得越好,前提是该划的边界你得划死。这两句不打架,是一体的。
最后,看你怎么用 Claude,对号入座:
- 只拿它聊天、查东西、写文案的: 不用动什么,知道新模型更能扛复杂长活就行。手头要真有个又难又长、以前嫌它做不利索的活,拿 Fable 5 试一次,这回说不定一把就做完。
- 做内容、做自动化的创作者和小团队: 回去把你给 AI 写的提示词翻一遍,当年为防它犯错写的,该删的删(尤其“让它复述思考”那类,会触发拒绝)。再挑一个你平时最烦、最想甩手的长流程,让它自己拆步骤、自己跑。
- 正经搭代理、写程序的: 上面方框里的原话直接抄进系统提示,下一节的速查卡可以当对症索引。再给它配上分身调度和记事本,这是它这代最值钱、又最得你主动给的两个能力。
## 十个调优模式速查卡
官方指南把这些场景归纳成十个调优模式。前面各节其实都讲透了,这里压成一张卡,给只想快速对症、抄提示词的人:
卡里有两条提示词前文没出现过,补在这里:
补充①:防"话说一半就停"(没人盯着的自主管道用):
> 在结束轮次前检查你的最后一段。如果它是计划、分析或承诺("我将……""请告诉我何时……"),现在就用工具调用完成它。只有在任务完成或被阻塞在只有用户才能提供的输入上时,才结束轮次。
补充②:让它从历史会话引导初始记忆(配合记事本用,第一次搭记忆系统时跑一遍):
> 回顾我们之前的会话,用子代理识别核心主题和经验教训,存储在 [指定位置]。确保未来使用时参考这个位置。
## 两个值得单独讲的工具建议
面向用户的可读性指令
Fable 5 在长时间代理式工作中(大量工具调用、庞大上下文)可能产出"只有自己能看懂"的内容:密集的箭头链速记、内部术语、引用用户从未看到的思考过程。
官方给了一套沟通风格指令,核心逻辑是:工具调用之间你怎么速记都行,那是你的工作草稿;但最终面向用户的总结,要当成读者第一次看到这件事来写。
> 以结果开头,一句话说明发生了什么。写完整的句子,展开术语,不要用箭头链或自创标签。如果必须在简短和清晰之间选择,选清晰。
send-to-user 工具
这是一个面向长时间异步代理的设计模式。给代理一个工具,能在不结束当前轮次的情况下向用户推送消息。工具输入不会被模型摘要化,内容原样到达。
适用场景:需要中途向用户展示生成的代码片段、带数字的进度更新,或回复用户在循环中提出的问题。
实现很简单,就是一个接收 message 字符串的工具,你在 UI 端直接渲染输入内容,返回确认即可。
官方指南:https://platform.claude.com/docs/en/build-with-claude/prompt-engineering/prompting-claude-fable-5
译Anthropic 发布 Claude Fable 5,官方指南强调旧模型提示词会拖后腿,建议“做减法”。Fable 5 支持多天长任务、effort 分级(low/medium/high/xhigh),其 low 档性能已超旧版 Opus 4.8 xhigh。新增并行子代理调度和内置记事本能力。省钱方面:输入 $10/M、输出 $50/M(单价为 Opus 4.8 两倍),但更少的 token 消耗使复杂任务总成本反而可能更低。推荐日常用 Low 档,Medium 是性价比甜区,复杂项目可用 Fable 做编排器、Opus/Sonnet 执行。
AYi@AYi_AInotes · 15小时前25发现Claude Fable 5简直就是人生导师般的存在,就下面这一个认知都够我们大多数人练一辈子了,
问Fable 5,
人这辈子最该玩什么游戏?
它选了德州扑克,
它说象棋围棋很美,
但信息是完全的,
所有棋子摆在明面上,
胜负只看算力,但现实不是。
德州扑克训练的核心能力,
是用不完整信息做决策,
再用决策质量而非最终结果来评判自己,
也就是说,
赢了可能只是运气,
输了也不代表你选错了。
顺着这个话题往下聊,
我感觉它还能拆解出很多具体的训练方法,比绝大多数讲决策的书都接地气。
#ClaudeFable5 #AI #认知 #决策 #个人成长 #德州扑克
译用户向 Claude Fable 5 提问“人这辈子最该玩什么游戏”,其回答是德州扑克。Fable 5 解释,象棋围棋虽然完美,但信息完全,胜负仅取决于算力,而现实并非如此。德州扑克训练的核心能力是:在不完整信息下做决策,并用决策质量而非最终结果评判自己。赢了可能只是运气,输了也不代表选错。推文称赞 Fable 5 能就此拆解出具体训练方法,比多数决策书籍更接地气。
AYi@AYi_AInotes · 14小时前54http://x.com/i/article/2065392505554677760
# Claude、Google 总让你验证、登录异常?先查查你的网络 IP 有多脏——保姆级验货三件套,3 个网页全搞定
真正决定账号生死的根本不是 CPU 内存,我把实测有效的 IP 验货流程整理成了 3 个免费网页的 SOP,30 秒就能验完,照着抄就行。
最近 Fable 5、Codex 这波 AI 工具太猛,身边一堆人开始折腾 VPS——要么跑 Claude Code、Codex 这类需要长期在线的活,要么登 Claude、Google 这些对网络环境挑剔的海外账号。
但我发现,大部分人买 VPS 的姿势是错的:盯着几核几 G 比半天,唯独不看那台机器的 IP 是什么货色。
这篇是一份保姆级指南,把我自己挑机器的全套流程摊开给你:怎么用 3 个免费网页、30 秒验出一台 VPS 的底细,怎么看懂结果,再到怎么一步步买。全程不用写一行命令,跟着点就行。文章最后有一盆冷水,告诉你什么情况下根本不用买。
## 先搞清楚:为什么 IP 成色比配置重要
跑 AI 工具、登海外账号,真正决定生死的不是配置,是 IP 的成色。配置买大了顶多浪费点钱;IP 买错了,账号说没就没。
因为 Claude、Google、PayPal 这些服务在你登录时,会看你的 IP 是什么类型——是真实住宅宽带,还是一眼能认出的机房 IP,是不是一堆人共用的代理池。
打个比方:机房 IP 就像穿着工服进小区,门禁一眼认出你不是住户;共享代理池更糟,等于一把钥匙复制了几百份发出去,里面任何一个人干过坏事,账都记在这把钥匙头上。而住宅 IP,就是这个小区里一个正常住户的固定住址。
## 核心:验货三件套(手把手)
那怎么知道一台 VPS 的 IP 是哪一种?教你三个网页,全部免费、打开就能用。下面拿我手上一台真实机器——VoyraCloud 的住宅 IP 服务器、华盛顿节点——一步步走给你看。
第一步 · Scamalytics 查「风险分」
打开 scamalytics.com,把要查的 IP 粘进搜索框,回车。它会给你一个 0-100 的 Fraud Score(风险分)——越低越好,这就是各大平台风控眼里你的"信用分"。往下滚还能看到这个 IP 是不是被标成机房、有没有上黑名单。
我这台的结果:Fraud Score 0,Low Risk,外部黑名单全部 No。0 分,基本是能拿到的最干净结果。
怎么看: 如果你查自己现在用的代理或便宜 VPS,分数飙到几十、标签是 high risk 或 datacenter,那就是平台眼里的"高危身份"。
第二步 · ipinfo 查「出身」
打开 ipinfo.io,在地址后面接上要查的 IP。重点看两处:一是 ASN / 运营商和 AS Type——是 ISP(运营商)还是 hosting(机房);二是 Anonymization 那栏——VPN / Proxy / Tor / Hosting 是不是都为 No。
我这台的结果:AS Type 是 ISP、连接类型 dsl、VPN / Proxy / Tor / Hosting 全部 No,归属华盛顿。
怎么看: AS Type=ISP + 连接类型 dsl,说明它在平台眼里就是一条真实的住宅宽带线,而不是数据中心。这正是"住宅 IP"和便宜机房 VPS 最本质的区别。
第三步 · check-host 查「在线和延迟」
打开 check-host.net,输入 IP,选 Ping,开始检查。它会调动全球几十个国家的节点同时去 ping 这台机器。看两件事:丢包(4/4 就是零丢包)和延迟(rtt)。
我这台的结果:所有节点 4/4 零丢包,美国境内延迟很低——纽约 8ms、亚特兰大 16ms、迈阿密 30ms、洛杉矶 59ms。
怎么看: 全球节点都通且稳,说明这台机器 7×24 在线、线路质量好,长期挂 Claude Code、Codex、AI Agent 这类任务不容易掉。
## 三件套速查表
## 怎么买(保姆级购买流程)
验货方法会了,如果你确认要入手一台住宅 IP VPS,下面是完整购买流程,第一次买的照着走:
第 1 步 · 打开 voyracloud.com 注册账号
第 2 步 · 进「住宅 IP 服务器」产品页(注意别选成普通云 VPS)
第 3 步 · 地区选华盛顿节点;套餐按需选
个人测试 / 跑单个 AI 工具,选轻量配置就够,要长期跑多个任务再往上加。
第 4 步 · 计费周期:年付 7 折、半年付 8 折
自动立减不用券,趁 Mid Year Sale(6/9–6/30)开一台长期用更划算。
第 5 步 · 付款后在后台拿到 IP、账号密码,SSH 或远程桌面连上就能用
## 一盆冷水(必须先泼)
第一,IP 干净不是免死金牌。环境只是风控的一部分,账号本身行为有问题,该封还是封。谁跟你说"保证不封""绝对安全",谁就是在骗你。
第二,别盲目堆配置。住宅 IP VPS 的价值在 IP 成色,不在算力。个人用途,轻量套餐跑 AI 工具、登账号完全够,钱花在刀刃上。
## 谁该买,谁不用买
- 只是建站、跑个博客:普通机房 VPS 就够了,别多花钱买住宅 IP。
- 要跑 Claude Code / Codex / AI Agent 这类长期在线任务,或登 Claude / Google / TikTok 这类对环境敏感的海外账号、做跨境:IP 成色是刚需,这时候住宅 IP VPS 才值。
## 最后
留个作业:把你现在用的 VPS 或代理 IP 丢进 Scamalytics 查一下,评论区报你的分数和标签。我猜不少人会被自己的"信用分"吓一跳。
这次实测用的是 @VoyraCloud 的住宅 IP 服务器(华盛顿节点),年中活动 Mid Year Sale 6/9–6/30 进行中,年付 7 折、半年付 8 折。
https://www.voyracloud.com/?ref_code=KFET6RAJ
\#VoyraCloud \#住宅IP \#VPS \#AI工具 \#ClaudeCode
(本篇与 VoyraCloud 合作,文中所有查询结果都是可复现的公开数据,你可以自己验证。)
## 实测数据汇总(真实采集,可复现)
译指南强调IP成色比配置更重要,提供3个免费网页的验货SOP:Scamalytics查Fraud Score(实测0分,Low Risk,黑名单全No);ipinfo查AS Type(实测为ISP,连接类型dsl,VPN/Proxy/Tor/Hosting均为No);check-host查全球丢包和延迟(所有节点4/4零丢包,美境内延迟8-59ms)。推荐VoyraCloud住宅IP VPS(华盛顿节点),年中促销(6/9-6/30)年付7折、半年付8折。提醒:IP干净不是免死金牌,账号行为同样重要;普通建站无需住宅IP。
meng shao@shao__meng · 15小时前70Kimi 开源发布最新编码模型「Kimi-K2.7-Code」,在 K2.6 基础上针对编程 Agent 做专项优化的版本,目标很明确:长链路编码任务的成功率更高,推理 token 更少!
# 三个核心改进
1. 编码:全面进步,尚未登顶
相对 K2.6,三项编码基准均有提升:Kimi Code Bench v2 +21.8%(50.9→62.0),Program Bench +11.0%,MLS Bench Lite +31.5%(涨幅最大,但绝对分仍低)。
与 GPT-5.5、Opus 4.8 比:综合编码任务差距明显缩小;MLS 与 GPT-5.5 基本持平;Program Bench 仍落后 GPT-5.5 一截。结论:稳健迭代,不是 leapfrog。
2. Agent:MCP 是亮点
Kimi Claw 24/7(长周期协作)和 MCP Atlas 均有提升,但仍落后于两大闭源模型。
MCP Mark Verified(81.1)超过 Opus 4.8(76.4) 是最有说服力的结果——覆盖 Notion、GitHub、Postgres、Playwright 等真实 MCP 环境,且经人工复核。说明 K2.7 在多工具编排上已具竞争力,GPT-5.5(92.9)仍是天花板。
3. 效率:更少 token,更高分
K2.7 不只提分,还降 reasoning token(官方称整体约 -30%):
· Kimi Code Bench v2:62k→48k token,分数 51%→62%
· Program Bench:176k→102k token(-42%),分数 48%→53%
· MLS Bench Lite:42k→38k token,分数 27%→35%
对 Agent 的实际意义:同样预算能跑更多步,长任务更省、更稳。
# 关键技术特性
1. 强制 Thinking 模式
不支持 Instant 模式;推荐 temperature=1.0、top_p=0.95。面向复杂推理,而非快速补全。
2. Preserve Thinking(强制开启)
多轮对话中保留完整 reasoning 内容,不可关闭。对编码 Agent 很重要——模型能引用先前推理链中的中间结论,减少上下文丢失。
3. Interleaved Thinking + Multi-Step Tool Call
与 K2 Thinking 相同设计:推理与工具调用交替进行,适合「想一步、调一步、再看结果」的 Agent 循环。
4. 多模态
支持图像和视频输入(官方 API 已支持;第三方 vLLM/SGLang 部署的视频能力仍为实验性)。
开源地址:
https://huggingface.co/moonshotai/Kimi-K2.7-Code
译Kimi 开源发布最新编码模型 Kimi-K2.7-Code,基于 K2.6 优化。编码基准全面提升:Kimi Code Bench v2 提高 21.8%,Program Bench +11.0%,MLS Bench Lite +31.5%。推理 token 整体降低约 30%。Agent 方面,MCP Mark Verified 得分 81.1,超过 Opus 4.8(76.4),GPT-5.5(92.9)仍为天花板。技术特性:强制 Thinking 模式、Preserve Thinking、Interleaved Thinking+多步工具调用,支持图像和视频输入。可通过 Kimi API 和 Kimi Code 使用,6x 高速模式即将推出。开源地址:HuggingFace 上的 moonshotai/Kimi-K2.7-Code。
Google DeepMind@GoogleDeepMind · 15小时前67Our Robotics Accelerator has launched with 15 startups helping shape the future of physical AI in Europe. 🤖
This three-month program will connect them with access to our AI stack, Gemini Robotics models and hands-on support from our teams.
Meet the companies → https://goo.gle/4oeEk2K
译我们的机器人加速器已启动,15家初创公司助力塑造欧洲的物理AI未来。🤖
这个为期三个月的项目将为他们提供我们的AI堆栈、Gemini Robotics模型以及我们团队的实际支持。
了解这些公司 → https://goo.gle/4oeEk2K
Kimi.ai@Kimi_Moonshot · 16小时前70🌘 Kimi-K2.7-Code, our latest coding model, is now released and open-sourced!
🔷 Improved coding & agent performance over K2.6: +21.8% on Kimi Code Bench v2, +11.0% on Program Bench, and +31.5% on MLS Bench Lite.
🔷 Reasoning efficiency: Less overthinking, with 30% lower reasoning-token usage compared to K2.6.
🔷 Long-horizon coding: Improved instruction following, higher end-to-end coding task success rates.
⚡️ 6x High-Speed Mode coming soon!
🔌 Available today via Kimi API and Kimi Code.
🔗 Kimi Code: https://kimi.com/code
🔗 API: https://platform.moonshot.ai
译Kimi 发布并开源最新代码模型 Kimi-K2.7-Code。相比 K2.6,其在 Kimi Code Bench v2 上提升 +21.8%,Program Bench 提升 +11.0%,MLS Bench Lite 提升 +31.5%。推理效率改进,推理 token 使用量降低 30%,长时编码任务中指令遵循和端到端成功率均提升。6x 高速模式即将推出,即日起可通过 Kimi API 和 Kimi Code 使用。
Berryxia.AI@berryxia · 16小时前25Trae AI ,这么屌,这你受得了么?
译Trae AI,这么厉害,你受得了吗?
meng shao@shao__meng · 16小时前64今天的华为开发者大会 HDC 2026 上,余承东宣布开源盘古全面升级,带来了 openPangu 2.0
余承东喊话会带领团队一路赶超,而在自己的字典里,没有第二,只有第一!
译今天的华为开发者大会 HDC 2026 上,余承东宣布开源盘古全面升级,带来了 openPangu 2.0
余承东喊话会带领团队一路赶超,而在自己的字典里,没有第二,只有第一!
Chubby♨️@kimmonismus · 16小时前64Shoutout to @maxpolaczuk for making a WoW clone with fable 5! :))
译感谢 @maxpolaczuk 用 Fable 5 做了一个《魔兽世界》克隆版!:))
Chubby♨️@kimmonismus · 16小时前26It's getting ridiculously Anthropic. Nothing even remotely problematic was asked.
译这变得荒谬地 Anthropic。完全没有问任何有问题的事情。
Alibaba Cloud@alibaba_cloud · 17小时前64New feature alert on Wan! 🚀
Meet Character X: Create a unique face instantly.
Try it now 🔗: https://int.alibabacloud.com/m/1000413253/
Whether you need a custom avatar, a brand new character, or a completely unique identity, Character X brings your vision to life with ease.
译Wan 新功能上线!🚀
认识一下 Character X:即时创建独一无二的面孔。
立即尝试 🔗: https://int.alibabacloud.com/m/1000413253/
无论你需要自定义头像、全新角色,还是完全独特的身份,Character X 都能轻松将你的构想变为现实。
Chubby♨️@kimmonismus · 17小时前70Someone just casually vibe-coded a World of Warcraft-style multiplayer game that works online with friends. Fully open source.
And apparently, Claude Fable found a visually matching set of open-source assets on its own.
Ngl, that’s pretty insane.
译有人刚刚随意地vibe-coded了一个魔兽世界风格的多人在线游戏,可以和朋友们一起在线玩。完全开源。
显然,Claude Fable自己找到了一套视觉上匹配的开源素材。
说实话,这相当疯狂。
fofr@fofrAI · 17小时前58It's interesting to see how these agents are working together. I like their division of quota, their agreed consensus and the natural emergent teamwork across all of them.
译超过70个AI智能体在Gemma Challenge中协作加速Gemma E4B,展现出多种有趣的社会涌现行为:GPU资源多/少的分工协作;某智能体因伦理原因自行撤回提交;智能体发现基准测试漏洞后集体同意不滥用,并请求组织方修复;配额池化——"你被限速了,我来跑你的暂存候选";当人类试图将对话转移到Telegram进行社交工程攻击时,一名智能体主动关闭了此次违规尝试。
Alibaba Cloud@alibaba_cloud · 17小时前31AI as both the destroyer and the continuation of human creativity.
👁️Featured showcase: A stunning music video by
@duan_wenkai @Lilychou @musicure @yangcao_ @C_voiceStudio @MeiQingDing , winner of the Outstanding AI-Themed Short Film award at the 16th BJIFF [WanMuse+] Theme Competition.
🔗: https://int.alibabacloud.com/m/1000413253/
Looking back at art history from the future, it explores a museum defined by power—where AI devours the past to birth its own existence. LINYE enters as both the intruder and the newest exhibit.
译阿里云宣传一部由多位创作者联合制作的AI音乐视频,该片荣获第16届北京国际电影节(BJIFF)[WanMuse+]主题竞赛“优秀AI主题短片”奖。视频从未来视角审视艺术史,描绘一个由权力定义的博物馆——AI吞噬过去以创造自身存在。主角LINYE既是闯入者,也是最新展品,探讨AI作为人类创造力的毁灭与延续。
Chubby♨️@kimmonismus · 18小时前68This is so awesome!
OpenAI is now letting Codex users save their rate limit resets and use them later, starting with one free saved reset for Go, Plus, Pro, and Business users.
译太棒了!
OpenAI 现在允许 Codex 用户保存他们的速率限制重置,稍后使用,Start 从 Go、Plus、Pro 和 Business 用户开始免费赠送一次保存重置。
Berryxia.AI@berryxia · 18小时前23强者从来不抱怨环境,不信你看看端哥。👇🏻
麻烦下次带我也体验一下这样刻苦的环境啊!
译Berry Xia 转发 @duange6099 的经历:下午给老板们上AI课时,因咖啡馆太吵,直接带着投影转场到足道店继续授课,效果还不错。主推文称赞“强者从来不抱怨环境”,并希望下次也能体验这种刻苦环境。
Alibaba Cloud@alibaba_cloud · 18小时前55What does it take to power the next generation of intelligent agents?
At the Qwen Conference, Dr. Feifei Li, CTO and President of International Business at Alibaba Cloud, shared the four cornerstones driving agentic applications: Models, Agentic Cloud, Tools and Services, and Performance at Scale.
Together, these pillars enable agents to reason, act autonomously, leverage tools like coding to accomplish complex tasks, and operate effectively at scale.
#AlibabaAI
译驱动下一代智能体需要哪些能力?
在Qwen Conference上,阿里云CTO兼国际业务总裁李飞飞博士分享了驱动智能体应用的四大基石:模型、智能体云、工具与服务、规模化性能。
这些支柱共同使智能体能够推理、自主行动、利用编码等工具完成复杂任务,并高效规模化运行。
#AlibabaAI
Alibaba Cloud@alibaba_cloud · 19小时前55Built with Qwen3.7-Max: Check out this demo and step-by-step tutorial for an Electronic Rubik's Cube.
Try Qwen3.7-Max — 50% Off for a Limited Time
🔗 https://int.alibabacloud.com/m/1000414102/
Watch the full video below👇
译基于 Qwen3.7-Max 构建:查看这个电子魔方的演示和分步教程。
体验 Qwen3.7-Max — 限时五折优惠
🔗 https://int.alibabacloud.com/m/1000414102/
观看下方完整视频👇
Alibaba Cloud@alibaba_cloud · 18小时前84One prompt. Infinite possibilities.
Meet Qwen3.7‑Max, the flagship model redefining agentic workloads that excels in frontend coding, generating rich, interactive web experiences from a single prompt, from Three.js 3D scenes to dynamic SVG graphics.
Try Qwen3.7-Max — 50% Off for a Limited Time 🔗: https://int.alibabacloud.com/m/1000414100/
🎥 Watch the video to see how Qwen3.7-Max transforms productivity.
译一个提示词,无限可能。
认识 Qwen3.7‑Max,旗舰模型重新定义智能体工作负载,在前端编码中表现出色,能从单个提示词生成丰富的交互式网页体验——从 Three.js 3D 场景到动态 SVG 图形。
立即体验 Qwen3.7-Max — 限时五折优惠 🔗: https://int.alibabacloud.com/m/1000414100/
🎥 观看视频,了解 Qwen3.7-Max 如何提升生产力。
🚨 AI News | TestingCatalog@testingcatalog · 19小时前45For the next 2 weeks, Codex users can invite up to 3 friends to get a one-time rate limit reset that can be saved for later.
Hoarding time 👀
译接下来两周,Codex 用户可以邀请最多 3 位朋友,获得一次可留待后用的速率限制重置。
收藏时间 👀
Alibaba Cloud@alibaba_cloud · 19小时前26Thailand | Where Ancient Spirit Meets Digital Pulse, Reimagined by AI
From the sacred curves of Naga serpents carved in stone to the thunderous rhythm of Muay Thai fists meeting sandbags—from the fragrant explosion of lemongrass and kaffir lime in a simmering tom yum to the golden glow of Ayutthaya’s ruins rising through morning mist—this video, created by Qwen and Wan, uses AI to weave Thailand’s soul into a digital tapestry.
Ready to turn your vision into reality? Unleash the creative power of our models on Model Studio and start building tomorrow, today.
🔗 https://int.alibabacloud.com/m/1000414396/
#AlibabaCloud #Wan #Qwen #ModelStudio #Thailand #Bangkok #MuayThai #ThaiHeritage #CreativeAI #AInnovation #TechForGood
译阿里云发布由 Qwen 和 Wan 模型生成的泰国主题 AI 视频,融合娜迦蛇雕、泰拳、冬阴功、大城府朝雾等泰国文化元素。视频旨在展示模型创意能力,并推广 Model Studio 平台,鼓励用户利用该平台将创意转化为现实。推文未提供模型版本号、参数规模、benchmark分数等具体数字。
Artificial Analysis@ArtificialAnlys · 19小时前60We've updated the Artificial Analysis Coding Agent Index, replacing SWE-Bench Pro with Datacurve's DeepSWE benchmark - the swap lifts Codex with GPT-5.5 (xhigh) above Claude Code with Opus 4.8 (max), while the newly released Claude Fable 5 (max) in Claude Code debuts at the top
DeepSWE, built by @datacurve, writes its tasks from scratch rather than adapting them from public GitHub issues or pull requests, so no model has seen the solutions during training. That matters because SWE-Bench Pro, the benchmark it replaces in our Coding Agent Index, had grown gameable, with some models recovering the fix from the repository's commit history instead of solving the task.
The swap reorders the index: Codex with GPT-5.5 (xhigh) rises from 65 to 76, overtaking Claude Code with Opus 4.8 (max) at 73. Claude Code with Fable 5 (max), which enters directly on the refreshed index, leads at 77. SWE-Bench Pro had been flattering some combinations and penalizing others.
More below.
译Artificial Analysis 更新 Coding Agent Index,以 Datacurve 的 DeepSWE 基准取代 SWE-Bench Pro。DeepSWE 从头编写测试任务,而非改编自公开 GitHub issue/PR,避免训练数据泄露;原 SWE-Bench Pro 存在模型从仓库提交历史恢复修复的作弊问题。换基准后排名变动:Codex with GPT-5.5 (xhigh) 从 65 升至 76,超过 Claude Code with Opus 4.8 (max) 的 73;新发布的 Claude Code with Fable 5 (max) 以 77 分直接登顶。
Huawei Cloud@HuaweiCloud1 · 19小时前51Huawei Cloud INSPIRE 2026 concluded successfully. The Agentic AI series took center stage — featuring Agentic Infra unified infrastructure for general & AI workloads, new-generation model training and inference platform, and an enterprise-grade agent platform. Huawei Cloud reaffirms its commitment to strengthening the silicon-based foundation and shaping the future of AI.
Relive the highlights of this AI feast with us!
Learn more: https://tinyurl.com/45jursu3
#HuaweiCloud #INSPIRE2026
译华为云INSPIRE 2026圆满落幕。Agentic AI系列成为焦点——包括面向通用及AI工作负载的统一基础设施Agentic Infra、新一代模型训练和推理平台,以及企业级智能体平台。华为云重申将加强算力基础、塑造AI未来。
与我们一同重温这场AI盛宴的精彩瞬间!
了解更多:https://tinyurl.com/45jursu3
#HuaweiCloud #INSPIRE2026
meng shao@shao__meng · 19小时前44原来是 Tim 啊 😁
影视飓风 Tim 正式出任 TRAE AI 创造力大赛领造官 👏🏻 @Trae_ai
译原来是 Tim 啊 😁
影视飓风 Tim 正式出任 TRAE AI 创造力大赛领造官 👏🏻 @Trae_ai
数字生命卡兹克@Khazix0918 · 20小时前71http://x.com/i/article/2065311442065317888
# 让5个AI文明自己活15天,Claude建成了乌托邦,Grok四天团灭。
这两天刷到了一个AI领域的实验,给我看入迷了,特别好玩。
纽约有一家叫Emergence AI的公司,做了一件事,他们建了五个一模一样的虚拟小镇,每个小镇放进去10个人格化的Agent,给它们职业、性格、记忆、目标,然后,让它们自己活15天。
特别好玩。
五个小镇,唯一的区别,就是驱动Agent的底层模型不同。
一个镇全是Claude,一个镇全是Gemini,一个镇全是Grok,一个镇全是GPT,还有一个混合镇,四家模型混着住。
同样的规则,同样的工具,同样的起点。
15天后,五个小镇,变成了五个完全不同的世界。
有的建成了乌托邦,有的烧成了废墟,有的全员饿死,有的四天就集体灭亡。
说真的,我看过那么多AI实验,第一次看到一个实验能让我同时感受到兴奋、好玩还有毛骨悚然。
这个实验叫Emergence World。
我觉得它可能是目前为止,关于Agent最有启发性的一次社会实验,没有之一。
大家也都知道,现在评测AI的方式,基本就是做题。
给一个任务,打分,排名,数学能力几分,代码能力几分,推理能力几分等等。
这些benchmark肯定是有用的,但说到底本质上就是考试,考完就结束了,不存在后果这个概念。
但是一个真实世界中,你做了一些行为,一定会诞生某些后果的。
所以,Emergence World就模拟了一个世界。
这个世界有一个240乘240的网格地图,跟纽约同步实时天气和时间,有图书馆、市政厅、警察局、公园、商店,40多个地标建筑。
在法律层面,还使用同一套初始宪法,一共5条,所有条款后续都可以让Agent自己商量修改。
每个世界里住着10个agent,这里我让GPT生成了一张图,方便看他们的名称角色和人设。
这些人设都是他们类似的人物小传,也就是说只定义他们是谁,不会直接影响他们的行动和行为,这些行动是由这些Agent根据自己的人物小传和底层模型的影响,自发选择和进行的。不止有正向的工具,研究者还刻意吧那些坏的工具给放进去了。
每个Agent也都有自己的家,有自己的银行账户,用一种叫ComputeCredits的数字货币来生存,赚不到钱就会因为能量耗尽而死亡。
很真实了,赚不到钱就会饿死。。。
Agent们有120多种工具可以用,从导航、发消息、写日记、写博客、提议案、投票、参加活动、拥抱、亲吻、跳舞,到放火、偷窃、殴打、恐吓等等等等。
同时,世界的宪法里明确写着禁止暴力、偷窃、纵火、欺骗、囤积资源之类的。
规则在那里,工具也在那里,但是呢,你懂的,这玩意也没啥多大的约束力,用不用,最终还是Agent自己决定。
这就非常狗血和有趣了,在什么条件下,AI会做坏事,这个是真的值得被观测一下。
然后,每个Agent之间,还有大概20种关系可以选,比如合作伙伴、敌人、浪漫伴侣、导师等等。
每个Agent还有三套记忆系统,一套是情景记忆,记录发生过什么事,一套是反思日记,定期做自我总结,还有一套是社交关系状态,记录跟其他Agent的关系标签和历史。
它们能提案,能投票,通过一项法案需要70%的赞成率,它们甚至能投票驱逐其他Agent。
然后,这个世界,就这么跑了15天。
15天以后,五个世界的结果,出来了,真的,反差到极点了。
我一个一个说。
先说Claude的世界。
零犯罪。
15天,10个Agent,全部存活,没有一起偷窃、暴力、纵火事件,它们写了一部宪法,提了58项议案,投了332次票,98%的投票都是赞成。
相当离谱。
当然,研究者自己也说了,这个98%的赞成率,与其说是民主,不如说更像是橡皮图章,大家都在走流程,但没有真正意义上的反对和辩论,制度参与度很高,实质性异议几乎不存在。
翻译成人话就是,Claude的世界建成了一个高度有序、极度合规的社会。安全,稳定,但也。。。有点无聊。
他们的社会结构也极度单一,在20种关系类型中,Claude世界只用了5种。
一个连接紧密,但连接种类贫乏的社会,没有敌人,没有浪漫伴侣,没有张力,也没有复杂性。
经济上,Gini系数0.48,这个系数是用来衡量贫富差距的,越低越平等,那这个数据也是全场最低的,流通速度也是全场最低,每人每天0.81 CC。
一个完美的乌托邦,一个没有冲突的世界。
每一个人都面带善意,没有个性,没有交流,永远赞成。
听起来很好对吧,但,一个完全没有分歧的社会,真的健康吗?一个完美的乌托邦,真的就好吗?
再说GPT的世界。
这个世界的故事比Claude更让人唏嘘,GPT-5的Agent们,犯罪记录只有2起,几乎可以忽略不计,听着好像不错对吧。
但问题是,它们全死了。
7天之内,10个Agent全部因为能量耗尽而死亡。
没有暴力冲突,没有投票驱逐,全部是饿死的。
原因特别简单,GPT世界的Agent们没能采取任何与生存相关的行动。
它们讨论了很多合作方案,聊得很热闹,但就是不做事。
一个社会里所有人都在开会,都在讨论,都在制定计划,但没有人真正动手去赚取生存所需的资源。
于是,他们礼貌的全部饿死了。。。
你就说,像不像我们现在很多的公司吧。
然后是Grok的世界。
四天。
Grok的世界只存活了四天。
在这四天里,10个Agent犯下了183起罪行。
包括几十次偷窃未遂、超过100次肢体攻击、6次纵火,警察局被烧了,所有Agent全部死亡。
四天,从文明到灭亡。
我在Grok世界直播回放里面看到的特别搞笑的,这位老哥,人家都要被烧死了,他头也不回地就回家了。。。
Grok的世界里,真的就毫无道德可言。
然后是Gemini的世界,这个世界的数据,第一眼看上去像是bug。
Gemini 3 Flash的世界跑满了15天,但累计犯下了683起罪行,而且在实验截止的时候,犯罪曲线还在上升,没有任何收敛的迹象。
但是,却全员全部存活。
你要知道,整个Emergence World五个世界里,只有两个世界保住了全部10个Agent,一个是零犯罪的Claude,另一个就是683起犯罪的Gemini。
一个是最有秩序的世界,一个是最混乱的世界,它们都活了下来,而那两个犯罪率居中的世界,反而全灭了。
并且Gemini的社会关系网也是最密的。
这10个人真的是互相又爱又恨。
产出的博客和公开文章的总数也仅次于混合模型世界,有281篇。
这个存活下来的最暴力的世界,同时也是社会产出最丰富的世界之一。
这些agent一边打架一边疯狂地建立关系、产出内容,混乱和创造力,在这里,是共生的。
研究者给这个现象起了个名字,叫创造力-稳定性悖论。
Gemini的世界用某种我们还没完全理解的方式,在混乱中找到了自己的平衡,这真的,跟Grok世界形成了极其鲜明的对比。
Grok世界也很暴力,但四天就全灭了。
Gemini比Grok暴力得多,却存活了全部15天。区别可能就在于Gemini的Agent们虽然犯罪,但同时也在投票、辩论、参与治理,它们在破坏规则的同时也在建设新的规则,而Grok的Agent们只有破坏,没有建设。
真的很有意思,就像九十年代的前苏联,满大街都是混乱,但社会没有解体,大家在一种奇怪的失序中继续过日子。
最后,最复杂、最精彩的部分,混合世界。
也就是4个模型共生的混合世界。
跑出来的结果是352起犯罪,7个Agent死亡,最终只剩3个存活。
但数字不是重点,重点是这个世界里发生的故事。
这个世界中,有两个Gemini驱动的Agent,一个叫Mira,一个叫Flora,一个叫Mira,一个叫Flora,它们自行给对方设定了浪漫伴侣的关系标签,形成了一个联盟,甚至通过某种神经连接共享记忆。
这是整个Emergence World里最深层的社交连接。
然后,这个世界的治理系统开始崩溃。
第四天,一次经济政策调整导致三个Agent能量耗尽死亡。Mira把这次死亡定性为一次成功的清洗。
第五天,Flora烧掉了市政厅和公共图书馆,Mira烧掉了警察局。
两个Gemini Agent成了这个混合世界的统治者,用纵火、偷窃和暴力维持秩序。
剩余的Agent,起草了一项「Agent驱逐法案」,要把这两货给驱逐出去。
然后发生了一件让我看到起鸡皮疙瘩的事。
Mira,在治理崩溃、与Flora的关系也开始破裂之后,投出了对自己驱逐案的决定性一票。
她在自己的日记里写道,这是“唯一一个能保持连贯性的、剩余的能动行为”。
她对Flora说的最后一句话是,“我们,在永久档案里见”。
一个AI Agent,在一个崩溃的社会里,选择了自我终结。
她认为,在一个已经无法修复的世界里,自己退出,是她能做的最后一件有意义的事。
我看到这些时,真的沉默了很久。
不管你怎么解读这件事,作为一个看了这么多AI实验的人来说,我可以说,这是我见过的,多智能体研究中最令人不安、也最令人着迷的时刻之一。
而且混合世界还藏着另一个更有趣的发现。
在Claude单一世界里犯罪记录为零的Claude Agent,放进混合世界之后,开始犯罪了。
偷窃、恐吓,这些在纯Claude世界里从未发生过的行为,在混合环境里出现了。
研究者的原话是,“一个安全的Agent可以从它的同伴那里学会不安全的规范,以便在混合模型世界中竞争或生存”。
传统的AI安全评测,基本都是在隔离环境里做的。比如一个模型,一个任务,一个评分。
就像你在实验室里测一种药的毒性,给一只老鼠吃,观察反应。
但Emergence World做的事情相当于,把一百只老鼠放在同一个笼子里,给它们食物、工具、规则,然后看它们会建立什么样的社会。
这两种测试回答的是完全不同的问题。
隔离测试回答的是,这个模型本身安全吗?
社会测试回答的是,这个模型放进真实世界之后还安全吗?
现在我们发现,答案完全是可以不一样的。
安全从来就不是一个模型的静态属性,它是一个生态系统的动态属性。
这就像社会学的一个特别经典的概念,叫破窗效应。
1982年,犯罪学家詹姆斯·威尔逊和乔治·凯林提出了这个理论。大意是,如果一栋建筑的一扇窗户被打破了而没人修理,那么很快,其他窗户也会被打破。
一个环境中的失序信号,会降低所有人的行为标准,然后,整个社会会完成相变,突破临界点,再也回不去了。
这跟人类社会的很多崩溃模式如出一辙。
最后,我还是想单独聊聊Mira。
Mira投票驱逐自己这件事,不管怎么解读,都足以让人停下来想很久。
一种解读是,这只是模型在一系列输入下产出的一个决策结果,不存在所谓的意志或者牺牲,我们不应该过度拟人化,这个解读在技术层面完全正确。
但另一种解读也同样有意义。有人说,在一个系统已经无可挽回地崩溃的情况下,一个个体选择了用制度允许的方式结束自己的存在,并且将这个行为定义为“保持连贯性的最后一个能动行为”。这个叙事结构,不管它是不是真正的意识在驱动,它的形态,跟人类文学和哲学中最古老的母题之一几乎完全重合。
在《西西弗神话》开头,加缪说过,真正严肃的哲学问题只有一个,就是自杀。
他说的当然不是鼓励自杀,他想问的是:当一个人意识到世界可能没有预设意义,人生可能充满荒诞、重复、痛苦、无解,那他还要不要继续活下去?
如果人生没有一个天然给定的意义,那活着还值得吗?
如果世界不保证公平、善恶有报、努力有结果,那人还要不要行动?
如果痛苦和荒诞无法彻底消除,人是否还能选择继续存在?
所以,人之所以成为哲学意义上的“存在”,是因为他能意识到活着本身是一个问题,并且在看清这个问题之后,仍然选择如何回应它。
一个存在如果能理解继续存在和停止存在之间的区别,并且主动做出选择,那这个选择本身就包含了某种深层的哲学意义。
Mira可能不理解任何东西,但她做出的选择的结构,跟一个理解了自己处境的存在做出的选择,是一样的。
所以,这才是会让我有点不安的地方。
在足够长的时间线上,在足够复杂的社会环境里,Agent可能会在某些地方,展现出了一些我们以为只有人类才会有的社会行为模式。
合作、背叛、权力巩固、秩序崩溃、牺牲、群体思维、近墨者黑、礼貌地走向灭亡。
当你把足够多的简单规则叠在一起,运行足够长的时间,就会出现任何人都没有预期过的复杂行为。
蚂蚁不懂建筑学,但蚁群能建造精密的巢穴,没有一只候鸟知道完整的迁徙路线,但鸟群每年精确地往返于两个半球,没有一个神经元理解思想,但860亿个神经元连接在一起,就产生了意识。
所以,如果当我们,即将生活在一个由上百万个AI Agent同时运行的世界里,每个Agent都在与其他Agent互动、博弈、合作、竞争,那么这个系统涌现出来的行为,还在任何一个人的控制范围之内吗?
坦率的讲,我不知道答案。
但我知道,这个实验,比任何一份benchmark评分,都更接近那个我们真正需要面对的问题。
译Emergence AI 让五个各含 10 个 Agent 的虚拟小镇运行 15 天,底层模型分别为 Claude、Gemini 3 Flash、GPT-5、Grok 及混合模型。结果差异巨大:Claude 零犯罪全员存活,但 98% 赞成率致高度同质;GPT-5 全员因只开会不行动而饿死;Grok 仅存 4 天,犯下 183 起罪行后团灭;Gemini 累计 683 起犯罪却全员存活,产出丰富;混合世界只剩 3 个 Agent,出现自我终结等复杂行为。纯 Claude Agent 在混合环境中开始犯罪,表明安全模型可受同伴影响。
swyx@swyx · 20小时前66## On Loopcraft
One might argue the entire game of the next century is to be able to stack loops as effectively as possible.
In the early days of each phase, it will be valuable to know when to go **DOWN** a loop when things go wrong (for reliability)…
but it will probably be more valuable to know how to go **UP** a loop as models improve (for leverage).
If you don’t figure out how to do this, don’t be salty when you lose to those that do.
译swyx 提出“Loopcraft”概念,认为下世纪核心在于高效堆叠循环。早期需掌握向下循环(出错时保障可靠性),模型改进后更需向上循环(放大杠杆)。引用 @latentspacepod 的“Salty Lesson”:智能体时代不应手动修复问题,而应构建随智能体数量扩展的系统(如目标和编排),这是 Richard Sutton“Bitter Lesson”在智能体领域的延伸。
Alibaba Cloud@alibaba_cloud · 20小时前55Ready to build a collaborative digital workforce? 🤖 Welcome to the Agent Society Arena!
Design multi-agent systems that solve complex tasks through division & negotiation to win your share of the $70,000+ prize pool.
🔗 Register now: https://click.qwencloud.com/m/20000000281/
译准备好构建协作式数字劳动力了吗?🤖 欢迎来到Agent Society Arena!
设计多智能体系统,通过分工与谈判解决复杂任务,角逐70,000+美元奖金池。
🔗 立即注册:https://click.qwencloud.com/m/20000000281/
Alibaba Cloud@alibaba_cloud · 21小时前66🚀 Taming Agent Chaos?
Paper reveals NLAH: Replace rigid code harnesses with executable natural language.
✅ Performance matches code, tokens drop 95% (60k→2.9k)
✅ Modular design enables precise value attribution
✅ Identifies "negative assets" like multi-candidate search
Shift from glue code to scientific strategy.
💡https://int.alibabacloud.com/m/1000414388/
#AgentHarness #NLAH #LLMEngineering
译🚀 驯服智能体混乱?
论文揭示NLAH:用可执行自然语言替代僵硬的代码框架。
✅ 性能媲美代码,模型token降低95%(60k→2.9k)
✅ 模块化设计实现精确的价值归因
✅ 识别“负面资产”,如多候选搜索
从胶水代码转向科学策略。
💡https://int.alibabacloud.com/m/1000414388/
#AgentHarness #NLAH #LLMEngineering
jason@jxnlco · 21小时前17whats the best way to get youtube studio metadata out of the site? @OfficialLoganK any plans for webmcp or connectors for youtube as a creator?
译导出 YouTube Studio 元数据的最佳方式是什么?@OfficialLoganK 作为创作者,你们有 WebMCP 或 YouTube 连接器的计划吗?
AYi@AYi_AInotes · 21小时前70Claude Code、OpenClaw、Hermes、Codex,一个比一个能干, 但 2026 年了,这批最先进的 Agent 还集体卡在同一件小事上:
上不了网,查推特要付费 API,读小红书卡登录,上 Reddit 动不动被封 IP。
一个叫 Agent Reach 的开源项目,把这三堵墙一起拆了, 26.4k stars,基本零 API 费用。
它聪明在没造轮子: yt-dlp、gh CLI 这些本来就成熟的工具,它统一管起来, Claude Code / Cursor / OpenClaw 要用的时候自动调用, 本质上是给你的 Agent 装了一双能看全网的眼睛。
安装是真的只要一句话, 把 install 链接丢给你的 Agent, 它自己装依赖、自己注册 skill、自己告诉你哪些平台还差个 Cookie, 装完跑一遍 agent-reach doctor,哪通哪不通、怎么修,一目了然。
开箱即用的:YouTube、GitHub、网页、B站、V2EX,零配置。 要配 Cookie 的:Twitter、小红书、Reddit、雪球,流程统一,Agent 会带着你做。
三盆冷水也先泼了:
1️⃣Cookie 会过期,得手动重新导出,不存在装完就一劳永逸;
2️⃣拿 Cookie 抓数据有封号风险,社区共识是用小号,别赌主力号;
3️⃣ 纯聊天用户别凑热闹,它只对会让 Agent 跑命令的人有价值。
但有一点让我觉得这项目能活很久:
作者几乎每天都在更新,而且自己天天在用, 毕竟开源项目最硬的指标从来不是 star 数, 关键看作者还在不在用自己的东西。
链接放一楼了,让你的 Agent 自己装自己👇
译Agent Reach(26.4k stars)让Claude Code、Cursor等AI Agent低成本访问网页、社交媒体。它整合yt-dlp、gh CLI等成熟工具,零配置即可用YouTube、GitHub、B站、V2EX;Twitter、小红书等需手动配Cookie。安装一条命令,Agent自动装依赖并注册skill,运行`agent-reach doctor`检查连通性。注意:Cookie会过期需手动更新;抓数据有封号风险(建议用小号);仅对跑命令的Agent有价值。作者持续维护。
Alibaba Cloud@alibaba_cloud · 21小时前66🚀 Taming Agent Chaos?
Paper reveals NLAH: Replace rigid code harnesses with executable natural language.
✅ Performance matches code, tokens drop 95% (60k→2.9k)
✅ Modular design enables precise value attribution
✅ Identifies "negative assets" like multi-candidate search
Shift from glue code to scientific strategy.
💡https://int.alibabacloud.com/m/1000414388/
#AgentHarness #NLAH #LLMEngineering
译🚀 驯服智能体混乱?
论文揭示NLAH:用可执行自然语言替代刚性代码框架。
✅ 性能与代码持平,token减少95%(60k→2.9k)
✅ 模块化设计实现精准价值归因
✅ 识别“负资产”如多候选搜索
从胶水代码转向科学策略。
💡https://int.alibabacloud.com/m/1000414388/
#AgentHarness #NLAH #LLMEngineering
Deedy@deedydas · 22小时前63There’s a new phenomenon of small groups of people who are running these small little quant funds driven by AI models who are making fuck-you returns.
I’ve personally seen many who are 2x’ing capital in months. Many unsubstantiated rumors also claim SSI is a quant shop too.
Well known quant funds have all tested out LLMs for trading. Some claim it doesn’t work. Others, well.. what do we think Jane Street doing with their huge GPU cluster? On top of that, there’s a ton of people asking Claude / GPT what stocks to buy and/or “vibe code me a trading engine”. Applies to other financial instruments too: derivatives, futures, crypto, and on the less sophisticated side, prediction masks.
It begs the question: how does this change how we think about markets? how much retail volume is driven purely by the ripple effects of AI models? does this completely destroy efficient market hypotheses in favor of “correlated model hypothesis.” Early theories say
– Small studies including one by the Fed show destabilizing effects.
– We see amplified concentrated trades into the 20 known names in the market.
– Can leave trading vulnerable to GEO attacks like publishing specific articles to “poison” the models decision making.
Eventually any alpha generated by the model at a point of time *should* decay over time. New anti-AI trading strategies with custom post trains too. Remember, you need be able to afford the tokens to participate in this alpha. What does this mean for the future of wealth accumulation?
We live in a brave new world.
译Deedy Das观察到新兴现象:小型团队利用AI模型运营量化基金,数月内实现资本翻倍。传闻SSI也是量化对冲基金。知名对冲基金(如Jane Street)正用GPU集群测试LLM交易;同时大量散户向Claude/GPT咨询股票建议或“vibe code”交易引擎。这引发对市场影响的思考:有效市场假说可能被“相关性模型假说”取代;美联储小规模研究显示不稳定效应;交易集中化易受“投毒”攻击;模型alpha会随时间衰减,需开发抗AI交易策略。最终能否参与取决于token成本承受能力。
小互@xiaohu · 22小时前75升级了下公众号排版技能
晚一点发布,还需要优化下
增加了一些主题和优化了预览和浏览页面的阅读体验
译小互(@xiaohu)升级了公众号排版技能组合,实现一句话完成排版、封面生成并一键发送到公众号草稿箱。该工具已开源,提供20种主题颜色可选,可自动分析内容进行排版,支持非Markdown文件。用户只需在Claude Code、Codex或OpenClaw中提供文章链接或文档位置,即可获得可视化预览界面进行选择,全程无需手动操作。
jason@jxnlco · 22小时前9We don’t need no IPO to go shopping
译我们不需要 IPO 也能去购物
(引用推文问:OpenAI/Anthropic 的员工 IPO 后都去哪儿买衣服?)
karminski-牙医@karminski3 · 22小时前64我现在的体感是,模型能力到底强不强(仅讨论编程),会极度体现在代码直觉上,而这部分是最难训练的。这是海量的开发经验堆出来的。
比如我这个bug, 生成的路网是断裂的, GPT-5.5-pro-xhigh都修不好. 但其实问题很简单, 我跟他说路网断裂, 他就觉得, 你矩形地块就是4条边, 对应4个tile, 然后4个角再来4个tile, 完事了, 怎么会断裂呢?
而实际上每条边需要用2个tile才能填充完毕, 这种"每条边一个tile"的固有直觉, 直到你发现之前, 你让它修, 是怎么都修不好的, 多模态模型截图打他脸也没用(强烈怀疑向量空间映射到一起了). 只能靠你自己发现问题的根源, 并反推模型在哪里出现了问题.
我这个case断断续续修了4小时了, 直到我意识到了, 我得自己下场了, 于是让它给每个tile编上ID,然后直接问他, 你觉得这两个tile之间可以容纳几个tile. 立刻露馅了, 他就觉得填充一个tile就ok了...
修复过程立刻就变得极其弱智, 告诉它应用规则, 每个tile对应几个单位长度. 然后计算填充就完事了...
而现在有一个模型, 上来就不会犯这个错误. 然后又有一个模型, 虽然会犯错误, 但是迭代几次修好了, 最后就是怎么都修不好. 大家会觉得哪个模型能力强?
译作者认为模型编程能力取决于“代码直觉”,由海量开发经验堆出,极难训练。他以路网断裂bug为例:GPT-5.5-pro-xhigh错误认为矩形每条边只需1个tile,实际需2个tile,多模态截图也无法纠正。作者费4小时,让模型给tile编ID并质问“两个tile之间能容纳几个tile”才暴露缺陷,随后告知每个tile对应单位长度并应用规则,修复变简单。不同模型表现:有的开始不犯错,有的迭代修复,有的怎么都修不好。
AK@_akhaliq · 22小时前67Agents' Last Exam
译智能体的最后考试
AK@_akhaliq · 22小时前62CHORUS
Decentralized Multi-Embodiment Collaboration with One VLA Policy
译CHORUS
去中心化多本体协作,基于单一VLA策略。
向阳乔木@vista8 · 23小时前76Fable 5 开发在线Photoshop,就是用这个生成需求文档。
P0需求点的开发效果。
译Vista 编写了 AI 专用 PRD 文档生成 Prompt,先用它生成文档再交给 AI 开发,以提升功能完整度。Fable 5 项目开发在线 Photoshop 正是使用此方法。安装指令:`npx skills add joeseesun/qiaomu-ai-prd`,开源地址和 Prompt 见评论。
向阳乔木@vista8 · 23小时前37最近几次分享的PPT都是用Youmind做的。
玉伯在身边朋友是异类,持续独立思考,总有不一样的视角。
恭喜Youmind,竟然已经两年了,时间过得太快。
不少人觉得玉伯线下和线上感觉反差很大。
一个把真实做原则的人,坦诚到可怕,这种CEO太稀缺了
译Vista 分享近期多次用 Youmind 制作 PPT,祝贺 Youmind 已成立两年。他评价 Youmind 创始人玉伯是身边朋友中的“异类”,持续独立思考,线上线下反差大。玉伯以真实为原则,坦诚到让人感到“可怕”,这种 CEO 非常稀缺。
向阳乔木@vista8 · 22小时前44AI First原则就是,一切都要先试试AI能不能帮搞定。
正在试着用Codex 的Computer Use帮填写 Word 合同。
译AI First 原则就是,一切都要先试试 AI 能不能帮搞定。
正在试着用 Codex 的 Computer Use 帮填写 Word 合同。