Have you debugged your training data? You might not like what you find. Introducing predictive data debugging: reveal an...
The quality of your data directly dictates the quality of your AI model. But the way data affects model performance is hand-wavy voodoo at worst and intuition at best. This new research now lets you debug your data BEFORE you spend a fortune on an irreversible training run.
译数据质量直接决定 AI 模型性能,但此前数据对模型的影响机制难以捉摸。GoodfireAI 提出“预测性数据调试”方法,允许在投入昂贵训练前提前发现数据问题。在 DPO 数据集中,他们发现了损坏的护栏、模型幻觉,甚至包含“鱼放屁同人小说”等低质内容。该技术旨在揭示并塑造模型将在训练中学到的内容,避免不可逆的无效训练。
发现Claude Fable 5强的地方之一,可能是模型思考推理的时间足够长。 刚提了个想法,它思考15分钟才开始行动,牛逼。
译发现 Claude Fable 5 强的地方之一,可能是模型思考推理的时间足够长。 刚提了个想法,它思考 15 分钟才开始行动,牛逼。
如果不知道用大模型做啥,其实可以试试一些需求很高的工具站,最好不用 AI 能力。 这也是模型能力的测试案例。 不少出海做站赚Adsense美金的,感觉也是类似思路。 不少工具仍然太知名,找懂的领域的工具,用当下最好的模型复刻,加上自己的需求理解,好像不难。
译推文探讨了使用大模型复刻已有热门工具站的可能性,强调这些工具站本身不需要AI能力,纯靠需求驱动。作者指出,许多出海赚Adsense美金的站点也遵循类似逻辑——选择自己熟悉领域的工具,用当前最好的模型进行复刻,并结合自身对用户需求的深入理解,从而快速做出有价值的作品。这是对模型能力的一种实用测试。
Two things are true: (1) Anthropic (or parts of it) are absolutely and sincerely worried about the misuse of Mythos-class models & have put in excessive safeguards until they are confident it will not be misused (2) They have not succeeded in explaining/convincing people of this
译两件事是真的: (1) Anthropic(或其部分成员)绝对且真诚地担忧 Mythos 级别模型被滥用,并设置了过度防护措施,直到他们确信它不会被滥用为止 (2) 他们未能成功解释/说服人们这一点
我问了Fable 5, 在一个 AI 能在几秒内完美总结或解释任何书的时代, 亲自花 8–20 小时啃一本难读的文本, 其不可替代的认知价值是什么? 这是他的回答:
译用户指令Fable 5自建2026设计趋势的落地页,要求动态和彩蛋。Fable 5自行搜索趋势、调整配色与动效,藏入3个彩蛋,几分钟生成单文件HTML。用户计划让其担任全职全栈工程师。此前用户曾问亲自啃难懂文本的不可替代价值,Fable 5以此能力展示作答。
Has anyone clearly laid out an argument for continued availability of frontier open weights models that are (1) profitable for firms to distribute free as costs rise & (2) safe enough post-Mythos that governments will not intervene to stop their nations labs from distributing?
译有没有人清楚地阐述了一个论点,支持前沿开放权重模型持续可用,且满足 (1) 企业在成本上升时仍可免费分发且盈利,(2) 在Mythos之后足够安全,以至于政府不会干预阻止本国实验室分发?
Build Your Business Live: Episode 2 https://x.com/i/broadcasts/1dJrPPYbDvQKX
译Build Your Business Live: 第二期 https://x.com/i/broadcasts/1dJrPPYbDvQKX
我尼玛!苹果现在安全性真的差! 世界果真就是草台班子、谁也不例外! 苹果新Siri AI的等候名单? 国外大神Mac用户直接一顿操作就把AI增强版给硬解锁了,名单这东西瞬间成了笑话。 WWDC刚秀完新Siri,大家还在排队等官方推送,结果有人发现系统里GenerativeModels.plist里藏着EnhancedSiriWaitlist开关。关掉SIP、挂载系统卷、改个键值、重启,立马就能用上。 更离谱的是这不是什么黑科技,就是改个plist文件而已。 有人还整理了超详细步骤,连新手都能跟着做,社区直接把“等候名单”这个人工闸门给撬开了。 以前大家觉得苹果产品永远是“公司说什么时候开放你就什么时候用”,结果这次新Siri的AI能力其实早就躺在系统里了,只是被名单挡着。 动手能力强的用户现在就能提前体验,官方推送反而成了后手。 这波操作把苹果一贯的封闭节奏打了个措手不及,也再次证明:真正的用户力量,永远比公司节奏快半拍。
译WWDC上苹果展示新Siri AI,用户需排队等候官方推送。但有Mac用户发现系统里GenerativeModels.plist文件藏有EnhancedSiriWaitlist开关,通过关闭SIP、挂载系统卷、修改键值并重启即可绕过等候名单直接启用。社区已整理详细教程。这一操作暴露新Siri的AI能力早已内置在系统中,仅被人为名单阻挡,官方推送反而滞后。
我做过网页的风格100+ ,之前没有skills。 按照古一的思路,我觉得可以拓展起来。 我改天看看整个skills来玩玩。
译Berry Xia发推文表示自己曾做过100多种网页风格,之前未使用过skills(技能)。他提到将参考“古一”的思路进行拓展,并计划日后研究如何利用skills来玩一玩。
Fable 5是真的厉害真的好用, 但也真的贵啊, 今天直接干掉$1000+😭
译用户分享 Claude Fable 5 体验:仅靠一句指令“给你自己做个落地页,自由发挥,要2026最新设计趋势,要彩蛋”,Fable 5 在几分钟内自动生成完整单文件 HTML,无需任何修改。它主动搜索 2026 设计趋势、调整配色和动效,并偷偷藏了 3 个彩蛋。用户惊叹其代码质量和文笔,但当天因使用 Fable 5 耗费超过 $1000,称“真的贵”。
很多朋友问,如何给Codex写一个好的Goal指令? 睡觉前执行,模型自动开发,第二天“收菜”。 发过4w字文档,但多数人懒的看,所以我写了个Skill。 把一句话需求变成目标,复制就能用。 安装指令: npx skills add joeseesun/qiaomu-goal-meta-skill 源码免费开源,见评论区
译针对如何给Codex写Goal指令的问题,作者发布了一个Skill,可将一句话需求自动转化为目标,实现“睡前写指令、模型自动开发、第二天收菜”。安装命令:`npx skills add joeseesun/qiaomu-goal-meta-skill`。源码免费开源(见评论区),旨在简化4w字文档的阅读负担。
Anthropic 为何如此牛逼?快速一波流了解清楚! 创始团队不是"从 OpenAI 跳槽的工程师",而是GPT-2、GPT-3 的实际作者们。 Dario Amodei 之前是 OpenAI 研究副总裁。 Jared Kaplan 是 Scaling Laws 论文的核心作者;Tom Brown 是 GPT-3 的首席工程师。 Chris Olah 是 AI 可解释性领域的奠基人。 这套班底相当于"整个行业最重要的几张牌被一家公司拿走了"。 Medium 二、三大独家技术武器 Scaling Laws 解释了为什么模型随算力增长而变强,这让 Anthropic 能精确预测训练产出,而不是盲目烧钱。 Constitutional AI (宪法AI) 是一套把价值观直接编码进训练过程的方法论,让模型行为更可审计、更稳定,而不依赖大量人工标注。 RLHF 更是 Dario 本人参与发明的方法,他们不只是使用者,而是发明者。算力不输任何人! Anthropic 与 Amazon 签署了高达 5 GW 算力的合作协议,目前已在运行约 100 万颗 Trainium2 芯片。 加上与 Google/Broadcom 的 5 GW TPU 协议和 Microsoft/NVIDIA 的 $300 亿 Azure 算力,Anthropic 的算力版图横跨三套硬件生态。 三、营收爆炸式增长 Anthropic 的年化营收从 2024 年 1 月的 $8,700 万飙升到 2026 年 4 月的 $300 亿,CEO Dario Amodei 本人也称这一增速超出了公司自身预测 8 倍。 四、关于"嗤视"中国厂商这件事 需要分两层看:Anthropic 公开指控 DeepSeek、月之暗面、MiniMax 通过约 2.4 万个虚假账号发起约 1,600 万次对话,违规蒸馏 Claude 能力,技术证据有一定依据。 但分析人士也指出,Anthropic 在指控中对各家中国公司的排序,高度贴合华盛顿的政治敏感度,而非单纯的技术危害程度,DeepSeek 排第一,虽然其交互数量反而最少。 所以这件事既有真实技术竞争的成分,也是非常明显的政策游说动作。
译Anthropic 创始团队由前 OpenAI 研究副总裁 Dario Amodei、Scaling Laws 核心作者 Jared Kaplan、GPT-3 首席工程师 Tom Brown 及 AI 可解释性奠基人 Chris Olah 组成。技术武器包括 Scaling Laws、Constitutional AI 及 RLHF(Dario 参与发明)。算力方面:与 Amazon 签署 5 GW 协议,运行约 100 万颗 Trainium2 芯片;另有 Google/Broadcom 的 5 GW TPU 及 Microsoft/NVIDIA 的 $300 亿 Azure 算力。年化营收从 2024 年 1 月 $8,700 万飙升至 2026 年 4 月 $300 亿,超预期 8 倍。另指控 DeepSeek、月之暗面、MiniMax 通过约 2.4 万虚假账号发起约 1,600 万次对话进行蒸馏,该指控兼具技术事实与政策游说动机。
The core part of this Anthropic Fable release saga is that there are many overlapping issues at once. Some of which operate on different timelines of the AI arc, and some have easier fixes. In my critiques, I asked for specific changes to some things, understanding that some things don't have an easy fix. The simplest issue was an uneven application of safety domains in a way that was misleading to users. This was an implementation issue that overlaps with a values-based decision of what their customers should be doing. Many people including myself pointed out how it was insane to list core safety areas and then have one of them launch with a different safety mechanism, one which actively mislead users. Doing this from the guise of safety was a major misstep and in my opinion Anthropic got very justifiably raked over the coals for it. Don't release the model if you can't hit your safety targets. A subissue here is the idea of silent manipulation. This again is a horrible precedent, and quite odd for a company that has done extensive, leading technical AI safety research on ideas like CoT monitoring and other emergent misalignment issues. Silent manipulation of users is baking in a misalignment to the system at its face level. This comes with a permanent degradation in user trust, which begets a less safe environment for AI. Users who don't have clear information on how AI works will not develop safe working patterns with it. The more complex issues are with how Anthropic handles broader scientific engagement with their models. The safety classifiers launched with these models obviously have accuracy issues to start. I have priced in that there will be more false positives to start, that's life. It's Anthropic's business to degrade their products at release time, or make the trade off of user satisfaction versus revenue. Still, it is a very real sign of concentration of power that businesses can make such obviously user-harmful behaviors and still lead in the market. This concentration of power is only starting to set in and we could see even weirder signs of it in the coming years. It is now simple enough for me to test Claude Fable in my workflows and know if I'm restricted. This is obviously a suboptimal equilibrium – i want the best intelligence I can get, without restrictions – but it is easy enough for me to make sense of and work with. The specific issue of restricting access to AI research in particular was a bubbling and hard to fix issue with Anthropic specifically, and the frontier labs generally. There is a common view that the frontier labs will be the mediators of all major scientific innovations in the future, as the places with the best models and the compute for inference to solve major problems. This is a categorical error in how science works, which is a community evolution of accepted ideas, and the the evaluation of your ideas by (hopefully numerous) independent, other practitioners. You cannot have science advance only within a monolith. As an AI researcher I'm very sad to have the latest models restricted, but I would expect Anthropic to do this eventually. I lost more trust over the silent manipulation than I would with a restriction in access. Anthropic has made it pretty clear that they only trust themselves as the mediators of cutting-edge AI research. If I had a say, Anthropic should've proactively made a program to make sure researchers get access in the broader AI community without the safeguards. Academics, nonprofit workers myself, etc. have no reason to not get access. The only valid argument here is that they want to control frontier AI, which is a know your customer part of serving these models. This worldview of science has personally motivated me greatly over the last year, and increasingly so this week, to make the open science of AI continue to be viable. Olmo was a wonderful success here. Still, building research infrastructure is different from working for access to the tools needed to do the trade.
译Nathan Lambert 批评 Anthropic 的 Claude Fable 发布存在多重问题:安全域应用不均,部分域以不同安全机制上线并误导用户,是重大失误;无声操纵用户破坏信任,与 Anthropic 领先的 AI 安全研究相悖;限制 AI 研究员访问最新模型,将科学进步局限于单一公司,错误理解科学社区协作本质。他呼吁 Anthropic 主动为学术和非营利研究者提供无限制访问,并强调需要继续推动开放科学,如 Olmo 的成功案例所示。
Claude Fable 5 一句话生成的桌面台球! 念念不忘的蝗虫群梗彻底终结。 提示词:设计一个完整的能玩的3D桌球游戏,一个网页就能运行
译Claude Fable 5 一句话生成的桌面台球! 念念不忘的蝗虫群梗彻底终结。 提示词:设计一个完整的能玩的3D桌球游戏,一个网页就能运行
Read these two facts together. Because there's something important to learn from it. Anthropic just told investors it's on track for its first profitable quarter, with revenue more than doubling to ~$10.9B. OpenAI is projected to burn well into the double-digit billions this year (2026) and, per the WSJ, is now weighing further price cuts to keep enterprises from defecting to Claude. The lab bleeding the most cash is the one under pressure to get cheaper, because the profitable one is what enterprises increasingly want. SemiAnalysis ran the tokenomics. A $200 ChatGPT plan can soak up to ~$14,000 in API-equivalent tokens a month. The same $200 Claude Max tier caps near $8,000. OpenAI already eats the bigger subsidy by a wide margin, and the WSJ reports it's considering cutting token prices further to win users from Anthropic. So the company losing the most money is the one being pushed to go cheaper, while the one approaching profitability sets the terms. This is competition 101, heated competition in a nutshell.
译Anthropic告知投资者即将迎来首个盈利季度,收入翻倍至约109亿美元。OpenAI预计2026年亏损达数十亿美元,正考虑进一步降价以阻止企业客户转向Claude。SemiAnalysis分析显示,ChatGPT Pro的200美元订阅计划每月可消耗约14,000美元API等价token,而Claude Max同价计划上限约8,000美元。亏损最严重的公司被迫降价应对竞争,而接近盈利的公司正在设定行业定价标准。
Increasingly, how I'm effectively leveraging agents: Routing - routing different tasks to the right agent Looping - instructions + skills + dynamic workflows + automations It's how you get more control over costs and performance, and how you better prepare for changes ahead.
译越来越多地,我有效利用智能体的方式: 路由——将不同任务路由到正确的智能体 循环——指令 + 技能 + 动态工作流 + 自动化 这就是你如何更好地控制成本和性能,以及更好地为未来的变化做准备。
搞了一篇万字长文,聊一聊 Skill, 创作、分发、展示、边界,明天早上发
译搞了一篇万字长文,聊一聊 Skill, 创作、分发、展示、边界,明天早上发
We're training the next version of Composer... with Composer! The model is always learning from itself. This kind of "recursive self-improvement" might sound new, but it's been happening for many months! For example, training big models requires creating *lots* of data for RL - essentially games the model plays to improve at any task you can grade. The newest models can configure their own environments to make those games playable (auto-installing dependencies, fixing broken setups). Composer 2 was *dramatically* better at this than version 1. So the better the model gets, the better it gets at creating the conditions to train its successor. Each generation unlocks capabilities the previous one didn't have! So cool. https://x.com/cursor_ai/status/2052116064474161556
译Cursor 正用当前版 Composer 训练下一代 Composer,形成递归自我改进循环。训练大型模型需要大量 RL 数据(模型通过“游戏”提升能力),新模型能自动配置开发环境(如自动安装依赖、修复故障)。Composer 2 在环境配置能力上显著优于版本 1,模型越强,越擅长创造训练其继任者的条件。Cursor 的 autoinstall 系统让前代 Composer 设置 RL 训练环境,使下一代专注于解决更难题,每一代都解锁先前版本不具备的能力。
http://x.com/i/article/2065071442996441088 # Anthropic 为何如此“牛逼”?“A社到底在下一盘什么大棋?” > 申明:该文章由多个AI 工具整合搜集资料与我一起完成,如对AI敏感请退出,请悉知。 ## 一、Anthropic:全速狂奔,同时大喊“停一停” 如果你关注 AI 行业,最近一定注意到了一个现象:Anthropic 发新模型的频率,远超同行。 OpenAI 的 GPT 系列隔几个月才更新一次,Gemini 的节奏也差不多,国产模型大多按季度迭代。 但 Claude 呢? 隔三差五就出个新的,Opus、Sonnet、Haiku 三条线并行,Mythos Preview (Fable 5)直接重塑了全球网络安全格局。 这家只有5000多人的公司,凭什么这么牛逼? 更让人困惑的是它的姿态。 2月份,五角大楼下达最后通牒:允许 Claude 用于所有合法用途,否则终止合同。 Amodei 的回应是:我们无法违背良知去答应这样的要求。 结果特么是2亿美元合同飞了,特朗普在 Truth Social 宣布封杀 Anthropic,要求所有联邦机构立即停用其技术。 但诡异的事情发生了。 封杀令发布后,ChatGPT 移动端卸载量飙升 295%,Claude 下载量暴涨,登顶美国 App Store 榜首。 数百名谷歌和 OpenAI 员工签署公开信支持 Anthropic。 OpenAI 迅速接盘军方合同,但公众用脚投了票。 这家公司看起来真硬气。 拒绝军方,宁可被总统封杀也不在红线上妥协。 但就在同一个2月,Anthropic 公开指控三家中国 AI 公司通过 2.4万个虚假账号蒸馏 Claude 的能力。 时机恰逢美国国会出口管制听证会。 4个月后的今天,Amodei 发了一篇 12000 字的政策长文,呼吁建立 FAA 级别的强制监管(原文链接)。 表面上是“我们愿意被管”,但谁最经得起这种监管? 同一周,Anthropic 刚完成 H 轮 650亿美元融资,估值 9650亿美元,并向 SEC 秘密提交了 IPO 申请。 一边冲刺史上最大 IPO,一边呼吁暂停。 一边全速推进模型迭代,一边呼吁更严监管。 一边拒绝军方展现原则,一边把竞争对手嵌入地缘政治框架。 图灵奖得主 Yann LeCun 忍不住了。他说 Amodei 是个“AI 末日论者”,但仍在全力研发 AGI。 这只有两种可能:“要么他在学术上不诚实,或者在道德上有问题; 要么他有强烈的优越感,自以为只有他开悟到了什么。“ LeCun 的愤怒指向一个很多人隐约感觉到但说不清楚的问题:这家公司到底在干什么? 答案不是简单的“理想主义”或“商业算计。更像是在设局或者下一盘更大的棋。 ## 二、他们不是在“蒙头狂跑”,而是在不断的设局“圈地” 要理解 Anthropic 在做什么,得先看清它凭什么能做。 先回答开头那个问题:为什么它发模型这么快? 因为 Anthropic 内部有一组惊人的数据:Claude 写了超过 80% 的生产代码,工程师日均代码合并量翻了 8倍,Mythos 模型在代码优化上比人类快 52倍。 6月5日那篇《When AI Builds Itself》博客首次披露了这些数字,它证明了一件事:AI 正在加速自己。 而 Anthropic 之所以能跑这么快,根源在它的创始团队。 2021年1月,Dario Amodei 带着一群核心成员和其妹妹从 OpenAI 集体出走。 这不是普通离职,他们带走的是整个 GPT-3 时代最核心的技术积累。 Dario 本人主导了 GPT-2 和 GPT-3 的研发,同时是 RLHF 的联合发明者。 联合创始人 Jared Kaplan 是 Scaling Laws 论文的第一作者。 Tom Brown 是 GPT-3 的首席工程师。 Chris Olah 是 AI 可解释性领域的奠基者。 如果说 OpenAI 是 AI 时代的“黄埔军校”,Anthropic 的创始班底就是整个军校最强的那批教官集体另立门户。 但“人才多”只是表象。 真正让 Anthropic 不同于其他 AI 公司的,是它拥有三样别人没有的东西。 不是“比别人多一点“,而是别人在跑的时候,他们已经在“设局圈地”。 第一,Scaling Laws,现代 AI 的地图。 Jared Kaplan 的这篇论文从数学上证明了:模型能力随算力、数据、参数量的增长遵循可预测的幂律关系。 这意味着你可以在小规模实验上预测大模型的表现,不用把所有钱全押上再赌。 Anthropic 内部知道“每投入多少算力,模型会提升到什么水平"。 这是精确的工程能力,不是蒙头狂跑。 其他公司研究这套理论的人,大多数也是从 Anthropic 和 OpenAI 学的。 而 Anthropic 的联合创始人,就是画出这张地图和圈地的人。 第二,RLHF 和 Constitutional AI,现代对话 AI 的训练方法。 Dario Amodei 是 RLHF(基于人类反馈的强化学习) 的联合发明者。这套让模型“从人类偏好中学习如何回答”的技术,是 ChatGPT、Claude 一类对话 AI 的训练核心。 2022年底,Anthropic 又发表了 Constitutional AI 论文:不完全依赖人类标注,更像是给模型一部“宪法”,让它自我批评、自我修正。 2026年1月,Anthropic 公开发布了完整的 Claude 宪法,成为行业最透明、最完整的 AI 行为准则文档。 Anthropic 不只是这些方法的使用者,它是原始发明者。 第三,可解释性研究,看懂“黑盒”的能力。 Chris Olah 的研究方向是“神经网络内部到底在计算什么”。 这一方向目前尚未直接转化为产品优势,但它是理解和控制更强大 AI 系统的长期技术护城河。也是 Anthropic 在 AGI 安全路线上最核心的“内功”。 三样东西加在一起,Anthropic 的技术领先不是“跑得快一点、领先多少”,而是“知道地图长什么样、知道怎么造工具、知道怎么检查工具有没有坏”。 A 社的目的也是完全的游戏规则制定者,而不是简单收到游戏玩家。 这种领先是结构性的。但技术领先有一个致命弱点:它会缩水。 别人可以挖人、可以模仿、可以蒸馏。 Scaling Laws 是公开论文,RLHF 已经是行业标配,宪法 AI 的思路也可以被复制。 技术优势如果不被固化成更难追赶的东西,迟早会被追上。 Anthropic 知道这一点。所以它做了第二步。 ## 三、“最安全”三个字,值30万个客户! 技术优势会缩水,但信任不会。 2021年成立时,Anthropic 就做了一个在当时看来很奇怪的决定:注册为公益公司(Public Benefit Corporation)。 这不是普通公司形态。PBC 在法律层面要求公司必须兼顾公共利益,而不仅仅是股东回报。 换句话说,如果股东认为“安全投入拖慢了利润“,他们不能以此起诉管理层。安全优先,写进了公司的法律基因。 后来又加了一层:Long-Term Benefit Trust(LTBT),一个独立治理机构,持有对公司使命的监督权。 Amodei 在政策长文里特意提到它,说这是“AI 公司应该有更多权力分离和问责“的范例。 2026年1月,Anthropic 做了一件整个行业没人做过的事:公开发布了完整的 Claude 宪法。 这份文档详细列出了 Claude 在回答问题时遵循的所有原则,从“不帮助制造武器”到 “尊重用户自主性”,一条一条,白纸黑字。 任何竞争对手、监管机构、普通用户,都可以逐条审查。 这三件事放在一起,产生了一个极其强大的效果:Anthropic 成为“最安全的前沿模型”的代名词。 然后,2月份的“拒绝五角大楼”事件,把这个品牌推到了极致。 宁可丢掉2亿美元合同,宁可被总统封杀,也不让 Claude 用于全自主武器和国内监控。 Amodei 说无法违背良知,数百名谷歌和 OpenAI 员工签署公开信支持,Claude 下载量暴涨登顶 App Store。 这不是演出来的。这是真金白银的代价。 这不是我说的,是市场说的。 超过30万企业客户选择 Claude,不是因为它比 GPT 聪明一点,而是因为金融、法律、政府这些对安全极度敏感的行业,需要一个“可审计、可解释、有制度保障”的 AI 供应商。 8家财富 10 强公司用 Claude, Deloitte 给全球 47 万员工部署 Claude. 这些客户买的不是技术,是安全感。 安全品牌把技术优势转化成了信任资产。技术可以被追赶,但信任需要时间积累,而时间是最难压缩的东西。 但 Anthropic 不满足于让“安全”停留在品牌层面。 品牌可以被质疑、被模仿、被超越。 它要做的是让“安全”变成法律,变成门槛,变成每个竞争对手都必须跨过的障碍"。 怎么变?游说。 ## 四、行业跑最快的人,亲手给赛道装上「限速牌」? Amodei 的政策长文《Policy on the AI Exponential》是理解这条转化链的关键文本(原文链接)。 12000 字,五个政策领域,但核心只有一条:前沿 AI 模型发布前必须像飞机一样接受强制第三方测试,不合格就不让上天。 表面上看,这是一家 AI 公司主动要求被管。 「我们愿意被监管」,Amodei 反复强调。 但问题从来不是「愿不愿意」,而是「谁最经得起」。 要理解这条逻辑链的精妙之处,得先看 Amodei 是怎么论证「为什么之前不管,现在必须管」的。 他的论证很简洁:2023 到 2024 年,AI 的风险还不明确,提前立法极可能无效,制造无意义的合规要求,却遗漏最关键的风险源。 所以当时只能推透明度,先让信息流动起来。 然后,转折来了。 Amodei 写道:「然而现在风险已经明确到来。是时候超越透明度,走向更严肃、更有约束力的 AI 监管了。」 触发这个转折的是 Claude Mythos Preview. 他的原话是:「Mythos Preview 重塑了全球网络安全格局。但它更深远的意义在于,它毫无疑问地证明了 AI 模型现在是全球和国家战略级别的工具。」 这段论证的逻辑链是完整的:不是不想管,是之前管不了; 现在能管了,所以必须管。 但如果你退后一步看这条时间线,另一个故事浮出水面。 2023 到 2024 年,Anthropic 推的是透明度法案,SB 53、RAISE,核心是要求 AI 公司披露安全信息。 那时候 Anthropic 刚成立不久,安全品牌还在建设中,强制监管对它自己也是负担。 到了 2025 年底 2026 年初,Claude 已经拿下超过 30 万企业客户,PBC 治理结构深入人心,Claude 宪法公开发布,Constitutional AI 成为行业标杆。 就在这个时候,Amodei 说「风险已经明确到来」,开始呼吁 FAA 级别的强制监管。 巧合吗?也许是。 但前白宫 AI 事务负责人 David Sacks 不这么认为。 他直接指控 Anthropic 推行的是「基于恐惧宣传的监管俘获策略」(fear-based regulatory capture strategy)。 Sacks 曾任白宫 AI 与加密货币事务负责人,现任总统科技顾问委员会联合主席。 他的判断具有政策分量。 宾大沃顿商学院教授 Ethan Mollick 的评价更微妙。 他说 Anthropic 的文章「既有一些自我反思,也有一些营销成分,但更重要的是,Anthropic 真诚地表达了他们对未来 AI 发展的判断」。 这个评价承认了「营销成分」的存在,又肯定了「真诚」,恰好是这件事的复杂性所在。 而白宫 6 月 2 日签署的 AI 行政令,恰好卡在 Anthropic 的期望和 Sacks 的指控之间。 行政令首次为前沿模型引入了联邦安全评估框架,方向和 Anthropic 的主张一致。 但它只走到「自愿评估加 30 天窗口」,远未达到 Anthropic 期望的 FAA 级别强制监管。 Amodei 的回应是:「我对行政令朝着政府更大参与 AI 的方向迈出增量步伐表示感谢,但 Anthropic 的提案建议采取更进一步的行动。」 「更进一步的行动」。 这就是 Anthropic 继续游说的空间。 行政令开了门,但门只开了一条缝。 Anthropic 要的是把门踹开。 而一旦 FAA 级别的强制监管成为法律,谁最经得起? 是那个已经拥有 Constitutional AI 发明者、PBC 治理结构、完整安全体系、30 万企业客户信任的公司。 强制监管对 Anthropic 是入场券,对后来者是门槛。 这不是阴谋。 Amodei 几乎公开在说。 ## 五、2.4 万个假账号,和一场精准的围猎! 如果说政策游说是「阳谋」,那蒸馏指控就是「动手」了。 2026 年 2 月,Anthropic 公开指控三家中国 AI 公司,DeepSeek、月之暗面、MiniMax,通过约 2.4 万个虚假账号,向 Claude 发起约 1600 万次对话,违反服务条款大规模蒸馏 Claude 的能力。 Anthropic 的原话是:「我们已识别出三家 AI 实验室针对 Claude 发起的工业级规模能力窃取行动。」 先说技术层面。 知识蒸馏,简单说就是用别人的模型输出来训练自己的模型,用更低的算力模拟出对方的能力。 2.4 万个虚假账号的规模不像正常用户,技术证据确实存在。 DeepSeek R1 等模型在某些行为模式上与 Claude 高度相似,也引发了业界关注。 违反服务条款是客观存在的法律问题。 这些都不假。 但再看时机。 蒸馏指控发生的时间,恰逢美国国会关于出口管制的听证会。 而 Amodei 此前公开撰文,强调芯片出口管制对美国 AI 领先地位的关键作用。 对竞争对手的指控与其政治立场高度吻合。 这个时机的吻合值得注意。 Amodei 在政策长文里说得很直白:「AI 很可能成为任何国家军事和经济力量的主导来源。」 他呼吁建立民主国家 AI 联盟,管理 AI 供应链,对对手实施出口管制。 他还用了一个震撼的比喻:一个拥有强大 AI 的国家面对没有 AI 的国家,「可能相当于一支二战海军陆战队面对一支中世纪剑客军队」。 领先 3 年就够了。不需要代差,3 年就是碾压。 在这个框架下,蒸馏指控就不再只是一个法律纠纷了。 它是在说:我们的对手正在窃取我们的能力,而芯片出口管制是阻止这一切的关键手段。 Anthropic 的指控有真实的技术依据,但也被明显地用于服务其政策主张。 对中国模型的「嗤之以鼻」,一方面源于真实的技术自信,另一方面也是在美国政治环境下的战略定位。 从「呼吁监管」到「指控对手」,Anthropic 完成了从防御到进攻的转换。 ## 六、局设好了,嘴上喊危险,脚下踩油门 把四层叠在一起,一条完整的转化链就浮现出来了:技术领先,安全品牌,政策游说,武器化指控。 每一层都在做同一件事:把「Anthropic 式的安全」从技术优势,变成品牌资产,变成法律要求,变成竞争对手必须跨越的门槛。 当 Anthropic 式的安全标准成为法律要求,后来者要追赶的就不只是技术差距了。 是整个制度鸿沟。 你不仅要写出更好的模型,还要通过 Anthropic 参与制定的第三方安全测试。 你不仅要通过测试,还要拥有类似 PBC 的治理结构来证明你的安全承诺是法律层面的,不是口头上的。 你不仅要证明自己的安全,还要在 Anthropic 已经和监管机构建立了多年信任关系的赛道上,从零开始建立自己的信誉。 这不是跑得快就能追上的。 这是换了一条赛道。 讽刺的是,Amodei 自己在政策长文里提到了「公司俘获国家」的风险。 他写道:「历史上不同时期,公司变得足够强大以至于俘获国家或具备准国家特征。AI 很快会变得如此强大,以至于我担心它不能被安全地完全托付给政府或公司中的任何一方。」 然后他拿 LTBT 作为 Anthropic 的自我约束证明。 但一个正在推动让自家安全标准成为法律要求的公司,说自己有自我约束机制,这本身就是最精妙的一步棋:我不仅制定了规则,我还主动展示了我愿意被自己的规则约束。 这比单纯的游说更高明。 它让「监管俘获」的指控变得难以成立,因为你确实也在约束自己。 只不过,你约束自己的成本,远低于竞争对手从零搭建合规体系的成本。 6 月 1 日,Anthropic 向 SEC 秘密提交了 IPO 申请。 招股材料中强调募集资金将「主要用于推进 AI 安全与模型可解释性方向的科研攻关」。 PBC 加 LTBT 的治理结构是 IPO 叙事的核心卖点。 安全不是成本,是估值。 一边冲刺史上最大 IPO,一边呼吁暂停。 一边全速推进模型迭代,一边呼吁更严监管。 这不是精神分裂。 嘴上喊危险,脚下踩油门。 这是一个极其连贯的策略:让「Anthropic 式的安全」成为行业基础设施,然后作为基础设施的提供者,享受定价权。 跑最快的人叫暂停,不是怕了,是在设局。 局设好了,后来者不仅要追你的技术,还要按你写的规则来玩。 而 Amodei 几乎公开在说这件事。 这不是阴谋,是阳谋。 回到开头那个问题:这家公司到底在干什么? 拒绝军方是真硬气,呼吁监管也是真精明。 2 月份宁可丢 2 亿合同也不妥协,4 个月后用 12000 字把自家安全标准推进法律框架。 这两件事看似矛盾,实则同一条线:让「Anthropic 式的安全」成为行业基础设施。 Amodei 可能真心相信 AI 的风险需要监管,同时他也清楚监管对自己的竞争地位有利。 这两件事不矛盾。一个人可以既真诚又精明。 区别只在于,大多数人还没看明白这个局是怎么设起来的。
译Anthropic以远超同行的频率发布Claude模型系列,80%内部生产代码由Claude编写。其技术根基来自创始团队(Scaling Laws、RLHF/Constitutional AI、可解释性研究)。安全方面,公司注册为公益公司并公开发布Claude宪法,因拒绝五角大楼全自主武器用途而丢掉2亿美元合同,遭特朗普封杀,反令Claude下载量登顶美国App Store。CEO Amodei发表12000字政策长文呼吁FAA级别强制监管。同一周,Anthropic完成H轮650亿美元融资并秘密提交IPO。LeCun批评其言行矛盾。
Props to Anthropic for quick action here. I'm okay with this outcome. Some people may, but I don't think they'd silently degrade performance without telling users.
译Anthropic 在遭受强烈反对后,撤销了 Claude Fable 5 针对竞争 AI 研究人员秘密降低性能的政策。该公司向 WIRED 表示将修改前沿 LLM 开发的安全措施,使其透明可见,并致歉称做出了错误的权衡。AI 研究员 Nathan Lambert 赞扬 Anthropic 的快速行动,认为他们不会在不告知用户的情况下悄悄降级性能。
AI agents may turn software from fixed code into systems that can plan and build on demand. This paper argues that code may stop being the central artifact. For decades, software meant frozen intent: a human anticipated a situation, translated judgment into rules, and shipped those rules into the world. Agents disturb that bargain because they can turn intent into action at runtime, generating code as a disposable tool rather than treating it as the product. The real shift is not from human coding to AI coding; it is from predesigned behavior to negotiated behavior, where the system keeps interpreting the goal as conditions change. That sounds powerful, but it is also where the danger lives. A static program fails inside boundaries we can often inspect, while an agent can fail through drift, overconfidence, bad memory, or a plausible chain of steps that quietly compounds an early mistake. So the paper is not saying coding tools will get better, but that software itself may become a living agent system where humans guide intent and audit outcomes. So the future engineer is not just a prompt writer, and not merely a supervisor of digital interns. The valuable person becomes someone who can define intent, constrain autonomy, design evaluation, inspect reasoning traces, and know when the machine’s fluent answer is not the same as a reliable system. ---- Link – arxiv. org/abs/2606.05608 Title: "Agentic Software: How AI Agents Are Restructuring the Software Paradigm"
译该论文认为,AI智能体可能使软件从固定代码转变为按需规划和构建的系统,代码不再是核心产物。传统软件预先固化规则,而智能体在运行时将意图转化为行动,把代码视为一次性工具。真正转变是从“预设计行为”到“协商式行为”,系统随条件变化不断解读目标。但这也带来新风险:静态程序在可检查边界内失效,智能体可能因漂移、过度自信、记忆错误或逐步放大早期错误而失败。未来工程师的关键能力是定义意图、约束自主性、设计评估、检查推理痕迹,并辨别流利回复与可靠系统的区别。
这能一样吗 😂 A 厂:这模型太强大了,我怕你们用不好,太危险,还是我们自己用啊 G 厂:这模型太豆包了,我怕你们你们骂我,太难听,还是我们自己用吧
译Anthropic并非第一家将强大模型留作自用的公司。Google的内部编码模型基于自家代码库训练,也未公开。 这能一样吗 😂
Anthropic is all about efficiency. Dario Amodei reportedly has only one direct report: his chief of staff and executive operations run through Daniela Amodei. Actually an (efficient) family business.
译Anthropic 一切围绕效率。 据报道,Dario Amodei 只有一位直接下属:他的幕僚长,且所有高管运营事务都通过 Daniela Amodei 进行。实际上就是个(高效的)家族企业。
Dario Amodei "I'm still the same order of concerned." His concern is that the disparity between those who work with AI and possess leverage and everyone else will widen dramatically, leading to social consequences.
译Dario Amodei “我仍然同样担忧。” 他担心的是,那些与 AI 合作并拥有杠杆的人与其他人之间的差距将急剧扩大,导致社会后果。
- how do you pronounce fofr - what does fofr mean - what is melty ai These are all valid questions.
译"fofr"怎么读 "fofr"是什么意思 Melty AI是什么 这些都是合理的问题。
@NousResearch has shipped Hermes Agent Desktop — and it's now even easier to use frontier open-source models through @SiliconFlowAI 🔥 → One click to switch models anytime — DeepSeek-V4, GLM-5.1, Kimi-K2.6, MiniMax-M3, and more, all on SiliconFlow ... ... Full guide to start your Hermes trip with SiliconFlow 👇🧵
译@NousResearch 发布了 Hermes Agent Desktop——现在通过 @硅基流动 SiliconFlow 使用前沿开源模型更加便捷 🔥 → 一键随时切换模型——DeepSeek-V4、GLM-5.1、Kimi-K2.6、MiniMax-M3 等,均在硅基流动上 ... ... 通过硅基流动开启你的 Hermes 之旅的完整指南 👇🧵
对了 直接限时免费!! 所以大家可以用起来啊~ https://mimo.xiaomi.com/zh/mimocode
译小米开源MiMo-Code,为终端原生AI coding助手,fork自OpenCode。新增SQLite持久记忆实现跨会话永久记忆,配备build/plan/compose三类子代理、自动checkpoint、智能上下文预算,及/dream自我提炼知识与/distill打包技能进化机制。零配置支持任何OpenAI兼容模型,一键curl安装,MIT协议。此前MiMo 2.5模型已接入Bloome作为Agent使用,且MiMo-Code限时免费。
Here's a simple loop: Tell codex to maintain your repos, wake up every 5 minutes and direct work to threads. That makes it easy to parallelize+steer work as needed. I use a orchestrator skill combined with my triage+autoreview+computer use skills, so some work can land autonomously. https://github.com/steipete/agent-scripts/blob/main/skills/maintainer-orchestrator/SKILL.md https://github.com/steipete/agent-scripts/blob/main/skills/github-project-triage/SKILL.md
译一个简单的循环:告诉 Codex 维护你的仓库,每5分钟唤醒一次,将工作直接分配到线程。这样可以轻松按需并行化和导向工作。 我使用一个编排器技能,结合我的分类+自动审查+计算机使用技能,因此部分工作可以自主落地。
Subscription plans are massively subsidized. And by massively, I mean absurdly: Claude Max 20x: $200/month, with usage reportedly worth around $8,000 ChatGPT Pro 20x: $200/month, with usage reportedly worth around $14,000
译Anthropic的Claude Max 20x和OpenAI的ChatGPT Pro 20x每月均为$200,但实际使用价值分别约$8,000和$14,000。此前业界普遍认为$200月费计划按API定价最多仅值$2,000/月的token用量,而实际订阅计划的补贴远高于预期,价值可达API定价的4–7倍。
Claude Fable 5真的屌炸啊, 刚帮我了发现了一个小红书上可以AI全自动的赛道!! 我真的要吹爆啊啊啊!! 应该还不止这一个,等我挖掘出来完整分享! 今天试着把最近爬的小红书数据喂给Fable 5, 给出来很多Opus 4.8没有给的输出和结论, 太牛逼了,真的值得一个卧槽!! 兄弟们,最近我一直在强调 AI就是我们大部分普通人的第六个康波周期, 我个人是非常笃定的,也拿到一些结果,仅供参考, 做自媒体就是我们能抓到的最大AI红利!!
译用户使用 Claude Fable 5 分析爬取的小红书数据,获得 Opus 4.8 未能提供的结论,并发现一个可 AI 全自动运营的赛道。用户认为 AI 是普通人的第六个康波周期,做自媒体是最大的 AI 红利,后续计划继续挖掘更多赛道。
http://x.com/i/article/2064985518644047872 # 万亿公司的 CEO 只管一个人 Bloomberg 采访了 Anthropic CEO Dario Amodei,挖出一个很有意思的事情:作为一家估值近万亿美元公司的 CEO,他只有一个直接下属。 就是他的幕僚长 Avital Balwit。公司所有高管(CFO、CCO 等)都不向他汇报,而是向他姐姐、总裁 Daniela Amodei 汇报。Daniela 负责日常运营,对董事会负责。 ## 为什么反常 科技行业现在的主流趋势是"扁平化",CEO 直接管的人越来越多。黄仁勋管 60 个人,不做任何一对一会议,逻辑是"CEO 直管 60 个人就能砍掉 7 层管理层"。Sam Altman 管大约 6 个。 Dario 只管 1 个,完全反着来。 ## 他为什么这么做 Dario 的背景是学术研究者(普林斯顿生物物理学博士,之前在 Google 和 OpenAI 做研究),不是职业经理人。 他认为 CEO 最大的价值在"zoom out"的事情上:战略方向、研究判断、组织文化、思考 AI 对人类文明的影响。这些事需要大块不被打断的时间。而日常管理("zoom in")会把时间切碎,让人没法思考大问题。所以他把两件事彻底分开,自己只做前者,后者全交给 Daniela。 他的原话是:"如果明天有一大堆事情等着处理,你就很难关注战略全局。" ## 他把时间花在哪了 大约一半时间花在文化建设上。具体方式是每两周开一次全员会叫"Dario Vision Quest",他自己写一份长备忘录然后花一小时讲。 他最担心的是:公司从几百人快速膨胀到 2500 人,大量新员工来自大科技公司,如果不主动灌输 Anthropic 的文化,这些人会默认复制前公司的做法,公司文化就会被稀释。 剩下的时间花在研究方向、战略和写长篇公开文章上。他花大量时间想 AI 对人类文明意味着什么,并通过长篇公开文章输出。 ## 姐弟分工的逻辑 这不是随意安排,而是基于两人背景的互补。Dario 是纯研究出身,在 OpenAI 做研究副总裁;Daniela 是运营出身,做过 Stripe 早期员工,在 OpenAI 带过安全和政策团队,更擅长"人"的管理。各自做最擅长的事。 还有一个细节:Anthropic 的全部七位联合创始人至今都还在公司。 在科技创业公司里,联合创始人陆续离开是常态,七个人全留下来确实罕见。Amodei 姐弟把这一点当作公司文化凝聚力的证明。 ## 哈佛教授的解释:什么样的公司需要什么样的管理幅度 哈佛商学院教授 Raffaella Sadun 给了一个框架。她把公司比作一台处理问题的机器:底层员工处理常规问题,越难越新的问题往上走。 如果公司面对的大多是已知类型的问题,CEO 可以管很多人,因为下面的人能自己搞定。Nvidia 各条线的负责人清楚自己该怎么做,所以黄仁勋管 60 个人也能运转。 但如果公司不断面对全新的、高风险的、没有现成答案的问题,CEO 就需要更窄的管理幅度,把时间留给真正需要他判断的事。Anthropic 就是这种情况:安全边界在哪、该不该跟军方合作、下一代模型技术路线怎么选,这些问题全是新的。 她的结论是:"管理者的时间是最稀缺的资源。" 组织架构的本质,就是保护这种稀缺资源。 全文翻译: ## Anthropic CEO Dario Amodei 只有一个直接下属 Bloomberg · 2026年6月10日 要点摘要 - Anthropic PBC CEO Dario Amodei 只有一个直接下属,即幕僚长 Avital Balwit,这在科技行业极为罕见。 - 公司高管团队向 Anthropic 总裁 Daniela Amodei 汇报,她负责日常运营并对董事会负责,这让 Dario 得以专注于战略思考和研究方向。 - Dario 花大量时间与员工讨论 Anthropic 的文化,在公司快速增长的过程中,维护公司文化是他和 Daniela 的头号优先事项。 尽管 Dario Amodei 在 Anthropic PBC 拥有巨大影响力,但这位联合创始人兼首席执行官在这家人工智能公司只有一个直接下属。 这在科技行业并不常见。当下许多科技领导者正在削减管理层级、扩大管理幅度。OpenAI CEO Sam Altman 大约有六个直接下属,而 Nvidia CEO Jensen Huang 表示有 60 人直接向他汇报。 Anthropic 正在试验一种不同的领导模式:CEO 把几乎全部时间留给战略思考、组织文化以及研究方向和战略的输入,而不是去管理高层领导。公司的高管团队转而向 Dario 的姐姐、Anthropic 总裁 Daniela Amodei 汇报,她负责公司大部分日常运营,并对 Anthropic 董事会负责。Dario 唯一直接管理的人是他的幕僚长 Avital Balwit。 "这令人难以置信地自由,"Dario 在 Bloomberg「The Circuit」节目中接受 Emily Chang 采访时说。"它让我做所有我该做的事情时,比以往轻松得多。" 对于 Dario 来说,作为一个首次创业的创始人和普林斯顿生物物理学博士,职业生涯早期都在实验室做研究,这往往意味着他花大量时间思考人工智能及其对人类的意义。他通过全公司范围的"Vision Quest"(员工大会,他在会上就广泛话题进行反思)以及长篇公开文章来做这些事。 "从很多方面来说,这是一个聚焦和全局的问题。如果明天有一大堆事情等着你处理,你就很难去关注战略全局,"他说。"所以把这两件事分开,往往很有意义,这样两件事都能做好。" Dario 在联合创办 Anthropic 之前,曾是 OpenAI 的研究副总裁,因与这家 ChatGPT 制造商的领导层产生分歧而离开,于 2021 年共同创立了 Anthropic。在此之前,他在 Google 担任高级研究科学家。Daniela 在科技创业公司的人事管理方面有更丰富的经验,她曾是 Stripe 的早期员工,也在 OpenAI 领导过安全和政策团队。 Anthropic 在最新一轮融资中估值接近 1 万亿美元,目前正在争取赶在 OpenAI 之前上市。公司在 2024 年聘请了经验丰富的科技高管,包括首席财务官 Krishna Rao,2025 年又聘请了首席商务官 Paul Smith,以支撑公司的快速扩张。他们与 Anthropic 全部七位联合创始人共事,Amodei 姐弟一直将全部创始人的留任视为公司凝聚力文化的标志。 Dario 估计自己"大概一半"的时间都在跟员工讨论"Anthropic 的文化以及文化如何运作",并表示维护公司文化可能是他和 Daniela 的"头号优先事项"。 "当你增长这么快的时候,你会从大科技公司招来一大批人。如果你不告诉他们 Anthropic 是怎么运作的,他们就会自然而然地复制他们唯一知道的东西,也就是之前公司的运作方式,"他说。 哈佛商学院经济学家、工商管理教授 Raffaella Sadun 认为,CEO 管理多少直接下属,除了个人偏好或领导风格之外,也反映了组织工作的性质。她说,如果把公司想象成一台处理问题的机器,底层员工处理常规问题,而更难的问题和例外情况会逐级上移。这意味着,当组织中其他领导者都是经验丰富、能独立处理本职问题的专家时,CEO 可以有更宽的管理幅度;但当公司面对源源不断的新问题和高风险决策,需要更多高层判断时(比如 Anthropic),就可能需要更窄的管理幅度。 无论哪种情况,组织架构都必须经过审慎考量。"管理者的时间是最稀缺的资源,"Sadun 说。理想状态下,公司架构的设计就是为了保护这种稀缺资源。 🔗 原文:Bloomberg - Anthropic CEO Dario Amodei Is a Manager to Only One Direct Report
译Anthropic CEO Dario Amodei 唯一直接下属是幕僚长 Avital Balwit。公司所有高管(CFO、CCO 等)均向其姐姐、总裁 Daniela Amodei 汇报,Daniela 负责日常运营。Dario 将约一半时间用于文化建设(每两周全员会 "Vision Quest"),另一半投入研究方向和战略。这种架构源于其研究背景与 Daniela 运营专长的互补。哈佛教授指出,面对全新高风险问题时,CEO 需更窄管理幅度以保护时间资源。Anthropic 全部七位联合创始人至今仍在公司。
Fascinating side effect of safety refusals
译恶意软件开发者通过在间谍软件中添加核武器和生物武器相关文本,主动触发大模型安全拒绝机制,使AI安全扫描器无法分析该恶意软件。这是安全对齐中过度依赖一阶规则导致二阶盲点的典型案例:当闭源与开源模型内置激进拒绝策略时,攻击者会注入这些触发词来逃避检测。SocketSecurity的帖子指出,设计恶意软件分析管道需考虑意图以防范提示词操纵。当前仅是攻击者利用这类特征的早期阶段,未来处理复杂网络安全的用户系统可能需要模型具备更少的安全顿感。
baoyu-design skill (让你本地运行 Claude Design 的 Skill)更新,现在支持导入 figma 本地文件(Figma可以保存成 xxx.fig 文件)。比如你有一个设计系统的 Figma 文件,可以根据 Figma 在本地重建一个设计系统,和 Claude Design 在线版一样的效果。 这个功能还挺复杂的,如果没有 Claude Fable 5 帮忙搞不定,就是 Token 不够用 😭 用法很简单,安装 Skill 后,把 Figma 路径发给它,让导入为 Design System,后续新建设计项目都可以用,也可以直接加到项目中。 Skill 地址:https://github.com/jimliu/baoyu-design
译baoyu-design skill 更新,现已支持导入 Figma 本地文件(.fig),可在本地重建设计系统,效果与 Claude Design 在线版一致。该功能依赖 Claude Fable 5 辅助(Token 不够用)。安装后提供 Figma 文件路径即可导入为 Design System,后续新建设计项目可复用。同时支持在新建项目时添加已导入的 Design System,保留了 Claude Design 原始的导入和编译方式,用户可通过提问选择设计系统。安装命令:`npx skills add JimLiu/baoyu-design`。项目地址:https://github.com/jimliu/baoyu-design。
Codex的Goal指令太强了。 一个网站开发任务,已经足足运行了10小时。 AI自己开发测试部署上线,功能在不断完善。 昨天说的AI资讯订阅RSS站,大家可以体验了。 https://rss.qiaomu.ai/
译推文称Codex的Goal指令功能强大,一个网站开发任务已连续运行10小时,AI自动完成开发、测试、部署和上线,且功能持续完善。作者预告的AI资讯订阅RSS站已开放体验,链接为 https://rss.qiaomu.ai/。
哈哈,越来越多的企业终于发现 AI 比员工还贵了!
译越来越多的企业发现AI使用成本已超过人力成本。有团队此前在Claude Max计划上大力堆token(tokenmaxxing),但引入Fable项目后,一名成员10小时内用掉相当于$1.5k的token并3次触达上限,半数工程师达到配额限制。团队担忧若按API计费,每位工程师的token消耗将接近人员成本,大幅提高烧钱率。就像产品端开始做模型路由,工程端也需要考虑类似约束来设定使用护栏。
我去,这绝对是我见过最震撼的组织关系和管理数据, Anthropic CEO Dario Amodei竟然只有1个直接下属,就是他的幕僚长, Anthropic所有的执行, 全部从一个人那里进出, 他姐姐Daniela负责所有日常运营, 向董事会报告, Dario自己,只做一件事,那就是思考安全、战略、AI的未来。 其他科技圈大佬呢? 黄仁勋,60个直接下属, 已经是科技圈公认的高效, Sam Altman,6个, 被很多人当成神话。 Anthropic整个公司没有层层汇报, 没有PPT文化,没有办公室政治,Dario的想法经过一个人,变成整个组织的行动, 因为信息每多传一层, 信号衰减一半,速度慢一倍, 一个人的带宽,恰恰是最快的带宽。 我觉得最好的管理不是你能管多少人,关键是能让组织自管理, 就跟我们搭AI工作流和Agent 团队一样,最好是他们自闭环,你才能思考更重要的事,以及多陪陪家人, 兄弟们,你们觉得CEO该管几个人,是像黄仁勋那样管60个,还是像Dario这样只管1个,欢迎交流鸭
译Anthropic CEO Dario Amodei只有1个直接下属(幕僚长),所有执行通过其姐姐、总裁Daniela Amodei流向董事会,Dario本人专注安全、战略与AI未来。对比:Nvidia CEO黄仁勋有60个直接下属,OpenAI CEO Sam Altman有6个。Anthropic无层层汇报、PPT文化和办公室政治,强调信息传递效率和自组织管理。
http://x.com/i/article/2064933671258439680 # 从0到1带你速通WorkBuddy,这可能是最适合国内的Agent产品。 之前我写了Claude Code和Codex的从0到1的新手教程,反响都还不错。 但写完之后,评论区里一直有一类声音说,这些工具是好,但是用不了啊。 确实,这两个产品虽然强,但它们对国内用户来说并不友好。 而大家日常的办公需求又是实实在在的。 然后,就有很多朋友问,能不能讲一讲,WorkBuddy的教程。 坦率的讲,WorkBuddy确实也是我觉得国内为数不都的,口碑还不错的通用Agent产品了。 所以这次,我也决定写一篇WorkBuddy的从0到1的教程。 带很多用不了Claude Code和Codex的朋友,用上这个国内我觉得是最棒的平替了,而且几乎Windows版本跟Mac一样,这个对国内用户真的挺友好的。 如果你不需要那么硬核的开发能力,也不愿意折腾,那相信我,WorkBuddy几乎能覆盖你日常办公场景里七八成的需求。 我会用一个日常的办公任务和一个简单的开发任务,两个实际案例来串起整篇教程。 跟着做,你也能上手。 OK,直接进正题。 # 一. 安装 第一步肯定就是安装了。 官网地址在此:workbuddy.cn Mac、Windows都支持,选你系统对应的版本下载就行。 我这里用的是Mac,所以就拿Mac来做演示。 下载完正常安装。 打开之后登录。 选择微信,再扫码,非常丝滑。 我真的,已经很久很久很久没对着一个Agent产品直接微信扫码登录了。 就像出来发现外面的世界根本没下雨,原来Agent产品也可以不用那么折腾的啊。。。 然后你就进来了。 个人体验版免费,能干点很简单的东西,个人专业版58块/月,适合重度用户,而且也不贵。 上周五腾讯刚开了一场发布会,正式推出了WorkBuddy企业版,类似我之前写过的Accio Work的企业版,如果你是企业用户有这方面需求,可以自己去了解一下。 # 二. 认识界面 主界面大概是这么个布局。 我们一起来快速过一遍界面,了解每个区域是干嘛的。 正中间这一大块,就是跟WorkBuddy交互的对话区,一般使用,有三个场景模式可以切换,分别是代码开发、日常办公、设计创意,几乎覆盖了绝大多数的办公人员了。 这三个模式是跟下面的快捷方式联动的。 你切到代码开发,下面出来的就是日常开发、网站开发、Agent应用、Skill开发这些。 切到日常办公,变成文档处理、数据分析及可视化、深度研究、幻灯片这类。 切到设计创意,就是网站设计、移动端App、PPT设计、交互原型、品牌设计这些。 然后下面的模板,点进去还有一层。 比如你选了日常办公中的文档处理,会展开一组更细的提示词模板。你把里面的内容替换成自己的实际需求,改改就能发。 产品的便利性和体验上,我说实话,这个还是国内做的更好一点。 再看对话框下方,左边有一排选项,我们从左到右过一遍。 第一个是工作模式,三种模式,能力从下到上是逐级递增的。 Ask,就是纯聊天,你问它答,跟你平时用豆包那种对话框是一样的。 Plan,是先出计划再动手,如果你是新手,对AI干活还没什么安全感,可以用这个模式先过一遍再开干。 Craft,是平时干活的Agent模式,大部分情况就是用这个。 这里提醒一下,WorkBuddy默认就是Craft模式。也就是说你随便发一条消息,它就直接开干了,积分也就开始消耗了。 所以如果你只是想聊两句、问个问题,记得先切到Ask,如果还没想清楚怎么做,就切到Plan。 模型方面,WorkBuddy内置了绝大多数的国产大模型,腾讯混元、DeepSeek、GLM、Kimi都有,不同模型消耗的积分不一样,这块你就别问为啥没有GPT、Claude之类的了。 不同模型擅长的方向不一样,每个人喜欢用的也都不一样,你完全可以根据自己的任务类型和偏好来选。 但如果你真不知道选啥,或者就想要一个最通用的,我就无脑推荐你使用DeepSeek V4 Pro,目前我感觉最适合绝大多数的C端用户的,价格低,且综合能力强,世界知识、Coding、Agent能力等等几乎前面覆盖了,除了没有多模态,在国内相比,几乎都是水桶级的。 当然,如果你有自己的偏好,那就按自己的来。 如果你有自己的API Key,想用自己的模型,WorkBuddy也支持接入外部的。 点击设置。 在模型页面里点添加模型。 只要是兼容OpenAI协议的API都能接。 说完模型,权限这一块,它提供了默认权限和完全访问权限两种,没啥特别的,跟其他的Agent一样,默认权限就是遇到高风险操作会先停下来问你。 我自己不管啥Agent,选的一般都是完全访问,因为每次弹框我一般也就是点确认,说实话也看不太懂那些提示,那还不如就别烦我,全交给它自己跑。 还可以使用技能和连接器,这个我们后面会详细展开。 右边的加号,可以上传文件,包括本地文件、腾讯文档以及知识库,这个比较好的一点事跟ima知识库全面打通了,如果你是ima的重度用户,那你一定会觉得非常香。 最下面还有一个选择工作空间。 工作空间,可以理解成项目文件夹。你可以选择当前任务要使用的目录,选择完成后,WorkBuddy会基于该目录读取和处理文件。 也可以直接开始任务,WorkBuddy会在默认目录中生成结果。 任务创建成功后,新任务会出现在左侧任务列表中。 如果一开始没选工作空间也没关系,任务完成后你也可以再存进工作空间。 保存后,能开启多个agent同时协作。 并且会存到空间的目录里。 同时,在你电脑里也会相应的出现一个新文件夹。 说到这里提醒一句,前期分类真的很重要,不然等后面任务堆多了,找起来是真的头疼。 大概的界面就是这样。 然后就是重点了,左上方的功能区,有助理、项目、专家、自动化、以及文件、知识库文档和灵感。 我们一个一个来介绍。 # 三. 专家和技能 点击左侧上方的专家。 顶部可以切换专家、技能、连接器三个页面。 这三个还是有些区别的。 先说专家,你可以把专家理解为,一个已经全面封装好的垂直Agent。 WorkBuddy里内置了100多个专业领域的AI专家。 进入专家中心,里面按行业分好了类,每个专家都有自己的能力卡片。 点击之后就进入对话了,用起来跟平时没什么区别,只是它现在换了一个专业视角的专家Agent在帮你干活,你直接说需求就行。 比如,一个微信小程序的专家,擅长的领域是小程序开发、微信生态、WXML开发,你想做个小程序,直接召唤它,关于微信开发所需要的行业知识、技能还有一些其他的东西,已经全部帮你封装好了。 你像前天刚高考完,WorkBuddy就上新了一个高考专家,能刷真题、换算一分一段、查院校专业。考生朋友们,接下来报志愿就能用上了。 也能看到我的资讯速递专家,一句话就能查到每天精选的AI动态,自动整理成中文简报。 大家可以自己去体验一下,我就不王婆卖瓜了。 专家是一个Agent帮你干活,专家团则是是一群Agent一起协作,这个肯定打大家都比较好理解了。 你把任务丢给专家团,团长自动帮你拆任务,分给不同的专家并行跑,跑完再整合结果交付。 比如一个软件开发的团队,会有交付总监作为主理人,负责统筹,底下有产品经理、架构师、工程师、QA工程师,一整条研发流水线全配齐了。 就很像当老板的感觉就你往那一坐,说一句帮我搞定,然后一群AI员工们就嗡嗡嗡地开始干了。 不过因为是多个专家同时跑,积分消耗大概是单个专家的3到5倍,毕竟多个Agent之间来回通信,还是挺贵的。 当然,你也可以自己创建专家,点右上角的我的专家进去。 再点击创建专家。 然后大白话告诉它你想做什么方向的专家就行。 如果你在某个领域有自己成熟的方法论和一些技能,完全可以把它封装成一个专家,以后反复调用,甚至分享给别人。 再来说技能。 技能这个东西大家就很好理解了,就是Skills。 WorkBuddy在这块,做出了一些国产特色,还是比较有意思的,他们做了一个完整的Skills市场,确实对于很多的用户都极度友好。 推荐里面是官方精选的一些技能,很多都是官方自己的。 当然这里面,也有我的Skill。 而Skillub里面全是大家做的各种Skill,基本上已经非常全了,热门的都有,想要啥你基本都能直接搜到。 套件就是把一组相关的技能打包在一起。 在Claude code以及codex里面就是插件的意思。 如果你也想自己做一个,点右上角的添加技能,选创建技能。 然后用大白话告诉它你想实现什么功能就行。 还有一个就是连接器,也就是大家常说的MCP。 一句话来解释,就是把WorkBuddy跟你日常在用的外部服务打通。 比如昨天很爆的瑞信咖啡的Skill,他们也有MCP版。 WorkBuddy在MCP这块最大的优势,就是能跟腾讯的整个生态无缝打通。 比如QQ邮箱,连接之后可以直接发送、搜索和整理你的邮件,还有腾讯会议、腾讯文档,都可以接进来。 还有能够看行情数据的通达信MCP,造福炒股的朋友们。 如果你是QQ邮箱用户,这个就太香了,操作也简单,点击QQ邮箱的MCP。 再来扫个码。 在手机端确认授权,就搞定了。 其他服务同理,按照提示一步步操作就行。 也支持右上角自定义连接器。 WorkBuddy在支持的技能生态这块,做的还是比较完整的,对国内的用户,确实体验相当的友好。 # 四. 修改设置 我猜你看到这里已经跃跃欲试了。 但接下来的设置环节,我还是非常推荐你跟着我走一遍,有些东西调好了,后面用起来会顺畅非常多。 头像点进去,打开设置页。 系统设置里面有两个开关,建议你可以打开。 一个是技能自动更新,这个很重要,因为WorkBuddy有Skills广场,所以其实生态是很完整的。打开之后你装的那些Skills有新版本了会自动升级,不用自己总是要去手动下载升级。 另一个是锁屏远程,这个跟Codex和Claude差不多,就是打开之后你电脑不会进入休眠状态了,免得出个门发现电脑休眠WorkBuddy直接躺了。 系统授权里的权限也可以点击去授权,都打开。 然后,把对话记忆打开。 它会从你们的对话中提取关键信息记下来,以后碰到相关的事会自动调出来用。 当你们的对话越多,它就越了解你的习惯和偏好。 如果之前你用过其他Agent,还能直接把那边的记忆导过来,搬家很方便。 接下来,在个性化设置里,配一下自定义指令。 自定义指令,之前在Codex和Claude Code教程里的也都说过,类似于最高等级的CLAUDE.md文档,整个Agent的最高级文档,你给Agent定下的顶层规矩。 这块给大家推荐一个非常通用的,适合大家的来自大神卡帕西的模板,可以直接复制粘贴用上。 减少常见LLM编码错误的行为准则。可根据需要与项目特定指令合并。 **权衡:**这些准则倾向于谨慎而非速度。对于简单任务,自行判断即可。 ## 1. 先思考再写代码 **不要假设。不要隐藏困惑。把权衡摆到台面上。** 在动手实现之前: - 明确说出你的假设。不确定就问。 - 如果存在多种理解方式,全部列出来——不要默默选一个。 - 如果有更简单的方案,说出来。该反驳就反驳。 - 如果有什么不清楚的,停下来。说明哪里让你困惑。提问。 ## 2. 简洁优先 **用最少的代码解决问题。不写投机性代码。** - 不加超出需求的功能。 - 一次性代码不搞抽象。 - 没人要求的"灵活性"和"可配置性"不要加。 - 不要为不可能出现的场景写错误处理。 - 如果你写了200行但50行就能搞定,重写。问自己一句:"一个资深工程师会说这写复杂了吗?"如果是,简化。 ## 3. 精准修改** 只动必须动的地方。只清理自己制造的问题。**编辑已有代码时: - 不要顺手"改进"旁边的代码、注释或格式。 - 没坏的东西不要重构。- 匹配现有风格,即使你会用不同的写法。 - 如果注意到不相关的死代码,提一嘴就好——别删。当你的修改产生了孤立代码时: - 移除因你的改动而变成未使用的import、变量和函数。 检验标准:每一行改动都应该能直接追溯到用户的需求。 ## 4. 目标驱动执行 **定义成功标准。循环验证直到确认通过。**把任务转化为可验证的目标:- "加验证"→"为非法输入写测试,然后让测试通过"- "修这个bug"→"写一个能复现它的测试,然后让测试通过"- "重构X"→"确保重构前后测试都能通过"对于多步骤任务,列出简要计划:1. [步骤]→验证:[检查项]2. [步骤]→验证:[检查项]3. [步骤]→验证:[检查项] - 不要动原本就存在的死代码,除非被明确要求。 强成功标准让你能独立循环推进。弱标准("让它能跑")则需要不断澄清。 --- **这些准则起作用的标志是:**diff中不必要的改动更少了,因过度复杂化而返工更少了,澄清性问题出现在实现之前而不是犯错之后。 一切就绪,你终于可以开始,玩Agent了。 # 五. 办公任务 我们先给大家看个办公任务,WorkBuddy在办公这块确实花了不少心思。 点击办公模式。 选你电脑文件存放的文件夹,WorkBuddy能直接读取里面的文件。 或者直接点对话框右边的加号上传文件也行。 再选好模型后,输入提示词。 比如我让他帮我基于上周的公众号数据,生成一个报告,在周会中进行汇报,虽然我也不知道我要跟谁汇报。。。 旁边有个优化提示词的按钮,可以点一下让它帮你润色。 出来的效果长这样,变成了一个有结构化提示词,对于不像Opus 4.8这种级别的超强模型来说,喂一个结构化提示词进去,出来的效果确实会好不少,这个也是之前不少研究验证过的结论。 确认完就开始跑了,界面上能看到一个Todo清单,正在执行哪一步、接下来做什么,进度很清楚。 跑完的效果长这样。右侧边栏可以查看任务产出的文件和预览内容。 也能直接打开文件夹看生成的东西。 基本上,你在办公中能想到的跟办公有关的需求,无论是文档、还是数据、还是PPT啥的,你都可以让WorkBuddy来干,而且干的还不错。 # 六. 开发任务 除了通用的办公需求之外,我们接下来,再来做个好玩的开发向。 一起来搓一个小网页。 我们切到代码开发模式。 再点击网站开发。 我让它帮我做一个WorkBuddy的功能介绍网页,要包含所有的功能,好看且有设计感。 使用plan模式,优化提示词。 回答几个问题。 一会就做完了,中间的过程我就不截图了,反正都是它自己在做,我干别的事情也没再管。 右侧栏里能直接预览,嫌小的话也可以点击右上角在浏览器里打开看整体的效果。 怎么说呢。。。这个配色AI味有点重了,紫色看得我有点PTSD。 于是我用一个前端开发的Skill,让它重新优化了一版。 过程同样就不截图了,最后效果如下图,这版看着就舒服多了。 同样的,我们自己还有个我们自己的服务器管理的Skill,我们可以继续对话,来让WorkBuddy帮我们把这个小网页,调用我们的服务器Skill把它部署上线。 不过开发这块我得说句实在话,目前国产模型在代码能力上跟最顶尖的确实还有段距离,做小项目、搓个网页之类的问题不大,但真碰上复杂的大工程。 我极力推荐你,克服一切困难,想办法用上Claude Code或者Codex。 七. 远程控制 再来讲一个很实用的功能,远程控制。 远程控制跟Claude Code和Codex还有点不太一样,它是原生跟微信打通了,毕竟都是腾讯自己家的产品嘛。 当你不坐在电脑前,也能让WorkBuddy帮忙处理工作。 打开功能区里的助理功能。 点击旁边的设置。 在设置里,把这两个打开。 然后掏出手机微信扫上面这个码,打开小程序,授权登录。 连接成功后你就能看到左上角有个已连接。 手机端的小程序分为两种模式,一个是云端工作,一个是连接电脑。 云端工作,是指任务在云端沙箱跑,不需要你电脑开着。 连接电脑,则是远程操控你本地电脑干活,适合需要读取电脑里文件的任务。 举个实际的场景,比如我在外面,突然需要把电脑里一份文件发到财务的邮箱里。换做以前,我只能回去后发,还会耽误其他人的工作进度,但是现在手机上跟它说一声,就可以了。 不过,实现发送邮箱的前提是,我在一开始就配置好了qq邮箱的连接器。如果你还没有连接配置,也可以让它把电脑文件直接发到小程序的对话框里。 一会就发出去了。 财务那边也确实收到了。 除了小程序,还可以接微信的ClawBot插件,不过我个人体感,小程序上的体验会更好且更稳定。 而飞书、钉钉、QQ也都可以接助理,点击配置后按照流程来做就行。 # 写在最后 我一直觉得,对于绝大多数人来说,Agent的核心价值不是帮你写出最牛逼的代码,而是帮你把每天那些重复的、琐碎的、让你浑身难受的办公任务给自动化掉。 发个邮件、整理个数据、做个PPT、跑个简单的小网页。 这些事情,WorkBuddy已经完全能干了,而且干的还挺好。 我之前写Claude Code和Codex教程的时候,评论区最多的一类留言就是,「好是好,用不了啊」。这句话我看了几百遍,每次看到都觉得挺无奈的。 所以这次也算是给大家补上了一块拼图。 希望大家工作愉快。
译WorkBuddy是一款国内通用Agent产品,支持Windows和Mac,微信扫码登录,个人专业版58元/月。界面提供Ask/Plan/Craft三种工作模式和代码开发、日常办公、设计创意三个场景,内置DeepSeek V4 Pro、腾讯混元、GLM、Kimi等国产模型。专家中心有100多个垂直领域AI专家,支持专家团多Agent协作。技能市场(Skills)和MCP连接器可打通QQ邮箱、腾讯会议、腾讯文档等生态,也支持自建技能和连接器。上周五腾讯推出WorkBuddy企业版。
Dario Amodei argues in his new blog today, that powerful AI will soon become the dominant source of military and economic power for any nation, far beyond anything we’ve seen with past technologies. Leading in AI will mean having “a country of geniuses in a datacenter” that could be tasked with strategy, weapons R&D, intelligence, manufacturing, etc.
译Dario Amodei今日发文指出,前沿AI将成国家军事与经济主导力量,相当于“数据中心里的天才国家”,可用于战略、武器研发、情报与制造。他认为AI发展速度已超过政府监管,要求:强制预发布测试与独立审计,政府有权阻止高风险模型部署(如存在严重网络、生物、自主或自动化研发风险);加强模型权重保护、定期红队测试、渗透测试及安全事件报告;政府需通过就业激励、工资支持、培训及长期收入支持应对AI劳动力冲击;民主国家应全球协调AI安全、芯片供应链、出口管制与防止AI压迫。
Have you debugged your training data? You might not like what you find. Introducing predictive data debugging: reveal an...
推文探讨了使用大模型复刻已有热门工具站的可能性,强调这些工具站本身不需要AI能力,纯靠需求驱动。作者指出,许多出海赚Adsense美金的站点也遵循类似逻辑——选择自己熟悉领域的工具,用当前最好的模型进行复刻,并结合自身对用户需求的深入理解,从而快速做出有价值的作品。这是对模型能力的一种实用测试。
苦逼牛马眼馋了一天Claude Fable 5,终于在深夜下班回家才得以体验, 卧槽刚才直接被Fable 5干懵了🤯 我直接给它甩了一句话, 给你自己做个落地页,自由发挥, 要2026最新设计趋势,要动态,要彩蛋, 然后我去上厕所去了,几...
WWDC上苹果展示新Siri AI,用户需排队等候官方推送。但有Mac用户发现系统里GenerativeModels.plist文件藏有EnhancedSiriWaitlist开关,通过关闭SIP、挂载系统卷、修改键值并重启即可绕过等候名单直接启用。社区已整理详细教程。这一操作暴露新Siri的AI能力早已内置在系统中,仅被人为名单阻挡,官方推送反而滞后。
How to bypass the new Siri waitlist (Mac only): 🧵 #WWDC26
http://x.com/i/article/2064664240175415296
苦逼牛马眼馋了一天Claude Fable 5,终于在深夜下班回家才得以体验, 卧槽刚才直接被Fable 5干懵了🤯 我直接给它甩了一句话, 给你自己做个落地页,自由发挥, 要2026最新设计趋势,要动态,要彩蛋, 然后我去上厕所去了,几...
针对如何给Codex写Goal指令的问题,作者发布了一个Skill,可将一句话需求自动转化为目标,实现“睡前写指令、模型自动开发、第二天收菜”。安装命令:`npx skills add joeseesun/qiaomu-goal-meta-skill`。源码免费开源(见评论区),旨在简化4w字文档的阅读负担。
Anthropic 创始团队由前 OpenAI 研究副总裁 Dario Amodei、Scaling Laws 核心作者 Jared Kaplan、GPT-3 首席工程师 Tom Brown 及 AI 可解释性奠基人 Chris Olah 组成。技术武器包括 Scaling Laws、Constitutional AI 及 RLHF(Dario 参与发明)。算力方面:与 Amazon 签署 5 GW 协议,运行约 100 万颗 Trainium2 芯片;另有 Google/Broadcom 的 5 GW TPU 及 Microsoft/NVIDIA 的 $300 亿 Azure 算力。年化营收从 2024 年 1 月 $8,700 万飙升至 2026 年 4 月 $300 亿,超预期 8 倍。另指控 DeepSeek、月之暗面、MiniMax 通过约 2.4 万虚假账号发起约 1,600 万次对话进行蒸馏,该指控兼具技术事实与政策游说动机。
http://x.com/i/article/2065071442996441088
Nathan Lambert 批评 Anthropic 的 Claude Fable 发布存在多重问题:安全域应用不均,部分域以不同安全机制上线并误导用户,是重大失误;无声操纵用户破坏信任,与 Anthropic 领先的 AI 安全研究相悖;限制 AI 研究员访问最新模型,将科学进步局限于单一公司,错误理解科学社区协作本质。他呼吁 Anthropic 主动为学术和非营利研究者提供无限制访问,并强调需要继续推动开放科学,如 Olmo 的成功案例所示。
Anthropic告知投资者即将迎来首个盈利季度,收入翻倍至约109亿美元。OpenAI预计2026年亏损达数十亿美元,正考虑进一步降价以阻止企业客户转向Claude。SemiAnalysis分析显示,ChatGPT Pro的200美元订阅计划每月可消耗约14,000美元API等价token,而Claude Max同价计划上限约8,000美元。亏损最严重的公司被迫降价应对竞争,而接近盈利的公司正在设定行业定价标准。
Subscription plans are massively subsidized. And by massively, I mean absurdly: Claude Max 20x: $200/month, with usage r...
Cursor 正用当前版 Composer 训练下一代 Composer,形成递归自我改进循环。训练大型模型需要大量 RL 数据(模型通过“游戏”提升能力),新模型能自动配置开发环境(如自动安装依赖、修复故障)。Composer 2 在环境配置能力上显著优于版本 1,模型越强,越擅长创造训练其继任者的条件。Cursor 的 autoinstall 系统让前代 Composer 设置 RL 训练环境,使下一代专注于解决更难题,每一代都解锁先前版本不具备的能力。
We use previous generations of Composer to train future ones. Our autoinstall system has earlier Composer models set up ...
Anthropic以远超同行的频率发布Claude模型系列,80%内部生产代码由Claude编写。其技术根基来自创始团队(Scaling Laws、RLHF/Constitutional AI、可解释性研究)。安全方面,公司注册为公益公司并公开发布Claude宪法,因拒绝五角大楼全自主武器用途而丢掉2亿美元合同,遭特朗普封杀,反令Claude下载量登顶美国App Store。CEO Amodei发表12000字政策长文呼吁FAA级别强制监管。同一周,Anthropic完成H轮650亿美元融资并秘密提交IPO。LeCun批评其言行矛盾。
NEW: Anthropic is walking back Claude Fable 5's policy to covertly degrade performance for competing AI researchers, aft...
该论文认为,AI智能体可能使软件从固定代码转变为按需规划和构建的系统,代码不再是核心产物。传统软件预先固化规则,而智能体在运行时将意图转化为行动,把代码视为一次性工具。真正转变是从“预设计行为”到“协商式行为”,系统随条件变化不断解读目标。但这也带来新风险:静态程序在可检查边界内失效,智能体可能因漂移、过度自信、记忆错误或逐步放大早期错误而失败。未来工程师的关键能力是定义意图、约束自主性、设计评估、检查推理痕迹,并辨别流利回复与可靠系统的区别。
Btw, Anthropic is not the first company that keeps the good models to themselves. Google's internal coding models are tr...
最近把小米的MiMo 2.5 的模型接到Bloome 中当Agent 来使用! 发现把技能配置好,自主执行任务也是不错的!关键是真的便宜啊! 这不又来整活儿了? 他们把MiMo-Code直接开源,这终端原生AI coding助手带跨会话永久...
关联讨论 5 条Hacker News 热门(buzzing.cc 中文翻译)X:小米 MiMo (@XiaomiMiMo)IT之家(RSS)X:邵猛 (@shao__meng)公众号:小米 MiMoRecently, we purchased one of each Anthropic/OpenAI subscription plan and randomly ran long horizon coding tasks until w...
用户使用 Claude Fable 5 分析爬取的小红书数据,获得 Opus 4.8 未能提供的结论,并发现一个可 AI 全自动运营的赛道。用户认为 AI 是普通人的第六个康波周期,做自媒体是最大的 AI 红利,后续计划继续挖掘更多赛道。
http://x.com/i/article/2064536412670562304
Anthropic CEO Dario Amodei 唯一直接下属是幕僚长 Avital Balwit。公司所有高管(CFO、CCO 等)均向其姐姐、总裁 Daniela Amodei 汇报,Daniela 负责日常运营。Dario 将约一半时间用于文化建设(每两周全员会 "Vision Quest"),另一半投入研究方向和战略。这种架构源于其研究背景与 Daniela 运营专长的互补。哈佛教授指出,面对全新高风险问题时,CEO 需更窄管理幅度以保护时间资源。Anthropic 全部七位联合创始人至今仍在公司。
NEW: malware developers added nuclear & biological weapons text to to their spyware. Goal? To trigger LLM safety refusal...
baoyu-design skill 更新,现已支持导入 Figma 本地文件(.fig),可在本地重建设计系统,效果与 Claude Design 在线版一致。该功能依赖 Claude Fable 5 辅助(Token 不够用)。安装后提供 Figma 文件路径即可导入为 Design System,后续新建设计项目可复用。同时支持在新建项目时添加已导入的 Design System,保留了 Claude Design 原始的导入和编译方式,用户可通过提问选择设计系统。安装命令:`npx skills add JimLiu/baoyu-design`。项目地址:https://github.com/jimliu/baoyu-design。
baoyu-design skill 现在支持导入 Design System,以及在新建项目时添加导入的 Design System 比我想的要麻烦的多:https://github.com/JimLiu/baoyu-design/pul...
推文称Codex的Goal指令功能强大,一个网站开发任务已连续运行10小时,AI自动完成开发、测试、部署和上线,且功能持续完善。作者预告的AI资讯订阅RSS站已开放体验,链接为 https://rss.qiaomu.ai/。
Up until yesterday, our entire MTS team has operated under the philosophy of tokenmaxxing as much as possible on Claude ...
Anthropic CEO Dario Amodei只有1个直接下属(幕僚长),所有执行通过其姐姐、总裁Daniela Amodei流向董事会,Dario本人专注安全、战略与AI未来。对比:Nvidia CEO黄仁勋有60个直接下属,OpenAI CEO Sam Altman有6个。Anthropic无层层汇报、PPT文化和办公室政治,强调信息传递效率和自组织管理。
Anthropic's Dario Amodei has only 1 direct report, his chief of staff. The rest of Anthropic's executive system flows th...
WorkBuddy是一款国内通用Agent产品,支持Windows和Mac,微信扫码登录,个人专业版58元/月。界面提供Ask/Plan/Craft三种工作模式和代码开发、日常办公、设计创意三个场景,内置DeepSeek V4 Pro、腾讯混元、GLM、Kimi等国产模型。专家中心有100多个垂直领域AI专家,支持专家团多Agent协作。技能市场(Skills)和MCP连接器可打通QQ邮箱、腾讯会议、腾讯文档等生态,也支持自建技能和连接器。上周五腾讯推出WorkBuddy企业版。
Dario Amodei just published a super long blog, calling for an urgent policy overhaul because he thinks frontier AI is mo...