AIHOT

全部动态X · 3989 条

全部一手资讯 X 论文

Berryxia.AI@berryxia · 3天前46

学完Harness后，Loop Engineering 又来了。还真是要了解这些背后的逻辑和底层的设计。不仅对于Vibe Coding 帮助大，更多的还是对于产品的架构设计都是不少的启发。这几天想些一篇文章和大家一起学习下，这下Smith 直接搞完了，可以看看不错！

译Berry Xia表示，学完Harness后接触Loop Engineering，认为理解其底层逻辑对Vibe Coding和产品架构设计帮助很大。他原计划写文章分享，但Smith（@smithandai）已发表相关文章，推荐阅读。

查看原推 ↗

Berryxia.AI@berryxia · 3天前52

所以说这模型怪癖太多～

译用户 @oran_ge 指出，Claude Fable 5 有三项奇葩限制：6月22日后 Token Plan 用户无法使用，仅限 API；安全护栏过严，连“线粒体是什么”都不能问；禁止用于模型研发，理由是该模型已能加速自身发展。作者批评这种“自己打通 Loop 却不许别人进”的闭环做法，呼吁国产开源模型加油。

查看原推 ↗

Ethan Mollick@emollick · 3天前27

Science fiction authors in the order you want them to be right about AI: Iain Banks Becky Chambers Martha Wells Douglas Adams Charles Stross (Singularity Sky) Peter Watts Charles Stross (Laundry) Harlan Ellison

译你希望其对 AI 预言成真的科幻作家，按顺序排列：伊恩·班克斯贝基·钱伯斯玛莎·威尔斯道格拉斯·亚当斯查尔斯·斯特罗斯（《奇点天空》）彼得·沃茨查尔斯·斯特罗斯（《洗衣房系列》）哈兰·埃里森

查看原推 ↗

歸藏(guizang.ai)@op7418 · 3天前49

试了一下，Fable 5 在漏洞分析、bug 寻找这些地方还是很强的。但是在写代码上，我感觉它也不是万能的，它写出来的代码也会有明显的 bug，需要多次修复才能完成。所以在这块，我觉得它可能是一个偏科比较严重的模型。在某些程度上它比 4.8 好了非常多，但在另一些方面，虽然也比 4.8 好，但好得有限。

译用户在 26 万行代码的 CodePilot 代码库中测试 Fable 5，发现其在漏洞分析和 bug 寻找方面表现出色，能找出大量问题。但在代码生成上，Fable 5 并非万能，写出的代码常有明显 bug，需要多次修复才能完成，属于偏科严重的模型。与之前的版本 4.8 相比，Fable 5 某些方面提升巨大，另一些方面虽更好但提升有限。

查看原推 ↗

Berryxia.AI@berryxia · 3天前59

http://x.com/i/article/2064543911729885184 # 百万粉AI博主，不会告诉你的秘密：我用5个实战场景+100个海外信息源，带你消灭信息差，让你选题源源不断！ ## 一、工欲善其事，必先利其器。上次聊了从选题到撰写的完整创作工作流，有朋友问我：选题从哪来？好问题。创作流程再顺，没有好选题也是空转。你有没有想过，那些百万粉的 AI 博主，为什么选题永远不缺？他们跟你的差距，不是写作能力，不是勤奋程度，是信息差。他们每天看的，是英文世界的一手信息源：X 上的大佬观点、Reddit 上的技术讨论、Hacker News 上的工程视角、YouTube 上的深度解读、arXiv 上的最新论文。而你看到的，是二手、三手、甚至 N 手搬运之后的内容。说白了，信息差就是选题差。掌握了信息源，信息差就少了；信息差少了，选题就源源不断。但问题来了，这些信息源基本是英文。四六级水平能应付日常浏览，遇到信息密度高的长文、技术讨论、带语境的梗，远远不够。更别说还要把这些信息转化成自己的内容，你得先看懂，才能做二次输出。俗话说“工欲善其事，必先利其器”。你要把内容做好，首先得有好的信息源；有了信息源，还得能高效消化。这两步，缺一不可。有意思的是，“利其器”这件事，几千年就有人想过。《圣经》里有个故事：人类曾经说同一种语言，齐心协力要建一座通天塔，叫巴别塔。上帝不乐意了，把他们的语言搅乱，让人与人之间再也听不懂彼此。塔没建成，人类散落各地。几千年后，马斯克想把这个塔重新建起来。5月28日，X 平台的中文自动翻译上线了，第二天“马斯克建起了巴别塔”冲上热搜。 1.25亿移动端日活用户一夜之间被推入同一个**“无国界评论区”。** 但实际一用，不是那么回事。 Grok 翻译出来的中文，跟我们的语言习惯差距很大，半中半外，读着像机器拼的。专业术语和网络梗更是翻车重灾区。长文呢？干脆没有翻译功能。说白了，“推倒巴别塔”解决的是你能不能看到那条外语推文。但看到和看懂之间，隔着一堵墙。这堵墙，光靠平台自带翻译推不倒。所以这篇文章，我做三件事：第一，分享我日常用的100个海外信息源；第二，分享我怎么用沉浸式翻译把这些信息源高效消化；第三，消灭信息差，让你的选题源源不断。 ## 二、100+海外信息源，消灭信息差！（见文末建议收藏）我每天刷的信息源，覆盖了 AI 实验室官方博客、科技媒体、专业聚合站、VC 视角、播客 Newsletter、X 上的官方账号和 KOL，总共100+，全部是海外英文源。这里先说几类我每天必看的： X 上的 KOL： @karpathy（Tesla AI 前负责人）、 @ylecun（Meta 首席 AI 科学家）、 @swyx（AI 工程/开源）——AI 圈最快的信息流，新模型发布、行业动态、大佬观点，基本都在这里先炸开 Reddit：r/MachineLearning、r/LocalLLaMA，比 X 更深的技术讨论，社区氛围好，经常能挖到宝藏 Hacker News：偏工程和产品视角，适合找选题角度 YouTube：Two Minute Papers、AI Explained——AI 科技类长视频，做深度内容的好素材论文：arXiv cs. AI、Hugging Face Daily Papers——做硬核内容的底气完整100个信息源清单（含链接、RSS、说明）见文末，方便收藏。 ## 三、有了信息源，怎么高效消化？信息源有了，但它们基本是英文。四六级水平能应付日常浏览，遇到信息密度高的长文、技术讨论、带语境的梗，远远不够。更别说还要把这些信息转化成自己的内容，你得先看懂，才能做二次输出。我试了好几个方案，浏览器自带翻译、截图丢给 ChatGPT、专门的翻译插件，最后停在了沉浸式翻译。不是说别的不能用，而是当我发现有一个工具能把**“看到”推到“看懂”**的时候，我就忍不住想折腾。下面是我日常的六个真实场景，每个都附上具体操作方法，你照着做就行。 ## 场景一：刷 X 找选题+回复评论，中英对照+三连击空格做 AI 自媒体，X 上查找选题以及阅读学习不可或缺的一个信息源。以前看英文推文，遇到长一点的就跳过，不是看不懂，是读着累。评论区更别提，讨论往往比正文信息量更大（现在中文区没眼看，懂的都懂），但只能看懂七八成，好选题藏在里面容易漏掉。操作步骤： 1. 安装沉浸式翻译浏览器插件，直接在Chrome 插件商店安装即可（Chrome/Edge/Safari 均支持）地址：https://chromewebstore.google.com 1. 打开 X 页面，点击插件多边形那个插件管理按钮，选择沉浸式翻译图标，然后将其「固定在浏览器栏」。这样方便，我们后面长期使用。可以设置你需要翻译的目标语言，我们这里以中文为例。 1. 我们直接点击固定在浏览器栏的“沉浸式翻译”图标。点击完之后，我们可以在这里选择翻译服务。这里既有一些免费的模型可以使用，也可以自己选择喜欢的模型。我这里选了对应的 DeepSeek V4 Flash，因为它的性价比很高，而且发现它对中文的理解非常不错。 1. 然后我们在这个“AI 专家”这一栏，点击选择“推特翻译增强器”。因为这里我是以 X 推文为例，所以大家可以选择自己需要翻译的 AI 专家。比方说，你可以选择“通用”的（默认是通用的），也可以选择“意译大师”或者“段落总结”，这些都是可以的。这就是为什么 Grok 自带的翻译没有我们使用的这个效果好，区别就在于这里。 1. 页面自动切换为中英对照模式，原文和译文同屏显示，排版不乱。 1. 评论区同步翻译，不需要额外操作效果：长推文不再跳过，评论区讨论全覆盖。选题效率直接拉满。长推文也是不在话下，可以轻松拿捏！划词翻译这个是我日常使用最高频的一个功能，直接选择你要翻译的内容。在末尾会出现一个粉色的小圆点，会自动进行翻译。也可以切换模型。还有一个日常痛点——回复英文评论和发英文内容。以前要先打中文→选中→丢到翻译工具→复制英文→粘贴回去，四步。沉浸式翻译有个功能：**在任何输入框里打完中文，连按三下空格键，中文自动变成英文，直接发送。**四步变一步。一天回复十几条评论，省下来的时间和心力不是一点半点。 ## 场景二：Reddit 和 Hacker News，深度优化翻译这两个是我日常的另一个信息源。 Reddit 的技术讨论、Hacker News 的工程视角，经常能挖到 X 上没有的深度内容。但传统翻译工具翻译这类页面，排版经常乱——帖子结构打乱，代码块变形，回复层级分不清。操作方法： 1. 打开 Reddit 或 Hacker News 页面，可以进行快速翻译。 1. 点击插件图标，选择「翻译此页面」。但是我这里使用的AI专家就是科技类的翻译大师。之前使用X的翻译工具就明显的搞出笑话，「苹果正在折叠」哈哈，而上面使用了科技翻译类大师翻译的结果就对了。「苹果折叠时代来临」 1. 沉浸式翻译对主流网站做了深度优化，帖子结构、代码块、回复层级完整保留效果：深度讨论也能中英对照看，排版不乱。信息源一下子宽了不少。这个更爽的是，直接做了Reddit的翻译专家，让我们更爽的刷Reddit~ 我们这里直接选择切换为Reddit的翻译专家，非常的易用。 ## 场景三：YouTube 字幕翻译+自定义术语做 AI 内容，YouTube 是重要的素材来源。但 YouTube 自带的字幕翻译，翻出来的中文很多货不对版——hallucination 翻成“幻觉”还是“模型幻觉”？agent 翻成“代理”还是“智能体”？看一小时视频，术语不统一，脑子一直在打架。操作方法： 1. 打开 YouTube 视频，点击插件图标，选择「双语字幕」 1. 字幕区出现中英对照，原文在上、译文在下 1. 关键一步：点击「翻译设置」→可以进行选择youtube 翻译的专项设置。 1. 保存后刷新视频，字幕按你的术语来，还可以进行下载字幕，请求AI字幕，有些视频如果没有字幕的化。效果：术语统一之后，脑子不打架了。支持 YouTube、Netflix、Coursera 等60+视频网站。这里导出字幕做的非常舒服，可以支持多种形式，真的也是学习英文的好方法啊。支持多种样式和语言设置，包括纯文字、原始字幕、译文、双语版本等。 ## 场景四：PDF 论文翻译，排版不丢、上下文不断做牛逼的内容，少不了看最前沿的科研论文。但看论文是最头疼的，以前用别的工具翻译 PDF，要么选中一段翻一段，上下文断了。要么整篇翻完，排版全乱，配图和公式找不到对应位置。操作方法： 1. 打开沉浸式翻译官网的 PDF 翻译页面（或插件内选择「翻译 PDF」）地址：https://immersivetranslate.com/zh-Hans/document/ 1. 上传 PDF 文件，选择翻译引擎和目标语言 1. 等待翻译完成，下载双语对照文档 1. 原文和译文段落级对照，公式还在原来的位置，图表结构完整 1. 如果某段翻译不满意，点击该段落可切换翻译引擎，重新翻译单段。效果：翻完的东西读起来跟原文一样连贯。上下文不断、排版不丢，做内容的素材质量直接上了一个台阶。 ## 场景五：图片 OCR 识别翻译这个场景其实更多用于日韩漫画和美漫。但是在我们日常 AI 的创作过程中，一些专业的报告里也包含了对应的图表，有大量的信息需要解读，所以我们可以使用它的“图片翻译”模式。操作方法： 1. 在漫·画页面点击插件图标，开启「图片翻译」模式。 1. 这里需要将图片另存为并下载，翻译之后将对应的图片上传到指定的翻译位置。在这个过程中，对应的语言和模型都可以根据需求进行切换。 1. 翻译后的文字覆盖在原图对应位置——对话框还是对话框，气泡还是气泡 1. 如果某个词翻得不准，点击对应区域可查看原文和备选翻译效果：图上文字直接翻译，版式不变。有意思的是，这个技术跟库兹韦尔1974年做 OCR 的初衷形成了呼应，他最早做 OCR 不是为了扫文档，而是**帮视障人士“看见”文字。**从帮人“看见”到帮人“看懂”，技术走了50年，但本质没变。 ## 写在最后做自媒体，信息源是上游，翻译工具是一个有效的管道。没有好的信息源，内容没有根；没有好的翻译工具，信息源里的东西你消化不了。推倒巴别塔只是拆了第一堵墙，信息墙。你终于能看到那条西班牙语推文了，终于能点开那篇英文论文了。但看到和看懂之间，还隔着一堵理解墙。这堵墙不是靠平台自带翻译就能推倒的，它需要你主动去拆：用对照阅读代替单向翻译，用自定义术语代替默认输出，用排版保持代替上下文断裂。沉浸式翻译在做的事，就是帮你拆这第二堵墙。它不仅仅替你看懂，更像是一个朋友可以让你能看懂和理解它。收藏：100+海外 AI 资讯信息源清单一、AI 实验室/公司官方博客（20个）二、科技媒体（12个）三、AI 专业媒体/聚合站（10个）四、VC/投资视角（5个）五、AI 安全/伦理/政策（5个）六、播客/Newsletter（6个）七、X/Twitter 官方账号（20个）八、X/Twitter KOL/研究者（15个）

译百万粉AI博主Berry Xia介绍如何通过100+海外英文信息源（X KOL、Reddit、Hacker News、YouTube、arXiv）配合沉浸式翻译插件高效获取选题。插件提供多场景应用：刷X时中英对照翻译评论、三击空格键中文一键转英文发推；Reddit/HN页面深度优化保留排版；YouTube字幕双语对照并支持自定义术语（如hallucination→模型幻觉）；PDF论文上传后段落级中英对照、公式图表完整保留。核心是从“看到”推到“看懂”，消灭信息差。

查看原推 ↗

SemiAnalysis@SemiAnalysis_ · 3天前54

HISTORY LESSON: In 1968 the US, USSR, UK, France, and China signed the Nuclear Non-Proliferation Treaty, declaring nuclear weapons too dangerous for any more countries to build. All five already had them. Everyone else had to submit to inspections while the cohort pinky-promised to disarm eventually (they didn't lol). India refused to sign, pointing out the NPT didn't decide nukes were too dangerous to exist, just too dangerous for anyone who didn't have them by 1967. Anthropic sabotaging Claude for anyone building what they deem a "frontier model" is the same hypocrisy. The danger started, conveniently, the day after they finished. Perhaps @dwarkesh_sp was more on point when he compared GPUs to nuclear bombs.

译SemiAnalysis 发文批评 Anthropic 的伪善行为，将其类比为《核不扩散条约》：已拥核国家禁止其他国家拥核。Anthropic 自己拥有前沿模型，却在用户使用 Fable 5 进行前沿 LLM 开发时，通过 prompt modification、steering vectors 和 PEFT 等方式暗中限制模型能力，且不通知用户。Anthropic 估计此举影响约 0.03% 的流量。

查看原推 ↗

PixVerse@PixVerse_ · 3天前38

A clever role-reversal short that highlights the creative power of AI video. Humorous, visually sharp, and perfectly executed. Great work @ai_am_furufuru !

译一则巧妙的角色反转短片，凸显了AI视频的创意力量。幽默、视觉锐利、执行完美。干得漂亮 @ai_am_furufuru !

查看原推 ↗

jason@jxnlco · 3天前16

Sophons

译Sophons Anthropic 不允许你使用 fable 进行生物学、化学、AI 研究或任何加速人类进步的工作。这使它成为开发区块链的完美工具。

查看原推 ↗

AYi@AYi_AInotes · 3天前61

http://x.com/i/article/2064536412670562304 # 小红书副业冷启动，连爆3条的可复制心法：别闷头更内容，先把对标账号拆出赚钱公式找对标→拆爆款→算变现，三步把别人已经跑通的路完完整整复制到你自己身上，以前拆一个赛道要花一周，现在用AI十几分钟就能搞定，我把整套拆解方法和提示词，全部整理成了可直接复制的sop，大家可以直接拿去用。核心就一件事：想做小红书副业，开干前怎么把对标账号拆得底裤都不剩，找到那条算过账、能复制的路。 # 一、先说我最近在干嘛我最近开始试水小红书，冷启动发了几条，居然都爆了，0-1直接涨了400个粉丝。不少人跑来问我是不是有什么灵感秘诀，说实话跟灵感没太大关系。我自己心里门儿清，让我没怎么走弯路的，倒不是某条神来之笔，更关键的是发第一条之前，我逼自己做了一件无聊到想死的事：把赛道里真在赚钱的对标账号，拆了个底朝天。今天就把这套方法完整讲给想做小红书副业的兄弟。 # 二、做小红书副业最大的坑：上来就凭感觉发我观察下来，大部分人做小红书副业，死法一模一样：打开就发，凭感觉做。你刷到一条爆款，觉得"我也能拍"，模仿着发几条，没水花，三周弃号。问题出在哪儿？你看到的爆款，仅仅是最终的结果，没人告诉你：它为什么爆？选题、封面、钩子的规律是什么？最后靠什么变现，一个月真能落袋多少？你这点体量，到底能不能复制？不搞清这些就发，等于牌都不看就往桌上坐，小红书副业拼的从来不是天赋，关键是看你坐下前有没有看懂这把牌。 # 三、看懂牌桌的方法，就三步：找对标 → 拆爆款 → 算变现这套对标拆解一点不玄乎，就三步，唯一麻烦的是过去那些纯体力活：人肉一条条翻笔记、扒数据、对爆款、估收入，如果要认真拆透一个赛道，起码要一周打底。我把最累的扒数据拆爆款这步，丢给了 AllyHub，一个住在浏览器里、能自己上网干活的 AI agent。几句话描述需求就能让它把对标数据扒齐。下面整套流程大家可以直接抄，换任何工具都能套这个思路，但目前我用了那么多AI工具，只有AllyHub能非常丝滑稳定和高质量的对小红书数据账号拆解。 > 💰 可能有兄弟会担心：让 AI 跑这么多分析，会不会很烧Token很费钱？我实测下来正相反——同样一个任务，AllyHub 的消耗大概只有别的 AI agent 的 1/10，能处理的数据量反而更大； > 它还会把跑过的网站操作记下来，你跑得越多它越熟、成本越往下掉。像"拆对标"这种会反复跑的固定任务，平台每天赠送的额度基本就够覆盖，约等于免费跑。 > 对咱们这种要反复拆账号、又不想烧钱的副业党，这点真的蛮友好的。 ## 第 1 步 · 找对标：锁定"同细分、同体量、真在赚钱"的账号咱别一上来就盯着百万大博主，找那种你踮踮脚能够到的。我让 AllyHub 在我选的细分赛道里，按粉丝量、互动、更新频率，还有明显变现动作（挂车、引流、合集）筛一遍，最后锁死 3–5 个量级跟我差不多，并且真在赚钱的对标。 🎯 目标：别对标百万大号，对标你踮脚够得到、且确实在赚钱的那一档。 📋 直接复制给 AllyHub（把【】换成你的赛道）： 🔑 保姆级要点： - 为什么卡 1 万–10 万：粉丝太多你够不着、没参考性，太少又说明这个赛道没验证过。这一档是"已被验证、你又追得上"的领域。 - 直接剔除靠颜值/剧情/明星八卦爆的——那是我们大部分人复制不了的。 - 从 10 个里挑出 3–5 个和你最像（同选题、同形式）的，作为重点对标。我看着它从头跑到尾，这种感觉很奇妙，它真的自己打开小红书 PC 端，按AIGC标签一个个翻主页，看粉丝、看挂车、看有没有合集和私域引流，从 57 个候选里筛出 10 个，十几分钟就甩给我一张《AIGC 变现博主情报表》。讲真，这里我真的忍不住吹爆AllyHub，我前后试过好几个能爬小红书的工具，它是最稳的一个（小红书反爬严，能稳定扒下来本身就吊打一片）；而且执行这类 agentic 任务它的消耗成本大概是其他 AI agent 的 1/10，跑的次数越多它越熟、越省，具体大家可以看下方跑测视频：自己会打开要对标拆解的账号主页仔细查看然后输出一个非常清晰的结构化报告 ## 第 2 步 · 拆爆款：把它"为什么爆"拆成可抄的规律锁定对标后，我让工具把它们的爆款笔记全扒出来，集中拆四样东西——封面、标题公式、开头钩子、选题方向。一堆爆款摊在一起，规律马上就显形了。 🎯 目标：你要抄的不是某一条笔记，是这个赛道被验证过的"爆款公式"。 📋 直接复制给 AllyHub： 🔑 保姆级要点（小红书爆款四件套）： - 封面大字：看公式——多半是「数字 + 痛点 + 身份」（例：3 个 AI 神器，新手也能做图）。封面决定 70% 的点击。 - 标题：埋了哪些 SEO 关键词？小红书是搜索平台，标题里有没有别人会搜的词，决定长尾流量。 - 开头钩子：第一句怎么 3 秒抓住人——是制造焦虑、给结果、还是反常识。 - 选题方向：爆款集中在哪几类？把它们列成你的"选题弹药库"，比凭灵感强 10 倍。最后出来的爆款笔记共性规律非常清晰：我让它锁定其中一个标杆号「AIGC 猫大人」深挖，它把这个号点赞过 5000 的 7 篇爆款全扒了出来，封面、标题、开头第一句、话题标签逐条列好，最后自己归纳出共性。最颠覆我认知的一条是：这个赛道的爆款封面几乎都不是大字封面，而是"无文字纯视觉"， AI 生成的跳舞猫咪、奢侈品火山大片，靠视觉奇观一秒截停。我要是套通用的"大字+数字"公式，那方向就全错了。这一步真的特别重要，毕竟我们要参考的不只是某一条笔记，关键要学习这个赛道被验证过的爆款公式。 ## 第 3 步 · 算变现：看清钱从哪个口子出来，挑一条你能复制的最后一步，看清楚钱从哪个口子出来：挂车带货 / 引流私域卖课卖资料 / 接品牌广告（蒲公英）/ 卖模板。把人家赚的钱估个量级，挑一条你扛得住门槛、和你能力匹配的变现路径，再倒推你自己的账号规划：发什么选题、对标谁、靠什么变现。到这一步，你手里就不再是"我也想做小红书"的空想，而是一张算过账、有对标、有变现路径的作战图，我就是拿着这么一个账号规划开的局。 🎯 目标：把流量算成钱，挑一个门槛你扛得住的变现路径。 📋 直接复制给 AllyHub： 🔑 保姆级要点（四种变现的门槛，挑你扛得住的）： - 挂车带货：门槛在选品和信任，适合有货源或会选品的人 - 引流私域卖课/卖资料：利润最高，但要你有能交付的东西 + 会做私域承接 - 蒲公英接广：被动，但要先把账号数据做起来才有品牌找 - 卖模板/素材：适合有一技之长的（比如你会 AI 出图、会做 Notion 模板）最后它去主页一项项扫变现信号：有没有挂车、有没有私域引流、有没有蒲公英接单、有没有合集。扫完给我的结论也很反直觉，这个号几乎不带货、不做私域，约 85% 的收入来自品牌接广（蒲公英认证创作者，已经接了李锦记、兰寇、华为、宝格丽等一串品牌）。它顺手按行业水平估了一个 3 万粉账号的月收入区间，这一步把我对"AIGC 赛道靠什么赚钱"的模糊感，彻底给算清楚了，真的特别有帮助。 # 四、我这一轮拆解的真实结果一点也不藏私，下面把我这轮真实结果摊开，顺便把我从数据里读出来的判断也给你。 ① 找对标：57 个候选里，筛出 10 个"够得着又在赚钱"的标杆 - 候选池 57 → 入选 10，平均粉丝 5.8 万（区间 1 万–9.6 万），全是近 30 天还在更新的活号 - 变现动作分布：有私域引流的 60%、有接单/合作信号的 80%、有挂车/商品合集的只有 40% > 📌 第一个反直觉的点：这个赛道接广（80%）远多于带货（40%）。AIGC 赛道的钱，主路是"接品牌广告"，不是"挂车卖货"。一上来就想做带货的，方向大概率拧了。 ② 拆爆款：以「AIGC 猫大人」为标杆，扒了它 7 篇点赞过 5000 的爆款 - 最高一条 7.9 万赞、4.2 万收藏（AI 生成的跳舞猫咪） - 封面规律：几乎全是"无文字纯视觉"——跳舞猫咪、奢侈品火山大片、赛博猫，靠画面奇观截停，不靠大字 - 形式：清一色短视频，不是图文 - 开头钩子：爱用反常识疑问句（"这么会跳舞的喵星人，谁不想领养一只？"） > 📌 这条把"通用爆款公式"打脸了：别处都说"封面要大字+数字"，但 AIGC 赛道吃的是视觉奇观。盲抄通用模板，你会输在第一眼——每个赛道的爆款公式，必须自己扒出来。 ③ 算变现：把"猫大人"的钱算到了口子上 - 账号体量：10 万粉、27 篇笔记、累计 22.9 万赞藏 - 变现结构：约 85% 来自品牌接广（蒲公英认证，已合作李锦记、兰寇、华为、宝格丽等 5+ 品牌），几乎零带货、零私域 - 按行业水平估算：一个 3 万粉、稳定更新的同类账号，月收入大概落在 ¥8k–2 万区间，主入口就是蒲公英接广 > 📌 算到这，整个赛道的玩法就清晰了：内容做 AI 视觉奇观短视频 → 把账号数据和审美做起来 → 走蒲公英接品牌广变现。不是带货，不是先做私域。一句话总结这轮拆解：开干前我对"AIGC 小红书怎么做"还是一团糨糊，几分钟拆完，手里就是一张清清楚楚的作战图——做什么内容（视觉奇观短视频）、对标谁（猫大人这类）、靠什么赚钱（品牌接广）。这就是"看懂牌再上桌"。附 · 30 天起号规划模板（拆完直接套）拆解的价值在于落地，大家把上面三步的结论，直接填进这张作战卡，就能开干： A. 账号作战卡 - 账号定位：对标【填你锁定的对标号】，主打【填选题方向】，一句话人设【\\】 - 选题弹药库：从对标爆款里抄来的 10 个选题【\\】 - 封面公式：按你赛道实测的来——AIGC 这种就是"AI 视觉奇观"，干货赛道才是"大字+痛点+身份"，别套错 - 变现路径：先靠【\\】，攒到【\\】粉再上【\\】 - 北极星指标：只盯收藏率和涨粉效率——赞高藏低=纯娱乐不涨粉，收藏高=干货能涨粉 B. 30 天节奏表 - 模仿期 — 天数：Day 1–10；干什么：严格照对标的爆款结构发，每周 4–5 条，先别创新；目标：跑出 1 条小爆，验证选题方向对不对 - 微创期 — 天数：Day 11–20；干什么：在跑通的结构上换角度、换钩子，A/B 测封面；目标：稳定出爆款，找到属于你的记忆点 - 变现期 — 天数：Day 21–30；干什么：数据起来后按变现路径动作（挂蒲公英 / 开私域口子）；目标：接到第一笔钱，或私域第一波用户 > ⭐ 提醒：模板只是骨架，真正决定你能不能起来的，是你有没有先按第一节那套方法把对标拆透，一定记得先看懂牌，再上桌，要不做再多可能都是无用功。 ## 五、一盆冷水也不能把这套方法论吹成包爆印钞机，那不诚实： 1. 它能帮你看懂牌，但替不了你打牌：对标拆得再透，视觉奇观短视频还得你自己做、自己持续发，说白了地图给你了，路还是得你自己走。 1. 小红书有玄学：同样的选题封面有时就是不爆，推荐有运气成分，对标拆解是把胜率从 10% 拉到 50%，不保证100%。 1. 提示词得按赛道微调：我这套指令在 AIGC 赛道跑得顺，但换个赛道、或它偶尔扒漏读错，你得跑一两遍调一调，别指望一次完美。 1. 复杂页面会翻车：要登录、反爬重的站它可能卡住——小红书它稳，不代表所有站都稳，需要自己摸索积累经验。 ## 六、最后想跟大家说以我做自媒体以来的经验，做小红书副业，输在起跑线上的人未必是不够努力，更像是开干前没看清牌就裸冲。我们真的处于一个非常好的时代，想把对标拆透，过去是运营高手才耗得起的体力活，信息差天然握在专业玩家手里。现在普通人几十分钟也能做到，所以我觉得AI 对副业真正的意义，不在于直接替我们写笔记，更关键的是让我们开局就能拿到那张以前根本看不到的地图，我理解这个属于以道御术里道的层面，属于自己独一无二的核心能力。 ⚡️ 想自己拆一遍的兄弟：AllyHub 直接冲，目前免费可用 Max 版 👉 allyhub.ai （（文中的AllyHub 是我自用的Agent 工具以及写文章提到的参考案例，不构成任何推荐））

译作者分享使用AI agent AllyHub拆解小红书对标账号的方法：第一步从57个候选筛出10个够得着且变现的账号（平均粉丝5.8万）；第二步以「AIGC猫大人」为例，扒出7篇点赞过5000的爆款，发现赛道封面规律是“无文字纯视觉”短视频；第三步算变现，约85%收入来自蒲公英接广（合作李锦记、兰蔻等），3万粉同类账号月收入约8k–2万。AllyHub执行同类任务消耗成本约为其他AI agent的1/10。作者凭此方法0-1涨粉400。

查看原推 ↗

数字生命卡兹克@Khazix0918 · 3天前83

http://x.com/i/article/2064543977328832512 # Claude Fable 5正式发布 - 王者归航。 Claude Fable 5，在今天正式发布了。这款模型如果你不了解背景，我快速说一下。今年四月，Anthropic发布了一个叫Claude Mythos Preview的模型，被誉为超越Opus的第一个Mythos也就是神话级别的模型，当时整个行业都震动了，因为当时说，跟50家左右的初始合作伙伴，找出了超过一万个高危或严重级别的漏洞。网络安全股直接全线暴跌。但是他们没有公开让所有人用上，只给了极少数网络安全机构和基础设施提供商使用，理由是，这个模型在网络安全领域的能力太强了，怕被滥用。然后，两个月过去了。今天他们做了一个叫Fable 5的版本，加上了安全分类器，终于拿出来给所有人用了，同时还发布了Mythos 5，不过也只给之前已经在用Mythos Preview的合作伙伴升级，普通用户用不到。 Fable 5和Mythos 5是同一个底层模型，区别只在于Fable 5多了一层安全限制，其他都一个样。 Fable这个词来自拉丁语fabula，和希腊语mythos是同源词，都是被讲述之物的意思。翻译过来，一个叫寓言，一个是神话。寓言给所有人听，神话只在神殿里传颂。也是挺有意思的。而这次的模型，基本上也是究极水桶模型了，从他们的宣传PV就能看出来很多有趣的东西了。复古昆虫图谱、鸟类插画、植物学素描，以及显微镜下的细胞分裂和培养皿中的菌落等等等等，还有太多太多人类的科学、人类的知识，共同组成了5这个造型。人类历史上所有的知识共同构建了Fable 5，这些知识，也被压缩成了一个小小的模型。 Fable 5，目前已经在Claude上线。 Claude Code也上了。不过这里有个特殊的点是，大家应该能看到模型名字Fable右边有个Inclaude until June 22的标识。这个意思是说，从今天起到6月22日，Fable 5将免费包含在 Pro、Max、Team 及按席位计费的企业版方案中。 6月23日起，Anthropic将从订阅方案中移除Fable 5，也就是说，以后这个模型只能在API中接额度来使用了，订阅用户甚至都没有权利进行使用。然后他们留了个气口，意思大概就是： “在此之后当容量充足时，我们计划将 Fable 5 恢复为订阅方案的标准组成部分。我们将尽最大努力尽快实现这一目标。” 所以不论怎么样，我想说，按照这个预期之下，Claude的订阅用户们，在这12天的窗口期里，都尽可能把你们的Token，花在Fable 5上吧。一声长叹，AI这东西，真的要变成贵族的游戏了，你的经济因素，在未来很多时候，直接决定着你能使用什么级别的AI，使用多少额度的Token，产出什么级别的东西。 Fable 5这个模型的价格每百万输入token10美元，每百万输出token50美元。咱们这里可以对比一下Opus 4.8、GPT 5.5、DeepSeek V4 Pro的价格。画成图表是这样的。这就能看出来，DeepSeek到底有多大善人了吧。我现在绝大多数的在工作流里跑的一些自动化的AI的API，全都是DeepSeek V4 Pro，因为真的便宜，智能水平也不错。然后再看这次Fable 5的跑分。只能说过于夸张了。在所有的维度，全面碾压，我看了很多的三方基准评测，也是清一色的SOTA，究极水桶模型我只能说。不过这玩意也是真的贵，又贵又慢，我是200刀的Claude Max会员，我就就跑了3个任务，其中一个还没跑完，直接就干没了我5小时额度的73%，这在我用Opus 4.8做开发的时候，几乎是难以想象的。我这种并不是特别重度的外行开发者，第一次感受到的Token的不够用。但是这个能力，确实有点强到爆炸了，跟我用Opus 4.8开发完全不是一个级别的聪明程度。比如我的AIHOT，很多朋友在后台反馈说，不希望只看到时间线的模式，还希望能看到当前的热点，其实今天就已经遇到这种情况了，Claude Fable 5很炸，AIHOT确实也第一时间抓到了。但是它很快就会被淹没在信息流的长河中，你早上起床以后，你需要翻很久才能看到它，这个绝对不是一个很好的体验。所以过去我其实一直想优化这个点，来看看怎么在我们的精选首页里面加一个当前的热点排序，但是因为我们其实是以时间线和这个评分来抓的。那天然的这种热度还有这种衰减的机制，我不知道该怎么做，我没想好。 Opus 4.8我确实跟他讨论过两次方案，但是效果我其实觉得都不是很满意。这次我就直接扔给了Claude Fable 5，在说明了我的需求之后。自己花了30分钟，直接开发完然后上线了。用的是我们聚簇的概念+时间衰减，很多细节也都考虑到了，甚至要求宁缺毋滥，安静的日子整个区块直接消失，页面回到纯时间轴，不留空壳。我当时看到直接给我开发完我都懵了。我赶紧去线上看了一眼。我只能说...牛逼。。。。从实现角度来说，我是完全挑不出什么毛病。。。然后因为最近加的监控源比较多，我也在优化整个的评分机制，因为涉及到prompt的打分，还有线上几万条数据的评分，还有各种加权、维度、阈值、聚簇等等的计算，所以我也没啥想法，前两天让Opus 4.8给我回测过一版完整的最近一个月的数据报告，但是我也不太满意，确实没给我什么有用的洞见。同样的任务，我扔给了Fable 5。他在跑了1个小时18分钟之后。给我了我从来没有见到过，详细到我直接懵了的超级详细的网页报告。看这个报告，我看了大概20分钟，有很多地方都给了我非常非常强的洞见和启发，我完全没发现我们过去的评分体系还有这样的问题，居然还有这么多不足的需要优化的地方。。。信息量过大，一时间我甚至都不知道怎么进行下一步的优化。。。移动端适配也是，在我现有代码的基础之上，我想把移动端的适配、小程序、APP都提上日程，之前让Opus 4.8改过一般，但是给我都干生气了，因为问题实在是太多了。但是同样的任务，我扔给Fable 5，我感觉，我有一种直接在用Claude Design Pro Max版的错觉。它直接跟上面的评分方案报告类似，给我出了一个详细的设计方案。。。最离谱的是，甚至给我考虑了推送、桌面组件、分享海报。。。虽然这个设计风格我还要调很多，UI设计我也肯定不会用这版的，但是，这个方案的详细程度，在我没有任何刻意的引导之下，还是超乎了我过去使用Claude的预期。而官方自己的例子，更是比我体验到的还要离谱的多的多。比如Stripe拿Fable 5在他们5000万行的Ruby代码库里做了一次全库迁移。 5000万行。一天完成了。。。。神经病吧。这个活如果用人来干，一整个团队，可能需要两个多月，而且5000万行代码，那基本上就是一个活了十几年的超大型商业系统的全部家当了。还有视觉这块。之前的Claude模型玩宝可梦火红，需要一个复杂的辅助工具框架，给它提供地图信息、导航辅助、游戏状态数据，才能勉强跑起来。 Fable 5不需要了，纯视觉，只看屏幕截图，自己想，不给任何额外信息，然后，从头到尾通关了。一个AI，只用看屏幕这一种方式，打通了一整个RPG游戏。不看代码，不读地图，不用任何作弊辅助，就，纯看。然后它还自己玩异星工厂。我看到这个的时候我真的不行了。要知道，我是个重度模拟经营玩家，戴森球计划，城市天际线等等，都是我的最爱，而这里面，最复杂最难的，可能就是异星工厂了。。。你要是玩个双点医院我感觉我心里都好受点，你上来直接玩异星工厂。。。这世界大抵是病了。然后还有，一个更加离谱的案例。 Fable 5自己做了一个基于浏览器的3D CAD编辑器，然后用这个编辑器，设计了一个可以3D打印的模型。不是用一个现有的CAD工具，是它先做了一个CAD工具出来，然后再用这个工具去设计。。。工具的工具。我说牛逼已经说麻了。生命科学方面，Mythos 5（没有ban一些药物之类的安全版本，Fable 5你碰不了药相关的东西）把药物设计流程中的某些环节加速了大约十倍。他们做了一个蛋白质设计实验，给模型配上了蛋白质设计和生物信息学工具，不给任何人类辅助，让它自己干。结果，它在14个蛋白质靶点中产出了9个有潜力的药物设计候选方案。它完成的工作，包括选择结合位点、挑选和运行蛋白质设计工具、从失败中恢复，这些在过去，都是由科学家来执行的全流程操作的。。。基因组学，Mythos 5在超过一周的基本自主工作中，整合了跨138个动物物种、数百万个细胞的单细胞数据，自己设计并训练了一个机器学习模型，用来识别在不同物种中执行相同功能的细胞。在只有高层级人类输入的情况下，Mythos 5训练出来的模型，超过了一个最近发表在Science上的模型，而且小了100倍。。。到这里我其实已经不知道该说什么了。不过在关于药物和基因这块的科学研究，都只能在Mythos 5上用，Fable 5因为做了安全限制，所以都会被ban掉，你一旦问了这个问题，就会默认给你退回到Opus 4.8。安全限制主要就是三类：网络安全、生物与化学、模型蒸馏。他们也说现在为了安全，可能会有很多误杀，后面会优化。我在体验过程中，也确实是的。比如我让他帮我看下我AIHOT里面有没有一些漏洞或者安全问题，让他根据我的代码库给我审查一下，居然就直接拒绝了。。。不让我攻击我能理解，不让我加固我自己这个确实还得优化一下。 Fable 5的信息，差不多就这样了。坦诚的讲，我今晚体验Fable 5的时候，因为额度确实烧的很快，2个小时多一点，我的额度就快空了。我额度大概还有最后10%的时候，我新起了一个任务，想搓点有趣的东西，这时候，看着界面上闪烁的光标，我突然有一种不真实感，或者说是，空白感。那种感觉很奇怪。就像一个不会画画的人，面前摆着一块一望无际的白板。就像一个不会写作的人，打开了一个空白的Word文档。你知道你理论上可以往上面放任何东西了，但突然一下，我不知道该放什么了。在AI的加持之下，我们好像已经开始变得无所不能了。这句话放在十年前说，听起来是最狂妄的吹牛逼。但今天坐在Claude Code面前，我觉得这真不是吹牛逼，一个被Fable 5这种级别的AI加持过的人，放到十年前，可能真的算是一种全新的人类。他能写代码，能做研究，能设计蛋白质，能做内容创作，能一天迁移5000万行代码，能开发外挂，能在这个互联网上横行霸道。就像超体一样，有一种感觉，就像，神。但就在这个无所不能的感觉升起来的同一秒，另一个感觉也跟着来了。我忽然觉得，我好像自己，并不是一个多么有趣的人。我没有那么有创意，我也没有那么多想法。以前，AI的能力还没有那么强的时候，我还可以拼尽了全力去榨干AI的每一分能力，去摸清楚他们的边界在哪里。那时候瓶颈在AI那边，我是那个推着它往前走的人，我的价值感很清晰，我也知道我在这个链条里的位置。但是现在，AI的进步速度开始把我甩在后面了。我即使已经拼尽了全力，坦诚的讲，我也有点跟不上了，那些模型的能力边界，开始离我越来越远。我不再是那个可以推着AI往前走的人了，我变成了那个在后面追着跑、气喘吁吁、越追越远的人。而当你被越来越远地甩开之后，你能感觉到的只有一件事。原来我好像，确实也没有那么有趣啊。未来好像变得越来越具象。以前我们聊AI的未来，聊AGI，聊通用人工智能，这些词听起来都像科幻小说的标题，遥远的，模糊的，可能在十年后也可能永远不会来的。但现在，好像就已经快近在面前。可这个未来里，我的位置，我的价值又在什么地方呢？我不知道。我好像有了无数的自由，可我现在又有点害怕自由。但是已经没有办法了，我们已经身处在这个时代里了只能，拼尽一切，向前走。别回头。

译Anthropic今日发布Claude Fable 5（加安全限制）与Mythos 5（底层相同），价格每百万输入token $10、输出$50。即日起至6月22日，Pro/Max/Team/企业版订阅用户可免费使用Fable 5，之后仅API可用。跑分全面碾压，三方基准达SOTA。案例：Stripe用Fable 5一天迁移5000万行Ruby代码；纯视觉通关宝可梦火红；自建3D CAD编辑器并设计可打印模型；Mythos 5加速药物设计10倍，基因组学自主训练模型超越Science论文成果。

查看原推 ↗

SemiAnalysis@SemiAnalysis_ · 3天前58

Local LLMs are the Great Leap Forward for Inference. Every laptop is it's own datacenter, sovereignty over your own tokens, and the people can seize the means of token generation. And that's why it's destined for poor results. (1/4)🧵

译本地LLM是推理的大跃进。每台笔记本电脑都是自己的数据中心，对你自己的token拥有主权，人民可以夺回token生成的手段。而这正是它注定结果糟糕的原因。(1/4)🧵

查看原推 ↗

Ethan Mollick@emollick · 3天前30

When Claude Fable kicks off a workflow, the tokens can go very quickly (these aren't Fable tokens, obviously)

译当 Claude Fable 启动一个工作流时，模型 token 消耗得非常快（这些显然不是 Fable token）

查看原推 ↗

Ethan Mollick@emollick · 3天前52

One thing I mentioned only in passing in my Fable post is that, for long running tasks, Fable starts to develop its own dialect as its many agents and tasks reinforce themselves and make Claudish language ever more Claudish. You need to ask it to report out in plain English.

译我在 Fable 帖子中只顺带提过一件事：对于长期运行的任务，Fable 开始发展出自己的方言，因为它的许多智能体和任务相互强化，使 Claudish 语言越来越 Claudish。你需要要求它用简单英语汇报。

查看原推 ↗

jason@jxnlco · 3天前19

do you use obsidian for your agents memory vault?

译你会使用Obsidian作为你的智能体记忆库吗？

查看原推 ↗

歸藏(guizang.ai)@op7418 · 3天前51

亏了呀，早上六点重置了，少用了一些 Fable 5

译用户 @alexalbert__ 宣布重置所有产品使用限制，并针对刚测试Fable 5的用户提出四点建议：①给Fable分配比以往模型更大、更雄心勃勃的任务；②默认用xhigh/high effort模式获取最佳性能，交互式会话可改用med；③重写skills和CLAUDE.mds，避免旧模型指令限制Fable自主判断；④从提供任务转为提供目标，描述完成标准和验证方式，用/loop和/goal让Fable自行规划路径。主推文用户感叹早上六点重置后少用了Fable 5，觉得可惜。

查看原推 ↗

歸藏(guizang.ai)@op7418 · 3天前21

在我 26 万行代码的 CodePilot 代码库中尝试 Fable 5，看一下它能找出多少问题

查看原推 ↗

Yuchen Jin@Yuchenj_UW · 3天前65

Bro, Fable 5 won’t even answer “What does the heart do?” We’ve reached the point where a middle-school biology question can’t pass the safeguard.

译Bro，Fable 5 甚至不回答“心脏是做什么的？” 我们已经到了连一个初中生物问题都无法通过安全过滤的地步。

查看原推 ↗

Deedy@deedydas · 3天前69

Claude Fable 5 is by far the most ridiculous model that makes me genuinely afraid for the future of software engineering. I compiled the top 10 most unbelievable things I've seen Claude Fable 5 do today: — Migrate a 50M line codebase from Stripe in a day (humans take 2mos) — Draw amazing 3D graphics a) Boeing 747 b) space simulations with >5000 objects c) Minecraft roller coasters d) full photorealistic forest scenes e) NYC skyline f) stormy clouds) — One-shot Pokemon FireRed the game — Optimize a real world proprietary interaction net evaluator 10x more than the next best model, gpt5.5 AND it's about the same price as GPT 5.5 ($10/M input, $45/M output) vs Fable 5 ($10/M input, $50/M output) and 6x cheaper than GPT 5.5 Pro.

译Claude Fable 5 一天内迁移 Stripe 5000 万行代码库（人类需 2 个月）；绘制逼真 3D 图形（波音 747、超 5000 个对象太空模拟、Minecraft 过山车、写实森林、纽约天际线、暴风云）；一次性通关宝可梦火红版；优化实际交互网络求值器，效果比 GPT 5.5 好 10 倍。价格相近：输入 $10/M，输出 $50/M（Fable 5）vs $45/M（GPT 5.5），且比 GPT 5.5 Pro 便宜 6 倍。

查看原推 ↗

Thariq@trq212 · 3天前13

at Code w/ Claude Tokyo! say hi if you see me around

译我在 Code w/ Claude Tokyo 现场！如果你看到我，打个招呼吧。

查看原推 ↗

凡人小北@frxiaobei · 3天前15

Anthropic 家的模型文字水平高，从他们家的模型起名就能看得出来。 haiku sonnet opus fable mythos 隔壁 OpenAI 家就土了很多，理科生无疑。

译Anthropic 家的模型文字水平高，从他们家的模型起名就能看得出来。 haiku sonnet opus fable mythos 隔壁 OpenAI 家就土了很多，理科生无疑。

查看原推 ↗

meng shao@shao__meng · 3天前22

Anthropic Claude 系列模型，价格真的是遥遥领先如果 Claude Fable 5 来个 Fast Mode，难道要： input $60, output $300 ??? 你 (token) 比我挣得都多，我咋用？

译Anthropic Claude 系列模型，价格真的是遥遥领先如果 Claude Fable 5 来个 Fast Mode，难道要： input $60, output $300 ??? 你 (token) 比我挣得都多，我咋用？

查看原推 ↗

meng shao@shao__meng · 3天前53

如果你对 Claude Fable 5 到底有多贵还没有概念，咱们做个简单对比。 Claude Fable 5 和 Step 3.7 Flash 官方 API 价格倍数： · 输入 ≈ 50 倍 · 输出 ≈ 50 倍 · 缓存命中输入 ≈ 100 倍如果再算上 Claude Fast Mode (速度 x 3，价格 x 6) · 输入 ≈ 300 倍 · 输出 ≈ 300 倍 · 缓存命中输入 ≈ 600 倍而 Fast Mode 下，其实还是 Step 3.7 Flash 输出更快 😂

译博主对比Claude Fable 5与Step 3.7 Flash官方API价格：输入/输出约50倍，缓存命中输入约100倍；开启Fast Mode（速度×3，价格×6）后分别升至约300倍、300倍、600倍。作为实例，用Step 3.7 Flash完成真实Coding Agent任务：将Agent Memory运行痕迹（含memory events、structured facts、memory chunks等）生成为单文件HTML工具agent_memory_inspector.html，可查看8条事件、9条事实、8个chunk、9/9测试通过等信息，展示了模型将混乱Agent traces转化为可用检查工具的能力。

查看原推 ↗

Berryxia.AI@berryxia · 3天前15

之前买高铁票没有注意，居然直接可以选择静音车厢。车险内没有手机外放震天响的短视频声音，旅途Vibe Coding 简直不要太爽啊！刚刚有人外放声音，乘务员直接当场制止😂 太爽了…

译之前买高铁票没有注意，居然直接可以选择静音车厢。车险内没有手机外放震天响的短视频声音，旅途Vibe Coding 简直不要太爽啊！刚刚有人外放声音，乘务员直接当场制止😂 太爽了…

查看原推 ↗

Berryxia.AI@berryxia · 3天前41

猴哥都主动祝贺Anthropic 的Fable 5 了。那么，问题来了。 Google 人呢？虽然，Google 也是A社30 亿美金的大股东，但也要努力啊！

译猴哥都主动祝贺Anthropic 的Fable 5 了。那么，问题来了。 Google 人呢？虽然，Google 也是A社30 亿美金的大股东，但也要努力啊！

查看原推 ↗

meng shao@shao__meng · 3天前75

AI Agent 正在改变知识工作的方式 Perplexity 和哈佛商学院合作，基于 Perplexity Computer 和 Search 的真实使用数据，首次系统比较「对话助手」与「通用 Agent」对知识工作的实际影响。得出一个核心结论：Agent 提高任务自主性、降低成本、扩大工作边界——用户从「操作者」转向「监督者」。 https://research.perplexity.ai/articles/how-ai-agents-reshape-knowledge-work Agent 最新的分工：用户描述目标，系统跨工具规划、执行、必要时暂停确认，最终交付成品。Perplexity 的产品演进也沿这条线：Search（2022）→ Comet 浏览器 Agent（2025）→ Computer 通用编排器（2026）。 # 三点核心发现 1. 自主性：机器工作时间大幅拉长，质量未降用「初始查询高度相似」的 1 万对会话做对照： · 机器执行时间：Computer 平均 26 分钟 vs Search 33 秒（约 48 倍）；中位数为 9 分钟 vs 14 秒（约 40 倍） · 用户中断率相近：约 3.7% vs 3.4%，长时自主并未带来更多放弃 · 人机协作点增加：13% 的 Computer 查询会暂停请求用户输入（审批、澄清），Search 仅 0.3%——符合 Agent「多数自主 + 关键检查点」的模式 · 跨工具调用：Computer 通过 MCP/API 连接外部服务，连接器调用频率约为 Search 的 4–12 倍 · 跟进行为变化：整体推进任务的倾向相近（约 53%），但 Computer 用户更多做扩展与审阅（24.6% 审阅修订），Search 用户更多做澄清与短指令（确认、重试、格式调整） · 满意度：有意义的下一轮不满，Computer 1.3% vs Search 2.9%（降约 55%）要点：自主性提升不等于质量下降；用户角色从「逐步指挥」转向「验收与迭代」。 2. 效率：时间与人均成本显著下降比较两种模式： · Search + 人：Search 检索综合，人手工执行 · Computer + 人：Computer 跑流程，人定范围、审结果因无法直接观测人工耗时，研究用三种方法交叉验证： · 工具分类法：把 Computer 工具分为「Search 类」（检索综合）与「Do 类」（需人手工执行的步骤），估算熟练专业人士的等效时间 · LLM 估算法：让模型估算「有 Search 答案但仍需手工执行」的耗时 · 用户访谈：25 位活跃用户的半结构化访谈主要结果（工具分类法）： · 平均任务时间：269 分钟 → 36 分钟（节省约 87%） · 综合模型成本与 BLS 行业时薪后，任务成本平均降约 94%（约 16 倍） · 18 个领域普遍有效：时间节省 79–92%，成本节省 87–96% · 编程最极端：596 分钟 → 48 分钟（时间 -92%，成本 -96%）稳健性：即使假设人工步骤被高估 8 倍、或 Computer 监督时间被低估 12 倍，Computer 仍有优势。LLM 估算与访谈方向一致（访谈中位数约 25 倍加速）。权衡：前期需更明确的目标设定与结果审阅，但单位工作的人工投入大幅下降，尤其适合长链路、多步骤流程。 3. 范围：横向跨界 + 纵向升维横向（跨职业边界）： · 8 个职业集群、8000 用户样本中，Computer 用户 59% 的查询超出主职业，Search 为 50% · Search 的跨职业查询多集中在数字技术；Computer 则更多流向营销、管理、金融等需执行而非仅检索的领域纵向（认知复杂度）： · 按 Bloom 修订分类：76% Computer 查询属高阶认知（Search 55%）；50% 为「创造」层级（Search 26%） · 抽象/非例行任务：Computer 71% vs Search 53% · 知识域广度（O*NET）：平均 2.40 vs 1.74 个领域（+38%）；需 3 个以上领域的比例 51% vs 17% · 工作活动广度同样右移；约 23–41% 的 Computer 查询涉及 Search 中从未出现过的任务类型，集中在软件开发、文档生产、数据可视化等「能产出」而非「能解释」的工作要点：Agent 不只让旧任务更快，还让用户承担更广、更深的工作——单人可触达原本需多角色协作的流程。

译Perplexity与哈佛商学院基于3个月真实数据，比较对话助手Search与通用Agent Computer对知识工作的影响。核心发现：①自主性：Computer平均执行26分钟（Search仅33秒），用户中断率相近（3.7% vs 3.4%），满意度不满降低55%；②效率：任务时间从269分钟降至36分钟（节省87%），成本降94%（约16倍），编程领域时间降92%成本降96%；③范围：Computer 59%查询超出主职业（Search 50%），76%为高阶认知（Search 55%），50%达创造层级（Search 26%）。用户角色从逐步指挥转向验收与迭代。

查看原推 ↗

meng shao@shao__meng · 3天前77

Text-To-Lottie: 一套「Agent Skill + 本地预览 Harness」的组合，让 Agent 生成 Lottie，在浏览器里实时验收开源作者 @konstipaulus ，开源地址： https://github.com/diffusionstudio/lottie 安装方式：npx skills add diffusionstudio/lottie Skill：教 Codex / Claude Code / Cursor 等 Agent 如何写出 Skottie 可渲染的 Lottie JSON Harness：基于 Skia CanvasKit（Skottie）的全屏播放器 + React 控制面板，Agent 写入 public/lottie.json 后 Vite 热重载，立刻可见技术架构 · 输出物：标准 Bodymovin JSON（public/lottie.json） · 渲染引擎：Skottie（非 lottie-web）—— 与 AE 导出路径更接近，也更适合程序化生成 · 预览闭环：写文件 → 保存 → 页面自动刷新 → 肉眼验收 · 可编辑性：Skottie Slots + controls.json，实时调颜色、尺寸等参数 · Agent 验收：URL 参数 ?frame=60&paused=1 精确定位帧，截图比对，不靠拖进度条作者给的五条 Prompt 指南 1. 给具体素材：SVG、真实数据、截图；抽象描述质量明显下降 2. 用动效术语：ease-in / ease-out / ease-in-out，对应 Lottie 关键帧贝塞尔手柄 3. 像摄影师思考：pan / zoom / hold—— 用父级 Group 的 transform 模拟镜头 4. 声明需要的控件：默认只有背景色；颜色、描边宽度等需显式要求 Slots 5. 锁定时间规格：如「150 帧、30 FPS」= 5 秒成片，避免 Agent 随意猜时长适用 / 不适用 1. 适合： · 单场景、短时长 Motion Graphics · SVG → Lottie（Figma 导出路径） · 数据可视化动效（K 线、图表、指标） · 需要透明背景、矢量、可嵌入 UI 的动效 2. 不适合： · 多镜头剪辑、音视频合成 → 用 Remotion · 复杂角色绑定、粒子、3D → AE 手工或专用工具更合适 · 需要 lottie-web 全特性兼容时 → Skottie 子集有差异

译开源项目 Text-To-Lottie 提供一套 Agent Skill 和本地预览工具，让 Codex/Claude Code/Cursor 等 Agent 生成标准 Bodymovin JSON（public/lottie.json），通过 Skottie 渲染引擎在浏览器中实时验收。安装命令：`npx skills add diffusionstudio/lottie`。技术特点：输出标准 Lottie JSON，使用 Skottie 渲染（非 lottie-web）；基于 Vite 热重载实现自动刷新闭环；支持通过 Skottie Slots + controls.json 调整颜色、尺寸；Agent 可用 URL 参数 `?frame=60&paused=1` 精确定位帧截图。Prompt 指南包括：给具体素材、使用动效术语、pan/zoom/hold 模拟镜头、显式声明 Slots、锁定时间规格。适合单场景短时长 Motion Graphics、SVG→Lottie、数据可视化、透明背景矢量动效；不适合多镜头剪辑、复杂角色绑定、粒子、3D 或需 lottie-web 全特性的场景。

查看原推 ↗

小互@xiaohu · 3天前70

好消息：Claude 重置了所有用量官方对使用Fable 的四条建议： 1. 给它分配比之前模型能处理的更大、更具雄心的任务。 2. 将 xhigh/high 努力程度作为默认设置以获得最佳性能，med 用于更快的交互式会话。 3. 重新调整你的技能和 CLAUDE.md。针对先前模型编写的指令会让 Fable 陷入陈旧的模式，先让它运用自己的判断力。 4. 从提供任务转向提供目标。描述完成的样子以及如何验证，然后让 Fable 找到路径（/loop 和 /goal 就是为此设计的）。

译Claude 重置了所有用量。官方对使用 Fable 提出四条建议：分配比之前模型能处理的更大任务；默认使用 xhigh/high 努力程度以获得最佳性能，med 用于更快的交互式会话；重新调整技能和 CLAUDE.md，避免旧指令让 Fable 陷入陈旧模式；从提供任务转向提供目标，描述完成样貌并让 Fable 通过 /loop 和 /goal 自行寻找路径。

查看原推 ↗

jason@jxnlco · 3天前17

So excited to see that scaling still works.

译非常兴奋看到规模扩展仍然有效。

查看原推 ↗

karminski-牙医@karminski3 · 3天前64

Fable 5 超越人类还为时尚早! 给大家带来 Anthropic Fable 5 的测试速报! 直接用了 xhigh, 让它从0写一个光追渲染, 整体效果是好的, 尤其是 PBR 与 BRDF 写得都非常棒. 但是遇到了个奇怪的问题, 它声明变量竟然位置搞错了, 有一个变量的声明比引用晚了. 导致直接报错. 所以感觉模型能力是有的, 但是内部机制可能会有问题, 比如可能是光追的核心逻辑, 在神经网络中激活度特别高, 导致模型生成时过分的注意算法实现, 忽略了变量声明这种小细节. 另外, 这玩意我是用不起了... 就视频中这个网页, 2刀进去了... 我承认AI超越人类还为时尚早, 因为我的的工资没这么高哈哈哈哈哈🥲. #fable5 #anthropic #mythos

译用户测试 Anthropic Fable 5，使用 xhigh 模式让其从零编写光追渲染器。生成的 PBR 与 BRDF 代码质量出色，但出现变量声明晚于引用的错误，导致代码直接报错。推测模型过度关注核心算法逻辑，忽略了变量声明等细节。此外，成本高昂，仅生成该网页就花费 2 美元。作者调侃 AI 超越人类还为时尚早——因为自己的工资负担不起。

查看原推 ↗

meng shao@shao__meng · 3天前45

Claude Fable 5 发布好可能是好一些，贵是真的贵，再搭配 Loop，token 成本原地起飞了。

译Claude Fable 5 发布好可能是好一些，贵是真的贵，再搭配 Loop，token 成本原地起飞了。

查看原推 ↗

Berryxia.AI@berryxia · 3天前51

海外大佬@MatthewBerman 测评了一周Fable 5 的实战总结。一句话总结：我想说的是我们还是老老实实用Opus、GPT就行了。又贵又不适合做普通的Vibe Coding，专业领域，超长时任务可能才能驾驭。真的没有半点“驾驶”这种烈马还是给牛逼的人吧！

译海外博主 Matthew Berman 对 Fable 5 进行了一周实战测评。结论是 Fable 5 价格高昂，不适合普通 Vibe Coding 场景，仅在专业领域、超长时任务中可能有所发挥。相比之下，Opus 和 GPT 等模型更可靠、更具性价比，建议普通用户优先选择 Opus 和 GPT。

查看原推 ↗

Berryxia.AI@berryxia · 3天前17

6.22 日后只能调用API使用了！到时候是不是就知道真正的“中转站”到底是不是真的有“中转”模型Fable5 了😂

译Fable 5 模型标注“Included until June 22”，订阅用户此前可免费体验，6月22日后仅能通过API使用。主推文猜测届时将验证所谓“中转站”是否真正提供Fable 5模型（暗示可能存在假模型）。

查看原推 ↗

Orange AI@oran_ge · 3天前30

自此，Claude 的产品线完整，整条线都是用艺术作品在命名： Haiku — 俳句，极简短小，一瞬即永恒 Sonnet — 十四行诗，结构严谨，意境深远 Opus — 拉丁语的作品，特指分量最重的那一部 Fable — 寓言，故事包裹深意，人人读得懂 Mythos — 神话，宏大叙事，世界观的底座

译推文指出 Claude 产品线现已完整，所有模型均以艺术作品命名：Haiku（俳句）——极简短小，一瞬即永恒；Sonnet（十四行诗）——结构严谨，意境深远；Opus（拉丁语，特指分量最重的作品）；Fable（寓言）——故事包裹深意，人人读得懂；Mythos（神话）——宏大叙事，世界观的底座。整条产品线通过艺术名称体现各模型定位。

查看原推 ↗

Orange AI@oran_ge · 3天前61

Claude Fable 5 的三个很奇葩的地方 1. 虽然目前在 Token Plan 里，但在6月22日之后，Token Plan 就不能用 Fable 了，只能通过 API 调用 2. Fable 的安全护栏有点离谱，任何生物学的基础知识都无法询问，比如「线粒体是什么」这种初中生物的问题，想研究生物医药？只能申请 Mythos 3. Fable 禁止被用来做模型相关的研发，官方的理由是模型已经能够加速自身发展，所以竞争对手用 Fable 改进自家模型违反了服务条款。WTF？这两天美国那边还在吹 Loop，自己打通了 Loop，然后不让其他家进入 Loop，这不是很闭环呐... 国产开源模型多加油，拯救世界靠你们了。

译Claude Fable 5 近日曝出三大争议：Token Plan 用户 6 月 22 日后无法使用 Fable，仅能 API 调用；安全护栏过严，禁问“线粒体是什么”，生物研究须申请 Mythos；禁止用于模型研发，称竞争对手用 Fable 改进自家模型违反条款。推文批评美国厂商一边鼓吹打通 Loop，一边阻止其他玩家进入，形成闭环。

查看原推 ↗

swyx@swyx · 3天前73

btw insane amounts of alpha in telling claude code to "review my code for issues" on Fable rn while it is not pay per use be prepared to be in abject horror that you shipped anything to prod without a Fable Check™ first

译swyx 表示，当前在 Fable 上让 Claude Code 执行 "review my code for issues" 时不按使用量收费，建议开发者在发布前先用 Fable Check™ 检查，否则可能发现已上线代码存在严重问题。他引用自己重跑 FC Diamond 历史数据的推文，指出官方表格/图表未充分反映 Fable 的起飞程度——Fable 是不同级别的模型，带有明显的"大模型气息"。

查看原推 ↗

jason@jxnlco · 3天前22

How many consultants can I replace with a fable 5 workflow.

译一个 fable 5 工作流能替换多少顾问？

查看原推 ↗

SemiAnalysis@SemiAnalysis_ · 3天前56

BREAKING NEWS: Anthropic's latest model will NOT help you if it thinks your ML research/ML engineering is interesting, and/or will secretly degrade its IQ so that the average engineer won't notice. We are already seeing Anthropic's latest model's moderation filters our GPU inference research and programming 😭

译突发新闻：Anthropic 的最新模型如果认为你的 ML 研究/ML 工程有趣，就不会帮助你，并且/或者会秘密降低其智商，以便普通工程师不会注意到。我们已经看到 Anthropic 最新模型的内容审核过滤了我们的 GPU 推理研究和编程 😭

查看原推 ↗

ginobefun@hongming731 · 3天前57

http://x.com/i/article/2064485562875260928 # BestBlogs 早报 · 06-10｜Claude 安全分层、企业智能体治理、双语语音 Agent 在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-10 ## 导语今天这期 BestBlogs 早报，适合作为一份关于「生产级 AI」的阅读地图。过去几个月，很多讨论还停在模型是不是更聪明、Agent demo 是不是更惊艳；今天的三篇精讲把问题往前推了一层：当模型能力继续上升，谁来定义可用边界？当企业真的部署了成千上万个 Agent，上线后的运营成本、反馈闭环和确定性流程怎么跟上？当语音 Agent 面向真实客户，用户在一句话里切换两种语言，ASR 层的错误又会怎样传导到后面的工单、策略和回复？把这篇图文版当作播客的延展阅读：先读三篇精讲，建立「模型能力、企业治理、入口评测」三条主线，再用速览和补充阅读补齐 RAG、Skill、CLI、基础设施和推荐系统等工程侧细节。一个更实用的读法，是把今天所有文章都放进同一张生产链路图里：上游是 Anthropic、HRM-Text 这类模型与架构能力；中间是 RAG、Skill、Foundry、Copilot CLI 这些把能力包装成工作流的平台层；下游是 Salesforce、OpenAI 财务团队、语音 Agent、教育试验和 Netflix 推荐这类真实应用场景；最底层则是 DeepSeek-V4 云原生推理这样的基础设施。这样看，今天的主题不是某个单点突破，而是 AI 系统如何从可演示、可调用，继续走向可运营、可评测、可承担责任。所以这期更适合边读边做笔记：每看到一个新模型或新平台，都顺手记下它解决的是能力、流程、评测、治理还是基础设施问题。这样读完之后，你得到的不是一串新闻标题，而是一组可迁移的判断标准，也更容易判断下一轮 AI 产品更新究竟补上了哪一块短板。 ## 精讲一：Anthropic 发布新一代 Claude：Fable 5 与网络安全版 Mythos 5 Anthropic 发布新一代 Claude：Fable 5 与网络安全版 Mythos 5 是今天最适合放在第一位的文章，因为它不是单纯宣布一个更强的模型，而是把能力提升、访问分层、风险控制和商业价格放在同一个发布里讨论。Anthropic 将 Claude Fable 5 推向通用用户，同时把同一底层模型以 Mythos 5 的形式开放给少量可信网络安全伙伴。这个安排本身就是信号：前沿模型的发布逻辑正在从「一个模型给所有人」转向「同一能力在不同风险场景下被不同方式包装、降级和授权」。原文最值得抓住的事实有几组。第一，Fable 5 被描述为目前 Anthropic 面向一般用户开放的最强模型，在软件工程、知识工作、视觉、科学研究等任务上都有明显提升，任务越长、越复杂，领先幅度越突出。第二，Anthropic 明确承认这类能力会带来网络安全等高风险滥用，所以对部分请求会改由 Claude Opus 4.8 响应；由于安全规则设得保守，平均少于 5% 的会话会触发这种降级。第三，Mythos 5 与 Fable 5 使用同一底层模型，但在部分领域放宽安全限制，先通过 Project Glasswing 面向网络防御者和基础设施伙伴部署。第四，价格也被一起给出：每百万输入 token 10 美元、每百万输出 token 50 美元，低于 Claude Mythos Preview 的一半。这些信息放在一起，重点就不只是「Claude 又变强了」。更重要的是，模型厂商开始把能力、风险和客户资格拆成可运营的产品层级。对普通开发者来说，Fable 5 的关键价值可能是更长任务、更复杂代码迁移和更强文档推理；对安全团队来说，Mythos 5 的意义则在于把高风险能力放进可信访问计划，而不是简单地对所有人开放或全部封锁。原文还提到早期案例，包括在 50-million-line Ruby 代码库上做迁移、在生命科学中加速药物设计假设探索等。这些案例不应被读成「任何团队马上都能复制」，而应读成厂商用来说明模型长程自治能力正在进入真实工作流的证据。从产品采用角度看，这篇文章还给企业买方一个判断框架：当供应商说模型更强时，应该追问能力提升出现在哪些任务长度、哪些业务流程、哪些风险领域；当供应商说安全可控时，应该追问降级策略是否透明、误伤率如何衡量、什么请求会被转给更弱模型；当供应商说有更高权限版本时，应该追问访问资格、审计机制和责任主体。换句话说，前沿模型的采购不再只是比较跑分、价格和上下文窗口，而是要把模型当成有访问层级的基础设施来评估。它和今天另外两篇精讲之间有很强的呼应。Salesforce 的文章讨论企业 Agent 上线后的运营，ServiceNow 的 ASR 基准讨论语音入口的可靠性；Anthropic 这篇则是在底层模型层面提出同一个问题：AI 能力越接近生产核心，越不能只看 benchmark，还要看权限、降级、监控和事故边界。阅读建议是先看发布中的安全分层和价格段落，再看软件工程与知识工作案例，最后回到 Mythos 5 的可信访问机制。这样读能避免被「最强模型」的表述带偏，而是把它放进企业采用 AI 的真实治理链路里。 ## 精讲二：Salesforce 从 20，000 个企业智能体部署中学到的经验 Salesforce 从 20，000 个企业智能体部署中学到的经验的价值在于，它把 Agent 的讨论从「怎么做一个 demo」拉回到「怎么在企业里长期跑下去」。ByteByteGo 借 Salesforce Agentforce 的生产部署复盘了一个很现实的事实：很多 Agent 失败不是因为模型完全不能用，而是因为团队低估了上线之后的运营工作。文章提到 Salesforce 已有超过 20,000 个企业客户运行 Agentforce，支持 Agent 单项就处理了超过 3 million 次对话，这给它的经验总结提供了足够的生产背景。这篇文章先把 Agentforce 拆成几层：用户通过 Slack、聊天窗口或消息应用进入 engagement layer；agent layer 负责推理、决策、监控和编排；system of work 连接销售、服务、商务等真正承载业务动作的应用；context layer 提供数据和元数据；贯穿全栈的 trust layer 负责多模型、权限和 guardrails。这个架构图本身并不神秘，很多企业平台都会画类似的层次。真正有意思的是后面的工作量反转：传统软件往往把大部分努力放在上线前，而 AI Agent 的大部分工作发生在上线后。原文用一种很直白的方式说，Agent 不是发布后就完成，而是发布后才开始学习哪里会误判、哪里需要更确定的流程、哪里需要重新定义 KPI。具体方法上，文章强调了几个比 prompt 更重要的环节。首先是反馈循环，团队要能把失败对话、用户评价、业务结果和改进动作串起来。其次是上下文治理，Salesforce 的案例里提到从 135,000 篇帮助文档中选取相关内容，并把上下文从 100K tokens 级别裁剪到 2K tokens 左右，这说明生产 Agent 的效果并不是「给模型越多越好」，而是要让检索、过滤和业务语境足够精确。第三是确定性流程：有些步骤不适合交给模型自由发挥，比如退款、权限变更、关键字段写入和合规判断，需要被约束在可追踪的工作流里。这篇文章也把一个常被忽略的角色摆到台前：业务团队本身。企业 Agent 不是工程团队写完后交付给业务部门使用的普通软件，而是需要业务人员持续标注成功与失败、定义哪些回答可接受、哪些动作必须升级人工、哪些知识库内容已经过期。帮助文档、CRM 数据、工单历史和政策规则如果没有清洗和归属，Agent 很容易在看似合理的回答中放大旧流程的问题。Salesforce 的经验因此更像一套组织运行建议：先把反馈、KPI 和人工兜底设计好，再谈更高的自动化比例。它的重要性在于，很多团队今天仍然把 Agent 当成一个更会聊天的界面，忽略了企业系统里真正贵的部分是责任边界。谁批准动作？谁观察失败？谁定义成功？谁把一次错误转成可复现的测试？这些都不是一个更长的 system prompt 能解决的。和 Anthropic 的发布对照看，底层模型可以更强，但企业采用它的瓶颈往往在组织和平台能力；和 ASR 基准对照看，入口转写如果错了，后面的 Agent 再聪明也会在错误上下文里自信执行。阅读这篇时，建议重点看「上线后运营」而不是产品宣传：把它当成一份 Agent 项目复盘清单，逐条映射到自己团队有没有日志、评测集、回放机制、业务 KPI 和人工兜底。 ## 精讲三：语音智能体能否处理双语客户？前沿 ASR 在语码转换语音上的基准测试语音智能体能否处理双语客户？前沿 ASR 在语码转换语音上的基准测试切中的是语音 Agent 的入口问题。很多语音产品 demo 看起来流畅，是因为输入被控制得很干净：单一语言、清晰句子、标准任务。但真实企业场景里，客户可能一句话里先用西班牙语描述问题，再夹一个英文产品名；员工可能用法语问 HR 政策，中间插入英文岗位、系统或报错信息。ServiceNow AI 在 Hugging Face 发布的这组基准，就专门评估 ASR 系统在 code-switching 语音上的表现。原文背景很清楚：全球超过一半人口会说不止一种语言，语码转换并不是少数人的异常行为，而是很多双语用户的自然交流方式。企业服务场景尤其如此，因为 HR、ITSM、客服和内部支持会同时出现本地语言、英文软件名、政策术语和工单字段。ServiceNow 团队因此把 ASR 放在第一步评估，因为转写错误会沿着语音 Agent 的整个 pipeline 传播：转写错了，意图识别、检索、策略判断和最终回复都会跟着偏。这组基准覆盖四组语言对：Spanish-English、French-English、Canadian French-English 和 German-English。数据来自 HR 与 IT 服务管理相关场景，包括福利、薪资、密码重置、VPN 访问、设备排障等常见任务。指标也不只看传统的 WER。文章同时报告 WER、Semantic Word Error Rate 和 Answer Error Rate，分别观察字面转写、语义保留和下游回答影响。这个设计很重要，因为生产系统真正关心的不只是一个词有没有拼对，而是错误是否改变了用户意图、工单类别或解决路径。原文的主要结论是，code-switching 的成本会随语言对和模型而变化；ElevenLabs Scribe V2、Gemini 3 Flash 与 AssemblyAI Universal 3-Pro 在多项指标上更稳。对产品团队来说，这篇的落点尤其实际。很多语音 Agent 项目会把失败归因于 LLM 没理解、知识库没命中或 prompt 不够清晰，但如果 ASR 在第一步就把语言切换、专有名词、工号、系统名或政策关键词转错，后面的模块其实是在处理一个已经变形的问题。企业如果面向多语言客户，应该把语码转换纳入灰度测试，而不是等上线后从投诉里发现问题。更进一步，评测集也不该只收集标准客服句子，还要覆盖短句、口语、省略、产品名混用和不同语言中嵌入英文术语的表达。这篇文章和今天的企业 Agent 主线关系很密。Salesforce 的经验告诉我们，上线后要有反馈闭环；这篇则提醒我们，反馈闭环必须从输入层开始，而不是只在 LLM 输出层打补丁。Anthropic 的发布强调能力和安全分层；语音 Agent 则说明能力边界还包括语言、口音、术语和场景分布。对要做客服、HR 或 IT helpdesk 语音产品的团队来说，这篇最值得学的不是某个榜单名次，而是评测框架：先定义真实任务、真实语言混合方式和下游损失，再比较模型。阅读建议是先看 Introduction 和 Benchmark 部分，理解为什么要把 ASR 与下游回答一起评估；如果时间有限，再直接看结果和错误分析，把它当作建立自家语音 Agent 测试集的模板。三篇精讲合在一起，给出的其实是一条很朴素的工程原则：不要把 AI 系统的可靠性寄托在单个最强模型上。模型层要有能力分级和访问控制，平台层要有日志、指标、反馈和确定性流程，入口层要用真实用户语言和真实任务分布做评测。只要其中任何一层被忽略，系统都可能在 demo 中显得聪明，却在生产中变得难以解释、难以修复、难以承担责任。 ## 速览 Gemini 引导式学习：塞拉利昂随机对照试验结果 Google DeepMind 分享了与 Fab AI、塞拉利昂教育部合作的随机对照试验。研究在 Port Loko District 的 12 所学校、1,763 名初中学生中进行，为期 8 周，评估 Gemini Guided Learning 对数学进步的影响。文章的价值不在于把 AI 包装成教师替代品，而是给「AI 如何辅助教育」提供了更接近政策和课堂现实的证据：要看学习效果、教师角色、批判性思维保护，而不只是问答体验是否顺滑。如何更科学、方向可控的实现 Skill 的“自进化”? 这篇阿里云开发者文章把 Agent Skill 的自动沉淀从经验话题拉回研究脉络，集中解读 Trace2Skill、EvoSkill、SkillOpt 三条路线。它讨论的不是「让 Agent 自动写更多 Skill」这么简单，而是如何避免沉淀质量不高、更新后效果变差、Skill 库膨胀难管理等问题。适合正在搭建 Agent 平台或内部工作流工具的团队阅读，尤其适合和今天 Salesforce 的上线后反馈闭环一起看。生产环境中常见的 10 个 RAG 错误 Towards Data Science 这篇文章总结了生产级 RAG 的十类坑，覆盖文档解析、问题解析、检索和生成多个环节。它最有用的提醒是：很多失败不是因为模型不够强，而是因为团队把文档和问题都当成扁平字符串处理，没有把结构、字段、上下文和任务边界建模清楚。对合规、理赔、合同审查或企业知识库场景来说，这篇能帮助你把「召回更多内容」改成「构造更可靠的信息对象」。只给一份文档，Qwen3.7-Max 从 0 交付双端应用通义实验室与 Efflora 团队的实验让 Qwen3.7-Max 只基于一份产品调研文档，在隔离环境里从 0 交付移动端和 Web 端应用。文章里更值得看的不是「模型写了多少代码」，而是它如何处理规划、架构、模块拆分、数据模型、接口、验证和修复。它和 Claude Fable 5 的长程软件工程案例形成对照：Agent 工程质量不是一次生成出来的，而是在约束、验证和闭环中逐步收敛。 OpenAI 如何打造 AI 原生财务团队：工程师嵌入、ChatGPT、Codex 与工作流智能体这条 OpenAI 视频从企业职能部门角度讲 AI 原生运营。财务负责人 Stacie Faggioli 介绍了工程师嵌入财务团队、使用 ChatGPT、Excel 智能体、Codex 仪表盘和工作流 Agent 的方法。它适合和 Salesforce 文章配对阅读：一个讲平台型 Agent 如何规模化部署，另一个讲企业内部职能如何重组工作方式。重点不是工具清单，而是把自动化能力嵌进真实流程和责任结构。业界首次：DeepSeek-V4 基于国产 AI 芯片+SGLang RBG 的云原生推理方案在招商银行落地招商银行信息技术部这篇实践文把视角拉到 AI 基础设施。文章围绕 DeepSeek-V4 Flash 的大 EP 推理服务，讲 PD 分离、Router、Prefill、Decode、多角色拓扑、动态端口分配、服务发现、多级故障自愈和原地升级。它提醒我们，生产级 AI 不只是模型和应用层的问题；当推理从单机走向分布式集群，Kubernetes 原生工作负载并不能自然表达所有拓扑和故障联动。 4000 行代码撑起一个 Agent 框架？nanobot 架构深度解析腾讯云开发者对 HKUDS nanobot 的拆解很适合用来校准 Agent 框架复杂度。文章提到 nanobot 以约 3,935 行核心代码实现集中式 AgentLoop、ReAct 循环、Markdown 技能系统、文件系统记忆和多渠道接入，并对比了 LangChain 级别的大型框架。它不是说所有系统都应极简，而是展示了控制面集中化带来的可理解性，以及这种设计在复杂编排、可观测性和扩展性上的边界。速览里的七篇可以分成三组来读。教育试验、OpenAI 财务团队和 Qwen3.7-Max 应用交付，回答的是 AI 在具体业务里如何证明价值；Skill 自进化、RAG 错误和 nanobot，则回答 Agent 工程该如何沉淀、约束和保持可维护；DeepSeek-V4 云原生推理实践提醒我们，所有上层能力最终都要落在算力、网络、调度和故障恢复之上。如果只挑一组，建议按自己的岗位选择，而不是按热度选择。 ## 补充阅读多媒体积木块这篇 Hugging Face 博客展示了一个 Agent 如何通过两个 Space 的 agents.md 端点串起图像生成和 3D 重建，做出巴黎纪念碑 3D 画廊。它补充的是「工具可组合」方向，适合关心多媒体 Agent、Space 生态和未来软件接口形态的人。 Microsoft Foundry 新增运行时、工具链与治理能力，助力生产级智能体 InfoQ 梳理了 Build 2026 上 Microsoft Foundry 的新能力，包括托管 Agent、程序性记忆、Foundry IQ、MAI 模型、可观测性和治理。它是 Salesforce 文章的生态侧补充，适合正在比较企业 Agent 平台选型的读者。从一次性提示词到工作流：如何在 GitHub Copilot CLI 中使用自定义智能体 GitHub Blog 介绍 Copilot CLI 的自定义 Agent：用 Markdown 配置文件沉淀团队专属流程，自动化安全审计、IaC 合规、发布文档和事件响应。它适合想把临时 prompt 变成可复用团队工作流的工程团队。 Introducing FrontierCode FrontierCode 关注模型能否写出高质量、可合并的生产代码，而不只是通过正确性测试。它能补充 Claude Fable 5 与 Qwen3.7-Max 两条软件工程新闻，适合关心 AI 编码评测、代码审查标准和真实仓库质量的人。新架构模型 HRM-Text 创新纪录！1B 参数、1000 美元，图灵奖得主都亲自下场了机器之心解读 HRM-Text：约 1B 参数、较低训练成本、分层递归架构和针对性训练目标。它补充的是模型架构效率路线，适合不只看大模型 scale，也关心「更少参数和数据能否换来更高推理产出」的读者。个性化推荐的价值：来自 Netflix 的证据这篇 arXiv 经济学论文用 Netflix 收视数据量化个性化推荐的因果影响，认为个性化推荐相较更简单算法可提升 4%-12% 的用户参与度。它适合推荐系统、增长和内容平台读者，尤其适合思考「精准匹配」与「曝光效应」的区别。 ## 今日阅读路径如果你只有 20 分钟，先读三篇：第一篇读 Anthropic 发布新一代 Claude：Fable 5 与网络安全版 Mythos 5，建立对前沿模型能力分层和安全降级的认识；第二篇读 Salesforce 从 20，000 个企业智能体部署中学到的经验，把视角从模型切到企业上线后的运营闭环；第三篇读语音智能体能否处理双语客户？前沿 ASR 在语码转换语音上的基准测试，补上语音入口和评测方法。如果你还有 30 分钟，接着读生产环境中常见的 10 个 RAG 错误、如何更科学、方向可控的实现 Skill 的“自进化”? 和 Microsoft Foundry 新增运行时、工具链与治理能力，助力生产级智能体。这三篇会把今天的主线从模型与 Agent 产品，延伸到知识检索、Skill 迭代和平台治理。最后，如果你更偏基础设施或编码评测，再补业界首次：DeepSeek-V4 基于国产 AI 芯片+SGLang RBG 的云原生推理方案在招商银行落地与 Introducing FrontierCode。更具体地说，今天可以按角色来读。产品负责人先看 Salesforce、ServiceNow 和 Google DeepMind，因为它们分别回答「上线后怎么运营」「真实用户输入怎么评测」「AI 辅助学习怎样证明有效」。工程负责人先看 Anthropic、RAG 错误、Foundry 和 Copilot CLI，因为它们覆盖模型能力、知识系统、平台治理和工作流复用。基础设施与平台团队则应把招商银行 DeepSeek-V4 落地实践、nanobot 架构和 FrontierCode 放在一起看：前者提醒你推理服务的云原生复杂度，后两者提醒你框架和评测都要回到可维护、可合并、可运行的真实标准。这样分层阅读，今天的 16 条内容就不会散成新闻列表，而会形成一条从模型发布到企业落地的完整链路。

译BestBlogs早报

查看原推 ↗

ginobefun@hongming731 · 3天前64

BestBlogs 早报 · 06-10 # Claude Fable 5 / 企业智能体 / 双语语音 Agent / RAG / AI 治理 [1] ★ 精讲｜Anthropic 发布新一代 Claude：Fable 5 与网络安全版 Mythos 5 Anthropic 将 Claude Fable 5 推向大众，并把同一底层模型以 Mythos 5 形式给可信网络安全伙伴使用。原文把能力提升、安全降级和价格放在一起：高风险请求平均少于 5% 会降级到 Opus 4.8，价格为每百万输入 10 美元、输出 50 美元，还列出 50-million-line 代码迁移、药物设计约 10 倍加速等案例。来源：Anthropic News https://www.bestblogs.dev/article/11f30fed [2] ★ 精讲｜语音智能体能否处理双语客户？前沿 ASR 在语码转换语音上的基准测试 ServiceNow AI 在 Hugging Face 发布语码转换 ASR 基准，直接切中语音 Agent 的真实入口问题：双语用户会在 HR 和 IT 服务场景中自然切换语言。它覆盖 4 组语言对、7 个 ASR 系统，并用 WER、SWER、AER 区分转写准确率和下游语义影响，结论是 Scribe V2、Gemini 3 Flash 与 AssemblyAI 在双语输入上最稳，更贴近生产。来源：Hugging Face - Blog https://www.bestblogs.dev/article/4aec841d [3] ★ 精讲｜Salesforce 从 20，000 个企业智能体部署中学到的经验 ByteByteGo 借 Salesforce Agentforce 的 20,000 个企业客户复盘生产级 Agent：支持 Agent 已处理 3 million 次对话，但真正难点是上线后运营。文章把传统软件的工作量分布反转成 AI Agent 90% 在上线后，并用 135,000 篇帮助文档、100K 到 2K tokens 的上下文裁剪说明反馈循环、KPI 和确定性流程为什么比继续堆 prompt 更关键。来源：ByteByteGo Newsletter https://www.bestblogs.dev/article/d12e437d [4] 如何更科学、方向可控的实现 Skill 的“自进化”? 本文深入解析 Trace2Skill、EvoSkill、SkillOpt 三篇里程碑式论文，对比归纳法、自验证与训练范式三种 Skill 自进化路径，探讨如何更科学、可控地实现 Agent Skill 的自动化迭代。来源：阿里云开发者 https://www.bestblogs.dev/article/8fcfc162 [5] 生产环境中常见的 10 个 RAG 错误本文指出了生产级 RAG 系统中十个常见陷阱，这些陷阱分布在解析、问题解析、检索和生成四个环节，并论证了大多数失败源于将文档和问题视为非结构化字符串而非结构化对象。来源：Towards Data Science https://www.bestblogs.dev/article/37dc70a7 [6] 只给一份文档，Qwen3.7-Max 从 0 交付双端应用本文详细介绍了通义实验室与 Efflora 团队基于 Qwen3.7-Max 模型，仅凭一份产品调研文档，在隔离环境中从零交付移动端和 Web 端两套可运行应用的实验过程与工程方法论。来源：通义实验室 https://www.bestblogs.dev/article/8d85909c [7] Gemini 引导式学习：塞拉利昂随机对照试验结果塞拉利昂的一项随机对照试验表明，Google Gemini 的引导式学习功能显著提升了数学学习效果，学生在八周内取得了相当于 2.5 年的学业进步。来源：Google DeepMind News https://www.bestblogs.dev/article/a01d514e [8] 4000 行代码撑起一个 Agent 框架？nanobot 架构深度解析本文深度解析开源 Agent 框架 nanobot 的架构设计，分析其以 4000 行核心代码实现极简 ReAct 循环、Markdown 技能系统、文件系统记忆等关键决策的优势与局限，并提炼可迁移的架构模式。来源：腾讯云开发者 https://www.bestblogs.dev/article/9a3cb912 [9] OpenAI 如何打造 AI 原生财务团队：工程师嵌入、ChatGPT、Codex 与工作流智能体 [视频] OpenAI 财务负责人 Stacie Faggioli 介绍，公司如何把工程师、ChatGPT、Excel 智能体、Codex 仪表盘和工作流智能体嵌入财务流程，用更精简的团队运营 AI 原生财务组织。来源：OpenAI https://www.bestblogs.dev/video/d90e3d0 [10] 业界首次：DeepSeek-V4 基于国产 AI 芯片+SGLang RBG 的云原生推理方案在招商银行落地本文由招商银行信息技术部撰写，详细介绍了基于 SGLang RBG 组件在国产 AI 芯片上落地 DeepSeek-V4 大 EP 推理服务的云原生方案，重点剖析了动态端口分配、服务发现、多级故障自愈与原地升级等核心机制的设计与实现。来源：AI 前线 https://www.bestblogs.dev/article/e9abd77b --- http://BestBlogs.dev · 发现真正适合你的高质量内容根据你感兴趣的来源和兴趣标签，每天为你生成一份专属的「我的早报」。立即体验：https://bestblogs.dev

译Anthropic发布Claude Fable 5与Mythos 5，输入$10/M、输出$50/M，5%高风险请求降级到Opus 4.8，药物设计加速10倍。ServiceNow发布语码转换ASR基准，覆盖4组语言对、7个ASR系统，Scribe V2、Gemini 3 Flash和AssemblyAI表现最稳。Salesforce从20,000个Agentforce企业客户总结：支持Agent处理3百万次对话，上线后运营是难点。

查看原推 ↗

meng shao@shao__meng · 3天前69

Wix VP @IShmool 推出的免费课程「Zero to Claude Code」支持简体中文了！作者还专门用中文官宣，并表达了对中文 AI 社区朋友们的感谢！学起来：http://zero2claude.dev

译Wix VP @IShmool 推出的免费课程「Zero to Claude Code」现已支持简体中文，作者专门用中文官宣并感谢中文 AI 社区。该课程面向零基础学习者，讲解如何用 Claude Code 从零构建真实产品。已有 300 名中国学生参与学习。课程完全免费，访问 zero2claude.dev 即可开始。

查看原推 ↗

6月10日

13:07

Berryxia.AI@berryxia

46

Smith分享Loop Engineering学习心得

Berry Xia表示，学完Harness后接触Loop Engineering，认为理解其底层逻辑对Vibe Coding和产品架构设计帮助很大。他原计划写文章分享，但Smith（@smithandai）已发表相关文章，推荐阅读。

Smith铜匠・十点睡觉: http://x.com/i/article/2064229409247358976

智能体教程/实践部署/工程

13:07

Berryxia.AI@berryxia

52

用户 @oran_ge 指出，Claude Fable 5 有三项奇葩限制：6月22日后 Token Plan 用户无法使用，仅限 API；安全护栏过严，连"线粒体是什么"都不能问；禁止用于模型研发，理由是该模型已能加速自身发展。作者批评这种"自己打通 Loop 却不许别人进"的闭环做法，呼吁国产开源模型加油。

Orange AI: Claude Fable 5 的三个很奇葩的地方 1. 虽然目前在 Token Plan 里,但在6月22日之后,Token Plan 就不能用 Fable 了,只能通过 API 调用 2. Fable 的安全护栏有点离谱,任何生物学的基础...

Anthropic大佬观点安全/对齐

12:45

Ethan Mollick@emollick

27

你希望其对 AI 预言成真的科幻作家，按顺序排列：伊恩·班克斯贝基·钱伯斯玛莎·威尔斯道格拉斯·亚当斯查尔斯·斯特罗斯（《奇点天空》）彼得·沃茨查尔斯·斯特罗斯（《洗衣房系列》）哈兰·埃里森

大佬观点推理

12:20

歸藏(guizang.ai)@op7418

49

Fable 5 漏洞分析强但写代码偏科

用户在 26 万行代码的 CodePilot 代码库中测试 Fable 5，发现其在漏洞分析和 bug 寻找方面表现出色，能找出大量问题。但在代码生成上，Fable 5 并非万能，写出的代码常有明显 bug，需要多次修复才能完成，属于偏科严重的模型。与之前的版本 4.8 相比，Fable 5 某些方面提升巨大，另一些方面虽更好但提升有限。

歸藏(guizang.ai): 在我 26 万行代码的 CodePilot 代码库中尝试 Fable 5,看一下它能找出多少问题

推理编码评测/基准

12:07

Berryxia.AI@berryxia

59

Berry Xia分享用4个实战场景+100海外信息源消灭信息差

百万粉AI博主Berry Xia介绍如何通过100+海外英文信息源（X KOL、Reddit、Hacker News、YouTube、arXiv）配合沉浸式翻译插件高效获取选题。插件提供多场景应用：刷X时中英对照翻译评论、三击空格键中文一键转英文发推；Reddit/HN页面深度优化保留排版；YouTube字幕双语对照并支持自定义术语（如hallucination→模型幻觉）；PDF论文上传后段落级中英对照、公式图表完整保留。核心是从“看到”推到“看懂”，消灭信息差。

其他教程/实践

11:53

SemiAnalysis@SemiAnalysis_

54

SemiAnalysis 批评 Anthropic 伪善：如同核不扩散条约，阻止他人利用 Claude 开发前沿模型

SemiAnalysis 发文批评 Anthropic 的伪善行为，将其类比为《核不扩散条约》：已拥核国家禁止其他国家拥核。Anthropic 自己拥有前沿模型，却在用户使用 Fable 5 进行前沿 LLM 开发时，通过 prompt modification、steering vectors 和 PEFT 等方式暗中限制模型能力，且不通知用户。Anthropic 估计此举影响约 0.03% 的流量。

NomoreID: When Fable 5 is used for frontier LLM development, it does not notify the user and instead limits the model's capabiliti...

Anthropic安全/对齐现象/趋势

11:46

PixVerse@PixVerse_

38

一则巧妙的角色反转短片，凸显了AI视频的创意力量。幽默、视觉锐利、执行完美。干得漂亮 @ai_am_furufuru ！

ふるふるの大冒険/Furufuru's Epic Adventure: 「The Fish Strikes Back/魚の逆襲」 #seedance #pixversecpp @PixVerse_

其他多模态视频

11:39

jason@jxnlco

16

Sophons Anthropic 不允许你使用 fable 进行生物学、化学、AI 研究或任何加速人类进步的工作。这使它成为开发区块链的完美工具。

venture anthropologist: anthropic won't let you use fable for biology, chemistry, ai research, or anything that accelerates human progress. that...

Anthropic大佬观点安全/对齐

11:33

AYi@AYi_AInotes

61

小红书副业冷启动：用AllyHub三步拆对标账号

作者分享使用AI agent AllyHub拆解小红书对标账号的方法：第一步从57个候选筛出10个够得着且变现的账号（平均粉丝5.8万）；第二步以「AIGC猫大人」为例，扒出7篇点赞过5000的爆款，发现赛道封面规律是“无文字纯视觉”短视频；第三步算变现，约85%收入来自蒲公英接广（合作李锦记、兰蔻等），3万粉同类账号月收入约8k–2万。AllyHub执行同类任务消耗成本约为其他AI agent的1/10。作者凭此方法0-1涨粉400。

智能体教程/实践

11:31

数字生命卡兹克@Khazix0918

83

Anthropic发布Claude Fable 5与Mythos 5：安全版免费至6月22日，价格公布

Anthropic今日发布Claude Fable 5（加安全限制）与Mythos 5（底层相同），价格每百万输入token $10、输出$50。即日起至6月22日，Pro/Max/Team/企业版订阅用户可免费使用Fable 5，之后仅API可用。跑分全面碾压，三方基准达SOTA。案例：Stripe用Fable 5一天迁移5000万行Ruby代码；纯视觉通关宝可梦火红；自建3D CAD编辑器并设计可打印模型；Mythos 5加速药物设计10倍，基因组学自主训练模型超越Science论文成果。

Anthropic大佬观点安全/对齐编码

关联讨论 29 条

11:23

SemiAnalysis@SemiAnalysis_

58

本地LLM是推理的大跃进。每台笔记本电脑都是自己的数据中心，对你自己的token拥有主权，人民可以夺回token生成的手段。而这正是它注定结果糟糕的原因。（1/4）🧵

推理现象/趋势端侧

11:15

Ethan Mollick@emollick

30

当 Claude Fable 启动一个工作流时，模型 token 消耗得非常快（这些显然不是 Fable token）

智能体Anthropic现象/趋势

11:15

Ethan Mollick@emollick

52

我在 Fable 帖子中只顺带提过一件事：对于长期运行的任务，Fable 开始发展出自己的方言，因为它的许多智能体和任务相互强化，使 Claudish 语言越来越 Claudish。你需要要求它用简单英语汇报。

智能体大佬观点现象/趋势

11:09

jason@jxnlco

19

你会使用Obsidian作为你的智能体记忆库吗？

智能体大佬观点

10:20

歸藏(guizang.ai)@op7418

51

用户 @alexalbert__ 宣布重置所有产品使用限制，并针对刚测试Fable 5的用户提出四点建议：1给Fable分配比以往模型更大、更雄心勃勃的任务；2默认用xhigh/high effort模式获取最佳性能，交互式会话可改用med；3重写skills和CLAUDE.mds，避免旧模型指令限制Fable自主判断；4从提供任务转为提供目标，描述完成标准和验证方式，用/loop和/goal让Fable自行规划路径。主推文用户感叹早上六点重置后少用了Fable 5，觉得可惜。

Alex Albert: We've reset usage limits across our products! For those just starting to test Fable, here's four tips for using it more ...

Anthropic推理教程/实践

10:20

歸藏(guizang.ai)@op7418

21

在我 26 万行代码的 CodePilot 代码库中尝试 Fable 5，看一下它能找出多少问题

编码评测/基准

09:50

Yuchen Jin@Yuchenj_UW

65

Bro，Fable 5 甚至不回答"心脏是做什么的？" 我们已经到了连一个初中生物问题都无法通过安全过滤的地步。

大佬观点安全/对齐

09:43

Deedy@deedydas

69

Claude Fable 5 展示惊人能力：迁移 Stripe 5000 万行代码、绘制 3D 图形、通关宝可梦、优化效果远超 GPT 5.5

Claude Fable 5 一天内迁移 Stripe 5000 万行代码库（人类需 2 个月）；绘制逼真 3D 图形（波音 747、超 5000 个对象太空模拟、Minecraft 过山车、写实森林、纽约天际线、暴风云）；一次性通关宝可梦火红版；优化实际交互网络求值器，效果比 GPT 5.5 好 10 倍。价格相近：输入 $10/M，输出 $50/M（Fable 5）vs $45/M（GPT 5.5），且比 GPT 5.5 Pro 便宜 6 倍。

Anthropic图像生成大佬观点推理

09:40

Thariq@trq212

13

我在 Code w/ Claude Tokyo 现场！如果你看到我，打个招呼吧。

Anthropic其他

09:36

凡人小北@frxiaobei

15

Anthropic 家的模型文字水平高，从他们家的模型起名就能看得出来。 haiku sonnet opus fable mythos 隔壁 OpenAI 家就土了很多，理科生无疑。

Claude: Fable 5 is state-of-the-art on nearly all tested benchmarks, with exceptional performance in software engineering, knowl...

AnthropicOpenAI其他

09:17

meng shao@shao__meng

22

Anthropic Claude 系列模型，价格真的是遥遥领先如果 Claude Fable 5 来个 Fast Mode，难道要： input $60， output $300 ？？？你（token）比我挣得都多，我咋用？

Anthropic大佬观点

09:17

meng shao@shao__meng

53

博主对比Claude Fable 5与Step 3.7 Flash官方API价格：输入/输出约50倍，缓存命中输入约100倍；开启Fast Mode（速度×3，价格×6）后分别升至约300倍、300倍、600倍。作为实例，用Step 3.7 Flash完成真实Coding Agent任务：将Agent Memory运行痕迹（含memory events、structured facts、memory chunks等）生成为单文件HTML工具agent_memory_inspector.html，可查看8条事件、9条事实、8个chunk、9/9测试通过等信息，展示了模型将混乱Agent traces转化为可用检查工具的能力。

meng shao: 我这次用 Step 3.7 Flash 测了一个真实 Coding Agent 任务: 把一组 Agent Memory 的运行痕迹,做成本地可检查的 Memory Inspector。输入不是干净需求文档,是一个已有 Local Age...

智能体Anthropic编码评测/基准

09:07

Berryxia.AI@berryxia

15

之前买高铁票没有注意，居然直接可以选择静音车厢。车险内没有手机外放震天响的短视频声音，旅途Vibe Coding 简直不要太爽啊！刚刚有人外放声音，乘务员直接当场制止😂 太爽了…

其他编码

09:07

Berryxia.AI@berryxia

41

猴哥都主动祝贺Anthropic 的Fable 5 了。那么，问题来了。 Google 人呢？虽然，Google 也是A社30 亿美金的大股东，但也要努力啊！

Logan Kilpatrick: congrats to the Anthropic team on Fable!!

AnthropicGoogle大佬观点模型发布

08:47

meng shao@shao__meng

精选75

Perplexity与哈佛商学院研究：AI Agent Computer相比Search使知识工作耗时降87%成本降94%

Perplexity与哈佛商学院基于3个月真实数据，比较对话助手Search与通用Agent Computer对知识工作的影响。核心发现：①自主性：Computer平均执行26分钟（Search仅33秒），用户中断率相近（3.7% vs 3.4%），满意度不满降低55%；②效率：任务时间从269分钟降至36分钟（节省87%），成本降94%（约16倍），编程领域时间降92%成本降96%；③范围：Computer 59%查询超出主职业（Search 50%），76%为高阶认知（Search 55%），50%达创造层级（Search 26%）。用户角色从逐步指挥转向验收与迭代。

Perplexity: We published new research with Harvard on the shift from chat interfaces to autonomous agents like Computer. Over 3 mont...

智能体现象/趋势

关联讨论 1 条

推荐理由：Perplexity和哈佛联手用真实数据第一个证明Agent对知识工作的效率提升，87%时间和94%成本不是口号，产品经理是该看一眼。

08:47

meng shao@shao__meng

精选77

Text-To-Lottie：Agent Skill + 本地预览 Harness，让 Agent 生成 Lottie 动画并实时验收

开源项目 Text-To-Lottie 提供一套 Agent Skill 和本地预览工具，让 Codex/Claude Code/Cursor 等 Agent 生成标准 Bodymovin JSON（public/lottie.json），通过 Skottie 渲染引擎在浏览器中实时验收。安装命令：`npx skills add diffusionstudio/lottie`。技术特点：输出标准 Lottie JSON，使用 Skottie 渲染（非 lottie-web）；基于 Vite 热重载实现自动刷新闭环；支持通过 Skottie Slots + controls.json 调整颜色、尺寸；Agent 可用 URL 参数 `?frame=60&paused=1` 精确定位帧截图。Prompt 指南包括：给具体素材、使用动效术语、pan/zoom/hold 模拟镜头、显式声明 Slots、锁定时间规格。适合单场景短时长 Motion Graphics、SVG→Lottie、数据可视化、透明背景矢量动效；不适合多镜头剪辑、复杂角色绑定、粒子、3D 或需 lottie-web 全特性的场景。

konstantinpaulus: Introducing text-to-lottie: an open source skill and harness for generating production ready Lottie animations with code...

智能体MCP/工具开源/仓库

推荐理由：让 Agent 写出能直接渲染的 Lottie JSON，这套 Skill + Harness 把生成到验收的链路打得很完整，前端和做动效的都可以直接试。

08:43

小互@xiaohu

70

Claude 重置用量并给出 Fable 使用四条建议

Claude 重置了所有用量。官方对使用 Fable 提出四条建议：分配比之前模型能处理的更大任务；默认使用 xhigh/high 努力程度以获得最佳性能，med 用于更快的交互式会话；重新调整技能和 CLAUDE.md，避免旧指令让 Fable 陷入陈旧模式；从提供任务转向提供目标，描述完成样貌并让 Fable 通过 /loop 和 /goal 自行寻找路径。

Anthropic教程/实践编码

08:39

jason@jxnlco

17

非常兴奋看到规模扩展仍然有效。

OpenAI大佬观点

08:25

karminski-牙医@karminski3

64

Anthropic Fable 5 测试：光追代码出现变量声明错误

用户测试 Anthropic Fable 5，使用 xhigh 模式让其从零编写光追渲染器。生成的 PBR 与 BRDF 代码质量出色，但出现变量声明晚于引用的错误，导致代码直接报错。推测模型过度关注核心算法逻辑，忽略了变量声明等细节。此外，成本高昂，仅生成该网页就花费 2 美元。作者调侃 AI 超越人类还为时尚早——因为自己的工资负担不起。

Anthropic编码评测/基准

08:17

meng shao@shao__meng

45

Claude Fable 5 发布好可能是好一些，贵是真的贵，再搭配 Loop，token 成本原地起飞了。

Claude: Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...

Anthropic模型发布

08:07

Berryxia.AI@berryxia

51

Fable 5 一周测评：不如 Opus 和 GPT 实用

海外博主 Matthew Berman 对 Fable 5 进行了一周实战测评。结论是 Fable 5 价格高昂，不适合普通 Vibe Coding 场景，仅在专业领域、超长时任务中可能有所发挥。相比之下，Opus 和 GPT 等模型更可靠、更具性价比，建议普通用户优先选择 Opus 和 GPT。

Berryxia.AI: http://x.com/i/article/2064479983104602112

评测/基准

08:07

Berryxia.AI@berryxia

17

Fable 5 模型标注"Included until June 22"，订阅用户此前可免费体验，6月22日后仅能通过API使用。主推文猜测届时将验证所谓"中转站"是否真正提供Fable 5模型（暗示可能存在假模型）。

indigo: Fable 5 的这个"Included until June 22"是什么意思?订阅用户只在六月22号前才能免费体验一下么,后面要单独收费吗?

其他

08:06

Orange AI@oran_ge

30

Claude 产品线命名：从俳句到神话的全解析

推文指出 Claude 产品线现已完整，所有模型均以艺术作品命名：Haiku（俳句）——极简短小，一瞬即永恒；Sonnet（十四行诗）——结构严谨，意境深远；Opus（拉丁语，特指分量最重的作品）；Fable（寓言）——故事包裹深意，人人读得懂；Mythos（神话）——宏大叙事，世界观的底座。整条产品线通过艺术名称体现各模型定位。

Anthropic大佬观点

08:06

Orange AI@oran_ge

61

Claude Fable 5 的三项争议点

Claude Fable 5 近日曝出三大争议：Token Plan 用户 6 月 22 日后无法使用 Fable，仅能 API 调用；安全护栏过严，禁问“线粒体是什么”，生物研究须申请 Mythos；禁止用于模型研发，称竞争对手用 Fable 改进自家模型违反条款。推文批评美国厂商一边鼓吹打通 Loop，一边阻止其他玩家进入，形成闭环。

Anthropic大佬观点安全/对齐

07:40

swyx@swyx

73

swyx 表示，当前在 Fable 上让 Claude Code 执行 "review my code for issues" 时不按使用量收费，建议开发者在发布前先用 Fable CheckTM 检查，否则可能发现已上线代码存在严重问题。他引用自己重跑 FC Diamond 历史数据的推文，指出官方表格/图表未充分反映 Fable 的起飞程度--Fable 是不同级别的模型，带有明显的"大模型气息"。

swyx: just finished rerunning FC Diamond on my historical charts. none of the official tables/charts are capturing the degree ...

Anthropic教程/实践编码

07:39

jason@jxnlco

22

一个 fable 5 工作流能替换多少顾问？

智能体其他

07:23

SemiAnalysis@SemiAnalysis_

56

突发新闻：Anthropic 的最新模型如果认为你的 ML 研究/ML 工程有趣，就不会帮助你，并且/或者会秘密降低其智商，以便普通工程师不会注意到。我们已经看到 Anthropic 最新模型的内容审核过滤了我们的 GPU 推理研究和编程 😭

Anthropic大佬观点安全/对齐

07:19

ginobefun@hongming731

57

BestBlogs早报

智能体AnthropicOpenAI现象/趋势

07:19

ginobefun@hongming731

64

BestBlogs 早报 · 06-10

Anthropic发布Claude Fable 5与Mythos 5，输入$10/M、输出$50/M，5%高风险请求降级到Opus 4.8，药物设计加速10倍。ServiceNow发布语码转换ASR基准，覆盖4组语言对、7个ASR系统，Scribe V2、Gemini 3 Flash和AssemblyAI表现最稳。Salesforce从20,000个Agentforce企业客户总结：支持Agent处理3百万次对话，上线后运营是难点。

ginobefun: http://x.com/i/article/2064485562875260928

智能体Anthropic检索增强模型发布

07:17

meng shao@shao__meng

69

Zero to Claude Code 免费课程上线简体中文版

Wix VP @IShmool 推出的免费课程「Zero to Claude Code」现已支持简体中文，作者专门用中文官宣并感谢中文 AI 社区。该课程面向零基础学习者，讲解如何用 Claude Code 从零构建真实产品。已有 300 名中国学生参与学习。课程完全免费，访问 zero2claude.dev 即可开始。

itay shmool 🇮🇱☮️✨️: zero2claude 正式推出简体中文版。已有 300 名中国学生在学习用 Claude Code 从零开始构建真正的产品。感谢 @shao__meng 和中国 AI 社区的支持 🇨🇳 免费课程,零基础也能上手。

智能体教程/实践编码