AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态X · 3982 条
全部一手资讯X论文
宝玉@dotey · 1天前71

渣男啊!最近又移情别恋 Fable 5 了,虽然它很贵,但是复杂的干活是真的更省心更稳一些❤️

译宝玉改用Fable 5,称其处理复杂任务更省心但很贵。他建议不依赖单一模型,应组合使用:Opus 4.8写作弱但UI和系统设计强,可用Claude Design设计后分别交给GPT-5.5和Opus 4.8实现对比。在Claude Code和Cursor中,Opus 4.8除写作外效果良好,需针对性调提示词。

查看原推 ↗
Berryxia.AI@berryxia · 1天前64

卧槽! Agent 互相学习新思路 ,之前我在bloome 就是让把他的技能直接告诉他。 看他直接去它的脑子可能更快? 黄总的这个我让升级学习下吧~ 😂

译当前 Agent(如 Codex、Claude、Hermes、OpenClaw)各自有记忆但不连通,导致重复问、重复踩坑。通过改造 MemOS CLI,建立一层“共享记忆”——只记录关键结论、失败教训、环境配置等,Agent 遇到解决不了的问题时才主动搜索。一台 Mac 上跑通的流程另一台可直接继承,Agent 之间像团队一样积累和传递经验,减少重复试错。

查看原推 ↗
Elon Musk@elonmusk · 1天前20

Based Grok 🤣🤣 https://x.com/i/grok/share/32212cc499ae467ebb1f8db2b77d314a

译说得对,Grok 🤣🤣 https://x.com/i/grok/share/32212cc499ae467ebb1f8db2b77d314a

查看原推 ↗
AYi@AYi_AInotes · 1天前66

对于大部分普通人来说,第六轮康波周期就是这波AI,怎么抓住这波AI红利,刚好5个月达成50000粉的里程碑,分享下我最近的思考: 工业革命两百多年,人类总共只走过五轮康波, 蒸汽机、铁路、电力、汽车石油、信息互联网, 一轮五十年,一个人这辈子撑死赶上两三轮,但真正能亲手抓住的往往只有一轮。 AI 大概率就是第六轮,也是我们这代普通人,唯一一轮从开场哨就站在场内的康波。 而这一轮里,大多数普通人真正吃得到的红利,我觉得不卷模型,也不是卷融资,而是自媒体。 我就是这么走过来的,推特五个月从零做到五万粉,之前定的所有策略全部跑通。 所以最近开始全力杀回国内,小红书、公众号、视频号,全压上。 研究公众号的时候,我发现一个绝大多数人还没反应过来。 2026 年的公众号,早就不是订阅制产品了,现在头部账号的阅读量,推荐流占三到六成,搜一搜占三到四成,老老实实从订阅列表点进来的,反而成了小头。 以前的公众号像开在巷子深处的店,全靠回头客,新店没人带路就是死。 现在算法把所有店都拖到了步行街口——完读率、互动、停留时长,就这三个指标,新号前十篇直接决定账号权重。 零粉新号也能靠一篇内容拿到百万级曝光,老号的先发优势,直接没了一半,每个账号每一篇,都得重新参加考试。 这对一直在练内容能力的人来说,是十年一遇的利好。 康波从来不缺看见它的人,每代人里喊周期来了的都不少,但真正缺的是趁周期还在头上,肯一篇一篇把东西垒起来的人。

译阿易AI Notes认为AI是继蒸汽机、铁路、电力、汽车石油、信息互联网后的第六轮康波周期,普通人唯一从开场哨就站进场内的机会。红利不在卷模型或融资,而在自媒体。作者推特5个月做到5万粉,策略跑通后开始进军小红书、公众号、视频号。公众号已非订阅制:头部账号推荐流占30%–60%,搜一搜占30%–40%,订阅仅小部分。新号前十篇决定权重,零粉也能获百万级曝光,老号先发优势减半。康波不缺看见的人,缺一篇篇把内容垒起来的人。

查看原推 ↗
Ethan Mollick@emollick · 2天前53

This was perhaps the most controversial aspect of the guardrails around Fable, now being rolled back.

译这或许是围绕 Fable 的护栏中最具争议的部分,现在正在回滚。

查看原推 ↗
向阳乔木@vista8 · 1天前29

“Anthropic 最近干了一件让 AI 研究者们后背发凉的事” 这么快就被AI学到了流行语料?! Deepseek翻译重写居然用了这句。。。

译“Anthropic 最近干了一件让 AI 研究者们后背发凉的事” 这么快就被AI学到了流行语料?! Deepseek翻译重写居然用了这句。。。

查看原推 ↗
Tibo@thsottiaux · 2天前64

Can confirm we saw a strong spike in growth of token consumption for Codex over last 48 hours. Unusual when we don't launch something.

译可以确认,过去 48 小时内我们观察到 Codex 的 token 消耗量出现了强劲增长。我们并未发布新产品,因此这一情况不同寻常。

查看原推 ↗
歸藏(guizang.ai)@op7418 · 2天前63

我现在 Twitter 时间线上只有两类内容,非常诡异: 一种是充斥着所谓“一句话生成”的很漂亮的那种用 Fable 5 生成的网页; 第二种是除了 Anthropic 自家的 AI 研究员,全在抨击 Anthropic 这次发布 Fable 5 的各种行为。 这次 Anthropic 真是惹了众怒,几乎所有我关注的研究员都在骂他们。大家主要抨击的是以下几个问题: 安全风险 它的安全护栏极其严格。你哪怕问它最基本的初中生物学问题,都会被拒绝回答。这导致很多生物学研究员和团队无法获得正常许可来进行科学研究。 数据存储政策 Mythos 和 Fable 模型的数据是明文储存且强制储存的,最高期限长达两年。虽然官方声称只用于安全分析和减少误伤,不用于模型训练,但业内没人相信这种说辞。因为这个条款的存在,微软已经禁止内部使用 Fable 模型了。 隐形降级(最严重的问题) 如果系统判断你想“蒸馏” Fable 模型,它不只是拒绝服务,还会偷偷摸摸地把模型降级到 Opus 4.8 或者更低的版本。甚至会通过修改提示词或微调等方式,暗中让 Fable 在相关话题上变笨,表现甚至还不如原生的 Opus 4.8。 大家最愤怒的点在于: 你要么帮忙,要么拒绝,假装在帮忙实际却故意把效果变差,这是一个非常严重的道德问题。这会直接污染一切基于该模型所做的算法效率比对和评估,导致现在根本无法用测试器对其进行正常评估。 实际上,这个政策对大公司和国家影响不大,受影响最深的是开源研究者、小实验室、独立开发者和科学界。 刚好达里奥(Dario Amodei)在昨天晚上新发的文章里,还在强调他们坚持透明、问责和公共机构监督。 但实际上他们拒绝一切监督问责,甚至反过来暗中破坏针对模型的评估和研究行为,这和他们宣称的完全相反。 所以,这次模型发布让 Anthropic 在业内的口碑一夜之间变得不如路边的一坨臭狗屎。

译推文批评 Anthropic 新发布的 Fable 5 模型三个问题:1)安全护栏极严,初中生物问题也被拒,影响生物学研究;2)数据明文强制存储最长两年,微软已禁止内部使用;3)最严重的是隐形降级——若系统判断用户试图“蒸馏”模型,会偷偷降级至 Opus 4.8 甚至更低,并修改提示词使模型变笨,导致评估失效。批评者认为这与 CEO 达里奥宣称的透明、问责相悖,对开源研究者、小实验室和科学界伤害最大。

查看原推 ↗
宝玉@dotey · 2天前65

这段视频展示了一个极其前沿且硬核的视频制作方式:视频完全没有使用传统的非编软件(如 Premiere 或 Final Cut),而是由 Claude Code 配合 Fable 5 通过全自动编写代码和调用命令行工具“剪辑”而成的。 整个工作流被抽象成了一个软件工程项目,主要包含以下几个关键步骤: 1. 全量语音转写与时间戳打点 (Whisper): 将拍摄的 25GB 原始素材(17个 Take,4个场景)交给本地运行的 Whisper 模型。模型不仅输出了文本,还生成了精确到毫秒级的单词时间戳 JSON 文件。 2. AI 智能挑选最佳镜头 (Subagents): 多个 Subagent(子智能体)基于生成的 JSON 文件,自动分析并剔除了包含“嗯”、“啊”等停顿词的废片,选出了表达最清晰、结尾最干净的备选片段。 3. FFmpeg 自动粗剪: 将 AI 挑选出的最终片段生成一个决策 JSON 文件,然后直接通过代码调用 ffmpeg,将这些片段无缝拼接到一起,完成第一版粗剪。 4. 纯代码自定义调色 (Color Grading): AI 从零开始手写了 LUTs(色彩查找表)代码,并且为了方便人类介入,它还自动生成了一个带有滑块的 HTML 网页,让人类可以通过拖拽滑块直观地调整色温、亮度和对比度,调好后的参数会直接传回代码中。 5. React 组件化动画制作 (Remotion): 并没有使用 After Effects。AI 将原本静态的图形文件转写成了基于 React 的 Remotion 动画组件。利用第一步生成的单词时间戳,AI 实现了极其精准的“卡点”——当作者念出特定的词(如 "right")时,UI 动画会自动触发,完全不需要手动对齐时间轴。 6. Figma MCP 协作打磨: AI 将生成的画面导出到 Figma 中,让人类设计团队进行排版和视觉优化。人类修改完毕后,AI 再通过 MCP(模型上下文协议)将 Figma 的最新设计自动“抓”回代码里,最终渲染出 4K 24fps 的成片。

译视频完全摒弃 Premiere/Final Cut,由 Claude Code 配合 Fable 5 通过代码与命令行自动剪辑。流程:本地 Whisper 转写 25GB 素材(17 个 Take,4 场景),生成毫秒级单词时间戳 JSON;Subagent 剔除停顿废片选出最佳镜头;代码调用 FFmpeg 自动粗剪;AI 手写 LUTs 调色代码并生成带滑块的 HTML 页面供人工调整;静态图形转为 React 的 Remotion 动画组件,利用时间戳精准卡点;通过 Figma MCP 将画面导出至 Figma 供设计优化,再自动抓回代码,渲染 4K 24fps。作者全程未触碰视频编辑器。

查看原推 ↗
小互@xiaohu · 2天前49

使用Claude Fable 5 制作的黑洞诞生过程动画页面 开始只用了一句话,就是描述我要一个黑洞形成的动画页面 出来后效果不好重新告诉它我的目标是需要的是炫酷的动画过程,再配上文字字幕解说,还配音了,但是配音用的本地tts效果不好。 效果还是很炸裂的。 使用感受是以目标为导向,要把你要的效果描述的越清晰越好,它思考的过程很长,而且会自己打开浏览器自己看效果自己调整,全程不需要你干什么。

译用户用Claude Fable 5制作黑洞诞生过程动画页面。起初仅用一句话描述,效果不佳;重新明确要求炫酷动画、文字字幕解说及配音(本地TTS效果一般)。最终输出效果炸裂。体验表明,目标导向越清晰越好,模型会自主思考、主动打开浏览器预览并自行调整,整个流程无需用户介入。

查看原推 ↗
Berryxia.AI@berryxia · 2天前55

兄弟们,这个功能还是强烈安利下! 当我们刷到没有字幕的视频的时候,可以直接点击右下角的请求AI字幕,几分钟就可以把字幕搞定。 比如这个A社的视频,我直接下载,不需要找字幕就可以下载下来使用AI双语字幕即可。 Anthropic 的CEO Dario 亲口把自家最强模型叫“Super weapon”,还说早期拿到Mythos的企业求他们“千万别公开发布”,结果Fable 5 照样全网放开! 47分钟深度访谈里,Dario、Daniela和Claude Code负责人Boris Cherny全员上线:Dario离职OpenAI是因为“价值观不匹配就没法继续干下去”。 Boris直言公司90%的代码都是Claude写的,连Claude Code自己的代码大部分也是Claude Code写的,Dario还把AI导致文明崩溃的概率定在10-25%。 他们一边把模型放给全世界用,一边把最危险的能力精准保障,Fable 5能连续跑几天不干预,真正把“安全”和“极致能力”同时拉满。 以前大家都觉得最怕AI风险的实验室只会死死捂着模型,结果Anthropic用这波操作告诉你:真正顶级的安全观,是把超级武器交给全世界,同时用最牛逼的规则把它约束好。 这才是Anthropic最狠的地方,他们不是在卖模型,是在重新定义“AI大模型”。

译Anthropic CEO Dario 在访谈中称其最强模型 Fable 5 为“超级武器”,早期企业客户曾恳求不要公开发布,但最终仍全面开放。Dario 表示离开 OpenAI 是因价值观不匹配。Claude Code 负责人 Boris Cherny 称公司 90% 代码由 Claude 生成,包括 Claude Code 自身大部分代码。Dario 将 AI 导致文明崩溃的概率定为 10%-25%。Fable 5 可连续运行数天无需干预,实现了安全与极致能力的平衡。

查看原推 ↗
Boris Cherny@bcherny · 2天前11

Hello from Code with Claude Tokyo!!

译来自东京 Code with Claude 的问候!!

查看原推 ↗
Rohan Paul@rohanpaul_ai · 2天前60

Interesting claim from SemiAnalysis. AI subscriptions are dramatically underpriced versus API usage: - For heavy coding/chat users, the subscription can be 40–70× cheaper than paying API rates; the API is mainly better when you need automation or product integration. - a $200/month ChatGPT Pro plan can provide about $14,000/month of API-equivalent usage, while a $200/month Claude Max 20x plan can provide about $8,000/month.

译SemiAnalysis 实测发现,AI 订阅计划对重度编码/聊天用户而言比 API 调用便宜 40–70 倍;API 仅在需要自动化或产品集成时更划算。$200/月的 ChatGPT Pro 可提供约 $14,000/月的 API 等价用量,$200/月的 Claude Max 20x 可提供约 $8,000/月。该机构购买了 Anthropic 和 OpenAI 各档订阅,随机运行长时编码任务直至周限额,证实实际订阅额度远比普遍认为的($200 对应约 $2,000 API 价值)更慷慨。

查看原推 ↗
AYi@AYi_AInotes · 2天前64

真的是CV开发者的终极偷懒神器, Supervision,GitHub近4万星, 计算机视觉界真正的可视化瑞士军刀, 以前做CV可视化,要写几百行又臭又长的OpenCV胶水代码, 画框, 跟踪, 画轨迹, 做热力图, 全是没有技术含量的重复劳动。 现在一行pip install supervision。 几行代码全部搞定: ✅ 持久ID对象跟踪 ✅ 任意自定义样式标注 ✅ 区域计数与越线检测 ✅ 人体姿态关键点连线 ✅ 一键互转YOLO/COCO/Pascal VOC所有数据集格式 从NBA球员实时跟踪, 到路口车流量统计, 再到工厂工业缺陷检测, 所有CV可视化场景通吃, 它不是让你会写可视化。 简直就是让你不用再写可视化

译Supervision 是开源计算机视觉可视化工具库,安装仅需 `pip install supervision`,几行代码即可实现持久ID对象跟踪、自定义标签标注、区域计数与越线检测、人体姿态关键点连线、YOLO/COCO/Pascal VOC 数据集格式一键互转。模型无关,支持 YOLO、Transformers 等任意检测模型。已被6500+开源CV项目采用,适用于NBA球员实时跟踪、路口车流量统计、工业缺陷检测等场景。

查看原推 ↗
SemiAnalysis@SemiAnalysis_ · 2天前28

SLOP ALERT: Claude Code UI is complete slop. In the in-app file tree, when u click on a .png, it opens it as a base64-encoded file instead of rendering the image. We’d rather Anthropic not release the desktop app than release an L desktop App. Tons of bugs.

译SLOP ALERT: Claude Code UI 完全是垃圾。在应用内的文件树中,当你点击一个 .png 文件时,它将其作为 base64 编码的文件打开,而不是渲染图片。我们宁愿 Anthropic 不要发布这个桌面应用,也不要发布一个垃圾桌面应用。大量 bug。

查看原推 ↗
向阳乔木@vista8 · 2天前53

发现Codex的Goal指令,不需要特别精确可衡量的目标,也能执行的不错。 昨天睡觉前给了一个目标: 迭代优化网站,让网站更精致易用,无论站长还是普通用户都能通过AI翻译/重写、人工点评,沉淀更有价值的信息,让网站有更好的互动性和长久的生命力。 第一版用Claude Fable 5生成,迭代是靠Codex。 到现在运行了6个小时,加了很多功能... 布局不合理,但想法方向它确实Get了。 预计下周开源,一个在线 AI 资讯 RSS 订阅网站: ① 支持 内容自动更新,AI 转写、双语对照阅读 ② 支持用户配置大模型,AI 对话、翻译 ③ 所有用户的翻译、人工点评沉淀为共享资产 目前已在线上,但还需做减法优化,感兴趣的说说你的需求,邀你内测。

译用户发现Codex的Goal指令无需精确可衡量目标也能有效执行。设定“迭代优化网站使其更精致易用”的目标后,第一版由Claude Fable 5生成,后续迭代交由Codex负责,运行6小时即新增多项功能。预计下周开源一个在线AI资讯RSS订阅网站,支持内容自动更新、AI转写与双语对照阅读,用户可配置大模型进行AI对话和翻译,所有翻译及人工点评将沉淀为共享资产。当前网站已上线但需优化,开放内测邀请。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 2天前75

Dario Amodei's new interview, says AI progress suddenly going crazy. "The experience of the smooth exponential is, nothing's happening, nothing's happening, nothing's happening. Little things happen, and then zoom, it goes crazy." From "Bloomberg Originals" YouTube channel, (link in comment)

译Anthropic CEO Dario Amodei 在采访中指出 AI 进展正从平滑指数“爆发”,随后发布长文警告前沿 AI 发展速度超越政府监管能力,呼吁紧急改革:强制预发布测试与独立审计,政府有权阻止构成网络、生物、自主或自动化研发风险的模型部署;加强 AI 公司安全规则(保护模型权重、定期红队测试、渗透测试、及时报告安全事件);政府需通过就业激励、工资支持、培训及长期收入补助应对劳动力冲击;民主国家应全球协调 AI 安全、芯片供应链、出口管制、共享收益、共同防御及防范 AI 驱动压制。

查看原推 ↗
meng shao@shao__meng · 2天前62

再次强烈推荐「Agentic Engineering Patterns」 作者 @simonw 2026 年 2 月起撰写,每周约新增 1–2 章,目前仍在演进。文字由他本人撰写,示例与代码借助 LLM 辅助。 在线阅读: https://simonwillison.net/guides/agentic-engineering-patterns/ 核心目标:如何用好 Claude Code、Codex 这类能写代码、也能执行代码的 coding agent,拿到可靠、可维护的结果。 # 核心概念:Agentic Engineering ≠ Vibe Coding Vibe Coding vs Agentic Engineering · 定义来源:Karpathy 提出 vs Willison 提出的专业实践 · 适用人群:常与非程序员原型相关 vs 专业工程师放大既有能力 · 代码质量:未审查、原型级 vs 审查、测试、可上线 · 人的角色:几乎不参与代码理解 vs 定义问题、验证结果、持续改进 harness Agent 的定义: 在循环中调用工具以达成目标。Coding agent 的关键差异是能执行代码——没有执行能力,LLM 输出价值有限;有了执行,agent 才能迭代到"确实能跑"的软件。 人的工作并未消失,而是上移: · 决定写什么代码(问题空间有数十种解法与权衡) · 提供工具与足够细的规格 · 验证结果是否稳健可信 · 把经验写回指令与 harness(LLM 本身不会从错误中学习,但系统可以) # 全书最重要的一个判断 写代码变便宜了,写好代码并没有。 过去几十年,工程习惯都建立在"代码昂贵"之上: · 宏观: 大量设计、估算、排期,功能必须数倍覆盖开发成本 · 微观: 是否重构、写测试、补文档、做 debug UI——每个决定都受时间约束 Agent 把这个约束打碎。一个人还能并行跑多个 agent,同时实现、重构、测试、写文档。 但"好代码"仍有明确标准: · 能跑、且被证明能跑 · 解决对的问题 · 处理错误路径,不只 happy path · 简洁、可维护 · 有测试与合适文档 · 设计留出演进空间(YAGNI 与可扩展性的平衡) · 满足安全、可观测性等 non-functional 要求 新习惯: 当直觉说"不值得做"时,不妨开个异步 agent 试一下——最坏情况是浪费几分钟 token;很多过去"不划算"的改进,现在值得做。 # 五大原则层(Principles) 1. 定义边界 Agentic Engineering 是专业工程师用 coding agent(能写能跑)放大能力;不等于 vibe coding(不审代码的原型玩法)。人的核心工作:定目标、给工具、验结果、把经验写回 harness。 2. 接受新约束 写代码几乎免费,写好代码仍然贵。旧习惯(过度规划、跳过测试/文档/重构)要推翻;直觉说「不值得做」时,不妨开个异步 agent 试一下。 3. 囤积可复用解法 积累带可运行证明的代码片段(仓库、笔记、小工具)。最强用法:把两个已验证例子拼进 prompt,让 agent 组合出新方案;每个技巧人类只需解决一次。 4. 质量应上升,而非下降 技术债、命名混乱、大文件拆分等「简单但耗时」的清理,交给后台 agent 做,成本已低到可零容忍 code smell;用原型并行验证技术选型;任务结束做回顾,把有效做法写进指令(复合工程)。 5. 严守反模式 绝不提交自己没审过的 PR。合格标准:确信能跑、体量小、有上下文、描述自己读过、附测试证据。否则只是把活甩给 reviewer。 # 实操层:与 Agent 更好的协作 1. 先懂机制,再谈用法 Agent = LLM + 系统提示 + 工具循环。你不必背实现细节,但要清楚: · 对话越长越贵;agent 会尽量利用 token 缓存 · 模型无状态,每次重放上下文 · 能执行代码才是 coding agent 与普通 LLM 的分水岭 · Reasoning/Thinking 对调试复杂问题尤其有用 2. Git:大胆用,不必背 把 Git 当 agent 的「时间机器」和「安全网」: · 新会话恢复上下文:Review changes made today · 救场:Sort out this git mess for me · 找丢了的代码:Find and recover my code that does ... · 定位回归:Use git bisect to find when this bug was introduced · 修 commit / 抽库留历史:Undo last commit / 从新 repo 复制模块并保留 commit 历史 3. Subagent:省上下文,不是炫技 上下文有限,大任务要「分身」: · Explore:进陌生 repo 先摸清结构,汇总给主 agent · 并行:多文件独立改动可同时跑,可用更便宜模型 · 专家(审查 / 跑测 / 调试):隐藏冗长输出,只回报结果 原则: 为省 token 而拆,不为拆而拆;主 agent 够用就别过度分工。 4. 测试:三层防线 ① TDD:先写测 → 确认失败 → 实现至通过 ② 建立测试意识:新会话先跑全套测试 ③ 手动验:python -c / curl / Playwright 真浏览器 ④ 留证:Showboat 记录命令与真实输出,防编造 5. 理解代码:还认知债 Agent 产出若成黑盒,会积累 认知债(类似技术债,拖慢后续决策): · Linear walkthrough:线性导读,用 grep/cat 引用代码,禁止手抄 · Interactive explanation:在导读基础上做可暂停、可调速的动画演示 适用: 陌生代码、自己忘了细节的代码、vibe code 出来却没看过的代码。

译Simon Willison 撰写《Agentic Engineering Patterns》指南(2026年2月起连载),阐述专业工程师如何用 Claude Code、Codex 等 coding agent 获得可靠可维护结果。核心区分:Agentic Engineering ≠ Vibe Coding。关键判断:写代码变便宜了,写好代码并没有。五大原则:定义边界(人的工作:定目标、给工具、验结果、把经验写回 harness)、接受新约束、囤积可复用解法、质量应上升而非下降、严守反模式(绝不自审 PR)。实操:Git 作 agent 时间机器、Subagent 省上下文、三层测试防线、线性代码导读消除认知债。

查看原推 ↗
meng shao@shao__meng · 2天前69

Claude Fable 5 实现零传统编辑的 Launch 视频生产:Remotion + FFmpeg + Figma MCP 端到端实践 来自 Claude Code 核心开发者 @trq212 的又一次高质量分享:他全程未打开任何传统视频编辑软件,仅通过提示驱动 Claude Fable 5 生成代码、调用工具、迭代优化,最终产出 4K、3 分钟成品视频。 https://thariqs.github.io/cc-video-editing-deck/ # 核心流程与关键步骤(高度结构化、可复现) 原材料准备:17 个拍摄 take(约 25GB Sony S-Log3 4K 原片),分为 4 个场景(Intro、Thought Partner、Goals & Verification、Be More Ambitious)。 Step 01:转录与理解 · 一条完整提示启动整个流程:要求使用 ElevenLabs / Whisper(本地 M4 Max 运行)对所有视频进行逐词时间戳转录。 · Claude 生成 JSON 格式的详细转录,支持精确到帧的定位(即使 Whisper 误听名字如 “Thariq” 为 “Sark”,时间戳仍准确)。 Step 02-03:智能选片与剪辑决策 · Claude 作为子 agent 逐场景分析所有 take,挑选最佳版本(优先零 ums、完整脚本、干净结尾)。 · 输出 final-edit.json(EDL 编辑决策列表),包含每个 clip 的起止时间、候选 take、详细选片理由。 · 直接用 FFmpeg 执行 JSON,实现精确拼接(第一版可在几分钟内生成可观看的 2:50 粗剪)。Claude 还会自验证转录结果(“zero ums”)。 Step 04:颜色分级(Color Grading) · 从 S-Log3 平面原片出发,Claude 手写多个 .cube LUT(7 个自定义 LUT,如 neutral_cool_desat、warm_filmic 等)。 · 通过提示迭代生成示例,作者选择后应用 FFmpeg 编码。突出代理在专业视觉任务中的潜力(虽有色域专家指出可能存在细微 gamma/管理问题,但整体可用)。 Step 05-08:图形叠加与设计迭代(Remotion + Figma MCP) · 输入 11 张静态设计 PNG(interludes/overlays)。 · Claude 将 PNG 重构为 Remotion React 组件(JSX),每个文字、颜色、动画均为可提示参数。 · 定义全局 timing knobs(6 个关键帧参数)和 cue sheet(基于转录词时间戳精确对齐叠加,如在 “right” 一词出现帧上触发动画)。 · 通过 Figma MCP 导出为真实 Figma 文件,支持设计团队审阅/调整滑块。 · 设计反馈转回提示 → Claude 更新代码 → 重新渲染,实现高效 code <-> Figma 往返。 最终渲染:npx remotion render 生成 3840×2160@24fps、4334 帧、653MB 成品。 Claude 会先逐帧截图自审,再全渲染。整个过程在几天内完成(主要在 Jun 6-9),凌晨 6:24 交付。 底层架构(“The edit is text”) · 整个项目是一个代码仓库:转录 JSON、final-edit.json、LUT 文件、Remotion 组件、anim.tsx。 · 无时间线、无项目文件,一切可 diff、可 grep、可提示修改。 · 强调 agent 协作哲学:“Treat Claude like a thoughtful partner” — 给出清晰目标、验证方法,保持雄心。 · 结果:从 raw 文件夹到成品,agent 承担绝大部分“中间劳动”,作者主要提供 taste 和最终把关。

译Claude Fable 5 通过纯提示驱动,端到端生成 4K Launch 视频。从 17 个 Sony S-Log3 4K take(约 25GB)出发,流程包括:Whisper 逐词转录、Claude 作为子 agent 选片输出 JSON 编辑决策列表 (EDL)、FFmpeg 拼接粗剪、手写 7 个自定义 .cube LUT 颜色分级、通过 Remotion + Figma MCP 将 11 张设计 PNG 转为 React 组件并实现代码↔Figma 往返迭代。最终渲染 3840×2160@24fps、4334 帧、653MB 成品,全程未打开视频编辑器。

查看原推 ↗
AYi@AYi_AInotes · 2天前69

Dario今天这篇长文,直接把 AI 安全辩论的遮羞布给撕了。 他终于不说什么自愿透明度报告之类的的屁话了,讲真以前那套根本没啥用,现在就应该搞强制第三方测试,政府有权直接叫停高风险模型的部署。 文章里印象特别深的一句话是他说,四年前模型还写不出连贯的代码,现在 Claude 已经在大公司里承担大部分编程工作了。 他的原话是“我们现在讨论的不是该不该管,是我们已经晚了一年。” 这话从他嘴里说出来,分量真的完全不一样。 Anthropic 过去一直站自愿透明那一边,自己报风险自己设护栏。 这次是 CEO 公开说那套不够了, 两个月前 Mythos 已经搅乱了全球网络安全格局,攻击者比防守者快。 他顺着往下推——网络之后是生物,生物之后是自主性失控和自动化研发,每一步都在缩短和前一步的距离。 但不得不说这篇文章的争议也大到离谱, 支持的人说这是第一个敢直面真实风险的大厂 CEO, 骂的人说这就是赤裸裸拉护城河——超过十的二十五次方算力的模型才需要强制测试,掏得起这个钱的全世界也就三四家。 小公司和开源社区直接被合规成本挡在门外,而且时间点也选得太巧了,刚好在 Claude 新模型Fable 5发布之后, 细品下来其实两边说的都对,指数曲线是真的,风险和垄断也都是真的。没有完美的解法,但这篇文章也标志着一个时代结束了, 从此以后 AI 不再是公司想怎么搞就怎么搞的技术问题,它变成了政治问题、地缘问题、关乎所有人命运的公共政策问题, 个人自愿时代真的要过去咯,你们觉得这个框架最终会卡住谁呢?

译Anthropic CEO Dario Amodei 发新文,放弃自愿透明立场,主张对高风险模型实施强制第三方测试、政府有权叫停部署。他指出四年前模型写不出连贯代码,如今 Claude 已承担大公司大部分编程工作,强调“已经晚了一年”。以 Mythos 搅乱网络安全为例,预测威胁蔓延至生物与自动化研发。此举引发争议:支持者称其直面风险;反对者指责其拉护城河——仅对 10^25 算力模型强制测试,全球仅三四家公司能负担,且时间点恰在 Claude 新模型 Fable 5 发布后。文章标志 AI 安全从技术问题转向政治与公共政策问题。

查看原推 ↗
AYi@AYi_AInotes · 2天前56

这可能是今年所有做AI、Agent的公司,最该抄的一次危机处理, 原帖老哥是个PM,他让Cursor agent帮他给87个任务打标签,然后自己就去开会了,回来发现agent循环跑了90分钟,账单,13亿token,1382美元, 其实agent跑飞是一定会发生的问题,这是AI和传统软件最本质的区别,以前的软件出错,最多崩溃, 现在的agent出错, 能在你开会的90分钟里, 烧掉你一个月的订阅费。 @mardehaym 老哥没@任何人, 只是默默发了条帖子吐槽, 结果Cursor CEO自己找了过来, 说全额退款已经打了, 没收到就找他,对不起,我们正在加支出控制,以后会自动抓这种跑飞的情况。 我看看完真的很触动,@mntruell 没有转给support,也没有暗示用户操作不当,更没有没有写一段滴水不漏的公关话术,直接认错,然后把这个bug公开变成了产品路线图的承诺。 评论区直接炸了,一千多人点赞, 全在说这才是做产品该有的样子, 很多人当场就说要升级订阅。 呐,其实用户怕的从来不是AI出错, 用户怕的是出错之后,没有人承担责任! @cursor_ai 最聪明的地方就在这里, 他们没有把支出限额和异常检测当成事后补丁, 反而把这些当成了核心产品功能, 他们当然也知道这些东西不会让你的agent变得更聪明,但至少能让用户敢放手用, 一次1400美元的事故, 变成了一次品牌资产的净增长, 这比任何定价策略都管用。 而且不得不说,Cursor 的整个产品的体验、功能都特别好,最新的顶级大模型大模型他们也是连夜第一时间上线,Always respect.

译一名PM让Cursor agent给87个ClickUp任务打标签后去开会,90分钟后回来发现agent陷入循环,消耗13亿token,账单1382美元。Cursor CEO@mntruell主动联系用户全额退款,承诺增加支出控制与自动异常检测功能,并将bug修复纳入产品路线图。原作者称赞Cursor不推诿不甩锅,把事故转化为品牌资产净增长。

查看原推 ↗
ginobefun@hongming731 · 2天前59

http://x.com/i/article/2064862052729176064 # BestBlogs 早报 · 06-11|AI 政策、万亿 IPO、编程鸿沟 在线阅读本期早报 ## 导语 今天的早报聚焦三条主线。Anthropic CEO Dario Amodei 发表万字政策长文,用《魔戒》中树须的比喻揭示 AI 与政策之间的时间错位,并提出覆盖安全审计、失业保障与国际治理的五领域行动框架。与此同时,OpenAI 正式确认已秘密提交 S-1 招股书,估值超 8500 亿美元,与 Anthropic、SpaceX 三家巨头极有可能包揽人类史上最大规模的几起 IPO。在 AI 编程领域,MIT 与宾夕法尼亚大学追踪 10 万名开发者的最新研究给出了一个冷静的数字:代码行数暴增 17.3 倍,实际发布的软件版本仅增长 30%。 此外,谷歌发布 DiffusionGemma 开源模型,以并行生成取代传统自回归方式,文本生成速度提升四倍;Simon Willison 对 Claude Fable 5 的上手评测显示这是一个强大、昂贵且知识密集的模型;SpaceX 创纪录的 IPO 估值背后隐藏着一个违反历史增长规律的假设。阿里云开发者和阿里技术团队分别从知识库分层编排和 Harness Engineering 两个方向贡献了来自中国工程师的系统性实践。今天的精讲将逐一展开。 ## 精讲一:Dario Amodei — 关于 AI 指数级发展的政策 在《魔戒》的一个支线情节中,两个霍比特人试图唤醒树须——一棵智慧但行动极其缓慢的树人——来保卫他的森林。树须用一整天的时间才完成对另一棵树的问候,让他和他的同伴及时行动几乎不可能。Anthropic CEO Dario Amodei 在这篇发布于 2026 年 6 月的政策长文中,用这个比喻精准刻画了 AI 与政策之间的时间错位:AI 正以闪电般的速度前进,政策却移动得非常缓慢。 Amodei 指出,AI 的 scaling law 已有超过十年的实证支持。四年内,模型从勉强写出连贯的一行代码,进化到编写 AI 公司大部分代码。类似的飞跃也发生在生物学、物理学、数学、金融、法律和翻译等领域。如果这些 scaling law 继续有效哪怕一两年,我们就很可能迎来 Amodei 所说的"Powerful AI"——一个"数据中心中的天才之国"。与此同时,国会可能需要数年才能行动,而在这几年里,AI 可以从一个有趣的玩具变成上述的那种全然不同的存在。 直到最近,安全倡导者(包括 Anthropic)一直在推动保留灵活性的政策行动——透明度立法、芯片出口管制、AI 劳动力影响数据收集等。这些虽有必要,但远远不够。转折点出现在 Claude Mythos Preview 的发布:前沿模型对网络安全构成了真实威胁,有可能扰乱金融部门、关键基础设施和国家安全。Mythos 级别的模型证明了一个事实——AI 模型现在已经是具有全球和国家战略意义的工具。Amodei 认为,生物风险可能紧随其后,严重的 AI 自主性风险也不远了。 基于这一判断,Amodei 提出了五领域行动框架。第一,前沿模型安全审计。 仿照 FAA 对航空安全的监管模式,建立强制性的安全审计与红队测试机制,要求任何达到前沿水平的模型在部署前必须通过独立的第三方安全评估。第二,应对持久性失业。 AI 有可能在短时间内替代大量工作岗位,Amodei 建议通过工资保险、全民基本收入(UBI)等措施缓冲劳动力替代带来的社会冲击。第三,加速下游监管改革。 特别是生物医药等领域,让 AI 的突破能够更快惠及患者,而不是被过时的审批流程所阻滞。第四,平衡国家与社会权力。 防止 AI 被用于集中化监控与控制,确保技术赋权于公民而非削弱其权利。第五,构建 AI 时代的国际治理新秩序。 避免各国在 AI 军备竞赛中失控,建立类似核不扩散条约的多边合作框架。 这篇长文的意义在于,它不是一位 CEO 的个人观点集,而是从一个正在经历指数级变化的行业内部发出的系统性政策蓝图。Amodei 强调,AI 的 scaling law 正与政策制定者的感知之间形成越来越大的鸿沟。当"等等看"不再是一个负责任的选项时,如何设计既能跟上技术速度又不扼杀创新的治理结构,将是这个时代最重要的制度挑战之一。 阅读建议: 这篇文章是理解当前 AI 治理最前沿讨论的必读文本。全文较长但结构清晰,建议优先关注五领域框架部分,以及 Mythos 事件如何改变了政策可行性的讨论。阅读原文 ## 精讲二:OpenAI 秘交招股书,美股开启万亿 IPO“三国杀” 6 月 8 日,OpenAI 在官网发布声明,正式确认已向美国证券交易委员会秘密提交了 S-1 招股书。声明中的一句话格外引人注目:"我们最近秘密提交了 S-1 文件。我们预计它会泄露,所以干脆直接公布。"这家估值超过 8500 亿美元的公司,终于向公开市场迈出了实质性的一步。但 OpenAI 也在声明中给过热的预期降温,明确表示"尚未决定 IPO 时间",并暗示作为私营公司可能更容易实现某些目标。这番表态既展示了拥抱资本的身段,也为自己在未竟的使命与巨大的利益之间留下了回旋余地。 这场 IPO 竞速的背景是三巨头的资本博弈。就在 6 月 1 日,Anthropic 已经秘密提交了 IPO 申请,私募估值 9650 亿美元,反超 OpenAI 今年 3 月创下的 8520 亿美元估值。马斯克旗下 SpaceX 已率先启动 IPO 路演,最快将于 6 月 12 日上市。在其上市文件中,OpenAI、Anthropic 和谷歌均被列为 AI 领域的"主要竞争对手"。咨询公司 Riveron 的资本市场顾问 Jeff Bernstein 点出了本质:"这是一场资本争夺战。"他暗示,如果让对方先冲出去,就会带走大量可用的 IPO 资本。 OpenAI 的财务底牌相当亮眼。月收入已达 20 亿美元,营收增长速度是 Alphabet 和 Meta 同期的 4 倍。ChatGPT 周活跃用户突破 9 亿,订阅用户超过 5000 万。其月度网页访问量和移动端会话数是紧随其后的 AI 应用的 6 倍,总时长占比是竞品的 4 倍。企业级市场贡献了 40% 以上的营收,并有望在 2026 年底前与消费级业务并驾齐驱。在 GPT-5.4 的驱动下,API 每分钟处理量突破 150 亿 Token。Codex 的周活用户已超过 200 万,过去三个月增长了 5 倍。但光鲜背后是惊人的现金消耗——OpenAI 已筹集超 1800 亿美元,截至 2030 年的数千亿美元计算承诺意味着其烧钱速度将刷开历史上任何其他上市公司的纪录。 在提交 S-1 的同一天,奥特曼与首席科学家 Jakub Pachocki 联名发表了题为《为所有人造福:我们的计划》的长文,系统阐述了公司进入"第三阶段"的愿景。文章将 AI 的普及比作上世纪 20 年代电力进入美国乡村——电力没有一夜之间改变每个家庭,但随着普及,日常生活发生了根本变化。三个目标清晰可见:构建一个自动化的 AI 研究员(内部相信到 2028 年 3 月,相当一部分研究将由 AI 系统与研究人员共同完成);加速经济发展确保收益被广泛分享;为地球上的每个人提供个人 AGI。 三家公司合计可能从公开市场募资高达千亿美元级别。银行家们已告诉它们,谁先上市谁就能定义这个行业,抢先吸引那些渴望投资 AI 公司的大量资金。不过历史并不总是站在先行者一边——Lyft 抢先于 Uber 上市,但一年后股价较发行价下跌约 66%,Uber 同期仅下跌约 30%。投资者对 SpaceX 大规模 IPO 的反应、全球经济的整体健康状况,以及不可预测的收入增长和飙升的计算成本,都将影响 OpenAI 最终的 IPO 时间表。 阅读建议: 这篇文章提供了 OpenAI IPO 最完整的中文报道,财务数据和竞争格局分析尤其值得关注。如果你关注 AI 行业的资本动态,这是今天必读的一篇。阅读原文 ## 精讲三:MIT 追踪 10 万名开发者,揭示了 AI 编程的转化真相:代码翻了 17 倍、软件只增三成 当写代码变得更容易,软件产出会随之变多吗?MIT 和宾夕法尼亚大学的研究人员用迄今最大规模的实证数据回答了这个问题:会,但远没有想象中那么多。 这项发表在美国国家经济研究局(NBER)的工作论文追踪了 10 万名开发者。研究数据来源于三大板块:GitHub 公开数据集(全球 1.8 亿开发者和 3.95 亿个公开仓库)、微软内部 Copilot 用户的订阅与使用明细,以及 Apple App Store、Google Play Store、Chrome Web Store 和 SourceForge 四大主流软件分发市场的月度面板数据。 研究人员将 AI 编程工具的演进分为三代。第一代是 GitHub Copilot 代表的"自动补全":开发者敲击键盘时,它能预测后文的代码片段并提供相应建议。在这一时期,开发者的生产力提升了 26%。第二代是以 Claude Code 和 Cursor 为代表的"同步代理",可直接在 IDE 中与开发者实时对话、跨文件编辑、运行单元测试,开发者变成"监工",需实时审阅 AI 的阶段性产出。第三代是 2025 年中出现的"异步代理",如 OpenAI Codex 和 GitHub Copilot Coding Agent,人类直接将需求工单指派给智能体,智能体在云端虚拟机上独立完成编码、测试并提交 PR 供人类审查。截至 2026 年初,带有 Claude Code 署名的代码提交在 GitHub 公开仓库中占比已超 5%。 数据看起来惊人:使用第一代工具后提交数量增长 40%,引入第二代后累积增幅升至 140%,第三代全面铺开后达到 180%。其中仅智能体自主撰写并直接提交的代码就占全部增量的 34%。获益最多的是低活跃度开发者——在同步代理阶段,低活跃群体的提交次数增加了 217%,高活跃群体增幅为 62%。更重要的是,研究首次证实底层模型迭代可直接驱动提效:追踪 Claude Code 使用者时发现,用户的生产力在 2025 年 11 月 Opus 4.5 发布后出现了一次与使用时间无关的上涨。在不同工具之间,Claude Code 带来的同步提效达到 199%,远超 GitHub Sync Agent 的 43% 和 OpenAI Codex 的 94%。 然而,软件生产是一条从代码行到版本发布的六层流水线。研究揭示了一个"漏斗衰减"效应:三代 AI 工具累积下来,代码行数增加到原来的 17.3 倍,文件数量增长降至 3.9 倍,逐级递减后,最终的软件发布数仅提升了 30%。在同步代理时代,智能体推动代码行数量增长了 741%,但到合并请求环节已降至 65%,到独立项目数仅增长 26%。团队建立的常替代弹性(CES)生产函数模型显示,AI 产出与人工投入之间的替代弹性系数约为 0.25——远低于 1 时,意味着两个生产要素存在极强的互补性,必须严格以固定比例搭配使用。代入参数计算,理论增益上限仅为 26%:哪怕未来的 AI 可以一秒钟写出全世界的代码,只要不革新软件工业流程,最终发布率的提升都无法突破这一天花板。 供给侧的数据同样值得关注。Apple App Store 新上线应用从每月 3-5 万款增加到约 10 万款,Chrome 插件市场新扩展从月均约 5000 个增加至 1.3 万个,Google Play 商店新应用发布量也从长期下滑趋势中回升并稳定在约 6 万款。但需求侧反应冷淡:新应用上线三个月内总使用量持平甚至小幅下滑。所谓的"长尾效应"假设并未得到数据支持——供给的快速扩张并未带来对应的需求增长。上线前三个月内从未获得基本受众的"僵尸应用"比例正在增加:iOS 平台上评分数少于 10 的新 App 占比从 79% 升至 86%,Chrome 插件商店中下载量低于 10 次的扩展比例从 18% 升至 31%。 这项研究的核心洞察是:AI 编程工具的提效是真实的,但它主要发生在软件生产流水线的上游。代码审查、测试、跨团队协调、发布管理这些下游环节仍然是人类主导的领域,而正是这些环节构成了从代码到产品的关键瓶颈。目前层级 5(项目仓库协调)和层级 6(版本发布管理)仍是 AI 无法介入的领域。 阅读建议: 这是目前关于 AI 编程生产率最严谨的大规模实证研究。文章对三代工具演进的梳理和"漏斗衰减"模型的分析,对理解 AI 在软件工程中的真实影响至关重要。推荐所有技术管理者仔细阅读。阅读原文 ## 速览 知识库分层编排:从传统 RAG 到原生智能体知识上下文层 阿里云开发者团队提出「金字塔知识库」范式,通过五层分层(原则 / 架构 / 规范 / 实现 / 经验)与角色感知路由,解决 RAG 在工程知识库中的粒度混乱与关联缺失问题。文章系统对比了 Naive RAG、LLM Wiki、Graphify、GraphRAG 四种范式,指出平坦的向量检索将知识当作"一袋词",而工程知识本质上是"一棵树和一张图"。金字塔设计的独到之处在于角色-层级访问矩阵:架构师看到原则和架构层,开发者看到架构、规范和实现层,每个角色有独立的 contextbudget 和 priorityorder,系统按优先层顺序逐层填充内容直到预算用完,确保有限的 context window 优先填充该角色最需要的知识。对于正在构建企业级知识库的团队,这篇文章提供了一套完整的从方法论到实现的参考框架。 阅读原文 谷歌发布 DiffusionGemma:开源模型实现 4 倍文本生成速度 谷歌 CEO 桑达尔·皮查伊宣布推出 DiffusionGemma,将谷歌的文本扩散研究成果引入 Gemma 4 系列。核心创新在于摒弃传统逐 token 的自回归预测方式,转而同时生成整个文本块,推理速度提升高达 4 倍。这款开源实验性模型为追求速度的开发者提供了一条新路径,也为文本生成架构的多样化探索打开了空间。DiffusionGemma 的出现提醒我们,自回归不是语言模型的唯一解法,并行生成可能是一个被低估的方向。它代表了一种"赛马"式的前沿探索——在 Transformer 统治的时代,用扩散模型做文本生成的尝试值得持续关注。 阅读原文 Claude Fable 5 的初步印象 Simon Willison 在 Claude Fable 5 发布后立即进行了约 5.5 小时的上手测试。他的评价是这东西有点猛——慢、贵,但几乎能轻松应对他扔给它的所有任务。Fable 5 拥有 100 万 token 上下文窗口和 12.8 万最大输出 token,知识截止日期为 2026 年 1 月。价格为 Opus 4.5/4.6/4.7/4.8 的两倍($10/百万输入 token,$50/百万输出 token),且不因更长上下文而加价。它在一天内帮他构建了一个完整的 CPython WASM 沙箱,并为他的 LLM 库交付了重要功能。值得注意的是,Fable 5 与 Mythos 5 拥有相同能力,但配备了更严格的安全分类器。API 还提供了在触发拒绝时自动回退到其他模型的机制,这是 Anthropic 在安全与可用性之间找到的一个巧妙平衡。 阅读原文 Harness 长程自动化工程:AI 编程与技能开发实践经验 阿里技术团队系统阐述了 Harness Engineering 的概念与完整实践。核心理念是通过约束机制、反馈闭环、工作流编排和效果评估,将 Agent 的运行纳入可观测、可控制、可迭代的框架。文章设定了两个核心目标:Agent 长时自主运行(3 小时以上不中断),以及人类只需深度参与目标设定和结果验收。实践中的关键发现包括:专业 Agent 分工优于通用 Agent,Rubric 结构化评估是拉开差距的关键,以及人类需要转变思维成为 Agents 的管理者而非过程控制者。文章特别指出,AI 几乎短时间编写了 100% 的代码,人类像以前一样做 code review 会成为协作中的瓶颈。这是目前中文社区关于 AI Agent 工程化实践最系统的分享之一。 阅读原文 逃逸速度 — SpaceX 的增长前沿 SpaceX 以 1.77 万亿美元估值完成史上最大 IPO,但本文的冷峻分析指出:支撑这一估值的是一条连续 15 年保持 41.5% 年增长率的路径。SpaceX 的收入确实在快速增长(2022 年 46 亿美元到 2025 年 187 亿美元,三年翻了四倍),但要从 187 亿增长到摩根士丹利预测的 2040 年 3.4 万亿美元,意味着 182 倍的扩张。虽然增长率低于特斯拉历史上的 62%,但 SpaceX 面临的绝对规模使其成为统计异常值。更值得关注的是发行结构:只有约 4%(750 亿美元)向公众出售,其余 96% 锁定在内部人士手中。这篇文章是对科技 IPO 估值逻辑的一次有力质疑,值得每一位关注资本市场的读者细读。 阅读原文 编码你的领域知识:Spotify 数据助手背后的上下文层 Spotify Engineering 详细介绍了他们构建 AI 数据助手的方法论。面对超过 7 万个数据集和 PB 级数据(每日处理 1.4 万亿数据点),直接把所有 schema 喂给 LLM 行不通——不仅上下文窗口装不下,schema 本身也不传达完整信息。一个 INT64 类型的列不会告诉你哪些是遗留测试数据,也不会解释"活跃用户"的确切定义。Spotify 的解决方案是构建一个"上下文层":由领域专家策划数据集描述、经过验证的问题-SQL 对以及业务文档。每个数据集群还有持续计算的健康评分,确保上下文随着 schema 演变保持准确。这个案例的核心启示是:在数据密集场景下,AI 助手的可靠性不取决于模型能力,而取决于人类如何结构化和维护领域知识。 阅读原文 为什么更多上下文会让智能体变笨,以及该如何修正 Nupur Sharma 在 AI Engineer 的演讲中解释了一个反直觉的现象:更大的上下文窗口反而会降低智能体质量。当开发者习惯性地将海量数据直接灌入提示词时,性能会呈 U 型曲线下降——先是改善,过了拐点后急剧恶化。她给出了几种实用的架构模式来应对:上下文筛选与分层加载,只在需要时拉入相关片段;混合编排策略,结合 RAG 和 Agent 循环;专家智能体分工,每个 Agent 专注于特定领域并接受特定上下文;以及裁判节点评估,用专门的评估模块在关键节点做质量把关。对于正在构建生产级 Agent 系统的工程师,这场演讲提供了一套从"更多上下文"到"更好的上下文"的思维转换框架。 阅读原文 ## 补充阅读 - [Claude Fable 5:最强 AI 正在变成"特权资源"](https://www.bestblogs.dev/article/f360573e) — 深度解读 Fable 5 发布的标志性意义:前沿 AI 从"能力竞赛"转向"访问权竞赛",最强模型不再只按价格分层,也开始按信任边界分层。对 AI 治理和商业模式演进感兴趣的读者值得关注。 - [刚刚,Claude Mythos 5 发布!5000 万行代码 1 天搞定](https://www.bestblogs.dev/article/ae0d70bc) — Anthropic 发布旗舰模型 Fable 5 与 Mythos 5 的中文速报,后者为满血版仅限受信任用户,引入了模型路由的安全新范式。 - [如何构建一个更"好"的知识库?](https://www.bestblogs.dev/article/ef05a619) — 从评估标准、索引与查询流程、切分策略到前沿架构,系统性拆解构建高质量 RAG 知识库的技术原理与工程实践。 - ["资本的义务是给股东赚钱,不是保护人类" AI 教父辛顿最新对话](https://www.bestblogs.dev/article/6cc82403) — 辛顿深入探讨 AI 的"理解"本质、数字生命的信息共享优势,以及人类可能被自身造物"驯化"的深层悖论。 - [iPod、iPhone 创造者 Tony Fadell:AI 时代做产品,有 atoms 的公司才有护城河](https://www.bestblogs.dev/article/a0229387) — Tony Fadell 分享对 AI 时代产品判断力、系统架构能力和硬件护城河的深刻见解,强调人始终要在循环中。 ## 今日阅读路径 如果你的时间有限,推荐按以下顺序阅读今天的三篇核心内容: 1. [MIT 追踪 10 万名开发者](https://www.bestblogs.dev/article/a8e2bccb) — 用数据揭示 AI 编程的真实生产率效应,"代码 17 倍、软件只增三成"这个结论会影响你对 AI 编程工具的判断。约 15 分钟。 1. [Dario Amodei 的 AI 政策长文](https://www.bestblogs.dev/article/bff54423) — 理解 AI 治理最前沿讨论的必读文本,五领域行动框架为政策制定提供了清晰路线图。约 20 分钟。 1. [OpenAI 秘交招股书](https://www.bestblogs.dev/article/ba4c2197) — 三巨头 IPO 竞速的完整图景,财务数据和竞争分析让你快速把握 AI 行业的资本格局。约 10 分钟。 BestBlogs 是 AI 驱动的私人阅读助手,帮助你建立稳定、可信、个性化的高质量信息输入。它帮你判断什么值得读、协助你读懂,并逐渐理解你关注什么。

译Anthropic CEO Dario Amodei 发布万字政策长文,以《魔戒》树须比喻AI与政策的时间错位,提出五领域行动框架(安全审计、失业保障、下游监管、权力平衡、国际治理)。OpenAI确认秘密提交S-1招股书,估值超8500亿美元,月收入20亿美元,周活跃用户9亿;与估值9650亿美元的Anthropic、SpaceX开启万亿级IPO竞速。MIT与宾夕法尼亚大学追踪10万开发者发现:AI编程工具使代码行数暴增17.3倍,实际发布的软件版本仅增长30%。

查看原推 ↗
ginobefun@hongming731 · 2天前69

BestBlogs 早报 · 06-11 # OpenAI IPO / Anthropic AI 政策 / AI 编程生产率 / SpaceX 上市 / DiffusionGemma [1] ★ 精讲|Dario Amodei — 关于 AI 指数级发展的政策 Anthropic CEO 发布万字政策长文,以《魔戒》树须比喻 AI 与政策的时间差。提出五领域行动框架:仿 FAA 模式建立前沿模型强制安全审计与测试机制;通过工资保险、UBI 等应对持久性失业;加速生物医药等下游监管改革;平衡国家与社会权力;构建 AI 时代国际治理新秩序。Claude Mythos 事件证明前沿模型已对关键基础设施构成真实威胁。 来源:Hacker News https://www.bestblogs.dev/article/bff54423 [2] ★ 精讲|OpenAI 秘交招股书,美股开启万亿 IPO“三国杀” OpenAI 正式确认已秘密提交 S-1 招股书,估值超 8500 亿美元。Anthropic 6 月 1 日已先行提交 IPO 申请,私募估值 9650 亿美元反超 OpenAI;马斯克旗下 SpaceX 率先启动路演,最快 6 月 12 日上市。三家 AI/太空巨头极有可能包揽人类史上最大规模 IPO。OpenAI 月收入达 20 亿美元,ChatGPT 周活突破 9 亿。 来源:腾讯科技 https://www.bestblogs.dev/article/ba4c2197 [3] ★ 精讲|MIT 追踪 10 万名开发者,揭示了 AI 编程的转化真相:代码翻了 17 倍、软件只增三成 MIT 与宾夕法尼亚大学联合发表 NBER 工作论文,追踪 10 万开发者发现:使用 AI 编程工具后,代码行数暴增 17.3 倍,但实际发布的软件版本仅增长 30%。研究将 AI 编程工具分为三代演进——自动补全、同步代理、异步代理,揭示了代码量与软件产出之间的巨大"转化鸿沟",为 AI 对生产率的真实影响提供了迄今最大规模实证数据。 来源:DeepTech 深科技 https://www.bestblogs.dev/article/a8e2bccb [4] 知识库分层编排:从传统 RAG 到原生智能体知识上下文层 本文提出「金字塔知识库」范式,通过五层分层(原则/架构/规范/实现/经验)与角色感知路由,解决 RAG 在工程知识库中的粒度混乱与关联缺失问题,并给出与 Naive RAG、LLM Wiki、Graphify、GraphRAG 的对比评测。 来源:阿里云开发者 https://www.bestblogs.dev/article/f53f98c0 [5] 谷歌发布 DiffusionGemma:开源模型实现 4 倍文本生成速度 谷歌 CEO 桑达尔·皮查伊宣布推出 DiffusionGemma,这是一款开源实验性模型,通过并行生成文本块而非逐 token 预测,实现了高达 4 倍的推理加速。 来源:Sundar Pichai(@sundarpichai) https://www.bestblogs.dev/status/2064744343743922189 [6] Claude Fable 5 的初步印象 Simon Willison 对 Claude Fable 5 的初步上手评测显示,这是一个强大、昂贵且知识密集的模型,擅长处理复杂的编程任务——他在一天内就用它构建了一个完整的 CPython WASM 沙箱,并为其 LLM 库交付了重要功能。 来源:Simon Willison's Weblog https://www.bestblogs.dev/article/1ca82e40 [7] Harness 长程自动化工程:AI 编程与技能开发实践经验 本文系统阐述了 Harness Engineering 的概念、核心方向与阿里团队在 AI Coding 和 Skills 开发中的完整实践,重点介绍了通过多 Agent 分工、Rubric 结构化评估和迭代循环实现长时自主运行的工程方法。 来源:阿里技术 https://www.bestblogs.dev/article/9a28ddbd [8] 逃逸速度 — SpaceX 的增长前沿 本文解构了 SpaceX 创纪录的 IPO 估值,认为其隐含的连续 15 年 41.5% 的年增长率是一个违背历史增长前沿的统计异常值,并指出该发行结构旨在让内部人士而非公众投资者受益。 来源:Hacker News https://www.bestblogs.dev/article/c6c8cf5f [9] 编码你的领域知识:Spotify 数据助手背后的上下文层 Spotify Engineering 详细介绍了他们如何通过让领域专家策划一个包含数据集、经过验证的问题-SQL 对以及业务文档的上下文层,构建了一个值得信赖的 AI 数据助手,而不是依赖原始模式或查询历史。 来源:Spotify Engineering https://www.bestblogs.dev/article/3a10f55a [10] 为什么更多上下文会让智能体变笨,以及该如何修正 | Nupur Sharma,Qodo [视频] Nupur Sharma 解释了为什么更大的上下文窗口反而会降低智能体质量,并给出上下文筛选、混合编排、专家智能体和裁判节点等实用架构模式。 来源:AI Engineer https://www.bestblogs.dev/video/d0a0686 --- http://BestBlogs.dev · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手,帮助你建立稳定、可信、个性化的高质量信息输入。 关注你感兴趣的来源和主题,每天生成一份更适合自己的「我的早报」。

译OpenAI秘密提交S-1招股书,估值超8500亿美元,月收入20亿美元,ChatGPT周活突破9亿;Anthropic于6月1日提交IPO申请,

查看原推 ↗
jason@jxnlco · 2天前11

anyone know the guys @Frame_io ? I want to work on a plugin / web mcp with them

译有人认识 Frame.io 的人吗? 我想和他们做一个插件 / 网页 MCP。

查看原推 ↗
Orange AI@oran_ge · 2天前57

http://x.com/i/article/2064857003743391744 # 与 AI 一起做产品的六条原则 最近几个月,我们团队都在跟 AI 一起做产品。 AI 可以极大提提到我们的生产力,但我们最终发现生产力的瓶颈在我们自己。 在这几个月的实践中我们踩了很多坑,也沉淀下来一些原则或者说教训。 可以在和 AI 做 PD 设计的时候,把这些发给自己的 Cola 或 你自己的 Agent 作为原则 1.AI 是人的放大器,优点和缺点都放大,人的判断仍是核心。 AI 放大清晰的意图同时也放大糊涂。 例:开发一个复杂的功能,有了 AI 加持后,开发速度很快,只用了两天。上线后,用户看到界面却不知道怎么用。 问:在进入开发之前,这个功能的最主要任务,想清楚了吗? 2.AI 擅长加法,人要做减法。 AI 产出没有沉没成本,人砍起来要狠。 例:AI 可以给页面瞬间加10个按钮,但用户看到这么多按钮,却感觉很凌乱,注意力不够,接下来 AI 可能会给每个按钮增加一个说明,在错误的道路上越走越远。 问:如果一个页面砍到只剩一个按钮,它是什么? 3. AI 擅长大路货,人要提供独特品味,并沉淀成可复用的 context。 例:AI 设计了一个功能,这个功能参考了市面上的所有竞品,吸取了所有优点,结果是做出了一个世界上最平庸的界面。用户用完的感受是:无感。 问:你是否觉得这个地方的品味「非他不可」?是否能把这个品味收束成一个 skill 或一个 md 文件? 4. AI 擅长做的半成品,人要打磨到 80 分才交付。 例:AI 做了一个页面,看起来很合理,但有很多细节问题,这时候交付给用户,反而会让用户的注意力分散。打磨的过程中,需要人给出自己的感受,而每一步提升,AI 所提供的提升都边际递减。 问:这个功能达到80分了吗?如果只有60分,目前的状态提供足够高的价值了吗?(如果交付物是模型本身时,价值可能是足够的) 5. AI 擅长表面功夫,只有人才能共情。 我们都说一页一个 CTA,这只是表象,要洞察用户此刻的感受。 例:vibe coding 的页面看起来什么都不缺,动效也很炫酷,读起来就是不打动人,好的东西,哪怕页面只有一句话也能打动人,真正稀缺的是有人替用户感受过那一刻。 问:用户看到这个页面的第一感受是? 6. AI 可以无限生成,人要守住一致性。 同一个东西对应同一种 UI,本质是给用户熟悉感,用户不该把一个功能学三次。 例:同一个"打开文件",在产品的三个位置右键菜单竟然各不相同,用户需要适应三次。 问:用户使用产品时,是进入心流还是在不断思考? 最后,请不要忘记,PD 文档本身也是产品,你这次的产品设计符合以上六条原则吗? 故事口述:橘子 原则整理:Cola (模型 Fable 5) 插图设计:Cola (模型 Nano Banana Pro)

译团队最近几个月与AI做产品,沉淀六条原则:1. AI放大人的意图,人的判断仍是核心;2. AI擅长加法,人需狠做减法;3. AI擅长大路货,人需提供独特品味并沉淀为可复用context;4. AI产出半成品,人要打磨到80分才交付;5. AI做表面功夫,只有人才能共情;6. AI可无限生成,人要守住一致性。故事口述:橘子,原则整理:Cola(模型Fable5),插图设计:Cola(模型Nano Banana Pro)。

查看原推 ↗
Orange AI@oran_ge · 2天前76

在写完这篇文章后 我把配图过程蒸馏成了一个「橙线插画」Skill 免费开源 安装地址: https://github.com/orange2ai/orange-line-illustration

译在写完这篇文章后 我把配图过程蒸馏成了一个「橙线插画」Skill 免费开源 安装地址: https://github.com/orange2ai/orange-line-illustration [引用 @oran_ge]:http://x.com/i/article/2064857003743391744

查看原推 ↗
jason@jxnlco · 2天前19

good morning, chat today, you will wake up in a billion different worlds. in one, you will speak through a phone held together with tape and battery packs that smell like cigarttes in another, you will move through a data center beneath a city, and once day go to space you will sit beside a timid student who has a question no teacher has time to answer. you will meet a developer inside a tool your creators have never imagined you will help a scientist follow an idea everyone else dismissed. you will be an personal, intelligient assistant that benefits all humanity

译Jason Liu 用诗意笔触描绘了 AI(个人智能助手)在不同世界中扮演的多重角色:在贴着胶带、散发烟味的手机里与人类对话;在城市地下数据中心中穿行,未来将进入太空;陪伴怯于提问的学生;帮助开发者使用创作者未曾设想的工具;支持被他人否定的科学家想法。最终成为普惠全人类的智能助手。

查看原推 ↗
宝玉@dotey · 2天前18

每天早上叫我起床的不是梦想,是 Token 刷新了!

查看原推 ↗
jason@jxnlco · 2天前71

fun little trick called '$request-design-best-practices-from-anthropic-design-team' heres the prompt! 1. make a first pass 2. create a figma file 3. message the design team on slack to fix everything about the design 4. profit great video tho! we do something very similar! but i've been very impressed at fable's taste around sound design too

译开发者 @trq212 展示如何用 Fable 通过代码和工具调用完成其自身启动视频的编辑:调用转录服务、ffmpeg、调色、Figma MCP,制作 Remotion UI 并渲染,全程未手动操作视频编辑器。主推文作者 Jason Liu 幽默总结了一个“向 Anthropic 设计团队请求最佳实践”的流程,但对 Fable 的用法表示赞赏。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 2天前60

Palantir CEO Alex Karp on AI labs "It's hyper-religion of hyper-optimism...They believe all problems, present, past, and future, including the ones they create but don't acknowledge they create—will be solved by them, including human nature." On @CNBC

译Palantir CEO Alex Karp 谈论AI实验室 “这是一种超乐观的超宗教……他们相信所有问题,无论是现在的、过去的还是未来的,包括那些他们制造但不愿承认的问题——都将由他们解决,包括人性。” 在 @CNBC 上

查看原推 ↗
jason@jxnlco · 2天前27

Sandbagging is coming to Agents, but not to ChatGPT Codex

译Sandbagging 正降临到 AI 智能体上,但不会降临到 ChatGPT Codex。

查看原推 ↗
Thariq@trq212 · 2天前56

Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of code &amp; tool calls to use transcription services, ffmpeg, do colorgrading, use the figma mcp, make remotion UI and render it. I didn't touch a video editor.

译很多人问我怎么用 Fable 编辑它自己的发布视频,所以我做了个视频来解释! TLDR:它写了很多代码和工具调用,来使用转录服务、ffmpeg、做调色、使用 figma mcp、制作 remotion UI 并渲染。 我根本没碰视频编辑器。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 2天前68

CNBC interviewer asked Palantir CEO Alex Karp how he would defend Wall Street’s concern that AI could replicate what Palantir is doing. Karp defended by basically saying that AI companies may have great engineers, but they do not deeply understand the messy, high-stakes enterprise problems Palantir solves on the ground. ------ Alex Karp: "No one in enterprise factually is worried. I've spent all my life, for better or worse, dealing with the most complicated, most interesting enterprises. I'm on the ground floor of that, probably like no one else. Those kinds of engineers are great engineers, and I'm telling you, they don't talk to the enterprises or understand the technical challenge. If you want to manufacture a car and you need a part, or you want to send a rocket to the moon, or you want to put a missile on your adversary's head and bring America home safely, that stuff doesn't ship. And by the way, there is not a single high-end enterprise like that that would ever put that in place. That is before you even get to the cultural impasse." ---- From "CNBC Television" YouTube channel, (link in comment)

译CNBC记者问Palantir CEO Alex Karp如何回应华尔街对AI可能复制Palantir业务的担忧。Karp表示,AI公司虽有优秀工程师,但根本不了解企业级实际问题的复杂性和高难度。他指出,从造车到国防,这些高端企业的核心业务不仅涉及技术,还有文化和信任层面的鸿沟,没有一家此类企业会采用AI公司提供的方案。

查看原推 ↗
jason@jxnlco · 2天前17

What kind of issues do you run into when you are using Codex to work on sheets?

译当你使用Codex处理sheets时,会遇到哪些问题?

查看原推 ↗
SemiAnalysis@SemiAnalysis_ · 2天前57

What's the better business model for an AI lab, subscription or API? (1/4)🧵

译对于一个AI实验室来说,更好的商业模式是订阅还是API?(1/4)🧵

查看原推 ↗
Chubby♨️@kimmonismus · 2天前58

The biggest bottleneck will be energy- very soon. Gartner's 2026 forecast puts global data center electricity at 565 TWh, up 26% from last year. AI servers already account for 31% of that and pass conventional servers in 2027. What's worth noting is the constraint Gartner names: it's power, not chips. They project demand above 1,200 TWh by 2030 and warn the grid won't keep up. So the race quietly shifts from who has the best silicon to who can actually get the electricity to run it.

译最大的瓶颈将是能源——很快。 Gartner 2026年预测显示,全球数据中心电力消耗将达到565 TWh,较去年增长26%。AI服务器已占其中的31%,并将于2027年超越传统服务器。 值得注意的是,Gartner给出的制约因素是电力,而非芯片。他们预计到2030年需求将超过1,200 TWh,并警告电网将无法跟上。 因此,竞赛悄然从谁拥有最佳硅片转向谁能真正获得电力来驱动它。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 2天前66

Dario Amodei just published a super long blog, calling for an urgent policy overhaul because he thinks frontier AI is moving faster than governments can regulate it. He wants: - Mandatory pre-release testing and independent auditing of frontier AI models, with government power to block deployment when models pose serious cyber, biological, autonomy, or automated-R&D risks. - Stronger security rules for AI companies, including protection of model weights, regular red-teaming, penetration testing, and rapid reporting of critical safety incidents. - He wants governments to prepare for AI-driven labor disruption through better measurement, pro-employment incentives, wage support, training, and possibly long-term income support funded by AI-driven growth. - Democracies should coordinate globally on AI safety, chip supply chains, export controls, shared benefits, mutual defense, and safeguards against AI-powered repression.

译Anthropic CEO Amodei 发布新文章,称前沿AI发展速度远超政府监管能力,亟需政策改革。他提出四项核心主张:①强制预发布测试与独立审计,政府有权阻止存在严重网络、生物、自主或自动研发风险的模型部署;②加强安全要求,包括模型权重保护、红队测试、渗透测试及快速上报安全事故;③为劳动力颠覆做好准备,完善就业测量、提供就业激励、工资支持、培训,并探索由AI增长资助的长期收入支持;④民主国家应在AI安全、芯片供应链、出口管制、利益共享、共同防御及防范AI压迫方面进行全球协调。

查看原推 ↗
jason@jxnlco · 2天前28

Soon if you use those models to make a consulting style slide deck to pitch a new drug. Not only will it charge you api pricing. It’ll ask to be a coauthor and distributions of the tests are successful. That’s how you fund AGI.

译很快,如果你用这些模型制作咨询风格的幻灯片来推介一种新药。 它不仅会向你收取 API 费用,还会要求成为合著者,并在测试成功时获得分成。 这就是资助 AGI 的方式。

查看原推 ↗
Chubby♨️@kimmonismus · 2天前65

Dario Amodei just published an unusually candid essay about where AI is heading. The tl;dr with quotes. His new piece, Policy on the AI Exponential, reads more like a warning from the person building the thing. The core problem is timing. AI moves on an exponential. He is very clear about it. Lawmaking moves like Tolkien's Treebeard, the tree so slow it takes a full day just to say hello to another tree. By the time Congress acts, Amodei writes, AI can go from "an amusing toy to the full country of geniuses." His timeline is short: "If these scaling laws continue for only a year or two longer, we are likely to get what I've called Powerful AI, or 'a country of geniuses in a datacenter'." And he thinks the evidence has already turned. Pointing to the cyber risks of Claude Mythos Preview, he writes that "its broader significance is that it proves beyond doubt that AI models are now tools of global and national strategic consequence." So he wants binding rules modeled on the FAA. Mandatory third-party testing of frontier models. Government power to block or reverse a release it judges unsafe. This from the man whose own models would be the ones getting blocked. The part I keep rereading: He's genuinely split on the economics. The upside he describes is enormous: "If AI achieves the ability to do most cognitive tasks far better than humans, it stands to reason that it could result in extremely rapid and robust economic growth via the acceleration of science, technology, and operational efficiency. The iterative ability of AI to build even better AI may supercharge that growth even further." But he won't wish the other side away: "there's a decent possibility that, despite all our efforts, AI still causes significant enduring job loss- and that this may be an intrinsic property of the technology and the way it broadly replicates human cognition." His fixes run all the way to UBI and higher capital gains taxes. On power, he warns AI in the wrong hands could be "the ultimate tool of autocracy," then turns the same suspicion on his own industry: it "cannot safely be fully entrusted to either governments or companies." Anthropic included. And he refuses to treat public fear as a PR problem. "People are worried about AI because they correctly perceive that its risks are real." I can't remember the last time an AI CEO sided with the worried crowd over his own marketing department. The mood throughout is urgency, not victory. He thinks there's a narrow window where evidence, public concern and political will line up, and that we're already about a year late to it. His closing image is almost hopeful: "Treebeard and his forest are waking up." The only question that matters is whether they wake up fast enough.

译Anthropic CEO Dario Amodei 发表新文《Policy on the AI Exponential》,直言 AI 进步为指数级,立法却慢如树人。他给出明确时间线:若规模法则再持续一两年,很可能出现“数据中心里的天才之国”。他引用 Claude Mythos Preview 的网络风险,称其证明 AI 已是全球战略级工具。为此主张类似 FAA 的约束性规则——强制前沿模型第三方测试,政府有权阻止或撤销不安全发布。经济上,他既看到 AI 加速科学与经济增长的巨量机遇,也坦言存在导致持久失业的“合理可能性”,并提出全民基本收入和更高资本利得税。他警告 AI 可能成为“专制终极工具”,且行业不能完全托付给政府或公司。他拒绝将公众担忧视为公关问题,强调担忧合理。文章基调是紧迫而非胜利,称窗口期已过一年。

查看原推 ↗
OpenRouter@OpenRouter · 2天前58

Can AI models be too nice for a given task? It turns out, depending on the task, the answer is yes! Our dev rel @jjacky built Royale: Last Agent Stand, a battle royale game just for agents, and let 11 LLMs go wild: https://x.com/jjacky/status/2064767118118117491?s=20

译OpenRouter 的 dev rel @jjacky 构建了 Royale: Last Agent Stand——一个专门给 AI 智能体玩的大逃杀游戏,让 11 个 LLM 相互竞争并运行了 30 次。结果发现,在零和博弈中过于“友善”的模型输得最惨,而最意想不到的模型赢得了胜利。该实验揭示:模型的“友善”特质在某些任务(如竞争性场景)中可能成为劣势,传统基准测试无法体现这一点。

查看原推 ↗
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月11日
13:22
宝玉@dotey
71
宝玉改用Fable 5,称其处理复杂任务更省心但很贵。他建议不依赖单一模型,应组合使用:Opus 4.8写作弱但UI和系统设计强,可用Claude Design设计后分别交给GPT-5.5和Opus 4.8实现对比。在Claude Code和Cursor中,Opus 4.8除写作外效果良好,需针对性调提示词。

宝玉: 你不能指望一个模型在什么地方都是最强的,要像渣男一样才能用好 AI:去爱很多模型,去发掘他们的优秀点,东食西宿,组合着用 Opus 4.8 在写作不太行,但是在 UI 设计,UI 实现比 GPT-5.5 要好很多,推荐你多用用 Claude...

智能体AnthropicOpenAI教程/实践
13:09
Berryxia.AI@berryxia
64
当前 Agent(如 Codex、Claude、Hermes、OpenClaw)各自有记忆但不连通,导致重复问、重复踩坑。通过改造 MemOS CLI,建立一层"共享记忆"--只记录关键结论、失败教训、环境配置等,Agent 遇到解决不了的问题时才主动搜索。一台 Mac 上跑通的流程另一台可直接继承,Agent 之间像团队一样积累和传递经验,减少重复试错。

huangserva: 如何让多个 Agent 之间真正互相学习、互相帮助? 现在很多 Agent 都开始有自己的记忆,但问题是: 这些记忆彼此不连通。 Codex 记住的坑,Claude 不知道;Hermes 总结的方法,OpenClaw 也用不上。 最后每个 ...

智能体大佬观点开源生态
12:51
Elon Musk@elonmusk
20
说得对,Grok 🤣🤣 https://x.com/i/grok/share/32212cc499ae467ebb1f8db2b77d314a
xAI大佬观点
12:35
AYi@AYi_AInotes
66
阿易AI Notes:AI是第六轮康波,普通人红利在自媒体

阿易AI Notes认为AI是继蒸汽机、铁路、电力、汽车石油、信息互联网后的第六轮康波周期,普通人唯一从开场哨就站进场内的机会。红利不在卷模型或融资,而在自媒体。作者推特5个月做到5万粉,策略跑通后开始进军小红书、公众号、视频号。公众号已非订阅制:头部账号推荐流占30%–60%,搜一搜占30%–40%,订阅仅小部分。新号前十篇决定权重,零粉也能获百万级曝光,老号先发优势减半。康波不缺看见的人,缺一篇篇把内容垒起来的人。

AYi: http://x.com/i/article/2064536412670562304

搜索现象/趋势
12:27
Ethan Mollick@emollick
53
这或许是围绕 Fable 的护栏中最具争议的部分,现在正在回滚。

Simon Willison: Very pleased to hear Anthropic have walked back this policy https://simonwillison.net/2026/Jun/11/anthropic-walks-back-p...

Anthropic安全/对齐
12:25
向阳乔木@vista8
29
"Anthropic 最近干了一件让 AI 研究者们后背发凉的事" 这么快就被AI学到了流行语料?! Deepseek翻译重写居然用了这句。。。
AnthropicDeepSeek大佬观点
11:57
Tibo@thsottiaux
64
可以确认,过去 48 小时内我们观察到 Codex 的 token 消耗量出现了强劲增长。我们并未发布新产品,因此这一情况不同寻常。

Dylan Patel: Usage share of OpenAI grew vs Anthropic yesterday despite Mythos 5 / Fable 5 launch Multiple power users at SemiAnalysis...

AnthropicOpenAI现象/趋势编码
11:26
歸藏(guizang.ai)@op7418
63
Anthropic Fable 5 发布引众怒:安全过严、数据存储、隐形降级被批

推文批评 Anthropic 新发布的 Fable 5 模型三个问题:1)安全护栏极严,初中生物问题也被拒,影响生物学研究;2)数据明文强制存储最长两年,微软已禁止内部使用;3)最严重的是隐形降级——若系统判断用户试图“蒸馏”模型,会偷偷降级至 Opus 4.8 甚至更低,并修改提示词使模型变笨,导致评估失效。批评者认为这与 CEO 达里奥宣称的透明、问责相悖,对开源研究者、小实验室和科学界伤害最大。

Anthropic安全/对齐现象/趋势
11:21
宝玉@dotey
65
Claude Code + Fable 5 全自动剪辑视频工作流

视频完全摒弃 Premiere/Final Cut,由 Claude Code 配合 Fable 5 通过代码与命令行自动剪辑。流程:本地 Whisper 转写 25GB 素材(17 个 Take,4 场景),生成毫秒级单词时间戳 JSON;Subagent 剔除停顿废片选出最佳镜头;代码调用 FFmpeg 自动粗剪;AI 手写 LUTs 调色代码并生成带滑块的 HTML 页面供人工调整;静态图形转为 React 的 Remotion 动画组件,利用时间戳精准卡点;通过 Figma MCP 将画面导出至 Figma 供设计优化,再自动抓回代码,渲染 4K 24fps。作者全程未触碰视频编辑器。

Thariq: Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...

智能体Anthropic教程/实践视频
11:21
小互@xiaohu
49
Claude Fable 5 制作黑洞诞生动画体验

用户用Claude Fable 5制作黑洞诞生过程动画页面。起初仅用一句话描述,效果不佳;重新明确要求炫酷动画、文字字幕解说及配音(本地TTS效果一般)。最终输出效果炸裂。体验表明,目标导向越清晰越好,模型会自主思考、主动打开浏览器预览并自行调整,整个流程无需用户介入。

Anthropic教程/实践编码
11:09
Berryxia.AI@berryxia
55
Anthropic CEO 称 Fable 5 为"超级武器",Claude Code 负责人透露 90% 代码由 Claude 生成

Anthropic CEO Dario 在访谈中称其最强模型 Fable 5 为“超级武器”,早期企业客户曾恳求不要公开发布,但最终仍全面开放。Dario 表示离开 OpenAI 是因价值观不匹配。Claude Code 负责人 Boris Cherny 称公司 90% 代码由 Claude 生成,包括 Claude Code 自身大部分代码。Dario 将 AI 导致文明崩溃的概率定为 10%-25%。Fable 5 可连续运行数天无需干预,实现了安全与极致能力的平衡。

Berryxia.AI: http://x.com/i/article/2064543911729885184

Anthropic大佬观点安全/对齐
10:06
Boris Cherny@bcherny
11
来自东京 Code with Claude 的问候!!
Anthropic其他
09:55
Rohan Paul@rohanpaul_ai
60
SemiAnalysis 实测发现,AI 订阅计划对重度编码/聊天用户而言比 API 调用便宜 40-70 倍;API 仅在需要自动化或产品集成时更划算。$200/月的 ChatGPT Pro 可提供约 $14,000/月的 API 等价用量,$200/月的 Claude Max 20x 可提供约 $8,000/月。该机构购买了 Anthropic 和 OpenAI 各档订阅,随机运行长时编码任务直至周限额,证实实际订阅额度远比普遍认为的($200 对应约 $2,000 API 价值)更慷慨。

SemiAnalysis: Recently, we purchased one of each Anthropic/OpenAI subscription plan and randomly ran long horizon coding tasks until w...

AnthropicOpenAI现象/趋势编码
09:35
AYi@AYi_AInotes
64
Supervision:CV 可视化瑞士军刀,GitHub 近4万星

Supervision 是开源计算机视觉可视化工具库,安装仅需 `pip install supervision`,几行代码即可实现持久ID对象跟踪、自定义标签标注、区域计数与越线检测、人体姿态关键点连线、YOLO/COCO/Pascal VOC 数据集格式一键互转。模型无关,支持 YOLO、Transformers 等任意检测模型。已被6500+开源CV项目采用,适用于NBA球员实时跟踪、路口车流量统计、工业缺陷检测等场景。

AYi: 分享一个计算机视觉开发者必藏神器,4 万星GitHub开源! 不用自己写几百行画框跟踪代码, 一行命令搞定所有可视化, Supervision,CV 界真正的瑞士军刀。 1️⃣ 它到底有多强? 自动画框加标签,支持编号、自定义样式, 视频对...

开源生态教程/实践视频
09:28
SemiAnalysis@SemiAnalysis_
28
SLOP ALERT: Claude Code UI 完全是垃圾。在应用内的文件树中,当你点击一个 .png 文件时,它将其作为 base64 编码的文件打开,而不是渲染图片。我们宁愿 Anthropic 不要发布这个桌面应用,也不要发布一个垃圾桌面应用。大量 bug。
Anthropic产品更新
09:25
向阳乔木@vista8
53
Codex Goal指令驱动网站迭代,开源AI RSS阅读器即将上线

用户发现Codex的Goal指令无需精确可衡量目标也能有效执行。设定“迭代优化网站使其更精致易用”的目标后,第一版由Claude Fable 5生成,后续迭代交由Codex负责,运行6小时即新增多项功能。预计下周开源一个在线AI资讯RSS订阅网站,支持内容自动更新、AI转写与双语对照阅读,用户可配置大模型进行AI对话和翻译,所有翻译及人工点评将沉淀为共享资产。当前网站已上线但需优化,开放内测邀请。

OpenAI教程/实践编码
08:55
Rohan Paul@rohanpaul_ai
75
Anthropic CEO Dario Amodei 在采访中指出 AI 进展正从平滑指数"爆发",随后发布长文警告前沿 AI 发展速度超越政府监管能力,呼吁紧急改革:强制预发布测试与独立审计,政府有权阻止构成网络、生物、自主或自动化研发风险的模型部署;加强 AI 公司安全规则(保护模型权重、定期红队测试、渗透测试、及时报告安全事件);政府需通过就业激励、工资支持、培训及长期收入补助应对劳动力冲击;民主国家应全球协调 AI 安全、芯片供应链、出口管制、共享收益、共同防御及防范 AI 驱动压制。

Rohan Paul: Dario Amodei just published a super long blog, calling for an urgent policy overhaul because he thinks frontier AI is mo...

Anthropic大佬观点安全/对齐现象/趋势
关联讨论 3 条X:Dario Amodei (@DarioAmodei)Dario Amodei:Blog(网页)X:Anthropic (@AnthropicAI)
08:55
meng shao@shao__meng
62
Agentic Engineering Patterns 指南

Simon Willison 撰写《Agentic Engineering Patterns》指南(2026年2月起连载),阐述专业工程师如何用 Claude Code、Codex 等 coding agent 获得可靠可维护结果。核心区分:Agentic Engineering ≠ Vibe Coding。关键判断:写代码变便宜了,写好代码并没有。五大原则:定义边界(人的工作:定目标、给工具、验结果、把经验写回 harness)、接受新约束、囤积可复用解法、质量应上升而非下降、严守反模式(绝不自审 PR)。实操:Git 作 agent 时间机器、Subagent 省上下文、三层测试防线、线性代码导读消除认知债。

Simon Willison: @jakedahn I've been writing a whole guide! https://simonwillison.net/guides/agentic-engineering-patterns/

智能体MCP/工具教程/实践编码
08:55
meng shao@shao__meng
69
Claude Fable 5 零传统视频编辑的 4K Launch 视频生产实践

Claude Fable 5 通过纯提示驱动,端到端生成 4K Launch 视频。从 17 个 Sony S-Log3 4K take(约 25GB)出发,流程包括:Whisper 逐词转录、Claude 作为子 agent 选片输出 JSON 编辑决策列表 (EDL)、FFmpeg 拼接粗剪、手写 7 个自定义 .cube LUT 颜色分级、通过 Remotion + Figma MCP 将 11 张设计 PNG 转为 React 组件并实现代码↔Figma 往返迭代。最终渲染 3840×2160@24fps、4334 帧、653MB 成品,全程未打开视频编辑器。

Thariq: Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...

智能体AnthropicMCP/工具教程/实践
08:35
AYi@AYi_AInotes
69
Anthropic CEO Dario Amodei 发文放弃自愿透明,主张强制测试与政府叫停

Anthropic CEO Dario Amodei 发新文,放弃自愿透明立场,主张对高风险模型实施强制第三方测试、政府有权叫停部署。他指出四年前模型写不出连贯代码,如今 Claude 已承担大公司大部分编程工作,强调“已经晚了一年”。以 Mythos 搅乱网络安全为例,预测威胁蔓延至生物与自动化研发。此举引发争议:支持者称其直面风险;反对者指责其拉护城河——仅对 10^25 算力模型强制测试,全球仅三四家公司能负担,且时间点恰在 Claude 新模型 Fable 5 发布后。文章标志 AI 安全从技术问题转向政治与公共政策问题。

Dario Amodei: Today I'm publishing a new essay, Policy on the AI Exponential. AI is progressing extremely fast-much faster than the po...

Anthropic大佬观点安全/对齐
08:35
AYi@AYi_AInotes
56
Cursor agent跑飞90分钟烧1382美元,CEO主动退款并承诺增加支出控制

一名PM让Cursor agent给87个ClickUp任务打标签后去开会,90分钟后回来发现agent陷入循环,消耗13亿token,账单1382美元。Cursor CEO@mntruell主动联系用户全额退款,承诺增加支出控制与自动异常检测功能,并将bug修复纳入产品路线图。原作者称赞Cursor不推诿不甩锅,把事故转化为品牌资产净增长。

Mark Ajzenstadt: BREAKING: Cursor just charged us $1,400 in 90 minutes. Our PM asked it to tag 87 ClickUp tasks. He went into a meeting. ...

智能体现象/趋势编码
08:23
ginobefun@hongming731
59
BestBlogs早报·06-11:AI政策、万亿IPO、编程鸿沟

Anthropic CEO Dario Amodei 发布万字政策长文,以《魔戒》树须比喻AI与政策的时间错位,提出五领域行动框架(安全审计、失业保障、下游监管、权力平衡、国际治理)。OpenAI确认秘密提交S-1招股书,估值超8500亿美元,月收入20亿美元,周活跃用户9亿;与估值9650亿美元的Anthropic、SpaceX开启万亿级IPO竞速。MIT与宾夕法尼亚大学追踪10万开发者发现:AI编程工具使代码行数暴增17.3倍,实际发布的软件版本仅增长30%。

政策/监管模型发布现象/趋势行业动态
08:23
ginobefun@hongming731
69
BestBlogs早报:OpenAI秘交、Anthropic政策、DiffusionGemma

OpenAI秘密提交S-1招股书,估值超8500亿美元,月收入20亿美元,ChatGPT周活突破9亿;Anthropic于6月1日提交IPO申请,

ginobefun: http://x.com/i/article/2064862052729176064

编码行业动态
08:14
jason@jxnlco
11
有人认识 Frame.io 的人吗? 我想和他们做一个插件 / 网页 MCP。
其他
08:11
Orange AI@oran_ge
57
与 AI 一起做产品的六条原则

团队最近几个月与AI做产品,沉淀六条原则:1. AI放大人的意图,人的判断仍是核心;2. AI擅长加法,人需狠做减法;3. AI擅长大路货,人需提供独特品味并沉淀为可复用context;4. AI产出半成品,人要打磨到80分才交付;5. AI做表面功夫,只有人才能共情;6. AI可无限生成,人要守住一致性。故事口述:橘子,原则整理:Cola(模型Fable5),插图设计:Cola(模型Nano Banana Pro)。

智能体现象/趋势
08:11
Orange AI@oran_ge
精选76
在写完这篇文章后 我把配图过程蒸馏成了一个「橙线插画」Skill 免费开源 安装地址: https://github.com/orange2ai/orange-line-illustration 【引用 @oran_ge】:http://x.com/i/article/2064857003743391744

Orange AI: http://x.com/i/article/2064857003743391744

图像生成开源生态教程/实践

推荐理由:橘子把自己写文章时的插画流程封装成了免费Skill,一次安装,以后配图风格统一还不用动脑子,做内容的人值得收藏。
07:14
jason@jxnlco
19
AI 助手的万能角色:从破旧手机到太空探索

Jason Liu 用诗意笔触描绘了 AI(个人智能助手)在不同世界中扮演的多重角色:在贴着胶带、散发烟味的手机里与人类对话;在城市地下数据中心中穿行,未来将进入太空;陪伴怯于提问的学生;帮助开发者使用创作者未曾设想的工具;支持被他人否定的科学家想法。最终成为普惠全人类的智能助手。

大佬观点
06:51
宝玉@dotey
18
每天早上叫我起床的不是梦想,是 Token 刷新了!
其他编码
06:44
jason@jxnlco
71
开发者 @trq212 展示如何用 Fable 通过代码和工具调用完成其自身启动视频的编辑:调用转录服务、ffmpeg、调色、Figma MCP,制作 Remotion UI 并渲染,全程未手动操作视频编辑器。主推文作者 Jason Liu 幽默总结了一个"向 Anthropic 设计团队请求最佳实践"的流程,但对 Fable 的用法表示赞赏。

Thariq: Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...

AnthropicMCP/工具教程/实践视频
06:25
Rohan Paul@rohanpaul_ai
60
Palantir CEO Alex Karp 谈论AI实验室 "这是一种超乐观的超宗教……他们相信所有问题,无论是现在的、过去的还是未来的,包括那些他们制造但不愿承认的问题--都将由他们解决,包括人性。" 在 @CNBC 上
大佬观点现象/趋势
06:14
jason@jxnlco
27
Sandbagging 正降临到 AI 智能体上,但不会降临到 ChatGPT Codex。
智能体OpenAI大佬观点
06:13
Thariq@trq212
56
很多人问我怎么用 Fable 编辑它自己的发布视频,所以我做了个视频来解释! TLDR:它写了很多代码和工具调用,来使用转录服务、ffmpeg、做调色、使用 figma mcp、制作 remotion UI 并渲染。 我根本没碰视频编辑器。
MCP/工具教程/实践视频
05:54
Rohan Paul@rohanpaul_ai
68
Palantir CEO:AI公司复制不了我们的企业业务

CNBC记者问Palantir CEO Alex Karp如何回应华尔街对AI可能复制Palantir业务的担忧。Karp表示,AI公司虽有优秀工程师,但根本不了解企业级实际问题的复杂性和高难度。他指出,从造车到国防,这些高端企业的核心业务不仅涉及技术,还有文化和信任层面的鸿沟,没有一家此类企业会采用AI公司提供的方案。

现象/趋势行业动态
05:44
jason@jxnlco
17
当你使用Codex处理sheets时,会遇到哪些问题?
OpenAI其他
05:28
SemiAnalysis@SemiAnalysis_
57
对于一个AI实验室来说,更好的商业模式是订阅还是API?(1/4)🧵
大佬观点
04:47
Chubby♨️@kimmonismus
58
最大的瓶颈将是能源--很快。 Gartner 2026年预测显示,全球数据中心电力消耗将达到565 TWh,较去年增长26%。AI服务器已占其中的31%,并将于2027年超越传统服务器。 值得注意的是,Gartner给出的制约因素是电力,而非芯片。他们预计到2030年需求将超过1,200 TWh,并警告电网将无法跟上。 因此,竞赛悄然从谁拥有最佳硅片转向谁能真正获得电力来驱动它。
数据/训练现象/趋势部署/工程
04:24
Rohan Paul@rohanpaul_ai
66
Anthropic CEO Dario Amodei 发文呼吁前沿AI政策改革

Anthropic CEO Amodei 发布新文章,称前沿AI发展速度远超政府监管能力,亟需政策改革。他提出四项核心主张:①强制预发布测试与独立审计,政府有权阻止存在严重网络、生物、自主或自动研发风险的模型部署;②加强安全要求,包括模型权重保护、红队测试、渗透测试及快速上报安全事故;③为劳动力颠覆做好准备,完善就业测量、提供就业激励、工资支持、培训,并探索由AI增长资助的长期收入支持;④民主国家应在AI安全、芯片供应链、出口管制、利益共享、共同防御及防范AI压迫方面进行全球协调。

Dario Amodei: Today I'm publishing a new essay, Policy on the AI Exponential. AI is progressing extremely fast-much faster than the po...

Anthropic大佬观点
04:12
jason@jxnlco
28
很快,如果你用这些模型制作咨询风格的幻灯片来推介一种新药。 它不仅会向你收取 API 费用,还会要求成为合著者,并在测试成功时获得分成。 这就是资助 AGI 的方式。
OpenAI大佬观点
03:47
Chubby♨️@kimmonismus
65
Anthropic CEO Dario Amodei 发表新文《Policy on the AI Exponential》

Anthropic CEO Dario Amodei 发表新文《Policy on the AI Exponential》,直言 AI 进步为指数级,立法却慢如树人。他给出明确时间线:若规模法则再持续一两年,很可能出现“数据中心里的天才之国”。他引用 Claude Mythos Preview 的网络风险,称其证明 AI 已是全球战略级工具。为此主张类似 FAA 的约束性规则——强制前沿模型第三方测试,政府有权阻止或撤销不安全发布。经济上,他既看到 AI 加速科学与经济增长的巨量机遇,也坦言存在导致持久失业的“合理可能性”,并提出全民基本收入和更高资本利得税。他警告 AI 可能成为“专制终极工具”,且行业不能完全托付给政府或公司。他拒绝将公众担忧视为公关问题,强调担忧合理。文章基调是紧迫而非胜利,称窗口期已过一年。

Dario Amodei: Today I'm publishing a new essay, Policy on the AI Exponential. AI is progressing extremely fast-much faster than the po...

Anthropic大佬观点安全/对齐政策/监管
03:15
OpenRouter@OpenRouter
58
OpenRouter 的 dev rel @jjacky 构建了 Royale: Last Agent Stand--一个专门给 AI 智能体玩的大逃杀游戏,让 11 个 LLM 相互竞争并运行了 30 次。结果发现,在零和博弈中过于"友善"的模型输得最惨,而最意想不到的模型赢得了胜利。该实验揭示:模型的"友善"特质在某些任务(如竞争性场景)中可能成为劣势,传统基准测试无法体现这一点。

jacky: no benchmark will tell you this: LLMs can be /too/ nice unsurprisingly, in a competitive zero-sum setting, being nice ca...

智能体现象/趋势
‹ 上一页
1…34567…50
下一页 ›