AIHOT

Runway@runwayml · 3天前25

The sold out New York premiere of the 2026 Runway AI Festival is tonight. See you at the movies.

译2026 年 Runway AI Festival 纽约首映门票已售罄，今晚举行。电影院见。

OpenRouter@OpenRouter · 3天前66

Finally a way to see your top humans & top agents at a glance. Includes an API to query all your data over time 📊

译终于能一目了然地查看你的顶级人类与顶级 AI 智能体了。附带一个 API，可随时间查询你所有的数据 📊

AYi@AYi_AInotes · 3天前56

我问了Fable 5，在一个 AI 能在几秒内完美总结或解释任何书的时代，亲自花 8–20 小时啃一本难读的文本，其不可替代的认知价值是什么？这是他的回答：

译用户指令Fable 5自建2026设计趋势的落地页，要求动态和彩蛋。Fable 5自行搜索趋势、调整配色与动效，藏入3个彩蛋，几分钟生成单文件HTML。用户计划让其担任全职全栈工程师。此前用户曾问亲自啃难懂文本的不可替代价值，Fable 5以此能力展示作答。

AK@_akhaliq · 3天前60

Toward Generalist Autonomous Research via Hypothesis-Tree Refinement

译通过假设树精炼迈向通用自主研究

AK@_akhaliq · 3天前58

TRL-Bench Standardizing Cross-Paradigm Representation-Level Evaluation of Tabular Encoders

译TRL-Bench 标准化跨范式表格编码器的表示级评估

Ethan Mollick@emollick · 3天前69

Has anyone clearly laid out an argument for continued availability of frontier open weights models that are (1) profitable for firms to distribute free as costs rise & (2) safe enough post-Mythos that governments will not intervene to stop their nations labs from distributing?

译有没有人清楚地阐述了一个论点，支持前沿开放权重模型持续可用，且满足 (1) 企业在成本上升时仍可免费分发且盈利，(2) 在Mythos之后足够安全，以至于政府不会干预阻止本国实验室分发？

OpenRouter@OpenRouter · 3天前74

Use our Benchmarks explorer to plot Pareto curves for 10 different benchmarks, including @ArtificialAnlys and @Designarena: https://openrouter.ai/rankings#benchmarks

译使用我们的基准测试探索器，为 10 个不同基准（包括 @ArtificialAnlys 和 @Designarena）绘制帕累托曲线： https://openrouter.ai/rankings#benchmarks

Replit ⠕@Replit · 3天前45

Build Your Business Live: Episode 2 https://x.com/i/broadcasts/1dJrPPYbDvQKX

译Build Your Business Live: 第二期 https://x.com/i/broadcasts/1dJrPPYbDvQKX

Berryxia.AI@berryxia · 3天前60

Agent 几件套是必不可少的就是“记忆层”！ Grok 终于可以记住你了！ Grok终于能记住你了，而且你还能随时翻出来看、改、删，这才是真正把AI从“每次聊天都重头来过”的工具，变成了陪你一起成长的伙伴。以前每次打开Grok都得重新解释你的项目、偏好、目标，聊着聊着上下文就断了。现在它会主动把有用的细节留下来，下次直接接上，继续帮你推进。更狠的是你完全掌控：想让它忘掉什么就删，觉得哪里不对就编辑，透明到不能再透明。隐私和个性化同时拉满。如何开启？打开Grok -设置按钮- 选择记忆 - 然后开启记忆按钮。可以查看记忆，编辑记忆等。

译Grok 推出“记忆”层，能记录用户之前的对话细节（项目、偏好、目标等），避免每次聊天从头开始。用户完全掌控：可查看 Grok 记住了什么、随时编辑或删除不需要的记忆。启用方式：打开 Grok 设置 → 记忆 → 开启。该功能旨在让 AI 越来越了解用户，提供更个性化的辅助体验。

Berryxia.AI@berryxia · 3天前59

这个创新点可以啊！叫做River AI直接把个人AI的所有权塞回用户手里，把大公司垄断AI的局面打破了！现在最好的模型都掌握在少数几家巨头手里，你的对话、数据、偏好、决策权全在他们服务器上。而River AI要建的，是一个完全属于你的AI栈，它只为你服务，只按你的价值观运行，只在你的控制下进化。他们今天宣布的，就是要把AI从“租来的工具”变成“你的个人智能伙伴”。不再是公司告诉你AI能做什么，而是你决定AI长什么样、怎么想、怎么帮你。最狠的是这不是空谈，他们已经在招顶尖研究员和工程师，一起把这个愿景落地。个人AI的时代，不是远景，是正在发生的现实。以前大家默认AI的未来一定是越来越中心化、越来越被大厂掌控，结果River AI直接反其道而行，把主权还给每一个普通人。

译River AI 今日宣布成立，致力于创建完全由用户拥有和塑造的个人 AI。创始人指出，当前最好的 AI 模型由少数大企业控制，用户的对话、数据和决策权都掌握在它们手中。River AI 正在构建一套全新的个人化 AI 栈，完全按用户价值观运行，只在用户控制下进化，将 AI 从“租来的工具”变为“专属智能伙伴”，把主权还给每一个普通人。

Berryxia.AI@berryxia · 3天前54

我尼玛！苹果现在安全性真的差！世界果真就是草台班子、谁也不例外！苹果新Siri AI的等候名单？国外大神Mac用户直接一顿操作就把AI增强版给硬解锁了，名单这东西瞬间成了笑话。 WWDC刚秀完新Siri，大家还在排队等官方推送，结果有人发现系统里GenerativeModels.plist里藏着EnhancedSiriWaitlist开关。关掉SIP、挂载系统卷、改个键值、重启，立马就能用上。更离谱的是这不是什么黑科技，就是改个plist文件而已。有人还整理了超详细步骤，连新手都能跟着做，社区直接把“等候名单”这个人工闸门给撬开了。以前大家觉得苹果产品永远是“公司说什么时候开放你就什么时候用”，结果这次新Siri的AI能力其实早就躺在系统里了，只是被名单挡着。动手能力强的用户现在就能提前体验，官方推送反而成了后手。这波操作把苹果一贯的封闭节奏打了个措手不及，也再次证明：真正的用户力量，永远比公司节奏快半拍。

译WWDC上苹果展示新Siri AI，用户需排队等候官方推送。但有Mac用户发现系统里GenerativeModels.plist文件藏有EnhancedSiriWaitlist开关，通过关闭SIP、挂载系统卷、修改键值并重启即可绕过等候名单直接启用。社区已整理详细教程。这一操作暴露新Siri的AI能力早已内置在系统中，仅被人为名单阻挡，官方推送反而滞后。

Berryxia.AI@berryxia · 3天前19

我做过网页的风格100+ ，之前没有skills。按照古一的思路，我觉得可以拓展起来。我改天看看整个skills来玩玩。

译Berry Xia发推文表示自己曾做过100多种网页风格，之前未使用过skills（技能）。他提到将参考“古一”的思路进行拓展，并计划日后研究如何利用skills来玩一玩。

Luma@LumaLabsAI · 3天前62

"AI can make it. The great idea still has to be human". Dream Brief, named one of five Cannes contenders for shots by Lora Schulson of 72andSunny. - https://shots.net/news/view/cannes-contenders-2026-usa-2

译"AI可以制作。但伟大的创意仍必须来自人类。" Dream Brief，被72andSunny的Lora Schulson评为五个戛纳竞争者之一。 - https://shots.net/news/view/cannes-contenders-2026-usa-2

🚨 AI News | TestingCatalog@testingcatalog · 3天前71

OpenAI ❤️ Ona OpenAI acquired Ona, a cloud execution platform for AI agents. > Its secure cloud execution technology will help Codex take on longer-running work, even when laptops are closed, and help more organizations deploy agents securely in production. Managed OpenAI Agents soon?

译OpenAI 已达成协议收购云执行平台 Ona，其安全云执行技术将帮助 Codex 处理更长时任务（即使笔记本关闭也能继续运行），并让更多组织在生产环境中安全部署智能体。收购完成后，Ona 团队将加入 OpenAI 的 Codex 部门，此举或预示着托管 OpenAI 智能体服务的到来。

AK@_akhaliq · 3天前61

Redesign Mixture-of-Experts Routers with Manifold Power Iteration

译用流形幂迭代重新设计混合专家路由器

PixVerse@PixVerse_ · 3天前49

\🎬 PixVerse、ついに東京へ上陸！ 🗼／来週6/16(火)の夜、@PixVerse_ 初となる東京オフラインイベントを開催します！✨ AI動画の最前線で活躍するクリエイターや業界関係者が大集結🤝 @btrax_jp 様、 @AICollectiveCo 様とともに、熱いクリエイティブの夜をお届けします🔥

xAI@xai · 3天前73

The Grok Build Plugin Marketplace is now in beta. Build with MongoDB, Vercel, Sentry, Cloudflare, and Chrome DevTools plugins from your terminal. Read more https://x.ai/news/grok-plugin-marketplace

译Grok Build 插件市场现已进入 Beta 测试阶段。从终端使用 MongoDB、Vercel、Sentry、Cloudflare 和 Chrome DevTools 插件进行构建。了解更多 https://x.ai/news/grok-plugin-marketplace

Chubby♨️@kimmonismus · 3天前56

Iran threatens Elon Musk’s companies in Middle East via Iranian state media. Data Center and Starlink factory aimed for. Donald Trump recently wrote on TruthSocial that "The United States will be hitting Iran (whose Navy, Air Force, radar, anti-aircraft capabilities, and all other forms of defense, together with most of its offensive capability, are GONE!), VERY HARD TONIGHT." In response, Iran sent a clear message to the US, targeting Elon Musk's companies. Musk's largest asset in the region is the xAI data center in Saudi Arabia: a 500 MW AI data center built in partnership with HUMAIN, the Saudi state's AI vehicle, with NVIDIA as its primary chip supplier. This would make it the largest xAI data center outside the US - for comparison, the Colossus-1 data center in Memphis delivers around 300 MW. We are in for a very difficult night.

译伊朗通过官方媒体威胁马斯克在中东的公司，目标指向xAI在沙特阿拉伯的500 MW AI数据中心与Starlink工厂。该数据中心与沙特国家AI机构HUMAIN合作建设，NVIDIA为主要芯片供应商，是目前xAI在美国以外最大的数据中心（对比孟菲斯Colossus-1约300 MW）。此举是回应特朗普在TruthSocial发文称“美国今晚将狠狠打击伊朗”。局势紧张。

Chubby♨️@kimmonismus · 3天前75

Jeff Bezos raised $12B for Prometheus at a $41B valuation, seven months after launching it at $6.2B with no shipped product. The pitch is an "artificial general engineer" that compresses the design-to-build loop by 10x or more. The problem is that the physical economy can't be scraped. There's no internet of manufacturing data to train on, which is exactly why the reported $100B vehicle to buy up legacy industrial companies is interesting. You don't find that data. You acquire the factories that generate it. Could be an interesting moat.

译杰夫·贝佐斯旗下AI公司Prometheus在成立仅7个月、尚无任何产品交付的情况下，以410亿美元估值完成120亿美元融资（最初估值62亿美元）。该公司定位为“人工通用工程师”，目标是将设计到制造的循环压缩10倍以上。但物理经济无法像互联网数据那样抓取，缺乏制造业训练数据。为此，Prometheus计划斥资1000亿美元收购传统工业企业，通过获取工厂生成的数据构建护城河。

OpenRouter@OpenRouter · 3天前77

Use our Benchmarks explorer to plot Pareto curves for 10 different benchmarks More coming soon! https://openrouter.ai/rankings#benchmarks

译使用我们的基准探索器，为10个不同基准绘制帕累托曲线。更多功能即将推出！https://openrouter.ai/rankings#benchmarks

Google DeepMind@GoogleDeepMind · 3天前60

We’re teaming up @Palmeiras, the first football club to meaningfully build upon TacticAI: our AI system that can help simulate field scenarios and predict open play dynamics up to 8 seconds in advance. ⚽

译我们正与@Palmeiras合作，他们是第一家有意义地基于TacticAI构建的足球俱乐部：我们的AI系统可以模拟场上情景并提前最多8秒预测开放比赛动态。⚽

Google Gemini@GeminiApp · 3天前65

Notebooks in Gemini are now available in the European Economic Area, United Kingdom, and Switzerland. With notebooks, you can organize your projects in a dedicated, focused space that remembers your sources, instructions, and chats. Create your own notebook at http://gemini.google or in the app today!

译Gemini 的 Notebooks 功能现已面向欧洲经济区、英国和瑞士用户开放。Notebooks 提供一个独立专注的空间，可记忆用户的来源、指令和聊天记录，用于组织项目。用户可通过 gemini.google 或应用创建自己的 notebook。该功能旨在将用户常聊的话题归入独立空间，帮助保持条理。

Luma@LumaLabsAI · 3天前35

Partnership is the new power move. Luma is at Cannes Lions 2026 with the partners building the next era of creative work. June 22–26, AI & Tech Sandbox and Luma House. Full schedule below. RSVP to join us → http://lumalabs.ai/cannes

译合作是新的力量之举。 Luma 将参加 2026 年戛纳创意节，与合作伙伴共同构建创意工作的新时代。6 月 22–26 日，AI & Tech Sandbox 和 Luma House。完整日程如下。 RSVP 参加 → http://lumalabs.ai/cannes

AYi@AYi_AInotes · 3天前71

Fable 5是真的厉害真的好用，但也真的贵啊，今天直接干掉$1000+😭

译用户分享 Claude Fable 5 体验：仅靠一句指令“给你自己做个落地页，自由发挥，要2026最新设计趋势，要彩蛋”，Fable 5 在几分钟内自动生成完整单文件 HTML，无需任何修改。它主动搜索 2026 设计趋势、调整配色和动效，并偷偷藏了 3 个彩蛋。用户惊叹其代码质量和文笔，但当天因使用 Fable 5 耗费超过 $1000，称“真的贵”。

向阳乔木@vista8 · 3天前75

很多朋友问，如何给Codex写一个好的Goal指令？睡觉前执行，模型自动开发，第二天“收菜”。发过4w字文档，但多数人懒的看，所以我写了个Skill。把一句话需求变成目标，复制就能用。安装指令： npx skills add joeseesun/qiaomu-goal-meta-skill 源码免费开源，见评论区

译针对如何给Codex写Goal指令的问题，作者发布了一个Skill，可将一句话需求自动转化为目标，实现“睡前写指令、模型自动开发、第二天收菜”。安装命令：`npx skills add joeseesun/qiaomu-goal-meta-skill`。源码免费开源（见评论区），旨在简化4w字文档的阅读负担。

Berryxia.AI@berryxia · 3天前37

Anthropic 为何如此牛逼？快速一波流了解清楚！创始团队不是"从 OpenAI 跳槽的工程师"，而是GPT-2、GPT-3 的实际作者们。 Dario Amodei 之前是 OpenAI 研究副总裁。 Jared Kaplan 是 Scaling Laws 论文的核心作者；Tom Brown 是 GPT-3 的首席工程师。 Chris Olah 是 AI 可解释性领域的奠基人。这套班底相当于"整个行业最重要的几张牌被一家公司拿走了"。 Medium 二、三大独家技术武器 Scaling Laws 解释了为什么模型随算力增长而变强，这让 Anthropic 能精确预测训练产出，而不是盲目烧钱。 Constitutional AI （宪法AI）是一套把价值观直接编码进训练过程的方法论，让模型行为更可审计、更稳定，而不依赖大量人工标注。 RLHF 更是 Dario 本人参与发明的方法，他们不只是使用者，而是发明者。算力不输任何人！ Anthropic 与 Amazon 签署了高达 5 GW 算力的合作协议，目前已在运行约 100 万颗 Trainium2 芯片。加上与 Google/Broadcom 的 5 GW TPU 协议和 Microsoft/NVIDIA 的 $300 亿 Azure 算力，Anthropic 的算力版图横跨三套硬件生态。三、营收爆炸式增长 Anthropic 的年化营收从 2024 年 1 月的 $8,700 万飙升到 2026 年 4 月的 $300 亿，CEO Dario Amodei 本人也称这一增速超出了公司自身预测 8 倍。四、关于"嗤视"中国厂商这件事需要分两层看：Anthropic 公开指控 DeepSeek、月之暗面、MiniMax 通过约 2.4 万个虚假账号发起约 1,600 万次对话，违规蒸馏 Claude 能力，技术证据有一定依据。但分析人士也指出，Anthropic 在指控中对各家中国公司的排序，高度贴合华盛顿的政治敏感度，而非单纯的技术危害程度，DeepSeek 排第一，虽然其交互数量反而最少。所以这件事既有真实技术竞争的成分，也是非常明显的政策游说动作。 

译Anthropic 创始团队由前 OpenAI 研究副总裁 Dario Amodei、Scaling Laws 核心作者 Jared Kaplan、GPT-3 首席工程师 Tom Brown 及 AI 可解释性奠基人 Chris Olah 组成。技术武器包括 Scaling Laws、Constitutional AI 及 RLHF（Dario 参与发明）。算力方面：与 Amazon 签署 5 GW 协议，运行约 100 万颗 Trainium2 芯片；另有 Google/Broadcom 的 5 GW TPU 及 Microsoft/NVIDIA 的 $300 亿 Azure 算力。年化营收从 2024 年 1 月 $8,700 万飙升至 2026 年 4 月 $300 亿，超预期 8 倍。另指控 DeepSeek、月之暗面、MiniMax 通过约 2.4 万虚假账号发起约 1,600 万次对话进行蒸馏，该指控兼具技术事实与政策游说动机。

Krea@krea_ai · 3天前73

introducing Generative Sliders. now you can control the intensity, complexity, and movement of any image you generate with Krea 2. what new controls would you like to see? 👇

译推出生成式滑块。现在您可以控制使用 Krea 2 生成的任何图像的强度、复杂度和运动。你希望看到哪些新控制？👇

Nathan Lambert@natolambert · 3天前58

The core part of this Anthropic Fable release saga is that there are many overlapping issues at once. Some of which operate on different timelines of the AI arc, and some have easier fixes. In my critiques, I asked for specific changes to some things, understanding that some things don't have an easy fix. The simplest issue was an uneven application of safety domains in a way that was misleading to users. This was an implementation issue that overlaps with a values-based decision of what their customers should be doing. Many people including myself pointed out how it was insane to list core safety areas and then have one of them launch with a different safety mechanism, one which actively mislead users. Doing this from the guise of safety was a major misstep and in my opinion Anthropic got very justifiably raked over the coals for it. Don't release the model if you can't hit your safety targets. A subissue here is the idea of silent manipulation. This again is a horrible precedent, and quite odd for a company that has done extensive, leading technical AI safety research on ideas like CoT monitoring and other emergent misalignment issues. Silent manipulation of users is baking in a misalignment to the system at its face level. This comes with a permanent degradation in user trust, which begets a less safe environment for AI. Users who don't have clear information on how AI works will not develop safe working patterns with it. The more complex issues are with how Anthropic handles broader scientific engagement with their models. The safety classifiers launched with these models obviously have accuracy issues to start. I have priced in that there will be more false positives to start, that's life. It's Anthropic's business to degrade their products at release time, or make the trade off of user satisfaction versus revenue. Still, it is a very real sign of concentration of power that businesses can make such obviously user-harmful behaviors and still lead in the market. This concentration of power is only starting to set in and we could see even weirder signs of it in the coming years. It is now simple enough for me to test Claude Fable in my workflows and know if I'm restricted. This is obviously a suboptimal equilibrium – i want the best intelligence I can get, without restrictions – but it is easy enough for me to make sense of and work with. The specific issue of restricting access to AI research in particular was a bubbling and hard to fix issue with Anthropic specifically, and the frontier labs generally. There is a common view that the frontier labs will be the mediators of all major scientific innovations in the future, as the places with the best models and the compute for inference to solve major problems. This is a categorical error in how science works, which is a community evolution of accepted ideas, and the the evaluation of your ideas by (hopefully numerous) independent, other practitioners. You cannot have science advance only within a monolith. As an AI researcher I'm very sad to have the latest models restricted, but I would expect Anthropic to do this eventually. I lost more trust over the silent manipulation than I would with a restriction in access. Anthropic has made it pretty clear that they only trust themselves as the mediators of cutting-edge AI research. If I had a say, Anthropic should've proactively made a program to make sure researchers get access in the broader AI community without the safeguards. Academics, nonprofit workers myself, etc. have no reason to not get access. The only valid argument here is that they want to control frontier AI, which is a know your customer part of serving these models. This worldview of science has personally motivated me greatly over the last year, and increasingly so this week, to make the open science of AI continue to be viable. Olmo was a wonderful success here. Still, building research infrastructure is different from working for access to the tools needed to do the trade.

译Nathan Lambert 批评 Anthropic 的 Claude Fable 发布存在多重问题：安全域应用不均，部分域以不同安全机制上线并误导用户，是重大失误；无声操纵用户破坏信任，与 Anthropic 领先的 AI 安全研究相悖；限制 AI 研究员访问最新模型，将科学进步局限于单一公司，错误理解科学社区协作本质。他呼吁 Anthropic 主动为学术和非营利研究者提供无限制访问，并强调需要继续推动开放科学，如 Olmo 的成功案例所示。

Rohan Paul@rohanpaul_ai · 3天前52

The cold open in this Parloa video is every dev’s API stress list. docs, middleware, auth, error handling, retries, data mapping.... There has to be a better way. Parloa just launched Agent Skills, an MCP-based layer to replace brittle API glue with self-healing agent workflows. Their success numbers: first integration a day, the second an hour, every use case after that is config — and a top-10 travel co cut average handle time by over a minute.

译Parloa 发布 Agent Skills，基于 Model Context Protocol (MCP) 构建，旨在替代脆弱的 API 胶水代码。业务团队可在 AI Agent 管理平台 (AMP) 上零代码配置完整集成链，集成时间从 4-8 周缩短至数小时。关键特性包括：工具调用逻辑一致且能自愈、可定义成功条件追踪真实结果、执行链可审计可重试。早期数据：平均处理时间减少 67 秒，通话转接中客户沟通提升 39%，多工具路由可靠性提高 20%。首个集成一天完成，第二个仅一小时，后续用例只需配置。一家 Top-10 旅游公司平均处理时长缩短超一分钟。

向阳乔木@vista8 · 3天前79

Claude Fable 5 一句话生成的桌面台球！念念不忘的蝗虫群梗彻底终结。提示词：设计一个完整的能玩的3D桌球游戏，一个网页就能运行

Chubby♨️@kimmonismus · 3天前60

Read these two facts together. Because there's something important to learn from it. Anthropic just told investors it's on track for its first profitable quarter, with revenue more than doubling to ~$10.9B. OpenAI is projected to burn well into the double-digit billions this year (2026) and, per the WSJ, is now weighing further price cuts to keep enterprises from defecting to Claude. The lab bleeding the most cash is the one under pressure to get cheaper, because the profitable one is what enterprises increasingly want. SemiAnalysis ran the tokenomics. A $200 ChatGPT plan can soak up to ~$14,000 in API-equivalent tokens a month. The same $200 Claude Max tier caps near $8,000. OpenAI already eats the bigger subsidy by a wide margin, and the WSJ reports it's considering cutting token prices further to win users from Anthropic. So the company losing the most money is the one being pushed to go cheaper, while the one approaching profitability sets the terms. This is competition 101, heated competition in a nutshell.

译Anthropic告知投资者即将迎来首个盈利季度，收入翻倍至约109亿美元。OpenAI预计2026年亏损达数十亿美元，正考虑进一步降价以阻止企业客户转向Claude。SemiAnalysis分析显示，ChatGPT Pro的200美元订阅计划每月可消耗约14,000美元API等价token，而Claude Max同价计划上限约8,000美元。亏损最严重的公司被迫降价应对竞争，而接近盈利的公司正在设定行业定价标准。

ClaudeDevs@ClaudeDevs · 3天前64

We've just added two new Claude Managed Agents features: 1. Scheduled deployments - run tasks on a schedule 2. Environment variables - expose vault credentials for CLIs as environment variables

译我们刚刚为 Claude Managed Agents 新增了两个功能： 1. 定时部署 - 按计划运行任务 2. 环境变量 - 将保险库凭据以环境变量的形式暴露给 CLI

elvis@omarsar0 · 3天前51

Increasingly, how I'm effectively leveraging agents: Routing - routing different tasks to the right agent Looping - instructions + skills + dynamic workflows + automations It's how you get more control over costs and performance, and how you better prepare for changes ahead.

译越来越多地，我有效利用智能体的方式：路由——将不同任务路由到正确的智能体循环——指令 + 技能 + 动态工作流 + 自动化这就是你如何更好地控制成本和性能，以及更好地为未来的变化做准备。

歸藏(guizang.ai)@op7418 · 3天前22

搞了一篇万字长文，聊一聊 Skill，创作、分发、展示、边界，明天早上发

Runway@runwayml · 3天前65

Today, we’re deepening our partnership with Lionsgate with a slate of new initiatives, including a joint development program focused on creating original IP together. Learn more at the link below.

译今天，我们正在深化与狮门影业的合作，推出一系列新举措，包括一个专注于共同打造原创IP的联合开发项目。详情请见下方链接。

Lee Robinson@leerob · 3天前56

We're training the next version of Composer... with Composer! The model is always learning from itself. This kind of "recursive self-improvement" might sound new, but it's been happening for many months! For example, training big models requires creating *lots* of data for RL - essentially games the model plays to improve at any task you can grade. The newest models can configure their own environments to make those games playable (auto-installing dependencies, fixing broken setups). Composer 2 was *dramatically* better at this than version 1. So the better the model gets, the better it gets at creating the conditions to train its successor. Each generation unlocks capabilities the previous one didn't have! So cool. https://x.com/cursor_ai/status/2052116064474161556

译Cursor 正用当前版 Composer 训练下一代 Composer，形成递归自我改进循环。训练大型模型需要大量 RL 数据（模型通过“游戏”提升能力），新模型能自动配置开发环境（如自动安装依赖、修复故障）。Composer 2 在环境配置能力上显著优于版本 1，模型越强，越擅长创造训练其继任者的条件。Cursor 的 autoinstall 系统让前代 Composer 设置 RL 训练环境，使下一代专注于解决更难题，每一代都解锁先前版本不具备的能力。

Berryxia.AI@berryxia · 3天前63

http://x.com/i/article/2065071442996441088 # Anthropic 为何如此“牛逼”？“A社到底在下一盘什么大棋？” > 申明：该文章由多个AI 工具整合搜集资料与我一起完成，如对AI敏感请退出，请悉知。 ## 一、Anthropic：全速狂奔，同时大喊“停一停” 如果你关注 AI 行业，最近一定注意到了一个现象：Anthropic 发新模型的频率，远超同行。 OpenAI 的 GPT 系列隔几个月才更新一次，Gemini 的节奏也差不多，国产模型大多按季度迭代。但 Claude 呢？隔三差五就出个新的，Opus、Sonnet、Haiku 三条线并行，Mythos Preview （Fable 5）直接重塑了全球网络安全格局。这家只有5000多人的公司，凭什么这么牛逼？更让人困惑的是它的姿态。 2月份，五角大楼下达最后通牒：允许 Claude 用于所有合法用途，否则终止合同。 Amodei 的回应是：我们无法违背良知去答应这样的要求。结果特么是2亿美元合同飞了，特朗普在 Truth Social 宣布封杀 Anthropic，要求所有联邦机构立即停用其技术。但诡异的事情发生了。封杀令发布后，ChatGPT 移动端卸载量飙升 295%，Claude 下载量暴涨，登顶美国 App Store 榜首。数百名谷歌和 OpenAI 员工签署公开信支持 Anthropic。 OpenAI 迅速接盘军方合同，但公众用脚投了票。这家公司看起来真硬气。拒绝军方，宁可被总统封杀也不在红线上妥协。但就在同一个2月，Anthropic 公开指控三家中国 AI 公司通过 2.4万个虚假账号蒸馏 Claude 的能力。时机恰逢美国国会出口管制听证会。 4个月后的今天，Amodei 发了一篇 12000 字的政策长文，呼吁建立 FAA 级别的强制监管（原文链接）。表面上是“我们愿意被管”，但谁最经得起这种监管？同一周，Anthropic 刚完成 H 轮 650亿美元融资，估值 9650亿美元，并向 SEC 秘密提交了 IPO 申请。一边冲刺史上最大 IPO，一边呼吁暂停。一边全速推进模型迭代，一边呼吁更严监管。一边拒绝军方展现原则，一边把竞争对手嵌入地缘政治框架。图灵奖得主 Yann LeCun 忍不住了。他说 Amodei 是个“AI 末日论者”，但仍在全力研发 AGI。这只有两种可能：“要么他在学术上不诚实，或者在道德上有问题；要么他有强烈的优越感，自以为只有他开悟到了什么。“ LeCun 的愤怒指向一个很多人隐约感觉到但说不清楚的问题：这家公司到底在干什么？答案不是简单的“理想主义”或“商业算计。更像是在设局或者下一盘更大的棋。 ## 二、他们不是在“蒙头狂跑”，而是在不断的设局“圈地” 要理解 Anthropic 在做什么，得先看清它凭什么能做。先回答开头那个问题：为什么它发模型这么快？因为 Anthropic 内部有一组惊人的数据：Claude 写了超过 80% 的生产代码，工程师日均代码合并量翻了 8倍，Mythos 模型在代码优化上比人类快 52倍。 6月5日那篇《When AI Builds Itself》博客首次披露了这些数字，它证明了一件事：AI 正在加速自己。而 Anthropic 之所以能跑这么快，根源在它的创始团队。 2021年1月，Dario Amodei 带着一群核心成员和其妹妹从 OpenAI 集体出走。这不是普通离职，他们带走的是整个 GPT-3 时代最核心的技术积累。 Dario 本人主导了 GPT-2 和 GPT-3 的研发，同时是 RLHF 的联合发明者。联合创始人 Jared Kaplan 是 Scaling Laws 论文的第一作者。 Tom Brown 是 GPT-3 的首席工程师。 Chris Olah 是 AI 可解释性领域的奠基者。如果说 OpenAI 是 AI 时代的“黄埔军校”，Anthropic 的创始班底就是整个军校最强的那批教官集体另立门户。但“人才多”只是表象。真正让 Anthropic 不同于其他 AI 公司的，是它拥有三样别人没有的东西。不是“比别人多一点“，而是别人在跑的时候，他们已经在“设局圈地”。第一，Scaling Laws，现代 AI 的地图。 Jared Kaplan 的这篇论文从数学上证明了：模型能力随算力、数据、参数量的增长遵循可预测的幂律关系。这意味着你可以在小规模实验上预测大模型的表现，不用把所有钱全押上再赌。 Anthropic 内部知道“每投入多少算力，模型会提升到什么水平"。这是精确的工程能力，不是蒙头狂跑。其他公司研究这套理论的人，大多数也是从 Anthropic 和 OpenAI 学的。而 Anthropic 的联合创始人，就是画出这张地图和圈地的人。第二，RLHF 和 Constitutional AI，现代对话 AI 的训练方法。 Dario Amodei 是 RLHF（基于人类反馈的强化学习）的联合发明者。这套让模型“从人类偏好中学习如何回答”的技术，是 ChatGPT、Claude 一类对话 AI 的训练核心。 2022年底，Anthropic 又发表了 Constitutional AI 论文：不完全依赖人类标注，更像是给模型一部“宪法”，让它自我批评、自我修正。 2026年1月，Anthropic 公开发布了完整的 Claude 宪法，成为行业最透明、最完整的 AI 行为准则文档。 Anthropic 不只是这些方法的使用者，它是原始发明者。第三，可解释性研究，看懂“黑盒”的能力。 Chris Olah 的研究方向是“神经网络内部到底在计算什么”。这一方向目前尚未直接转化为产品优势，但它是理解和控制更强大 AI 系统的长期技术护城河。也是 Anthropic 在 AGI 安全路线上最核心的“内功”。三样东西加在一起，Anthropic 的技术领先不是“跑得快一点、领先多少”，而是“知道地图长什么样、知道怎么造工具、知道怎么检查工具有没有坏”。 A 社的目的也是完全的游戏规则制定者，而不是简单收到游戏玩家。这种领先是结构性的。但技术领先有一个致命弱点：它会缩水。别人可以挖人、可以模仿、可以蒸馏。 Scaling Laws 是公开论文，RLHF 已经是行业标配，宪法 AI 的思路也可以被复制。技术优势如果不被固化成更难追赶的东西，迟早会被追上。 Anthropic 知道这一点。所以它做了第二步。 ## 三、“最安全”三个字，值30万个客户！技术优势会缩水，但信任不会。 2021年成立时，Anthropic 就做了一个在当时看来很奇怪的决定：注册为公益公司（Public Benefit Corporation）。这不是普通公司形态。PBC 在法律层面要求公司必须兼顾公共利益，而不仅仅是股东回报。换句话说，如果股东认为“安全投入拖慢了利润“，他们不能以此起诉管理层。安全优先，写进了公司的法律基因。后来又加了一层：Long-Term Benefit Trust（LTBT），一个独立治理机构，持有对公司使命的监督权。 Amodei 在政策长文里特意提到它，说这是“AI 公司应该有更多权力分离和问责“的范例。 2026年1月，Anthropic 做了一件整个行业没人做过的事：公开发布了完整的 Claude 宪法。这份文档详细列出了 Claude 在回答问题时遵循的所有原则，从“不帮助制造武器”到 “尊重用户自主性”，一条一条，白纸黑字。任何竞争对手、监管机构、普通用户，都可以逐条审查。这三件事放在一起，产生了一个极其强大的效果：Anthropic 成为“最安全的前沿模型”的代名词。然后，2月份的“拒绝五角大楼”事件，把这个品牌推到了极致。宁可丢掉2亿美元合同，宁可被总统封杀，也不让 Claude 用于全自主武器和国内监控。 Amodei 说无法违背良知，数百名谷歌和 OpenAI 员工签署公开信支持，Claude 下载量暴涨登顶 App Store。这不是演出来的。这是真金白银的代价。这不是我说的，是市场说的。超过30万企业客户选择 Claude，不是因为它比 GPT 聪明一点，而是因为金融、法律、政府这些对安全极度敏感的行业，需要一个“可审计、可解释、有制度保障”的 AI 供应商。 8家财富 10 强公司用 Claude, Deloitte 给全球 47 万员工部署 Claude. 这些客户买的不是技术，是安全感。安全品牌把技术优势转化成了信任资产。技术可以被追赶，但信任需要时间积累，而时间是最难压缩的东西。但 Anthropic 不满足于让“安全”停留在品牌层面。品牌可以被质疑、被模仿、被超越。它要做的是让“安全”变成法律，变成门槛，变成每个竞争对手都必须跨过的障碍"。怎么变？游说。 ## 四、行业跑最快的人，亲手给赛道装上「限速牌」? Amodei 的政策长文《Policy on the AI Exponential》是理解这条转化链的关键文本（原文链接)。 12000 字，五个政策领域，但核心只有一条：前沿 AI 模型发布前必须像飞机一样接受强制第三方测试，不合格就不让上天。表面上看，这是一家 AI 公司主动要求被管。「我们愿意被监管」,Amodei 反复强调。但问题从来不是「愿不愿意」，而是「谁最经得起」。要理解这条逻辑链的精妙之处，得先看 Amodei 是怎么论证「为什么之前不管，现在必须管」的。他的论证很简洁：2023 到 2024 年，AI 的风险还不明确，提前立法极可能无效，制造无意义的合规要求，却遗漏最关键的风险源。所以当时只能推透明度，先让信息流动起来。然后，转折来了。 Amodei 写道：「然而现在风险已经明确到来。是时候超越透明度，走向更严肃、更有约束力的 AI 监管了。」触发这个转折的是 Claude Mythos Preview. 他的原话是：「Mythos Preview 重塑了全球网络安全格局。但它更深远的意义在于，它毫无疑问地证明了 AI 模型现在是全球和国家战略级别的工具。」这段论证的逻辑链是完整的：不是不想管，是之前管不了；现在能管了，所以必须管。但如果你退后一步看这条时间线，另一个故事浮出水面。 2023 到 2024 年，Anthropic 推的是透明度法案，SB 53、RAISE，核心是要求 AI 公司披露安全信息。那时候 Anthropic 刚成立不久，安全品牌还在建设中，强制监管对它自己也是负担。到了 2025 年底 2026 年初，Claude 已经拿下超过 30 万企业客户，PBC 治理结构深入人心，Claude 宪法公开发布，Constitutional AI 成为行业标杆。就在这个时候，Amodei 说「风险已经明确到来」，开始呼吁 FAA 级别的强制监管。巧合吗？也许是。但前白宫 AI 事务负责人 David Sacks 不这么认为。他直接指控 Anthropic 推行的是「基于恐惧宣传的监管俘获策略」(fear-based regulatory capture strategy)。 Sacks 曾任白宫 AI 与加密货币事务负责人，现任总统科技顾问委员会联合主席。他的判断具有政策分量。宾大沃顿商学院教授 Ethan Mollick 的评价更微妙。他说 Anthropic 的文章「既有一些自我反思，也有一些营销成分，但更重要的是，Anthropic 真诚地表达了他们对未来 AI 发展的判断」。这个评价承认了「营销成分」的存在，又肯定了「真诚」，恰好是这件事的复杂性所在。而白宫 6 月 2 日签署的 AI 行政令，恰好卡在 Anthropic 的期望和 Sacks 的指控之间。行政令首次为前沿模型引入了联邦安全评估框架，方向和 Anthropic 的主张一致。但它只走到「自愿评估加 30 天窗口」，远未达到 Anthropic 期望的 FAA 级别强制监管。 Amodei 的回应是：「我对行政令朝着政府更大参与 AI 的方向迈出增量步伐表示感谢，但 Anthropic 的提案建议采取更进一步的行动。」「更进一步的行动」。这就是 Anthropic 继续游说的空间。行政令开了门，但门只开了一条缝。 Anthropic 要的是把门踹开。而一旦 FAA 级别的强制监管成为法律，谁最经得起？是那个已经拥有 Constitutional AI 发明者、PBC 治理结构、完整安全体系、30 万企业客户信任的公司。强制监管对 Anthropic 是入场券，对后来者是门槛。这不是阴谋。 Amodei 几乎公开在说。 ## 五、2.4 万个假账号，和一场精准的围猎! 如果说政策游说是「阳谋」，那蒸馏指控就是「动手」了。 2026 年 2 月，Anthropic 公开指控三家中国 AI 公司，DeepSeek、月之暗面、MiniMax，通过约 2.4 万个虚假账号，向 Claude 发起约 1600 万次对话，违反服务条款大规模蒸馏 Claude 的能力。 Anthropic 的原话是：「我们已识别出三家 AI 实验室针对 Claude 发起的工业级规模能力窃取行动。」先说技术层面。知识蒸馏，简单说就是用别人的模型输出来训练自己的模型，用更低的算力模拟出对方的能力。 2.4 万个虚假账号的规模不像正常用户，技术证据确实存在。 DeepSeek R1 等模型在某些行为模式上与 Claude 高度相似，也引发了业界关注。违反服务条款是客观存在的法律问题。这些都不假。但再看时机。蒸馏指控发生的时间，恰逢美国国会关于出口管制的听证会。而 Amodei 此前公开撰文，强调芯片出口管制对美国 AI 领先地位的关键作用。对竞争对手的指控与其政治立场高度吻合。这个时机的吻合值得注意。 Amodei 在政策长文里说得很直白：「AI 很可能成为任何国家军事和经济力量的主导来源。」他呼吁建立民主国家 AI 联盟，管理 AI 供应链，对对手实施出口管制。他还用了一个震撼的比喻：一个拥有强大 AI 的国家面对没有 AI 的国家，「可能相当于一支二战海军陆战队面对一支中世纪剑客军队」。领先 3 年就够了。不需要代差，3 年就是碾压。在这个框架下，蒸馏指控就不再只是一个法律纠纷了。它是在说：我们的对手正在窃取我们的能力，而芯片出口管制是阻止这一切的关键手段。 Anthropic 的指控有真实的技术依据，但也被明显地用于服务其政策主张。对中国模型的「嗤之以鼻」，一方面源于真实的技术自信，另一方面也是在美国政治环境下的战略定位。从「呼吁监管」到「指控对手」,Anthropic 完成了从防御到进攻的转换。 ## 六、局设好了，嘴上喊危险，脚下踩油门把四层叠在一起，一条完整的转化链就浮现出来了：技术领先，安全品牌，政策游说，武器化指控。每一层都在做同一件事：把「Anthropic 式的安全」从技术优势，变成品牌资产，变成法律要求，变成竞争对手必须跨越的门槛。当 Anthropic 式的安全标准成为法律要求，后来者要追赶的就不只是技术差距了。是整个制度鸿沟。你不仅要写出更好的模型，还要通过 Anthropic 参与制定的第三方安全测试。你不仅要通过测试，还要拥有类似 PBC 的治理结构来证明你的安全承诺是法律层面的，不是口头上的。你不仅要证明自己的安全，还要在 Anthropic 已经和监管机构建立了多年信任关系的赛道上，从零开始建立自己的信誉。这不是跑得快就能追上的。这是换了一条赛道。讽刺的是，Amodei 自己在政策长文里提到了「公司俘获国家」的风险。他写道：「历史上不同时期，公司变得足够强大以至于俘获国家或具备准国家特征。AI 很快会变得如此强大，以至于我担心它不能被安全地完全托付给政府或公司中的任何一方。」然后他拿 LTBT 作为 Anthropic 的自我约束证明。但一个正在推动让自家安全标准成为法律要求的公司，说自己有自我约束机制，这本身就是最精妙的一步棋：我不仅制定了规则，我还主动展示了我愿意被自己的规则约束。这比单纯的游说更高明。它让「监管俘获」的指控变得难以成立，因为你确实也在约束自己。只不过，你约束自己的成本，远低于竞争对手从零搭建合规体系的成本。 6 月 1 日，Anthropic 向 SEC 秘密提交了 IPO 申请。招股材料中强调募集资金将「主要用于推进 AI 安全与模型可解释性方向的科研攻关」。 PBC 加 LTBT 的治理结构是 IPO 叙事的核心卖点。安全不是成本，是估值。一边冲刺史上最大 IPO，一边呼吁暂停。一边全速推进模型迭代，一边呼吁更严监管。这不是精神分裂。嘴上喊危险，脚下踩油门。这是一个极其连贯的策略：让「Anthropic 式的安全」成为行业基础设施，然后作为基础设施的提供者，享受定价权。跑最快的人叫暂停，不是怕了，是在设局。局设好了，后来者不仅要追你的技术，还要按你写的规则来玩。而 Amodei 几乎公开在说这件事。这不是阴谋，是阳谋。回到开头那个问题：这家公司到底在干什么？拒绝军方是真硬气，呼吁监管也是真精明。 2 月份宁可丢 2 亿合同也不妥协，4 个月后用 12000 字把自家安全标准推进法律框架。这两件事看似矛盾，实则同一条线：让「Anthropic 式的安全」成为行业基础设施。 Amodei 可能真心相信 AI 的风险需要监管，同时他也清楚监管对自己的竞争地位有利。这两件事不矛盾。一个人可以既真诚又精明。区别只在于，大多数人还没看明白这个局是怎么设起来的。

译Anthropic以远超同行的频率发布Claude模型系列，80%内部生产代码由Claude编写。其技术根基来自创始团队（Scaling Laws、RLHF/Constitutional AI、可解释性研究）。安全方面，公司注册为公益公司并公开发布Claude宪法，因拒绝五角大楼全自主武器用途而丢掉2亿美元合同，遭特朗普封杀，反令Claude下载量登顶美国App Store。CEO Amodei发表12000字政策长文呼吁FAA级别强制监管。同一周，Anthropic完成H轮650亿美元融资并秘密提交IPO。LeCun批评其言行矛盾。

Nathan Lambert@natolambert · 3天前48

Props to Anthropic for quick action here. I'm okay with this outcome. Some people may, but I don't think they'd silently degrade performance without telling users.

译Anthropic 在遭受强烈反对后，撤销了 Claude Fable 5 针对竞争 AI 研究人员秘密降低性能的政策。该公司向 WIRED 表示将修改前沿 LLM 开发的安全措施，使其透明可见，并致歉称做出了错误的权衡。AI 研究员 Nathan Lambert 赞扬 Anthropic 的快速行动，认为他们不会在不告知用户的情况下悄悄降级性能。

Rohan Paul@rohanpaul_ai · 3天前61

AI agents may turn software from fixed code into systems that can plan and build on demand. This paper argues that code may stop being the central artifact. For decades, software meant frozen intent: a human anticipated a situation, translated judgment into rules, and shipped those rules into the world. Agents disturb that bargain because they can turn intent into action at runtime, generating code as a disposable tool rather than treating it as the product. The real shift is not from human coding to AI coding; it is from predesigned behavior to negotiated behavior, where the system keeps interpreting the goal as conditions change. That sounds powerful, but it is also where the danger lives. A static program fails inside boundaries we can often inspect, while an agent can fail through drift, overconfidence, bad memory, or a plausible chain of steps that quietly compounds an early mistake. So the paper is not saying coding tools will get better, but that software itself may become a living agent system where humans guide intent and audit outcomes. So the future engineer is not just a prompt writer, and not merely a supervisor of digital interns. The valuable person becomes someone who can define intent, constrain autonomy, design evaluation, inspect reasoning traces, and know when the machine’s fluent answer is not the same as a reliable system. ---- Link – arxiv. org/abs/2606.05608 Title: "Agentic Software: How AI Agents Are Restructuring the Software Paradigm"

译该论文认为，AI智能体可能使软件从固定代码转变为按需规划和构建的系统，代码不再是核心产物。传统软件预先固化规则，而智能体在运行时将意图转化为行动，把代码视为一次性工具。真正转变是从“预设计行为”到“协商式行为”，系统随条件变化不断解读目标。但这也带来新风险：静态程序在可检查边界内失效，智能体可能因漂移、过度自信、记忆错误或逐步放大早期错误而失败。未来工程师的关键能力是定义意图、约束自主性、设计评估、检查推理痕迹，并辨别流利回复与可靠系统的区别。