elvis@omarsar0 · 7天前59This was one of the standout AI papers of the week.
(bookmark it)
It tackles a question most self-improving AI agents ignore: is the agent actually discovering anything, or just remixing what it already knows?
How can you tell whether the agent is doing real discovery or just confident retrieval?
The authors give three clean buckets:
- Retrieval is looking something up in a notebook you already have.
- Search is combining tools you already own in new ways.
- Discovery is inventing a new concept that wasn't in your toolkit before.
The issue is that most agents stop at the first two.
The math behind their definition (category theory plus a left Kan extension, if you care) is basically a bookkeeping trick to ask: could the old version of me have produced this result? If yes, it's not discovery. If no, something genuinely new showed up.
They build a Builder/Breaker agent that studies protein mechanics. Over four rounds, the model's fit accuracy actually drops (R² goes from 0.48 to 0.68 to 0.54 to 0.41). At first glance, that looks like a failing agent.
It isn't.
The agent kept taking on harder proteins and rewriting its theory to cover them. Data grew almost 10x while the model code grew only 1.3x. A smaller theory covering a bigger world is exactly what good science looks like.
Why does it matter?
If you optimize for accuracy alone, your self-improving agent will just settle into easy benchmarks and stop. This paper offers a cleaner success signal and asks whether the agent is compressing more of the world into less code over time.
Paper: https://arxiv.org/abs/2606.01444
Learn to build effective AI agents in our academy: https://academy.dair.ai/
译本周一篇AI论文探讨自我改进智能体是否真正发现新知识,还是仅重新组合已知信息。作者将行为分为三类:检索(查询已有笔记本)、搜索(组合现有工具)和发现(发明新概念),并用范畴论和左Kan扩展定义——若旧版本能产生相同结果则非发现。他们构建Builder/Breaker agent研究蛋白质力学,四轮中R²从0.48升至0.68再降至0.54和0.41,看似变差实则不断挑战更难蛋白质并重写理论:数据增长近10倍,模型代码仅增长1.3倍。论文提出用代码压缩率作为真实发现信号。链接:arxiv.org/abs/2606.01444。
AYi@AYi_AInotes · 7天前69http://x.com/i/article/2063647311423561728
# 免费白嫖顶级AI额度的N个隐藏入口(Codex Pro半年/Anything AI 20K/Lenny's bundle/云startup credits)
现在玩 AI,最烧钱是Token额度,GPT-5.5、Claude Opus4.8,一个比一个能打,也一个比一个贵,想认真用上一阵,账单就能直接把你劝退了。
但说实话,市面上一直有几个官方自己留的口子,赠金从几百刀到几十万刀不等。知道的人闷声用着,不知道的人月月真金白银往里充。
这篇我就把查到的几个靠谱入口,一个个拆开说清楚——怎么申请、适合谁、坑在哪,跟着操作就行。
先把难听的说在前头:这世上没有纯粹白给,每个口子都有它的门票。
有的门票是“你得是开源作者”,有的门票是“你得先掏 200 刀订阅费”,有的门票是“你得算个创业公司”。
下面每一条,我都会把门票和限制条件一起摊出来,大家自己结合自己情况评估。
## 这篇讲哪几块
- 入口一:OpenAI「Codex for OSS」——开源作者免费拿半年 ChatGPT Pro(约值 $1200)
- 入口二:Anything AI——新用户注册薅 2 万额度(官方默认才给 3000)
- 入口三:Lenny's Product Pass——一份订阅换 $30000+ 的 AI 工具全家桶
- 入口四:三大云的 startup credits——AWS / 微软 / 谷歌,最高单家几十万刀
- 最后给你一张对照表 + 一段申请话术,直接抄
## 先看全局:四个口子到底给什么
动手之前,先用一张表把你心里的地图建起来。别一上来就闷头点链接,先看清哪个口子真适合你。
人话总结这张表怎么用:
想纯免费、零门槛 → 看 Anything;
自己有开源项目 → 冲 Codex;愿意花点小钱换一堆工具 → 看 Lenny;在搞创业/产品 → 云额度才是大头。
记住一句口诀就够了:
白嫖的本质不是省钱,是把"门票"对上"身份"。
下面挨个拆。
## 入口一:Codex for OSS——开源作者的半年 Pro
这个口子是 OpenAI 自己开的,2026 年 3 月官宣,叫 Codex for Open Source。
它给的东西挺实在:半年的 ChatGPT Pro(带 Codex),也就是那个 $200/月的顶配档,免费用 6 个月,算下来约 $1200。
除此之外,符合条件的项目还能额外申请 API credits(来自 OpenAI 那个 100 万美元的开源基金),以及有条件开放的 Codex Security。
谁能拿?
核心是一句话:你得是一个公开开源项目的维护者(maintainer)。
OpenAI 官方写得比较宽松——如果你是被广泛使用的项目的核心维护者,就去申请;
哪怕你的项目不完全符合标准,但在生态里确实重要,也可以申请,附上说明就行。
而且它明确说了:不卡硬性 star 数门槛,不要信用卡,不要购买承诺。
怎么拿(保姆级步骤):
1. 打开 OpenAI 开发者社区的官方页面 developers.openai.com/community/codex-for-oss
1. 点申请,填你的项目信息——GitHub 仓库链接、star 数、月下载量这类指标
1. 重点写清楚"我这项目为啥重要、被谁在用"
1. 提交,等审核回复
这盆冷水你得喝:
第一,这是给开源作者的,不是给所有 ChatGPT 用户的全民福利。
你要是没有一个拿得出手的公开项目,这条基本和你无关。
第二,别和另一个东西搞混了——之前 OpenAI 还搞过一个"Codex 用量翻倍"的促销(Pro 档加量),那个是给已付费用户加量,不是免费,而且已经在 2026 年 5 月 31 号到期了。咱们这条说的是 OSS 那个免费半年的项目,两码事。
## 入口二:Anything AI——注册就薅 2 万额度
这个是目前门槛最低的一个,几乎是注册即得。
Anything(官网 createanything.com)是个 AI 应用搭建工具,用大白话描述一句你的需求,它帮你把 App 或网页搭出来,背后接的是 Claude、GPT、Gemini 这些顶级模型,不用你自己配 API key。
它的免费档默认只给 3000 credits,一次性的,问几个问题就见底了。
但在新用户启动促销期,能薅到的是 2 万 credits——机制大致是:
注册到账一批,登录后再点一次同一个邀请链接,触发 bonus 再到账一批,凑齐 2 万,整个过程不要信用卡。
怎么拿(保姆级步骤):
1. 通过促销注册链接进入 Anything 官网,完成注册
1. 注册后,第一批 credits 自动到账
1. 登录状态下,再打开一次那个注册/促销链接,触发额外的 bonus
1. 到账后进 builder,credits 就能拿去搭东西、跑 AI 集成
这盆冷水:
第一,这是平台币,不是现金,也不是 OpenAI/Anthropic 的官方 API 额度。它只能在 Anything 平台里用,搭 App、跑集成消耗,跨平台带不走。
第二,credits 烧得快慢看任务复杂度,复杂任务一条消息就能吃掉一大把,2 万听着多,认真搭起来其实也就够你玩一阵。
第三,得提醒一句——这种"点两次链接拿双倍"的促销玩法,链接很多是在羊毛党论坛流转的第三方推广链接。
官方注册当然是安全的,但你点别人贴的促销链接前,自己心里有个数,至少认准是 anything.com 的域名。
促销随时可能结束,看到了就趁早。
## 入口三:Lenny's Product Pass——一份订阅换一堆工具
这个口子最"反直觉",因为它表面上叫"免费",其实是你先掏钱订阅,然后一堆工具白送给你用一年。
Lenny's Newsletter 是产品圈最大的那个 newsletter。
它搞了个 Product Pass:只要你是它的付费年度订阅者,就能领一大堆顶级 AI / 产品工具各 1 年的免费会员,标称总价值 $30000+。
里面的货是真硬。我给你贴几个看看:
怎么拿(保姆级步骤):
1. 去 lennysnewsletter.com 开通年度付费订阅——Annual($200/年)或 Insider($400/年),月付不行
1. 登录 lennysproductpass.com
1. 往下滚,找到你想要的工具的 logo,点 Redeem
1. 拿到专属兑换码,按提示去对应工具开通(通常会跳到那个工具的注册/结账页)
这盆冷水必须喝,而且是一大盆:
第一,它根本不是白嫖,是花 $200-400 买门票换一堆工具。
值不值,取决于你是不是真能用上里面那几样。如果你本来就要买 Cursor + Notion + Google AI,那这笔订阅可能直接帮你回本还倒赚;如果你一个都用不上,那就是纯花钱。
第二,码是有限的,先到先得。Lenny 自己说了,合作方不是给无限量账号,热门工具的码会发完,发完就没了。Insider($400 档)才有优先权,Annual($200 档)是抢的。
第三,每个工具基本要求你是"新用户"。你要是已经自己付费用着 Cursor 了,那这个免费年大概率领不了。
第四,有有效期,每批 offer launch 后半年左右过期,领了记得赶紧兑换,别囤着烂手里。
我的判断是:这条适合"本来就准备给一堆 AI 工具付费"的人,对这类人它是真划算;纯薅羊毛心态、一个工具都用不上的,别上头。
## 入口四:云 startup credits——大头在这
如果你在搞创业、做产品,那前面三个都是零花钱,真正的大额度在云厂商的 startup 计划里。
三大云都有自己的创业扶持计划,给的是云资源额度,里面就包含跑 AI 模型的额度(比如 AWS 的 Bedrock、谷歌的 Vertex AI、微软 Azure 上的 OpenAI 服务)。而且关键是——这三家互相独立,你可以同时申请、各拿各的。
几个最实用的点,我直说:
- 门槛最低、最友好的是微软 Founders Hub。它不要求你有 VC 背书,公开申请就行,入门档先给 $1K–$5K,随着产品有进展再往上解锁,而且还附带 GitHub、Microsoft 365,以及 Azure 上的 OpenAI 服务额度。你只要 ship 过点东西,基本都能拿到入门档。
- AI 创业天花板最高的是谷歌,AI-first 的创业公司最高能摸到 $350K,但顶档要求严,通常得是有 VC 的 Series A 阶段;种子期一般也就 $2K–$10K。
- AWS 自筹创业者走 Founders 档是 $1K,但能叠加——比如 YC Startup School 能再领约 $2500 的 AWS 额度,Stripe Atlas 注册公司能再叠 $5000,攒一攒一个自筹 solo 也能凑出几千刀。
怎么拿(保姆级步骤):
1. 先备好三样东西:一个公司网站、一个企业邮箱、一句能讲清楚"你在做什么"的描述
1. 微软先冲——去 Microsoft for Startups Founders Hub 直接申请,最容易过
1. 再分别申请 AWS Activate(自筹选 Founders 档)和 Google for Startups Cloud
1. 有加速器/VC 的话,拿它们的 Org ID 去申请 Portfolio 这种高档位
泼盆冷水清醒下:
第一,那些几十万刀的天花板数字,绝大多数要 VC 或加速器背书,自筹个人开发者通常就是 $1K–$5K 这个量级,别看着 $200K 就以为能直接拿。
第二,这是云资源额度,不是给你随便提现的钱,你得真把东西跑在它的云上才花得掉。
所以选哪家,应该看你的技术栈适合谁,别为了额度把整个架构绑死在一家——那本身就是另一种 lock-in。
## 直接抄:一段万能申请话术
不管是 Codex OSS 还是云 startup credits,审核方最想看到的,都是"你是谁 + 你在做什么 + 为啥值得给你"。下面这段你改改就能用:
> 我是 [项目/产品名] 的维护者/创始人。
>
> 我们在做 [一句话讲清楚做什么],目前 [一个能证明你在认真做的指标:GitHub star / 月下载量 / 用户数 / 上线时间]。
>
> 我们正在用 / 计划用 [你们家的产品] 来做 [具体场景:代码评审 / 自动化 / AI 功能],这部分额度能直接帮我们 [具体的事]。
>
> 项目链接:[贴上]
记住一句口诀:指标 > 形容词。别写"我们很有潜力",写"我们有 800 star、月下载 1 万"。审核的人一天看几百份申请,具体数字才让他停下来。
## 最后
说到底,这几个口子能不能薅到,拼的不是手速,是你站在哪个身份上。
开源作者有开源作者的口子,创业者有创业者的口子,普通用户也有普通用户的小份额——没有一个口子是为"所有人"开的,但总有一个是为"现在的你"开的。
所以与其满世界找"最大的羊毛",不如先想清楚:我现在是个什么身份,哪扇门是冲我开的,然后把那一扇推到底。
剩下那些不属于你的,看看就好,别眼红。该掏钱用顶级模型的时候,也别太抠——工具是放大器,省下的那点订阅费,有时候还不够你纠结浪费掉的时间值钱。
(本文基于 OpenAI Developers 官方页面、Lenny's Newsletter / Product Pass 公开页、Anything 官方文档及公开促销信息、AWS / 微软 / 谷歌三家 startup 计划官方页综合写成。所有额度、价格、有效期均为时效性信息,可能随时变动,以各官方页面为准。文中提到的产品只是举例,不构成任何推荐。这些是个人整理,不是投资/购买建议。)
译文章盘点四大渠道:① OpenAI Codex for OSS,开源项目维护者可免费获6个月ChatGPT Pro(价值$1200)及API credits;② Anything AI,新用户通过促销链接注册可得2万credits,需重复点击触发bonus;③ Lenny's Product Pass,付费订阅其年度Newsletter($200-400)可兑换总价值$30000+的AI工具一年会员,先到先得且要求新用户;④ 三大云startup credits,微软Founders Hub最低$1K-$5K(无VC要求),谷歌AI-first创业最高$350K但要求严,AWS可叠加(自筹$1K+YC等)。每个口子均有门槛限制。
Chubby♨️@kimmonismus · 7天前64OpenAI’s ChatGPT "superapp" overhaul could start rolling out in the coming weeks.
The first wave likely won’t be one big launch, but a phased redesign pushing users toward Codex, agents, image generation, and partner apps.
As one OpenAI employee told the FT: "Chat is dead", the new goal is a single AI assistant that can act across your work and personal life.
译OpenAI 的 ChatGPT “超级应用”改造可能在未来几周开始推出。
第一波可能不是一次大发布,而是分阶段重新设计,将用户推向 Codex、AI 智能体、图像生成和合作伙伴应用。
正如一位 OpenAI 员工告诉《金融时报》:“聊天已死”,新目标是打造一个能在你的工作和个人生活中行动的单一 AI 助手。
Satya Nadella@satyanadella · 6月7日64Great to see NHS England scaling Microsoft 365 Copilot to more than 500,000 staff.
In early trials, staff saved an average of 43 minutes per day, helping put more time back into what matters most, caring for patients. https://ukstories.microsoft.com/features/nhs-england-accelerates-ai-adoption-with-microsoft-365-copilot-to-improve-service-delivery-reduce-costs-and-create-more-time-for-care/
译很高兴看到 NHS England 将 Microsoft 365 Copilot 推广给超过 50 万名员工。
早期试验中,员工平均每天节省 43 分钟,帮助将更多时间投入到最重要的事情——患者护理上。https://ukstories.microsoft.com/features/nhs-england-accelerates-ai-adoption-with-microsoft-365-copilot-to-improve-service-delivery-reduce-costs-and-create-more-time-for-care/
Rohan Paul@rohanpaul_ai · 6月7日63OpenAI is preparing its biggest ChatGPT redesign yet, before its IPO.
To make it into a superapp for coding, AI agents, image generation, and business software. The overhaul is set to begin rolling out in coming weeks.
The goal is to make ChatGPT the main entry point for business software, automated task completion, coding work, and higher-margin enterprise revenue before a possible IPO.
The changes will put more focus and resources behind OpenAI’s coding tool Codex, showing the stronger belief that AI’s future is less about chatbots answering questions and more about agents doing tasks for users.
The changes show OpenAI’s strategy shifting closer to Anthropic’s, which has grown fast by focusing on business products and will make that a key part of its IPO pitch this year.
Thibault Sottiaux ( OpenAI Codex engineering lead) said: “It will transcend the actual surface . . . what we’re building towards is where you have your own personal agent that is capable of helping you . . . across everything in your life, be it personally or at work.”
---
malaymail .com/news/money/2026/06/07/openai-plans-biggest-chatgpt-overhaul-yet-as-it-eyes-superapp-ahead-of-potential-ipo/222852
译OpenAI 正筹备其 ChatGPT 迄今最大规模的改版,目标将其打造成集编码、AI 智能体、图像生成和企业软件于一体的超级应用。改版将在未来几周内开始推出,重点加强编码工具 Codex,使 ChatGPT 成为企业软件、自动任务和编码工作的主要入口,以推动更高利润的企业收入,为潜在 IPO 做准备。此举显示 OpenAI 策略向 Anthropic 靠拢,后者凭借企业产品快速增长并将在今年 IPO 路演中突出这一方向。Codex 工程负责人 Thibault Sottiaux 表示:“它将超越当前界面……我们正在构建的是每个人都拥有自己的个人智能体,能在生活与工作中提供帮助。”
Chubby♨️@kimmonismus · 6月7日66Tomorrow could be Apple’s most important AI moment yet.
WWDC 2026 is expected to be all about one thing: making Siri relevant again.
If the leaks are right, Apple is rebuilding Siri around a custom Google Gemini model, reportedly around 1.2 trillion parameters.
For context: Apple’s own on-device AI model is roughly 3B parameters.
The biggest rumor: Apple’s new Siri will reportedly be powered in the background by Google Gemini.
Not as a Google-branded chatbot, but as an Apple-controlled intelligence layer running behind Siri, likely tied to Apple’s privacy-first infrastructure.
So the new Siri likely becomes a hybrid system:
• small Apple model locally on your device
• large Gemini-class model in the cloud
• Siri as the orchestration layer
• Apple controlling the UI, app access and privacy layer
What to further expect:
• a much more conversational Siri
• deeper personal context across apps, messages, files, calendar, photos and contacts
• screen awareness
• actions inside apps
• a dedicated Siri app with chat history
• voice chat, file uploads and multimodal interaction
• better integration with Dynamic Island
• optional support for other AI services like ChatGPT, Claude or Gemini
Apple wants to turn Siri into the private AI layer of the operating system.
A system agent that can search, understand, write, edit, summarize, organize and act across your iPhone, Mac and iPad.
We may also see new Apple Intelligence features for:
• AI photo editing
• smarter Camera / Visual Intelligence
• improved Writing Tools
• natural-language Shortcuts
• better Wallet and Health integrations
• more privacy controls around AI data
Either way, WWDC 2026 could define Apple’s position in the AI race.
Exciting how the new CEO will handle all of this.
Images: Bloomberg, Mark Gurman
译据传 WWDC 2026 苹果将彻底重构 Siri,底层集成 Google Gemini 模型(约 1.2 万亿参数)作为云端智能层,与自有 3B 参数设备端模型组成混合系统。Siri 担任编排层,控制 UI、隐私和应用权限。预期新 Siri 支持更自然对话、跨应用上下文、屏幕感知、应用内操作、专用 Siri app、语音/文件/多模态交互、动态岛增强,并可选接入 ChatGPT/Claude 等第三方 AI。同时可能推出 AI 修图、智能相机、写作工具、自然语言快捷指令等新 Apple Intelligence 功能。
Rohan Paul@rohanpaul_ai · 6月7日59An Anthropic model that has not been released yet surfaced on Chinese API proxies before its launch.
per the leak, Oceanus is priced at an insane $16/M input and $80/M output tokens—nearly 3x more expensive than Claude Opus.
The model is codenamed Oceanus and belongs to the upcoming Mythos release.
It was leaked, repackaged, and sold before Anthropic completed safety testing.
---
reddit .com/r/Anthropic/comments/1txfdbw/forget_claude_mythos_the_leaked_oceanus_code/
译一个尚未发布的 Anthropic 模型在发布前就出现在中文 API 代理上。
据泄露信息,Oceanus 定价为惊人的 $16/M 输入 token 和 $80/M 输出 token——几乎是 Claude Opus 的 3 倍。
该模型代号为 Oceanus,属于即将发布的 Mythos 版本。
它在 Anthropic 完成安全测试之前就被泄露、重新打包并出售。
Chubby♨️@kimmonismus · 6月7日50Anthropic is reportedly caught in a bizarre contradiction: the Pentagon has blacklisted it as a supply-chain risk, while the NSA is allegedly using Claude Mythos for offensive cyber operations.
Although Anthropic was classified as a "supply-chain risk" after the dispute with DoW, it is too good and too important not to be used.
译Anthropic 据称陷入一个奇怪的矛盾:五角大楼将其列为供应链风险,而 NSA 据称正在使用 Claude Mythos 进行进攻性网络操作。
尽管在与 DoW 的争端后,Anthropic 被归类为“供应链风险”,但它太出色、太重要了,以至于不得不被使用。
swyx@swyx · 6月7日49idea - universal basic ai:
1 share of xai, oai, and ant to each US citizen.
cost
SpaceXai: $135.00 × 349 million = $47B
OpenAI: $733.54 × 349 million = $256B
Anthropic: $930.45 × 349 million = $325B
total $628B cost is 8.5% of US Govt budget, 62% of defense budget, roughly same as ~$700B of TARP program during the Financial Crisis (mostly given to big banks, this would be a lot more decentralized)
译想法 - 全民基本AI:
给每位美国公民一份xAI、OpenAI和Anthropic的股份。
成本
SpaceXai:$135.00 × 3.49亿 = $470亿
OpenAI:$733.54 × 3.49亿 = $2560亿
Anthropic:$930.45 × 3.49亿 = $3250亿
总计$6280亿,占美国政府预算的8.5%,国防预算的62%,大致与金融危机期间约$7000亿的TARP计划相当(该计划大部分给了大银行,而这次会去中心化得多)
宝玉@dotey · 6月7日68Cursor's new browser + element annotation turns it into a design studio.
Meet Cursor Design 🎨 — Claude Design, running locally. Describe a screen → get polished HTML → click any element in the preview & say what to change. Best w/ Opus 4.8.
npx skills add JimLiu/baoyu-design
https://github.com/JimLiu/baoyu-design
译Cursor 的新浏览器 + 元素注释将其变成了一个设计工作室。
认识一下 Cursor Design 🎨 — Claude Design,本地运行。描述一个屏幕 → 获得精美的 HTML → 在预览中点击任何元素并说出要改什么。与 Opus 4.8 配合效果最佳。
npx skills add JimLiu/baoyu-design
https://github.com/JimLiu/baoyu-design
宝玉@dotey · 6月7日76Cursor's new browser + element annotation turns it into a design studio.
Meet Cursor Design 🎨 — Claude Design, running locally. Describe a screen → get polished HTML → click any element in the preview & say what to change. Best w/ Opus 4.8.
npx skills add JimLiu/baoyu-design
https://github.com/jimliu/baoyu-skills
译Cursor 的新浏览器和元素标注功能,使其变成了一个设计工作室。
认识一下 Cursor Design 🎨 — 在本地运行的 Claude Design。描述一个屏幕 → 获得精美的 HTML → 点击预览中的任意元素并说出要修改的内容。最佳搭配 Opus 4.8。
npx skills add JimLiu/baoyu-design
https://github.com/jimliu/baoyu-skills
宝玉@dotey · 6月7日64Here are 8 brilliant product design tips straight from Claude Design. Simple, profound, and essential for every creator and builder:
1. A prototype nobody clicks is just a painting.
2. The best design system is the one nobody notices.
3. You cannot unsee a bad font pairing. Choose carefully.
4. Every pixel argues for attention. Most should lose.
5. The fastest way to finish a design is to ship it.
6. Whitespace is not empty. It is the silence between the notes.
7. If you need more than three colors, you have zero colors.
8. The user's mental model is the only spec that matters.
#ProductDesign #UIUX #DesignSystem #ClaudeDesign
译Claude Design 分享了8条产品设计核心原则:原型若无人点击只是一幅画;最好的设计系统让人察觉不到;糟糕字体搭配一旦看到就无法忽视;每个像素都在争夺注意力,但大多数应让步;最快完成设计的方式是发布上线;留白如同乐谱音符间的静默;超过三种颜色意味着对色彩失控;用户心理模型才是唯一真正重要的产品规范。这些简洁而深刻的准则适用于所有创作者和构建者。