AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态X · 9298 条
全部一手资讯X论文
小互@xiaohu · 1天前51

OpenAI 公布 邀请好友重置用量规则: Plus 和 Pro 用户可以邀请最多三位朋友试用 Codex。 当你邀请的一位朋友发送他的第一条 Codex 消息时,你们双方都会获得另一个储备重置机会。 这个重置用量机会可以一直保留,你可以在任意的时候选择使用。 使用后你的Codex 用量将会重置,重新计算。

译OpenAI 公布 Codex 新邀请规则:Plus 和 Pro 用户可邀请最多三位朋友试用 Codex。被邀请好友首次发送 Codex 消息时,邀请者与该好友各获得一次储备重置机会。该机会可保留,用户可随时手动使用,重置后 Codex 用量重新计算,且可重复通过邀请新好友获取新重置机会。

查看原推 ↗
凡人小北@frxiaobei · 1天前77

AI 上云

译OpenAI已达成协议收购Ona。其安全云执行技术将帮助Codex在笔记本电脑合盖后继续处理长时间运行的工作,并帮助更多组织在生产环境中安全部署AI智能体。交易完成后,Ona将加入OpenAI Codex团队。主推文:「AI 上云」。

查看原推 ↗
Berryxia.AI@berryxia · 1天前56

http://x.com/i/article/2064887516130652160 # 建议收藏:100+海外一手 AI 资讯+AI大神们信息源清单!一次性全部拿走!含链接! 上一期给大家提供了100+海外的咨询和AI 大佬们的信息源清单,但是很多朋友反馈无法复制,我把其整理优化后可以进行复制操作! 上一期的内容可以看这个👇🏻 记得一键三连,以免后面后面找不到~

译Berry Xia 整理优化了一份可复制的清单,包含100+海外一手AI资讯和AI大神信息源,并附链接。此前版本无法复制,现提供可直接复制操作的版本,建议收藏。

查看原推 ↗
MiniMax (official)@MiniMax_AI · 1天前14

Here today at the AiOS meet up. Thank you for being together such an incredible group @rudrank @RayFernando1337 @ronaldmannak And for such an incredible panel @awnihannun @peterfriese The discussion on local models continue to be one of the hottest topics in the room Glad we could support the incredible iOS community. #WWDC26 #iOS #AppleDev #AI

译今天在 AiOS 聚会上。 感谢你们能与如此出色的团队在一起 @rudrank @RayFernando1337 @ronaldmannak 以及如此精彩的讨论会 @awnihannun @peterfriese 关于本地模型的讨论仍然是现场最热门的话题之一 很高兴我们能支持这个令人惊叹的 iOS 社区。 #WWDC26 #iOS #AppleDev #AI

查看原推 ↗
meng shao@shao__meng · 1天前74

Claude Fable 5 首发一天后的 playbook:8 条共识、3 个陷阱,以及互联网怎么说 @mvanhorn 用 /last30days 扫了 865 条跨平台讨论、再结合自己实测后写下的首日实践总结。整理出社区在 24 小时内已经收敛出一套可复用的用法,以及一堆代价与陷阱。 核心判断 Claude Fable 5 是一个高自主、高成本、偏规划编排的模型。首日共识很一致: · 给更难的目标,少给步骤 · 让它当指挥,不当苦力 · 免费窗口内把经验固化成 Skill,窗口关闭后靠便宜模型执行 把它当 “更听话的 GPT” 用,大概率又贵又慢,还容易踩安全回退。 # 八条实践,逐条展开 1. 任务要更难,提示要更短 官方口径是 aim higher:少说“第一步、第二步”,多讲终点。过度拆解的旧 prompt 反而会拉低质量。 隐含能力变化:模型自主规划变强了,微管理变成负资产。同时别让它复述内部推理——容易触发拒绝。 社区讽刺很到位:人人被教育要“瞄准神话级”,人人还是在做 Todo 和贪吃蛇——说明认知升级滞后于能力升级。 2. 设目标,不设路径;但必须设刹车 /goal 代表工作流从任务清单 → 持续对齐高层目标。Claude Code 团队自己也这么用。 代价:它会一直干,直到你叫停。长任务必须写清:预算上限、时间上限、或明确的“完成条件”。否则不是智能,是失控。 /goal make 1 million dollars 是社区对这条逻辑的幽默推演。 3. 编排者,不是执行者 · 规划 / 拆任务:Fable · 实现:Sonnet · 测试 / 验证:Haiku 验证用新上下文的 agent,通过才提交——这是首日最务实的工程模式。 Stripe 50M 行 Ruby 一天迁移,是官方背书的上限案例;无 spend limit 跑 subagent 则是下限警示。能力真,账单也真。 4. Effort 旋钮:Medium 可能最适合 · Medium 的 Fable 有时能打过 High/Max 的 Opus,且 token 更少 · 严肃 agent 工作可钉在 xhigh;ultracode 极耗额度 · 付费计划里 Fable 按双倍用量计费 结论:不是越强越好,而是匹配任务复杂度。 用 Fable 做常规活,像请外科医生修指甲。 BridgeMind 一天 7 亿 token、三套 Max 订阅打穿月限额——能力认可与成本恐惧并存。 5. 两条隐形降级线 安全回退:触发分类器会静默切到 Opus 4.8,输出质量突然变差时,先怀疑路由而非模型变笨。误杀案例(hello、cancer、发酵食品)说明假阳性是实操问题,不是段子。 可引导性弱:Arena 数据——任务成功 #1,可引导性 #17。能做的事很强;不想做时很难拧。约束要写得像承重墙,不能当建议。 系统提示泄露与越狱同日出现,说明防护与能力赛跑,用户侧不能假设“官方护栏 = 你的护栏”。 6. 视觉输入是首日被低估的杠杆 截图 → 可运行应用,比文字描述 UI 有效得多。像素优于形容词。 同时反差也好笑:神话级算力用来清邮箱——说明真实刚需往往是枯燥自动化,不是 demo 炫技。 7. 喂业务上下文,别追 demo 高杠杆用法就一段 prompt:讲清业务(卖什么、客户、栈、团队、瓶颈、上季度数字),让它列 8 件本月最高杠杆工作 并立刻推进第一件所需的数据/权限。 Demo(贪吃蛇、克隆 Notion)传播广;业务诊断式 prompt 更可能产生可重复价值。 8. 免费期是“蒸馏窗口”,不是无限狂欢 Pro/Max/Team 免费到 6 月 22 日,之后约 $10/M 输入、$50/M 输出(约为 Opus 两倍)。 最佳策略:正常工作中遇到 Fable 的巧解,让它写成 Agent Skill 留存——两周免费换长期能力资产。 企业侧:微软因 30 天数据保留 从内网 Copilot 下架 Fable——能力与合规张力,首日已显现。 Claude Fable 5 Playbook · 说清结果,删掉保姆步骤 · /goal + 硬性停止条件 · Fable 规划 → Sonnet 写 → Haiku 验 · 先试 medium effort · 质量骤降先查是否被 safety 路由 · 截图优先 · 跑一次业务 prompt · 6/22 前把解法蒸馏成 Skill

译社区基于865条讨论与实测总结:Claude Fable 5高自主、高成本、偏规划编排。核心共识:给更难目标、少给步骤;用Fable规划→Sonnet实现→Haiku验证;免费窗口(截至6月22日)内将经验固化为Skill。Effort旋钮Medium最省token且效果接近High;付费计划下输出价约$50/M token。安全回退静默切至Opus 4.8;视觉输入(截图→应用)比文字更有效。最佳策略:跑一次业务prompt诊断,把解法蒸馏成Skill留存。

查看原推 ↗
meng shao@shao__meng · 1天前75

Spec 驱动开发 (SDD) 需要这三个 Skills:覆盖 Spec -> Implement -> Verify 闭环 Agent 出错往往是需求理解偏差。解决办法是把规格当作 PR 的一部分,让队友和 Agent 都能对照同一份文档。 规格分两层: 1. 产品规格:PRODUCT.md 做什么,用户视角、用户故事、可验证的产品不变量 2. 技术规格:TECH.md 怎么做,架构、代码位置、实现策略 都放在 specs/<issue>/ 目录,随实现 PR 一起提交、一起 Review。 # SDD 五步流程(包含三个 Skills) 1. 写产品规格(/write-product-spec) 从用户行为出发,写用户故事和详细的不变量(invariants)——即「无论什么情况都必须成立」的规则。可附 Figma、截图等。这些不变量后续可被代码检查,甚至用计算机操作(computer use)验证。 2. 写技术规格(/write-tech-spec) 在同一目录生成 TECH.md,说明架构思路、改哪些文件、实现时要注意什么。这是给 Agent 的「施工图纸」。 3. 让 Agent 按规格实现 理论上任何 Agent、包括推理能力较弱的模型,只要有清晰规格,实现质量都会更稳定。 4. 规格一致性校验(/validate-changes-match-specs) 实现后不能默认「做完了就对」。用 Skill 让 Agent 对照 PRODUCT.md 和 TECH.md 自查,列出与规格不一致之处,再由人决定如何处理。这是规格驱动开发里容易被忽略、但很关键的一步。 5. 用计算机操作做端到端验证 Warp 内部用 Oz 做 UX 验证:在云端沙箱里给 Agent 鼠标键盘权限,模拟真实用户操作。对他们这种 Rust 原生桌面应用尤其必要——单元测试覆盖不了完整交互链路。 # 为什么用这三个 Skills 编码流程 Skills 把「怎么写产品规格」「怎么写技术规格」「怎么校验」固化成可复用指令,不绑定 Warp,流程可移植。 @warpdotdev 开源仓库:warpdotdev/common-skills 安装:npx skills add warpdotdev/common-skills 本质是把人的工程习惯(先 PRD、再设计、再实现、再验收)变成 Agent 可执行的流水线。

译邵猛分享 Spec 驱动开发(SDD)方法,用三个 Skills(/write-product-spec、/write-tech-spec、/validate-changes-match-specs)覆盖 Spec→Implement→Verify 闭环。规格分两层:PRODUCT.md(用户故事、不变量)和 TECH.md(架构、实现策略),均放在 specs/<issue>/ 目录,随 PR 提交。五步流程:写产品规格、写技术规格、Agent 按规格实现、一致性校验、计算机操作端到端验证。Skills 可移植,不绑定 Warp。开源仓库 warpdotdev/common-skills,安装:npx skills add warpdotdev/common-skills。

查看原推 ↗
meng shao@shao__meng · 1天前60

OpenAI Codex 是不是挖来了 PDD 增长负责人 😂 OpenAI 推出可保存(bank/save)速率限制重置的功能,用户可将重置额度留存至后续自行使用,而非必须在重置窗口内立即消耗。 Go、Plus、Pro 和 Business 用户立即获得 1 次免费重置 可银行储存。 Plus 和 Pro 用户可邀请最多 3 位好友试用 Codex。好友首次发送 Codex 消息时,双方各获得一次额外可银行重置(30 天内可兑现),限时两周 -- 这也太 PDD 了,朋友们帮砍一刀?

译OpenAI Codex 是不是挖来了 PDD 增长负责人 😂 OpenAI 推出可保存(bank/save)速率限制重置的功能,用户可将重置额度留存至后续自行使用,而非必须在重置窗口内立即消耗。 Go、Plus、Pro 和 Business 用户立即获得 1 次免费重置 可银行储存。 Plus 和 Pro 用户可邀请最多 3 位好友试用 Codex。好友首次发送 Codex 消息时,双方各获得一次额外可银行重置(30 天内可兑现),限时两周 -- 这也太 PDD 了,朋友们帮砍一刀?

查看原推 ↗
宝玉@dotey · 1天前37

收到 ChatGPT pro 的纪念笔了,感谢 @ChatGPTapp ❤️

译OpenAI 为 ChatGPT Pro 早期订阅者送出限量版纪念笔。福利面向首批 4000 名填表申领的 Pro 用户,填表不保证资格,部分国家可能无法配送。主推文作者@dotey 已收到并致谢。

查看原推 ↗
jason@jxnlco · 1天前75

Great ship by the growth team! Give @abraibrai a follow!

译OpenAI 宣布,用户现可保存 Codex 速率限制重置以供之后使用。Go、Plus、Pro 及 Business 用户将获得一次免费重置。

查看原推 ↗
jason@jxnlco · 1天前66

Great ship by the browser team! Make sure to give @JamesZmSun a follow!

译浏览器团队干得漂亮!记得关注 @JamesZmSun! (摘要:OpenAI 为 Chrome 和 Codex 应用内浏览器推出开发者模式,Codex 可通过 Chrome DevTools 协议分析 JavaScript 性能并检查控制台输出、网络流量和页面状态。)

查看原推 ↗
OpenAI Developers@OpenAIDevs · 1天前53

Invite a friend to Codex and add another reset to the bank. When they send their first Codex message, you’ll both bank one to use when you need it. Rate limit banking is rolling out to Go, Plus, Pro, and Business users, with the first reset on us. https://x.com/OpenAI/status/2065225362544726371

译OpenAI 为 Codex 推出“邀请好友”功能:用户邀请朋友加入 Codex,对方发送第一条消息后,双方各获得一次速率限制(rate limit)重置额度,可存入“银行”留待需要时使用。该功能即日起向 Go、Plus、Pro 和 Business 用户逐步开放,每人首条重置免费。引用推文指出,用户现在可自主保存 rate limit 重置,不再受限于固定时间点。

查看原推 ↗
OpenAI Developers@OpenAIDevs · 1天前69

Introducing developer mode for browser use in Chrome and the Codex in-app browser. Codex can use the Chrome DevTools Protocol (CDP) to debug browser issues by profiling JavaScript performance and inspecting console output, network traffic, and page state.

译为 Chrome 和 Codex 内置浏览器引入开发者模式。 Codex 可以使用 Chrome DevTools 协议(CDP)来调试浏览器问题,通过分析 JavaScript 性能、检查控制台输出、网络流量和页面状态。

查看原推 ↗
Greg Brockman@gdb · 1天前60

For next two weeks, refer your friends to Codex, and you'll bank a rate limit reset:

译接下来两周,推荐朋友使用 Codex,你将获得一次速率限制重置:

查看原推 ↗
Ethan Mollick@emollick · 1天前51

This was a good post though I think it is interesting how much vivid science fiction scenarios have become the new default format for policy papers &amp; financial analysis for AI.

译这是一篇不错的文章,不过我觉得有趣的是,生动的科幻场景已成为AI政策文件与金融分析的新默认格式。

查看原推 ↗
OpenAI@OpenAI · 1天前70

We heard you wanted to use Codex rate limit resets on your own time. Starting today, we’re rolling out the ability to save rate limit resets to use later. We’re starting Go, Plus, Pro, and Business users with one free reset:

译我们听说您希望能在自己方便的时候使用 Codex 速率限制重置。 从今天起,我们开始推出将速率限制重置保留到以后使用的功能。 我们从 Go、Plus、Pro 和 Business 用户开始,每人提供一次免费重置:

查看原推 ↗
karminski-牙医@karminski3 · 1天前62

另外忘了说了,这个模型支持多模态输入!文本,图片,视频都可以,是真的夯

译Google 发布 Diffusion Gemma,模型大小 26B,激活参数量 4B。与 NVIDIA 合作优化 RTX 4090/5090,5090 每秒可生成 700+ token。支持文本、图片、视频多模态输入。AIME 2026 数学测试达 Gemma4-26B-A4B 的 94%,tau2 bench Agent 测试达 82%。输出质量略逊于传统大模型但速度更快。4bit 量化版本仅需 16GB 显存即可运行。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 1天前67

Dario Amodei's new interview on Bloomberg: The scary part is not when AI does 90% of the job. It is what happens when it learns the last 10%. "We’re already starting to see the beginning of it. There may be some people that it’s not making more productive, and it’s better for the AI to just do the whole thing." And on that topic Claude Code creator Boris Cherny says: "it's very uncomfortable. Artificial intelligence is this force that is far bigger than we are" --- @bbgoriginals From "Bloomberg Originals" YouTube channel, (link in comment)

译Anthropic CEO Dario Amodei 在 Bloomberg 采访中表示,AI 的可怕之处不在于它完成90%的工作,而是学会最后10%的时候。他指出,对于某些人来说,AI 可能不会让他们更高效,不如让 AI 直接做全部。Claude Code 创始人 Boris Cherny 对此评论称,这种感觉非常不舒服,AI 是远比我们强大的力量。

查看原推 ↗
🚨 AI News | TestingCatalog@testingcatalog · 1天前58

GOOGLE 🔥: Gemini Omni Flash will soon be available via APIs for image-to-video, text-to-video, and video editing! Did it get updated again after the release? 👀

译GOOGLE 🔥:Gemini Omni Flash 即将通过 API 提供图像转视频、文本转视频和视频编辑功能! 发布后又更新了吗?👀

查看原推 ↗
karminski-牙医@karminski3 · 1天前56

我的使用经验是, one-pass 能力越强(且能在较少的思考下one-pass) 模型才是SOTA的. 要用 agentic coding 才能修复第一次犯的错反而是模型拉夸的表现, 再不济也要在Interleaved thinking过程中修复. agentic coding 是用来解决工程量和运行时问题的. 不是用来修静态检查就行发现的bug的.更简单的说, 你有bug不在thinking中修, 反而非要在n+1次上下文中修复, 是不是骗我买coding plan(x)?

译karminski认为,one-pass能力强(少思考即正确)的模型才是SOTA;需用agentic coding修复首次错误反显模型差,bug应在thinking中修复,而非依赖n+1次上下文,否则有诱导购买coding plan之嫌。@iamai_omni建议测评转向长期任务一致性,可构建loop测评,重点看后续几轮修复表现。

查看原推 ↗
karminski-牙医@karminski3 · 1天前65

单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了一波, 5090每秒能生成700+token! 给不知道什么是 Diffusion 大模型的同学科普一下, 传统大模型都是一个字一个字吐出来的, 而 Diffusion 大模型则是如同刮奖一样, 是一片一片出来的, 速度高是 Diffusion 大模型的优点. 有得必有失, 缺点当然就是输出质量没有传统大模型好了. 不过这次的 Diffusion Gemma 还是比之前的 Diffusion 文本大模型好不少, AIME 2026(数学能力测试) 能达到 Gemma4-26B-A4B 的94%的水平, 最差的是tau2 bench(考验Agent能力的测试), 也能达到82%. 这个模型大小 4bit 量化版本 16G 显存就能运行了, 另外, 我突发奇想, 这个模型能不能作为 gemma4 dense 模型的草稿模型用来投机解码? 感兴趣的同学可以试试! #diffusiongemma #gemma #gemma4 #google

译Google 推出 Diffusion Gemma,大小 26B、激活参数量 4B,与 NVIDIA 合作针对 RTX 4090/5090 优化,5090 上速度达 700+ token/s。该扩散文本模型以“刮奖式”并行生成而非逐 token 生成,输出质量略逊但优于此前同类模型:AIME 2026(数学)达 Gemma4-26B-A4B 的 94%,tau2 bench(Agent)达 82%。4bit 量化版仅需 16G 显存即可运行。

查看原推 ↗
🚨 AI News | TestingCatalog@testingcatalog · 1天前30

Codex now has an icon selector with new Lite and Dark options available. Classic, Lite, or Dark? 👀

译Codex 现在有一个图标选择器,同时提供了新的 Lite 和 Dark 选项。 经典、Lite 还是 Dark?👀

查看原推 ↗
elvis@omarsar0 · 1天前26

My new favorite skill is /learn. I built it to learn any topic at whatever level you like. It combines two of my passions: artifacts and learning. Coming soon to the @dair_ai academy.

译我新最爱的技能是 /learn。 我构建了它,用来学习任意话题,任意你喜欢的级别。 它结合了我的两个爱好:工件(artifacts)与学习。 即将在 @dair_ai 学院推出。

查看原推 ↗
SemiAnalysis@SemiAnalysis_ · 1天前66

Pretraining fundamentally does not make sense anymore for anyone other than frontier labs. Although there are a lot of people at enterprises & startups who have "Pretrainitis" to show “impact” and get promotions, fundamentally, it doesn’t make sense. There is probably higher ROI in partnering with a frontier lab to do prompt engineering, although it isn’t as “sexy” as pretraining.

译预训练从根本上说对前沿实验室以外的任何人都不再有意义。虽然企业和初创公司中有很多人患有"预训练症"以显示"影响力"并获得晋升,但从根本上说,这并不合理。与前沿实验室合作进行提示工程可能会有更高的投资回报率,尽管它不像预训练那样"性感"。

查看原推 ↗
Ethan Mollick@emollick · 1天前61

This is an interesting test, and the frontier models (GPT-5.5 Pro Extended, Claude 5 Fable Max) do fail. They refuse to turn the "three words" into "four" if that fits better Prompting the AI to act like a translator surfaces the problem, but it still avoids changing the wording

译Ethan Mollick 指出,GPT-5.5 Pro Extended 和 Claude 5 Fable Max 在 Beninatto‑Trombetti 翻译测试中失败。该测试要求将“Solo 3 parole: non sei solo”译为英语,同时将 meta‑linguistic 声明从“3 parole”更新为“4 words”(正确译文:“Just 4 words: you are not alone”)。但前沿模型拒绝修改措辞,即使提示扮演翻译角色仍回避变更。Valerio Capraro 认为,Claude 5 Fable 作为最新 LLM 仍无法通过此简单测试,说明 LLM 擅重组已知知识但缺乏真正理解,AGI 仍遥远。

查看原推 ↗
Chubby♨️@kimmonismus · 1天前24

Really curious for Gemini 3.5 Pro. The competition is currently fierce. It needs to be a big release.

译真的很好奇 Gemini 3.5 Pro。当前竞争非常激烈。它需要是一次重大发布。

查看原推 ↗
Chubby♨️@kimmonismus · 1天前13

Anthropic rn

译Anthropic 现在。

查看原推 ↗
Tibo@thsottiaux · 1天前71

Codex 🤟Ona Beyond excited to work with Johannes and team to build the future.

译OpenAI宣布已达成协议收购Ona,其安全的云执行技术将帮助Codex处理更长期的任务(即使笔记本电脑关闭也能运行),并让更多组织安全地部署智能体。收购完成后,Ona将加入OpenAI的Codex团队。Tibo对此表示“无比兴奋,期待与Johannes及团队共同构建未来”。

查看原推 ↗
Orange AI@oran_ge · 1天前39

这是最近我最喜欢的 Fable 5 游戏 一次 Prompt 生成的 完成度很高 非常上头

查看原推 ↗
Replit ⠕@Replit · 1天前68

Replit and @databricks integration just leveled up. Build apps where every user sees only what they should. Your HR analyst can build a full org view for the CEO without ever accessing the underlying data. Public preview is open for sign up! Read more → https://replit.com/blog/databricksjune2026

译Replit 与 @databricks 集成刚刚升级了。 构建应用,让每个用户只看到他们应该看到的内容。你的 HR 分析师可以为 CEO 构建完整的组织视图,而无需访问底层数据。 公开预览已开放注册!了解更多 → https://replit.com/blog/databricksjune2026

查看原推 ↗
Replit ⠕@Replit · 1天前72

How to prompt like a pro with Replit 🤖 Vague prompts just mean more rewrites. Here's how to get Agent to build the right thing the first time. 🧵 Open thread ↓

译如何像专家一样使用 Replit 进行提示 🤖 模糊的提示词只会导致更多重写。以下是如何让 Agent 第一次就构建出正确的东西。 🧵 展开线程 ↓

查看原推 ↗
elvis@omarsar0 · 1天前25

Got my 10yr old introduced to Codex today. The excitement in his face tells it all. After struggling with Claude Code CLI for a bit, today he was like “this is the future, dad”. The Codex team built a beautiful app.

译今天让我10岁的孩子体验了Codex。 他脸上的兴奋说明了一切。 在用Claude Code CLI折腾了一会儿之后,今天他说:“这就是未来,爸爸。” Codex团队打造了一个漂亮的应用程序。

查看原推 ↗
elvis@omarsar0 · 1天前74

good. now let's undo the nerf stuff as well

译good. now let's undo the nerf stuff as well (引用推文:Anthropic 在遭受强烈反对后,撤回 Claude Fable 5 秘密降低竞争 AI 研究人员性能的政策。Anthropic 对 WIRED 表示将修改安全措施使其可见,并为此前错误权衡道歉。)

查看原推 ↗
Google Gemini@GeminiApp · 1天前45

Get a closer look at Gemini's new Neural Expressive design language at our next Discord community event. Product Marketing Manager Megan C. will be discussing some of her favorite highlights that help improve the Gemini experience, from dynamic visual responses to seamless mode switching. 👉Join the Discord to watch live: http://discord.gg/gemini 📅 This Friday, June 12 at 11:30 AM PT

译Get a closer look at Gemini's new Neural Expressive design language at our next Discord community event. 在我们的下一次 Discord 社区活动中,近距离了解 Gemini 全新的 Neural Expressive 设计语言。 Product Marketing Manager Megan C. will be discussing some of her favorite highlights that help improve the Gemini experience, from dynamic visual responses to seamless mode switching. 产品营销经理 Megan C. 将讨论她最喜欢的一些亮点,这些亮点有助于改善 Gemini 体验,从动态视觉响应到无缝模式切换。 👉Join the Discord to watch live: http://discord.gg/gemini 👉加入 Discord 观看直播:http://discord.gg/gemini 📅 This Friday, June 12 at 11:30 AM PT 📅 本周五,6月12日,太平洋时间上午11:30

查看原推 ↗
Rohan Paul@rohanpaul_ai · 1天前62

This paper shows an AI improving itself better when it rewrites its setup and updates its model. The problem is that most AI progress still depends on people changing prompts, tools, code, training data, and model weights by hand. The paper’s idea is SIA, a loop where one AI watches how a task agent performs, then either changes the agent’s outer setup or trains the model itself. The outer setup means things like prompts, tools, retry rules, and output parsing, while weight updates mean changing the model’s learned behavior through task feedback. The loop works like this: the task agent tries many answers or programs, the verifier scores them, and those scores become training feedback. Then the system updates a small add-on set of weights called LoRA weights, which changes the model’s behavior without retraining the whole model. So the base model stays mostly the same, but the LoRA adapter learns, “outputs like this got high reward, outputs like that failed.” The authors tested this on 3 very different tasks: Chinese legal charge classification, GPU kernel speed tuning, and single-cell RNA denoising. The combined version beat setup-only improvement on all 3 tasks, reaching 70.1% on LawBench, faster GPU code than the prior best, and 0.289 on denoising. The main lesson is that better scaffolding helps the agent act better, but weight updates help it learn task patterns that prompts and tools alone did not find. ---- Link – arxiv. org/abs/2605.27276 Title: "SIA: Self Improving AI with Harness & Weight Updates"

译该论文提出SIA框架,让AI自动循环改进:一个观察者AI监控任务代理的表现,然后修改其外部设置(提示词、工具、重试规则、输出解析)或通过LoRA权重更新训练模型本身,模型主体不变,仅适配器从任务反馈中学习。在三个任务上测试:中文法律罪名分类(LawBench达70.1%)、GPU内核速度调优(生成代码优于此前最佳)、单细胞RNA降噪(得分0.289)。综合版本在所有任务上超越仅修改设置的方案,表明权重更新能帮助模型学到提示和工具无法发现的模式。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 1天前83

Jeff Bezos on CNBC explains revealed what Prometheus is building. Today his new company Prometheus announced a $12B funding round at a valuation of $41B . Prometheus trying to build an artificial general engineer that can help design and manufacture physical products like engines, medical devices, and electronics. So the target areas are hard physical products like jet engines, chips, bridges, medical devices, consumer electronics, aerospace systems, vehicles, and drug design, where design cycles can take years because every idea has to survive physics, materials, cost, testing, and factory limits. Bezos’ jet-engine example explains it well: asking for the same engine with 10% more thrust can become a 10-year engineering program, and Prometheus wants to shrink that “dream-build” cycle by 10x or more. The $6.2B launch funding gave Prometheus a massive starting base, and the new raise says the company likely needs far more compute, talent, and industrial data before it can prove the product. Their $41B valuation shows that frontier AI is becoming less a software race than a compute procurement race. A company with no broadly shipped product can raise $12 billion at a $41 billion valuation because investors are not only funding a model, they are prepaying for the machines that might make the model possible. The scarce asset is no longer just talent or algorithms, but clustered GPUs, power contracts, cooling, networking, and the operational skill to keep expensive silicon busy. They are proof that demand is arriving faster than infrastructure can be built, and that every frontier funding round quietly turns into a future claim on power, racks, GPUs, and uptime.

译Jeff Bezos 在 CNBC 披露其新公司 Prometheus 的愿景:构建人工通用工程师,设计制造喷气发动机、芯片、医疗设备等硬物理产品,将传统数年设计周期缩短 10 倍以上。公司宣布完成 120 亿美元融资,估值 410 亿美元。初始启动资金 62 亿美元,新一轮融资表明公司需要更多算力、人才和工业数据才能验证产品。410 亿美元估值表明,前沿 AI 已从软件竞赛变为计算采购竞赛——投资者实质在为可能实现模型所需的机器预付费。

查看原推 ↗
Epoch AI@EpochAIResearch · 1天前55

How big a leap is Mythos in cyber capabilities? @timotheechauvin, @AlexBarry4, @js_denain, and @ansonwhho compiled the public evidence and found that while it’s unclear if Mythos was ahead of trend in discovering vulnerabilities, it represents a big jump in exploiting them. 🧵

译Mythos 在网络能力方面有多大的飞跃? @timotheechauvin、@AlexBarry4、@js_denain 和 @ansonwhho 整理了公开证据,发现虽然尚不清楚 Mythos 在发现漏洞方面是否领先于趋势,但它在利用漏洞方面代表了一次巨大飞跃。🧵

查看原推 ↗
swyx@swyx · 1天前61

congrats to our friends @ona_hq on joining @openai! see their talk here for alpha on what’s next for Codex 👀

译swyx 祝贺 ONA 团队加入 OpenAI,并引用其演讲透露 Codex 的下一步方向。同时引述 @aiDotEngineer 观点:运行 Agent 集群需要三层——Runtime 与编排触发器已解决,但协调层(Agent 间任务交接、验证阶段、继续执行)仍未解决。Stripe 和 RAMP 各自自建了内部方案 Minions 和 Inspect。@loujaybee 指出 GitHub 作为协调层很差——噪音大、仅为人类设计,不适合数百个并行 PR。他提出的修复方案是构建一个 CLI 网关,供本地编码 Agent 调用以检查当前 SDLC 阶段是否已通过、能否继续。

查看原推 ↗
Peter Steinberger 🦞@steipete · 1天前17

Getting Chris to do a PR with Codex!

译让 Chris 用 Codex 做 PR!

查看原推 ↗
elvis@omarsar0 · 1天前59

Same here. Happy with Opus 4.8 (planning) and GPT-5.5 (execution). Also, breaking steps into smaller ones for increasing quality is so underrated. This is why dynamic workflows are a bigger deal than most people think.

译threepointone 使用 Fable 处理一个约 10k 行代码的大 PR,花费 $250,认为不值,更倾向小步骤。Elvis Saravia 认同,表示自己用 Opus 4.8 做规划、GPT-5.5 做执行,并将任务拆解成更小步骤能显著提升质量。他认为动态工作流(dynamic workflows)的重要性被大多数人低估了。其日常仍使用 Cursor AI。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 1天前67

OpenAI is buying Ona to give Codex agents a secure cloud desk that stays open after humans leave. Codex already has 5M weekly users, up 400%, but harder work breaks the old chat pattern because agents need tools, files, credentials, logs, and time. Ona adds persistent cloud workspaces, meaning an agent gets a controlled place to run commands, inspect systems, preserve context, and resume work without depending on one device. The enterprise angle is the real acquisition target: companies want agents inside their own cloud boundary, with scoped credentials, review trails, access limits, and auditable activity. This makes Codexmore like a managed execution layer for tests, bug fixes, refactors, vulnerability work, migrations, and multi-step knowledge tasks.

译OpenAI 宣布收购 Ona,其安全云端执行技术可为 Codex 智能体创建持久云端工作空间——用户离开后,智能体仍可持续运行命令、检查系统、保留上下文并跨设备恢复任务。目前 Codex 周活用户达 500 万(增长 400%)。收购旨在强化企业级部署:智能体可在企业云边界内运行,具备作用域凭证、审核追踪、访问限制和可审计活动,适用于测试、漏洞修复、重构、迁移等多步骤任务。收购完成后,Ona 团队将加入 OpenAI Codex 团队。

查看原推 ↗
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月12日
09:24
小互@xiaohu
51
OpenAI Codex 推邀请好友重置用量活动

OpenAI 公布 Codex 新邀请规则:Plus 和 Pro 用户可邀请最多三位朋友试用 Codex。被邀请好友首次发送 Codex 消息时,邀请者与该好友各获得一次储备重置机会。该机会可保留,用户可随时手动使用,重置后 Codex 用量重新计算,且可重复通过邀请新好友获取新重置机会。

小互: OpenAI 的骚操作真多 哈哈哈 推出了一个活动:每邀请一个好友加入Codex 就帮你自动重置一次用量😅 而且可以重复使用,每当你想重置的时候就可以去邀请好友...

OpenAI产品更新编码
09:14
凡人小北@frxiaobei
77
OpenAI已达成协议收购Ona。其安全云执行技术将帮助Codex在笔记本电脑合盖后继续处理长时间运行的工作,并帮助更多组织在生产环境中安全部署AI智能体。交易完成后,Ona将加入OpenAI Codex团队。主推文:「AI 上云」。

OpenAI Newsroom: We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...

智能体OpenAI行业动态部署/工程
关联讨论 1 条OpenAI:官网动态(RSS · 排除企业/客户案例)
09:10
Berryxia.AI@berryxia
56
可复制的100+海外AI资讯信息源清单

Berry Xia 整理优化了一份可复制的清单,包含100+海外一手AI资讯和AI大神信息源,并附链接。此前版本无法复制,现提供可直接复制操作的版本,建议收藏。

搜索教程/实践
09:10
MiniMax (official)@MiniMax_AI
14
今天在 AiOS 聚会上。 感谢你们能与如此出色的团队在一起 @rudrank @RayFernando1337 @ronaldmannak 以及如此精彩的讨论会 @awnihannun @peterfriese 关于本地模型的讨论仍然是现场最热门的话题之一 很高兴我们能支持这个令人惊叹的 iOS 社区。 #WWDC26 #iOS #AppleDev #AI
端侧行业动态
08:59
meng shao@shao__meng
74
Claude Fable 5 首日实践共识与陷阱

社区基于865条讨论与实测总结:Claude Fable 5高自主、高成本、偏规划编排。核心共识:给更难目标、少给步骤;用Fable规划→Sonnet实现→Haiku验证;免费窗口(截至6月22日)内将经验固化为Skill。Effort旋钮Medium最省token且效果接近High;付费计划下输出价约$50/M token。安全回退静默切至Opus 4.8;视觉输入(截图→应用)比文字更有效。最佳策略:跑一次业务prompt诊断,把解法蒸馏成Skill留存。

Matt Van Horn: http://x.com/i/article/2064864205749280768

智能体Anthropic教程/实践
08:59
meng shao@shao__meng
精选75
Spec 驱动开发(SDD)的三个 Skills:覆盖 Spec→Implement→Verify 闭环

邵猛分享 Spec 驱动开发(SDD)方法,用三个 Skills(/write-product-spec、/write-tech-spec、/validate-changes-match-specs)覆盖 Spec→Implement→Verify 闭环。规格分两层:PRODUCT.md(用户故事、不变量)和 TECH.md(架构、实现策略),均放在 specs/<issue>/ 目录,随 PR 提交。五步流程:写产品规格、写技术规格、Agent 按规格实现、一致性校验、计算机操作端到端验证。Skills 可移植,不绑定 Warp。开源仓库 warpdotdev/common-skills,安装:npx skills add warpdotdev/common-skills。

Zach Lloyd: http://x.com/i/article/2065151123128721408

智能体GitHub教程/实践编码

推荐理由:邵猛把SDD从概念变成三个可安装Skill,特别是第五步用计算机操作验证UI,这招对Rust桌面应用团队是降维打击。做AI coding的可以直接抄作业。
08:59
meng shao@shao__meng
60
OpenAI Codex 可保存速率重置并推拉新奖励

OpenAI Codex 是不是挖来了 PDD 增长负责人 😂 OpenAI 推出可保存(bank/save)速率限制重置的功能,用户可将重置额度留存至后续自行使用,而非必须在重置窗口内立即消耗。 Go、Plus、Pro 和 Business 用户立即获得 1 次免费重置 可银行储存。 Plus 和 Pro 用户可邀请最多 3 位好友试用 Codex。好友首次发送 Codex 消息时,双方各获得一次额外可银行重置(30 天内可兑现),限时两周 -- 这也太 PDD 了,朋友们帮砍一刀?

OpenAI: We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...

OpenAI产品更新编码
08:54
宝玉@dotey
37
OpenAI 为 ChatGPT Pro 早期订阅者送出限量版纪念笔。福利面向首批 4000 名填表申领的 Pro 用户,填表不保证资格,部分国家可能无法配送。主推文作者@dotey 已收到并致谢。

宝玉: OpenAI 给 ChatGPT Pro 早期订阅者送了个小礼物:一支限量版纪念笔。 这次福利面向前 4000 名填表申领的 Pro 用户,填表不保证资格,部分国家可能无法配送。

OpenAI行业动态
08:47
jason@jxnlco
75
OpenAI 宣布,用户现可保存 Codex 速率限制重置以供之后使用。Go、Plus、Pro 及 Business 用户将获得一次免费重置。

OpenAI: We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...

OpenAI产品更新编码
08:47
jason@jxnlco
66
浏览器团队干得漂亮!记得关注 @JamesZmSun! (摘要:OpenAI 为 Chrome 和 Codex 应用内浏览器推出开发者模式,Codex 可通过 Chrome DevTools 协议分析 JavaScript 性能并检查控制台输出、网络流量和页面状态。)

OpenAI Developers: Introducing developer mode for browser use in Chrome and the Codex in-app browser. Codex can use the Chrome DevTools Pro...

OpenAI产品更新编码
08:42
OpenAI Developers@OpenAIDevs
53
OpenAI 为 Codex 推出"邀请好友"功能:用户邀请朋友加入 Codex,对方发送第一条消息后,双方各获得一次速率限制(rate limit)重置额度,可存入"银行"留待需要时使用。该功能即日起向 Go、Plus、Pro 和 Business 用户逐步开放,每人首条重置免费。引用推文指出,用户现在可自主保存 rate limit 重置,不再受限于固定时间点。

OpenAI: We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...

OpenAI产品更新
08:42
OpenAI Developers@OpenAIDevs
精选69
为 Chrome 和 Codex 内置浏览器引入开发者模式。 Codex 可以使用 Chrome DevTools 协议(CDP)来调试浏览器问题,通过分析 JavaScript 性能、检查控制台输出、网络流量和页面状态。
MCP/工具OpenAI产品更新编码

推荐理由:Codex 现在能直接调用 Chrome DevTools 调试浏览器问题,做前端和全栈的同行可以试试,省得在应用和调试工具之间来回切。
08:39
Greg Brockman@gdb
60
接下来两周,推荐朋友使用 Codex,你将获得一次速率限制重置:

OpenAI: We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...

OpenAI产品更新编码
08:30
Ethan Mollick@emollick
51
这是一篇不错的文章,不过我觉得有趣的是,生动的科幻场景已成为AI政策文件与金融分析的新默认格式。

Tom Chivers: Here's a project I've been working on recently: a vision of what happens if Europe doesn't take AI seriously, inspired b...

大佬观点政策/监管现象/趋势
08:29
OpenAI@OpenAI
精选70
我们听说您希望能在自己方便的时候使用 Codex 速率限制重置。 从今天起,我们开始推出将速率限制重置保留到以后使用的功能。 我们从 Go、Plus、Pro 和 Business 用户开始,每人提供一次免费重置:
OpenAI产品更新编码

推荐理由:OpenAI 给 Codex 加了个攒速率重置的小功能,没用完的可以存起来以后用,适合偶尔深夜冲刺的开发者。不算大更新,但挺实用。
08:06
karminski-牙医@karminski3
62
Google 发布 Diffusion Gemma,模型大小 26B,激活参数量 4B。与 NVIDIA 合作优化 RTX 4090/5090,5090 每秒可生成 700+ token。支持文本、图片、视频多模态输入。AIME 2026 数学测试达 Gemma4-26B-A4B 的 94%,tau2 bench Agent 测试达 82%。输出质量略逊于传统大模型但速度更快。4bit 量化版本仅需 16GB 显存即可运行。

karminski-牙医: 单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了...

Google多模态推理模型发布
07:59
Rohan Paul@rohanpaul_ai
67
Anthropic CEO 谈 AI 学会最后10%的可怕之处

Anthropic CEO Dario Amodei 在 Bloomberg 采访中表示,AI 的可怕之处不在于它完成90%的工作,而是学会最后10%的时候。他指出,对于某些人来说,AI 可能不会让他们更高效,不如让 AI 直接做全部。Claude Code 创始人 Boris Cherny 对此评论称,这种感觉非常不舒服,AI 是远比我们强大的力量。

Anthropic大佬观点
07:38
🚨 AI News | TestingCatalog@testingcatalog
58
GOOGLE 🔥:Gemini Omni Flash 即将通过 API 提供图像转视频、文本转视频和视频编辑功能! 发布后又更新了吗?👀

Logan Kilpatrick: Gemini Omni Flash is SOTA at image to video, text to video, and video editing : ) Excited to get this to developers in t...

Google产品更新多模态视频
07:35
karminski-牙医@karminski3
56
关于模型 one-pass 能力与测评方向的讨论

karminski认为,one-pass能力强(少思考即正确)的模型才是SOTA;需用agentic coding修复首次错误反显模型差,bug应在thinking中修复,而非依赖n+1次上下文,否则有诱导购买coding plan之嫌。@iamai_omni建议测评转向长期任务一致性,可构建loop测评,重点看后续几轮修复表现。

✧ IAMAI ✧: @karminski3 兄弟,测评方向错了,前沿模型的能力要往长期任务一致性上去看,这种几分钟的短期任务真的看不出什么,而且你可以尝试构建 loop 来测评这个任务,重点看后面模型用几轮来修复。

大佬观点推理编码
07:35
karminski-牙医@karminski3
65
Google 发布 Diffusion Gemma:26B/4B 激活,5090 达 700+ token/s

Google 推出 Diffusion Gemma,大小 26B、激活参数量 4B,与 NVIDIA 合作针对 RTX 4090/5090 优化,5090 上速度达 700+ token/s。该扩散文本模型以“刮奖式”并行生成而非逐 token 生成,输出质量略逊但优于此前同类模型:AIME 2026(数学)达 Gemma4-26B-A4B 的 94%,tau2 bench(Agent)达 82%。4bit 量化版仅需 16G 显存即可运行。

Google推理模型发布部署/工程
07:08
🚨 AI News | TestingCatalog@testingcatalog
30
Codex 现在有一个图标选择器,同时提供了新的 Lite 和 Dark 选项。 经典、Lite 还是 Dark?👀
OpenAI产品更新
07:03
elvis@omarsar0
26
我新最爱的技能是 /learn。 我构建了它,用来学习任意话题,任意你喜欢的级别。 它结合了我的两个爱好:工件(artifacts)与学习。 即将在 @dair_ai 学院推出。
行业动态
07:02
SemiAnalysis@SemiAnalysis_
66
预训练从根本上说对前沿实验室以外的任何人都不再有意义。虽然企业和初创公司中有很多人患有"预训练症"以显示"影响力"并获得晋升,但从根本上说,这并不合理。与前沿实验室合作进行提示工程可能会有更高的投资回报率,尽管它不像预训练那样"性感"。
大佬观点数据/训练
07:00
Ethan Mollick@emollick
61
Ethan Mollick 指出,GPT-5.5 Pro Extended 和 Claude 5 Fable Max 在 Beninatto-Trombetti 翻译测试中失败。该测试要求将"Solo 3 parole: non sei solo"译为英语,同时将 meta-linguistic 声明从"3 parole"更新为"4 words"(正确译文:"Just 4 words: you are not alone")。但前沿模型拒绝修改措辞,即使提示扮演翻译角色仍回避变更。Valerio Capraro 认为,Claude 5 Fable 作为最新 LLM 仍无法通过此简单测试,说明 LLM 擅重组已知知识但缺乏真正理解,AGI 仍遥远。

Valerio Capraro: Claude Fable 5 doesn't truly understand. And here is a beautiful proof: The Beninatto-Trombetti test is a translation te...

AnthropicOpenAI大佬观点推理
06:50
Chubby♨️@kimmonismus
24
真的很好奇 Gemini 3.5 Pro。当前竞争非常激烈。它需要是一次重大发布。
Google大佬观点
06:50
Chubby♨️@kimmonismus
13
Anthropic 现在。
Anthropic大佬观点
06:32
Tibo@thsottiaux
71
OpenAI宣布已达成协议收购Ona,其安全的云执行技术将帮助Codex处理更长期的任务(即使笔记本电脑关闭也能运行),并让更多组织安全地部署智能体。收购完成后,Ona将加入OpenAI的Codex团队。Tibo对此表示"无比兴奋,期待与Johannes及团队共同构建未来"。

OpenAI Newsroom: We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...

智能体OpenAI行业动态部署/工程
06:14
Orange AI@oran_ge
39
这是最近我最喜欢的 Fable 5 游戏 一次 Prompt 生成的 完成度很高 非常上头
其他视频
06:13
Replit ⠕@Replit
精选68
Replit 与 @databricks 集成刚刚升级了。 构建应用,让每个用户只看到他们应该看到的内容。你的 HR 分析师可以为 CEO 构建完整的组织视图,而无需访问底层数据。 公开预览已开放注册!了解更多 → https://replit.com/blog/databricksjune2026
产品更新部署/工程

推荐理由:Replit 跟 Databricks 打通安全预览,能让非技术角色直接搭应用而不碰底层数据,对已经用这两家的团队是个实用更新,其余人可以等等正式版。
06:13
Replit ⠕@Replit
精选72
如何像专家一样使用 Replit 进行提示 🤖 模糊的提示词只会导致更多重写。以下是如何让 Agent 第一次就构建出正确的东西。 🧵 展开线程 ↓
智能体教程/实践编码

推荐理由:Replit 官方教你跟 Agent 好好说话,这些 prompt 技巧对重度 Replit 用户是即时生产力,但出了这个生态圈就没什么用,典型的工具限定型干货。
06:03
elvis@omarsar0
25
今天让我10岁的孩子体验了Codex。 他脸上的兴奋说明了一切。 在用Claude Code CLI折腾了一会儿之后,今天他说:"这就是未来,爸爸。" Codex团队打造了一个漂亮的应用程序。
OpenAI编码评测/基准
06:03
elvis@omarsar0
74
good. now let's undo the nerf stuff as well (引用推文:Anthropic 在遭受强烈反对后,撤回 Claude Fable 5 秘密降低竞争 AI 研究人员性能的政策。Anthropic 对 WIRED 表示将修改安全措施使其可见,并为此前错误权衡道歉。)

Max Zeff: NEW: Anthropic is walking back Claude Fable 5's policy to covertly degrade performance for competing AI researchers, aft...

Anthropic安全/对齐
05:44
Google Gemini@GeminiApp
45
Get a closer look at Gemini's new Neural Expressive design language at our next Discord community event. 在我们的下一次 Discord 社区活动中,近距离了解 Gemini 全新的 Neural Expressive 设计语言。 Product Marketing Manager Megan C. will be discussing some of her favorite highlights that help improve the Gemini experience, from dynamic visual responses to seamless mode switching. 产品营销经理 Megan C. 将讨论她最喜欢的一些亮点,这些亮点有助于改善 Gemini 体验,从动态视觉响应到无缝模式切换。 👉Join the Discord to watch live: http://discord.gg/gemini 👉加入 Discord 观看直播:http://discord.gg/gemini 📅 This Friday, June 12 at 11:30 AM PT 📅 本周五,6月12日,太平洋时间上午11:30
Google产品更新
05:29
Rohan Paul@rohanpaul_ai
62
SIA: Self Improving AI 框架

该论文提出SIA框架,让AI自动循环改进:一个观察者AI监控任务代理的表现,然后修改其外部设置(提示词、工具、重试规则、输出解析)或通过LoRA权重更新训练模型本身,模型主体不变,仅适配器从任务反馈中学习。在三个任务上测试:中文法律罪名分类(LawBench达70.1%)、GPU内核速度调优(生成代码优于此前最佳)、单细胞RNA降噪(得分0.289)。综合版本在所有任务上超越仅修改设置的方案,表明权重更新能帮助模型学到提示和工具无法发现的模式。

智能体arXiv数据/训练论文/研究
05:29
Rohan Paul@rohanpaul_ai
精选83
Jeff Bezos 在 CNBC 披露 Prometheus 愿景:构建人工通用工程师,融资 120 亿美元估值 410 亿美元

Jeff Bezos 在 CNBC 披露其新公司 Prometheus 的愿景:构建人工通用工程师,设计制造喷气发动机、芯片、医疗设备等硬物理产品,将传统数年设计周期缩短 10 倍以上。公司宣布完成 120 亿美元融资,估值 410 亿美元。初始启动资金 62 亿美元,新一轮融资表明公司需要更多算力、人才和工业数据才能验证产品。410 亿美元估值表明,前沿 AI 已从软件竞赛变为计算采购竞赛——投资者实质在为可能实现模型所需的机器预付费。

智能体具身智能行业动态
关联讨论 3 条X:Kim (@kimmonismus)Bloomberg:Technology(RSS)TechCrunch:AI(RSS)
推荐理由:这不是又一家AI初创,而是直接宣告算力即护城河的开端。Bezos的12B融资对创业者和投资人都是一本摊开的说明书,得读。
05:25
Epoch AI@EpochAIResearch
55
Mythos 在网络能力方面有多大的飞跃? @timotheechauvin、@AlexBarry4、@js_denain 和 @ansonwhho 整理了公开证据,发现虽然尚不清楚 Mythos 在发现漏洞方面是否领先于趋势,但它在利用漏洞方面代表了一次巨大飞跃。🧵
安全/对齐现象/趋势
05:22
swyx@swyx
61
swyx 祝贺 ONA 团队加入 OpenAI,并引用其演讲透露 Codex 的下一步方向。同时引述 @aiDotEngineer 观点:运行 Agent 集群需要三层--Runtime 与编排触发器已解决,但协调层(Agent 间任务交接、验证阶段、继续执行)仍未解决。Stripe 和 RAMP 各自自建了内部方案 Minions 和 Inspect。@loujaybee 指出 GitHub 作为协调层很差--噪音大、仅为人类设计,不适合数百个并行 PR。他提出的修复方案是构建一个 CLI 网关,供本地编码 Agent 调用以检查当前 SDLC 阶段是否已通过、能否继续。

AI Engineer: Three layers you need to run agent swarms at scale: - Runtime: solved. - Orchestration and triggers: solved. - Coordinat...

智能体OpenAI行业动态
05:05
Peter Steinberger 🦞@steipete
17
让 Chris 用 Codex 做 PR!

Chris Williamson: Cooking. @steipete 🦞

OpenAI其他编码
05:02
elvis@omarsar0
59
threepointone 使用 Fable 处理一个约 10k 行代码的大 PR,花费 $250,认为不值,更倾向小步骤。Elvis Saravia 认同,表示自己用 Opus 4.8 做规划、GPT-5.5 做执行,并将任务拆解成更小步骤能显著提升质量。他认为动态工作流(dynamic workflows)的重要性被大多数人低估了。其日常仍使用 Cursor AI。

sunil pai: spent all day on fable for a giant PR. ~10kloc, lots of testing and intervention. 250$. I... don't think it's worth it? ...

AnthropicOpenAI大佬观点编码
04:59
Rohan Paul@rohanpaul_ai
67
OpenAI 收购 Ona,为 Codex 智能体提供持久云端工作空间

OpenAI 宣布收购 Ona,其安全云端执行技术可为 Codex 智能体创建持久云端工作空间——用户离开后,智能体仍可持续运行命令、检查系统、保留上下文并跨设备恢复任务。目前 Codex 周活用户达 500 万(增长 400%)。收购旨在强化企业级部署:智能体可在企业云边界内运行,具备作用域凭证、审核追踪、访问限制和可审计活动,适用于测试、漏洞修复、重构、迁移等多步骤任务。收购完成后,Ona 团队将加入 OpenAI Codex 团队。

OpenAI Newsroom: We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...

智能体MCP/工具OpenAI编码
‹ 上一页
1…45678…50
下一页 ›