OpenRouter 用总价 482 美元的推理花费,让 11 款大语言模型在 30 轮实时决策的“大逃杀”挑战中正面竞争。实验结果表明,传统的静态 benchmark 排名无法反映模型在需要即时反应的智能体任务(如自主控制机器人)中的真实表现,Claude 和 Grok 系列模型在决策速度与任务成功率上表现突出,而多项高分模型的实时调度能力未达预期。
关联讨论 1 条OpenRouter:Announcements(RSS)OpenRouter 用总价 482 美元的推理花费,让 11 款大语言模型在 30 轮实时决策的“大逃杀”挑战中正面竞争。实验结果表明,传统的静态 benchmark 排名无法反映模型在需要即时反应的智能体任务(如自主控制机器人)中的真实表现,Claude 和 Grok 系列模型在决策速度与任务成功率上表现突出,而多项高分模型的实时调度能力未达预期。
关联讨论 1 条OpenRouter:Announcements(RSS)Anthropic内部数据显示,AI模型可自主完成任务时长加速增长:Opus 3(2024年3月)约4分钟,Sonnet 3.7(2025年3月)约90分钟,Opus 4.6(2026年3月)12小时,翻倍周期从7个月缩至4个月。Claude Mythos Preview在METR中可连续工作至少16小时。工程师季度代码产出是2021–2025年均值8倍,Claude代码占代码库80%+,单个AI曾一次性修复800+API错误(相当于人力四年)。最难开放任务成功率6个月内从低点升至76%。Anthropic强调,即使模型能力冻结,100人公司通过智能体即可完成1000人工作;实际发展已超越自身指数假设,递归自我改进虽未实现,但可能比预期更快到来。
Holy moly, Anthropic is getting very serious about recursive self-improvement! One word: acceleration. Insane blog artic...
关联讨论 8 条X:Anthropic (@AnthropicAI)X:Emad Mostaque (@EMostaque)The Decoder:AI News(RSS)X:小互 (@xiaohu)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)X:卡兹克 (@Khazix0918)X:Rohan Paul (@rohanpaul_ai)一篇博客文章指出,谷歌曾因蒂姆尼特·格布鲁合著论文中对LLM风险的警告而将其解雇,如今这些关于大语言模型的安全与伦理警告已被现实事件逐一证实。
华为发布 KVarN,一个原生 vLLM 后端,专门用于键值缓存(KV-cache)量化。项目已在 GitHub 上公开,在 Hacker News 上获得 100 点热度。
Ethan Mollick 在 One Useful Thing 博客中,以“共存与协同智能的终结”为题,并附带介绍了如何向 AI 推销一本书。
前OpenAI技术主管Justin Lebar以访问学者身份加入SemiAnalysis,通过投入1万美元在3小时内进行编译器模糊测试(compiler fuzzing),发现了AMD GPU LLVM、x86 LLVM及NVPTX编译器中的数十个bug。该项目揭示了GPU vs CPU编译器测试的巨大差距,并展示了如何利用LLM阅读代码来发现漏洞。此外,UltraCode模式对代码审计效率影响显著。
约书亚·本吉奥(Yoshua Bengio)在访谈中警告,当前人类尚无法完全控制AI智能体,面临智能体风险,呼吁加强AI安全研究与治理框架建设。
爱沙尼亚政府发布的一项基准测试对数十个LLM模型进行了评估,测试它们对抗俄罗斯“战略叙事”(strategic narratives)的能力,并筛选出表现最佳的模型。
OpenAI 提出一项名为“Biodefense in the Intelligence Age”的行动计划,旨在利用 AI 增强生物防御与韧性。该计划聚焦于构建 AI 驱动的生物安全能力,以应对未来可能出现的生物威胁。
OpenAI Codex 推出 Build iOS Apps 插件,让用户在不离开 Codex 的情况下查看、测试 iOS 应用,预览 SwiftUI 并热重载。原理:借助第三方 npm serve-sim 将 iOS Simulator 画面截取为视频流显示在浏览器中,同时建立控制通道将浏览器的点击、拖动等操作转换为模拟器触摸或键盘事件。插件读取 iOS App 的 Accessibility 信息,在浏览器画面上覆盖透明 HTML 按钮,使 Codex 能选择原生 UI 元素。SwiftUI 预览和热重载通过临时生成预览小 App,仅重新编译相关动态库,无需完整重装应用。
More of the iOS app loop, now inside Codex. The Build iOS Apps plugin lets Codex view and test your iOS app in the in-ap...
Sam Altman 表示 AI 预算正成“巨大问题”。OpenAI 顶级内部用户月耗约 100B 模型 token,而外部客户高达 603B。AI 智能体使成本恶化:agent 不止回答一次,而是规划、调用工具、读取文件、重试失败步骤、检查自身工作,产生大量隐藏 token 消耗。人类问一次,agent 可能一秒内问数百次。公司不再问 AI 是否令人印象深刻,而是问边际 token 是否产生边际价值。杰文斯悖论解释部分陷阱:每 token 成本下降,人们使用更多 token,总账单仍可能上升。
Anthropic 近日发表文章《当人工智能自我构建:我们在递归式自我改进方面的进展》,报告其在递归式自我改进方面的进展,探讨 AI 系统自我构建的能力。该文章发布在 Hacker News 上。
关联讨论 8 条X:Anthropic (@AnthropicAI)X:Emad Mostaque (@EMostaque)The Decoder:AI News(RSS)X:小互 (@xiaohu)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)X:卡兹克 (@Khazix0918)X:Rohan Paul (@rohanpaul_ai)Ciena 首席执行官 Gary Smith 在 Bloomberg Open Interest 节目中表示,AI 网络需求正在加速增长,AI 基础设施繁荣与互联网泡沫存在根本性区别。他还指出,企业 AI 采用可能开启下一阶段增长。
Google Android 生态系统总裁 Sameer Samat 在 Bloomberg Tech 2026 上与 Bloomberg 的 Mark Gurman 展开对谈,讨论了 Android 平台的演进方向、人工智能(AI)的集成方式以及生态系统整体战略。
Yoshua Bengio(Mila Quebec AI Institute创始人兼科学顾问、LawZero联合主席兼科学总监)在Bloomberg Tech 2026上接受Bloomberg记者Shirin Ghaffary采访,探讨AI安全、智能体风险与治理框架。
Cloudflare CEO Matthew Prince 表示,互联网上机器人流量已超过人类流量,这一转折点比他此前预测的 2027 年底提前数年。他将流量激增归因于 AI 智能体,并得出结论:网络的未来将是“pay to crawl”(付费爬取)。
Anduril Industries 联合创始人兼执行主席 Trae Stephens 在旧金山举行的 Bloomberg Tech 2026 上,与 Bloomberg 记者 Ed Ludlow 探讨了 AI 在国防领域的应用、地缘政治风险以及军事创新。
it's really inspiring to see the collective response of humanities professors on twitter whenever an academic says somet...
Hacker News 上关于《纽约时报》的一篇帖子获 129 个点赞,帖子标题指出该报面临某种困境。原文仅包含标题和 HN 数据,未提供具体论述内容。
Anthropic 联合创始人兼总裁 Daniela Amodei 在旧金山举行的 Bloomberg Tech 2026 大会上接受采访,分享了关于模型开发的最新进展、商业变现策略以及当前与美国政府的关系。
Anthropic哲学家兼伦理学家Amanda Askell在旧金山Bloomberg Tech 2026上,与Bloomberg记者Shirin Ghaffary探讨了AI意识议题、管理旗下模型Claude的“灵魂”等概念,以及相关安全风险与伦理护栏设计。
旧金山联邦储备银行总裁兼首席执行官 Mary C. Daly 在 Bloomberg Tech 2026 上接受采访,讨论人工智能对生产力、劳动力市场和经济增长的影响。
Databricks 联合创始人兼 CEO Ali Ghodsi 在 Bloomberg Tech 活动上表示,AI 已经达到了人工通用智能(AGI),但目前仍缺乏上下文(context)来提升生产力。他认为这是整个行业当前应聚焦解决的问题。
Okta CEO Todd McKinnon 在 Bloomberg Tech 活动上表示,对“SaaSpocalypse”的担忧被夸大了。他还谈到了在 Anthropic 的 Mythos 模型发布后对网络安全行业的影响。
Altimeter Capital 合伙人 Apoorv Agrawal 在旧金山彭博科技活动上表示,人工智能已成为最大的资本形成周期之一。他还就 SpaceX 和 Anthropic 接近上市的 IPO 前景发表了评论。
NVIDIA 今日发布 Nemotron 3 Ultra,重点优化低延迟智能体性能。在 Terminal-Bench v2.1 上,该模型与竞品在 4 个递增轮次限制下对比测试。Nemotron 3 Ultra 凭借高推理速度(基于 token 用量与 blackboxai 预部署测得的端点输出速度,以及工具执行实际耗时),在每个轮次限制下完成任务的速度均快于竞品,同时保持了有竞争力的基准分数,处于该评测性能-时间帕累托前沿的领先位置。
孙正义在6月1日CNBC专访中称,下一个万亿美元机会是Physical AI和机器人,AI革命规模将是互联网泡沫时代的50倍,是人类经历的最大技术变革。他预测未来十年AI将从屏幕走进现实,拥有身体并动手做事。当前AI仍停留在无身体层面(提示词、Agent编排、内容生成),真正决定生产力的是有身体的一层。该推文还提供了普通人认知与财富进阶地图。
@jiadana2520 我没截图,简单给你画一下。codex 就很醒目。qodex一愣神就点错了
Anthropic研究院报告指出,AI正加速AI开发:2021–2025年间工程师人均季度代码量提升8倍,截至2026年5月超80%合并代码由Claude生成。Claude Opus 3(2024年3月)可完成约4分钟软件任务,Claude Sonnet 3.7(2025年3月)提升至1.5小时,Claude Opus 4.6(2026年3月)可处理12小时任务。SWE-bench两年内从低个位数得分饱和;CORE-Bench约20%正确率在15个月后饱和。METR测试显示Claude Mythos Preview可连续工作至少16小时。但AI自主设定目标的能力仍存显著差距,完全自主递归自我改进尚未实现。
关联讨论 8 条X:Anthropic (@AnthropicAI)X:Emad Mostaque (@EMostaque)The Decoder:AI News(RSS)X:小互 (@xiaohu)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)X:卡兹克 (@Khazix0918)X:Rohan Paul (@rohanpaul_ai)Google DeepMind 论文《Intelligent AI Delegation》将任务委托视为一系列选择:是否委托、如何解释、如何验证结果。系统构建动态市场,智能体通过智能合约竞标任务,利用加密证明保证正确性与隐私。基于信任模型,避免过度委托(给 AI 难完成的任务)或不足委托(自己做 AI 能胜任的事)。输出验证规则根据 AI 置信度决定接受与否,并有备用计划处理失败。还涵盖 AI 智能体间的委托与问责追踪,确保贡献符合整体目标。该框架使企业更安全地在日常运营中使用 AI。
宝玉建议只选最聪明的2-3个模型(如GPT-5.5、Opus 4.8),因单个模型不够稳定全面。翻译用Gemini 3.1 Pro,画图用GPT Image 2,复杂任务让多个模型并行对比。强调“token贵的省时间,时间比token更贵”,暗示深耕一两个最强模型即可。
@dotey 请教一下大佬,假如codex或者cc可以满足目前的需求,是否还有必要体验国内agent,目前只深度用过这两个agent,不知道有没有必要多体验不同agent的区别,还是深耕一两个就行
True story. > Say Paella like a British woman
宝玉发推称所有AI Agent团队都为理想自愿加班封闭开发,并好奇Kimi团队开发Kimi Code时用自家token多还是Claude/GPT token多。@real_kai42透露,一个月前他决心重构Kimi Code,花几千刀token做架构分析与验证,确定方案后组建团队封闭开发,过程中不断吵架推翻重来,最终开源后因皮质醇过度分泌病倒。他感叹封闭开发是工程效率奇迹,集体主义远胜个人英雄主义。
过去一个月是疯狂的一个月 大概一个月前,我下定决心重构 kimi-code,开始设计新的架构。 我大概抱着电脑和便携屏在汤泉卷了两整天,花了几千刀的 token 去做架构分析、设计和验证,最终得到了一份我认为最优的架构方案。 我觉得在 vi...