AIHOT

全部动态

6月5日周五

6月5日

06:28

OpenRouter：Announcements（RSS）

精选66

OpenRouter 翻遍 11 款 LLM 找最快的决策模型：Claude vs. Grok 领衔

OpenRouter 用总价 482 美元的推理花费，让 11 款大语言模型在 30 轮实时决策的“大逃杀”挑战中正面竞争。实验结果表明，传统的静态 benchmark 排名无法反映模型在需要即时反应的智能体任务（如自主控制机器人）中的真实表现，Claude 和 Grok 系列模型在决策速度与任务成功率上表现突出，而多项高分模型的实时调度能力未达预期。

智能体评测/基准

关联讨论 1 条

推荐理由：OpenRouter 让 11 个模型打了 30 局生存竞技，发现直播胜率和榜单差异很大，以后选模型不能只看跑分，得看它在压力下用谁的脑子。

06:27

Ars Technica：AI（RSS）

人形机器人网络走红：怀疑论者指南

机器人演示可能扭曲公众对机器人实际能力的认知。尤其是在网络上病毒式传播的人形机器人视频，容易让观众高估其真实技术水平。

具身智能现象/趋势

06:27

Chubby♨️@kimmonismus

Anthropic内部数据：AI能力加速，任务时长翻倍周期缩至4个月

Anthropic内部数据显示，AI模型可自主完成任务时长加速增长：Opus 3（2024年3月）约4分钟，Sonnet 3.7（2025年3月）约90分钟，Opus 4.6（2026年3月）12小时，翻倍周期从7个月缩至4个月。Claude Mythos Preview在METR中可连续工作至少16小时。工程师季度代码产出是2021–2025年均值8倍，Claude代码占代码库80%+，单个AI曾一次性修复800+API错误（相当于人力四年）。最难开放任务成功率6个月内从低点升至76%。Anthropic强调，即使模型能力冻结，100人公司通过智能体即可完成1000人工作；实际发展已超越自身指数假设，递归自我改进虽未实现，但可能比预期更快到来。

Chubby♨️: Holy moly, Anthropic is getting very serious about recursive self-improvement! One word: acceleration. Insane blog artic...

智能体Anthropic大佬观点现象/趋势

关联讨论 8 条

06:17

Hacker News 热门（buzzing.cc 中文翻译）

谷歌解雇蒂姆尼特·格布鲁时所依据的那些LLM警告，如今都已成真

一篇博客文章指出，谷歌曾因蒂姆尼特·格布鲁合著论文中对LLM风险的警告而将其解雇，如今这些关于大语言模型的安全与伦理警告已被现实事件逐一证实。

Google安全/对齐

06:17

Hacker News 热门（buzzing.cc 中文翻译）

KVarN：华为开发的用于 KV-cache 量化的原生 vLLM 后端

华为发布 KVarN，一个原生 vLLM 后端，专门用于键值缓存（KV-cache）量化。项目已在 GitHub 上公开，在 Hacker News 上获得 100 点热度。

开源/仓库推理部署/工程

06:05

Replit ⠕@Replit

从创意到应用是容易的部分。推销它？那才是真正的考验。一窥 pitch week 内部。《Race to Revenue》第6集现已登陆YouTube。

教程/实践

05:56

Ethan Mollick：One Useful Thing（RSS）

精选73

共存与协同智能的终结

Ethan Mollick 在 One Useful Thing 博客中，以“共存与协同智能的终结”为题，并附带介绍了如何向 AI 推销一本书。

智能体大佬观点

推荐理由：Ethan Mollick 宣告「协同智能」时代结束，这个判断如果成立，所有依赖人机协作的产品设计都得重新思考。他的观点总是超前的，这篇值得点开看看。

05:28

SemiAnalysis@SemiAnalysis_

前OpenAI技术主管Justin Lebar加入SemiAnalysis，3小时花费1万美元发现数十个编译器漏洞

前OpenAI技术主管Justin Lebar以访问学者身份加入SemiAnalysis，通过投入1万美元在3小时内进行编译器模糊测试（compiler fuzzing），发现了AMD GPU LLVM、x86 LLVM及NVPTX编译器中的数十个bug。该项目揭示了GPU vs CPU编译器测试的巨大差距，并展示了如何利用LLM阅读代码来发现漏洞。此外，UltraCode模式对代码审计效率影响显著。

OpenAI教程/实践编码

05:26

Bloomberg：Technology（RSS）

AI科学家Bengio：我们正在构建无法控制的系统

约书亚·本吉奥（Yoshua Bengio）在访谈中警告，当前人类尚无法完全控制AI智能体，面临智能体风险，呼吁加强AI安全研究与治理框架建设。

智能体安全/对齐

05:24

Rohan Paul@rohanpaul_ai

Jensen Huang：AI智能体对 Cadence、CrowdStrike、Dassault、Palantir、SAP 和 ServiceNow 这类公司并非威胁。 "恰恰相反。智能体将创造最大的机遇。"

大佬观点行业动态

04:56

Ars Technica：AI（RSS）

爱沙尼亚政府基准测试：这些LLM在抵制俄罗斯宣传方面表现最佳

爱沙尼亚政府发布的一项基准测试对数十个LLM模型进行了评估，测试它们对抗俄罗斯“战略叙事”（strategic narratives）的能力，并筛选出表现最佳的模型。

安全/对齐评测/基准

04:53

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选61

OpenAI 发布《智能时代的生物防御》行动计划，以 AI 驱动生物韧性

OpenAI 提出一项名为“Biodefense in the Intelligence Age”的行动计划，旨在利用 AI 增强生物防御与韧性。该计划聚焦于构建 AI 驱动的生物安全能力，以应对未来可能出现的生物威胁。

OpenAI安全/对齐行业动态

推荐理由：OpenAI 第一次系统性地提出用 AI 增强生物安全韧性的路线图，不是模型发布，但对政策制定者和生物安全圈是必读文件。

04:47

宝玉@dotey

OpenAI Codex 推出 Build iOS Apps 插件，允许在浏览器中查看和测试 iOS 应用

OpenAI Codex 推出 Build iOS Apps 插件，让用户在不离开 Codex 的情况下查看、测试 iOS 应用，预览 SwiftUI 并热重载。原理：借助第三方 npm serve-sim 将 iOS Simulator 画面截取为视频流显示在浏览器中，同时建立控制通道将浏览器的点击、拖动等操作转换为模拟器触摸或键盘事件。插件读取 iOS App 的 Accessibility 信息，在浏览器画面上覆盖透明 HTML 按钮，使 Codex 能选择原生 UI 元素。SwiftUI 预览和热重载通过临时生成预览小 App，仅重新编译相关动态库，无需完整重装应用。

OpenAI Developers: More of the iOS app loop, now inside Codex. The Build iOS Apps plugin lets Codex view and test your iOS app in the in-ap...

OpenAI教程/实践端侧编码

04:46

OpenAI@OpenAI

精选70

当我们的一个模型找到了一个80年历史的Erdős猜想的反例时，发生了什么？研究人员@alexwei_、@HongxunWu和@wjmzbmr1在OpenAI播客中与@AndrewMayne分享了这一故事，并解释了数学家与模型如何合作取得新发现。

OpenAI大佬观点

关联讨论 15 条

推荐理由：AI 推翻 80 年老猜想不是头一回了，但 OpenAI 这次播客讲清楚了模型和数学家怎么协作，比单纯出个论文更有启发，基础研究人员值得一听。