AIHOT

Dwarkesh Patel：Podcast & Blog（RSS）

精选62

Alex Imas 和 Phil Trammell：AGI 后什么仍然稀缺？

经济学家 Alex Imas 和 Phil Trammell 指出，AGI 时代机器人数量可以快速复制增长，但人类独特技能（以芭蕾舞演员为例）的数量保持不变，揭示了即使技术大幅进步，某些稀缺资源仍不可替代。

大佬观点现象/趋势

推荐理由：Dwarkesh Patel 这次请的经济学家的访谈，把 AGI 后的稀缺性问题从哲学拉回现实。如果你在思考 AI 对就业和资产的影响，这篇比大多数技术博客更接近答案。

Chubby♨️@kimmonismus

Anthropic 博客：Claude 能力加速，接近递归自我改进

Anthropic 内部数据显示 Claude 能力增速远超预期，可能接近自主设计继任者的递归自我改进。关键指标：工程师人均季度代码产出是此前四年平均的 8 倍；AI 可可靠完成的任务时长每 4 个月翻倍，从 Opus 3 的 4 分钟升至 Mythos Preview 的至少 16 小时。截至 2026 年 5 月，Claude 撰写代码占 Anthropic 代码库 80%+，代码质量已与人类持平，年内将超越。最困难任务成功率 6 个月从 26% 升至 76%。Anthropic 认为趋势停滞可能性最低，复合效率增益最可能，完全递归自我改进的对齐结果最不确定。

Anthropic: Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...

Anthropic大佬观点现象/趋势

关联讨论 9 条

LMSYS：Blog（Chatbot Arena 团队）

精选77

Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务

Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数，基于 Qwen3-4B 骨干，支持 100 种语言（内部评测覆盖 111 种），在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感（20+种）、风格、韵律（语速/音高/停顿）及音效。模型支持流式合成，文本未完整时即可开始生成语音并保持一致性。SGLang-Omni 专为多阶段生成模型设计，统一调度 AR 解码与轻量计算，实现低延迟推理。

开源/仓库教程/实践语音部署/工程

推荐理由：Higgs v3 把多语言和实时可控制整合进一个流式 TTS 模型，SGLang-Omni 为它搭好了多阶段推理的底座，做语音 Agent 的可以直接抄作业，这比多数论文落地快半拍。

Nathan Lambert@natolambert

Anthropic 表示，使用 Mythos 后人均代码产出较半年前 Opus 4.5 提升 3.2 倍。Nathan Lambert 评论称，没有 Mythos 的人在学用智能体时也有类似感受。

Lisan al Gaib: Anthropic is shipping 3.2x more code per person with Mythos nowadays than with Opus 4.5 around half a year ago

Anthropic大佬观点编码

Anthropic@AnthropicAI

我们的内部数据显示，Claude 正在加速 AI 发展--这是一条通往递归自我改进的可能路径，也就是 AI 自主构建一个更强大的后继者。这发生得比我们预想的更快，其影响值得更多关注。

Anthropic安全/对齐现象/趋势

关联讨论 9 条

Bloomberg：Technology（RSS）

高盛CEO David Solomon谈即将到来的大型IPO：Anthropic等公司申请上市

Anthropic和SpaceX等公司提交上市申请，2026年或成为大型IPO之年。高盛CEO David Solomon在Odd Lots播客中讨论AI时代的银行业，并认为美国拥有全球最大、最重要的公司仍然是一件好事。

Anthropic行业动态

The Decoder：AI News（RSS）

贝恩研究：近四成公司AI成本节省目标未达成，人类干预是主因

贝恩咨询对951家公司的调查显示，近40%的企业AI成本节省幅度不足10%，而大多数公司原定目标为11%至20%。原因之一是仅有7%的企业实际运行完全自主的AI智能体，其商业案例却假设了全自动化。

智能体现象/趋势部署/工程

Replit ⠕@Replit

实时构建你的业务 https：//x.com/i/broadcasts/1qGoNNngZkyKv

教程/实践部署/工程

歸藏(guizang.ai)@op7418

归藏PPT Skills 将更新第三套主题

归藏宣布其 PPT Skills 项目将继续更新。得益于近期的赞助，计划开发第三套主题，且会把在小红书图文卡片部分积累的好经验用于新版中。

歸藏(guizang.ai): http://x.com/i/article/2053655813877870592

图像生成教程/实践

elvis@omarsar0

DAIR.AI 创始人 Elvis Saravia 分享动态工作流实践

Elvis Saravia 逆向工程了动态工作流（Dynamic Workflows）并集成到自研智能体编排器中，同时构建 HTML 监控仪表盘跟踪任务、指标和报告。该工作流可在 Claude Code、Codex、Pi 等编码智能体及自研 @dair_ai agent 上运行。成功用例包括分支深度研究、并行深度研究、会话挖掘、Bug 定位、分类、事实核查、LLM 委员会、AI 模拟、数据合成和评测生成等。他认为动态工作流与 agent 技能一样，是实现复杂长期任务的关键原语，不仅限于编码，还可扩展至商业、科学等领域。

智能体MCP/工具大佬观点

Nathan Lambert@natolambert

狭窄控制的安全已多次证明会失败。在绝对前沿上需要更多透明度，开放紧随其后。

Lisan al Gaib: I found another API that offers claude-oceanus-v1-p the pricing and tps make a lot more sense to me Mythos pricing might...

Anthropic安全/对齐开源生态

IT之家（RSS）

OpenAI 奥尔特曼：主动式 AI 将是聊天机器人与智能体之后的下一阶段

OpenAI CEO 萨姆·奥尔特曼提出 AI 三阶段：聊天机器人、AI 智能体（如 Codex）和“主动式 AI”——一种在后台持续运行并主动提供帮助的系统，他称这是未来一年最看好的方向。OpenAI 正研发整合 Codex 与 ChatGPT 的超级应用。成本问题已成企业第二重要话题，Uber 一季度耗尽全年 AI 预算。主动式 AI 旨在降低用户学习门槛，但对企业数据安全与 IT 架构提出新挑战。

智能体OpenAI大佬观点现象/趋势

The Verge：AI（RSS）

埃隆·马斯克碾压华尔街，即将成为万亿富翁

SpaceX IPO 申请文件首次披露X（原Twitter）的财务状况：收入与用户增长陷入停滞，该业务已被两次并入马斯克其他公司（先xAI后SpaceX），成为其帝国中的次要部分。马斯克三年前收购Twitter时承诺的10亿用户、集成支付等功能均未实现。尽管X在关键指标上萎缩，但SpaceX IPO规模近2万亿美元，可能使马斯克成为万亿富翁。

AnthropicxAI行业动态

Rohan Paul@rohanpaul_ai

Fei-Fei Li 谈世界模型 vs 大语言模型

李飞飞（Fei-Fei Li）指出，大语言模型（LLM）仅学习文本模式，能描述房间但无法理解椅子移动、玻璃破碎、阳光变化或机器人推杯子等物理变化。世界模型则试图学习视觉背后隐藏的结构，能预测相机未捕捉的视角、建模物体行为、支持真实或虚拟环境中行动的智能体。理解新视角、预测推动结果、决定下一步行动，都需要一个共同的内在模型，涵盖空间、因果与后果。

Fei-Fei Li: http://x.com/i/article/2062244283940544512

具身智能多模态大佬观点

The Decoder：AI News（RSS）

OpenAI CEO Sam Altman 认为"主动式 AI"是聊天机器人和 AI 智能体之后的下一个阶段

OpenAI CEO Sam Altman 提出“主动式 AI”（proactive AI）概念，这种 AI 在后台持续运行、自主采取行动，而非等待用户提示。Altman 同时指出企业正面临 AI 成本飙升以及多数员工不知道如何向 AI 提问的根本问题，并承诺“帮助人们用更少的花费获得更多价值”。

智能体OpenAI大佬观点

Hugging Face：Blog（RSS）

精选75

Nemotron 3.5 ASR：为你的语言、领域或口音进行微调

Nemotron 3.5 ASR 是一个 600M 参数的多语言流式语音识别模型，单个检查点覆盖 40 种语言-地区（含英、西、德、法、意、日、韩、中、阿拉伯等）。采用 Cache-Aware FastConformer 编码器与 RNNT 解码器，缓存内部状态避免重复计算，实现低延迟流式转录且不损失精度。模型原生输出带标点和大写的生产级文本，无需后处理。支持指定语言（target_lang=es-ES）或自动语言检测（target_lang=auto）。通过注意力上下文大小（att_context_size）可在推理时直接调节延迟-准确率权衡，范围从 80ms 到 1.12s，无需重新训练。模型以 NeMo 检查点形式发布，可用于微调以适配特定语言、领域或口音。

教程/实践语音

推荐理由：一个模型搞定40种语言的实时语音转文字，NVIDIA还给了完整微调代码和实测数据，做语音Agent和字幕的可以照着抄作业。

The Verge：订阅版科技（RSS）

《The Verge》呼吁在线平台提供AI内容过滤选项

在线平台本可通过提供AI内容过滤选项来检验AI标签是否有效，但它们拒绝这样做——因为一旦开放过滤，它们将不得不面对现实。

GoogleMeta现象/趋势

公众号：百度智能云（文心）

百度伐谋助力北京工业大学攻克三大科研难题

北京工业大学苗扬团队借助百度伐谋（全球首个可商用自我演化决策智能体），在三个高可靠性科研场景实现突破：空间站色谱柱构型优化中，72小时演化出新构型，归一化误差降低8.17%，体积缩小40%，分离效率提升3倍；PEM电解槽故障检测准确率从92.26%提升至95.04%，综合评分升至0.9383，建模周期从数天压缩到小时级；旋转机械故障诊断准确率从98.9055%提升至99.9877%，预测误差降至原来1%，参数量下降34%。科研人员用自然语言描述目标和约束，伐谋自动演化逼近全局最优解。

智能体教程/实践

公众号：昆仑万维（天工）

精选64

SkyClaw-v1.0 深度实测：Agent专属模型，顶尖性能表现，极致价格优势

5月26日，昆仑万维发布SkyClaw-v1.0，定位面向复杂工具使用和真实世界任务执行的高性能Agent模型，输入仅0.5元/百万token、输出4元/百万。实测显示，其从零生成番茄钟和记账本应用时，能自主用Web Audio API合成音效、用SVG手绘图表，细节处理成熟。在现有代码库修改任务中，越难的任务表现越好：单点bug修复精准，能准确诊断iOS Safari滚动问题并给出克制式修复方案。但官方未报告SWE-bench成绩，表明其优势集中在从零生成与模式匹配场景，而非大型仓库精确修改。极致低价使其在批量Agent任务与快速原型生成上性价比突出。

智能体编码评测/基准

推荐理由：这篇实测把SkyClaw的「从零生成」和「老项目修改」摊开了揉碎了测，不看广告看疗效，让我看清Agent模型的分化到底意味着什么——便宜好用但有边界，想省钱做小工具的你值得细读。

Chubby♨️@kimmonismus

精选84

OpenAI刚刚写道："我们也看到了当今系统中递归自我改进（RSI）的早期迹象：AI开发本身正被AI加速。我们预计这将加剧开发者与国家之间的竞争压力，并带来现有机构无法应对的治理挑战。随着RSI的出现，社会将需要找到塑造AI发展轨迹的方法，确保其服务于人类利益。" 气氛变了，有事正在发生。

OpenAI大佬观点安全/对齐

推荐理由：OpenAI首次公开承认看到递归自我改进的早期迹象，等于摊牌说AI发展正在失控加速，接下来的竞争和监管博弈会非常激烈，所有关注AI安全的人都该认真读一下原文。

Rohan Paul@rohanpaul_ai

Anuma：跨模型统一记忆的私人AI工作空间

Rohan Paul 介绍 Anuma，一个私人 AI 工作空间，核心功能是跨模型统一记忆——用户在 ChatGPT、Claude、Gemini、Grok、DeepSeek、Kimi 等模型间切换时，上下文、偏好、目标和历史工作自动跟随。额外功能包括设备端加密记忆、默认隐私模式、无日志无训练、支持完整记忆导出、Council Mode（多模型并列回复对比）、单聊内模型切换，以及通过 iMessage 或 SMS 的 AI 文本能力。Paul 分享研究论文分析用例：上传多篇论文，利用多模态和多模型并行工作流，对比不同模型对同一主题的阅读、总结和关联能力，避免重复解释上下文。

MCP/工具多模态教程/实践

The Verge：AI（RSS）

社交媒体平台应允许用户过滤AI生成内容

YouTube、Instagram、TikTok等平台过去一年已陆续采用自动标签区分AI生成的图像、视频和音乐，但用户仍无法主动过滤这些内容。目前的标签机制并未改变内容的呈现方式，用户依然被迫接触大量AI垃圾内容。文章呼吁平台提供过滤选项，让用户自行屏蔽AI生成内容。

GoogleMeta图像生成现象/趋势

OpenRouter：Announcements（RSS）

OpenRouter 横评 11 款 LLM 机器人冲刺对决：Claude 与 Grok 谁更胜一筹？

OpenRouter 在 30 场机器人冲刺对决中测试了 11 款大语言模型，共耗 482 美元推理成本。结果指向一个发现：应该重新审视模型 benchmark 的解读方式。

智能体推理评测/基准

Bloomberg：Technology（RSS）

Netflix首席产品技术官Stone谈AI整合

Netflix首席产品与技术官Elizabeth Stone在旧金山Bloomberg Tech 2026上接受Bloomberg的Emily Chang专访，讨论了技术领导力以及如何在AI时代扩展平台规模。

大佬观点视频

fofr@fofrAI

这是 Reve 2 的一些早期测试，提示词为： > an amateur photo of fantastical realism 同日两款优秀的全新图像模型。真是享受。

Reve: Today, we're launching Reve 2.0, the best 4K image model in the world. We invented a new way to generate and edit any im...

产品更新图像生成

IT之家（RSS）

华硕破晓 Ultra 评测：第三代酷睿 Ultra 处理器 + 双层 OLED 触控屏

华硕破晓 Ultra 于今年 3 月发布，搭载第三代酷睿 Ultra X7 358H 处理器和 Intel Arc B390 核显（12 个 Xe3 核心），配备 14 英寸 2.8K 120Hz 双层串联 OLED 触控屏，峰值亮度 1400nit。整机重 1.1kg、厚 10.9mm，内置 70Wh 电池并支持 90W PD 快充，32GB+1TB 版本售价 14999 元。游戏实测方面，1080P 低画质下《CS2》达 306 帧，《赛博朋克：2077》开启 XeSS 后达 100 帧，45W 功耗下噪音不超过 45 分贝。

端侧评测/基准

Bloomberg：Technology（RSS）

中国Robotaxi困局：AI政策在增长与就业间博弈

中国在全球Robotaxi领域处于领先地位，但这种竞争优势伴随着代价，反映出AI政策在促进经济增长与保障就业之间的紧张关系。

政策/监管现象/趋势

公众号：面壁智能（MiniCPM）

智能座舱卷到头了？这份白皮书给出了答案

多模态现象/趋势端侧

karminski-牙医@karminski3

MiniMax-M3 实测

MiniMax-M3 实测：前端适配 KCORES2026p2，空间理解、建模精度、美学表现优秀，颜色运用佳；复杂需求如光追引擎需迭代。后端得分超 deepseek-v4-pro 及国产模型，略逊 GPT-5.4-Pro (xhigh)。Agent 能力达榜单第二接单量，规划突出。使用经验：M3 偏好长推理，单次输出可达 64k token，适合嵌入带 plan 模式的 Coding Agent，需做好 prompt 编排，避免大量 tool call；执行约束不足，需增加代码级 harness 闭环。

智能体编码评测/基准

Berryxia.AI@berryxia

AI时代下作家扮演美化润色角色

推文以“原话：我这店不要不干了，这帮B还能去哪儿？”和“作家改写：如果此地终会消亡，这些灵魂又将何处安放？”为例，说明作家在AI时代负责对粗俗表达进行美化润色的作用。同时提到郑执演讲中有感的话，并认为东北人天然适合干自媒体。

其他

小互@xiaohu

Anthropic 用 Claude 实现自动化商业分析：准确率从 21% 提升至 95%

Anthropic 将 95% 的业务分析查询交给 Claude，准确率约 95%。最初仅 21%，通过搭建数据基础、权威来源、技能等四层系统提升。核心发现：准确性问题本质是上下文和验证，而非代码生成。三种失败模式：概念对应错误、数据过时、找不到正确字段。重复分析由 Claude 承担，数据科学团队专注更高价值任务。

智能体Anthropic教程/实践数据/训练