AIHOT

05:25

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

44

论文：我们使用最先进的大语言模型来证明AI仍无法做到X 最先进的大语言模型：

现象/趋势评测/基准

04:57

ClaudeDevs@ClaudeDevs

79

我们如何用 Claude 自动化商业分析？新博客文章，涵盖构建数据智能体时在技能、数据基础和评估方面的最佳实践： https：//claude.com/blog/how-anthropic-enables-self-service-data-analytics-with-claude

智能体Anthropic教程/实践

04:55

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

42

深圳无人机正在执行交通规则。

AI Notkilleveryoneism Memes ⏸️: Watch this video. Now imagine this swarm, controlled by AI agents, with an explosive on each drone. It's Biblical.

智能体安全/对齐

04:39

Hacker News 热门（buzzing.cc 中文翻译）

57

随着人工智能迅速发展，数学家们发出警告

Science.org 报道称，数学家们对人工智能的快速进展发出警告。

推理现象/趋势

04:25

SemiAnalysis@SemiAnalysis_

15

Claude的五阶段，@JeremieEO目前处于第一阶段… 接受。

Anthropic现象/趋势

03:50

Chubby♨️@kimmonismus

14

我很困惑，同时也感到兴奋。我感觉到OpenAI正在准备一些重大发布。超级应用？5.6？让它来吧！

OpenAI大佬观点

03:46

Ethan Mollick@emollick

39

@binarybits 称，不相信有公司一个月意外花费5亿美元在Claude上，这个数字大得不合理。主推文表示这故事难以置信，唯一可能解释是云提供商内部会计占位符，即便如此也仍有诸多疑点。

Timothy B. Lee: I don't believe any company accidentally spent $500 million on Claude in a month. The number is an order of magnitude to...

Anthropic大佬观点行业动态

03:22

Bloomberg：Technology（RSS）

58

DoubleLine的Cohen警告AI泡沫即将波及信贷市场

DoubleLine全球发达信用债主管Robert Cohen在纽约彭博全球信贷论坛上警告，AI债务几乎必然将达到泡沫水平。

大佬观点

03:20

Fei-Fei Li@drfeifei

精选78

世界模型的功能分类

World Labs团队与李飞飞发文，梳理“世界模型”这一被滥用的术语。对比语言模型学习文本统计，世界模型学习空间与时间统计（如光照、物理规律）。基于部分可观马尔可夫决策过程（POMDP）框架，智能体通过动作影响世界状态，观测是部分视图。当前被称为“世界模型”的不同系统本质上是同一循环的不同投影：第一类为渲染器，输出给人眼看的像素，以视觉保真度为核心。文章着重于概念分层，未给出具体模型名、参数或基准分数。

具身智能大佬观点现象/趋势

推荐理由：李飞飞亲手给纷乱的「世界模型」下了个三分类——渲染、模拟、规划，而且点破模拟才是根基。做机器人、空间智能的人，这篇是今年的坐标系。

03:18

MarkTechPost（RSS）

62

如何使用Workers、Functions和Cron Triggers通过iii构建文档智能后端

一篇教程介绍如何通过注册模块化函数，并在Workers、Functions和Cron Triggers等多个触发器间复用这些函数，使用iii构建文档智能后端。该文章展示了模块化注册与跨触发器复用的核心方法。

教程/实践部署/工程

03:09

Hacker News 热门（buzzing.cc 中文翻译）

精选73

优步每月 1，500 美元的 AI 使用上限为 AI 工具定价提供参考

优步将 AI 工具每月使用上限定为 1500 美元，这一做法为行业 AI 工具定价提供了有价值的参考信号。

大佬观点行业动态

推荐理由：Uber 这个 1500 美元的人均 AI 月限额，不是内部规定那么简单，它为所有 AI SaaS 产品划出了一条定价天花板，想做企业生意的都应该盯着这个数字。

02:52

Bloomberg：Technology（RSS）

61

AI 泡沫即将降临信贷市场，DoubleLine 的 Cohen 表示

DoubleLine 投资组合经理 Robert Cohen 指出，参照铁路和互联网等重投资领域的历史，AI 债务几乎必然会最终达到泡沫水平。

数据/训练现象/趋势

02:52

Bloomberg：Technology（RSS）

32

AI融资是一场军备竞赛，GoldenTree的Tananbaum表示

GoldenTree Asset Management创始人兼首席投资官Steven Tananbaum在彭博全球信贷论坛上表示，信贷市场将继续低迷，但仍存在一些机会。他还指出，AI融资正演变为一场军备竞赛。

现象/趋势行业动态

02:49

Google Research：Blog（网页）

精选72

洪水韧性新篇章：Google 开源水文建模框架

Google Research 在 GitHub 开源了其水文建模框架，这是一个基于 PyTorch 的 Python 包，采用与 Flood Hub 河段洪水预报相同的模型架构和训练数据。该框架允许研究者和预报员训练 AI 洪水预报模型、添加新模型与数据，并已与捷克水文气象研究所（CHMI）等合作测试。开放模型架构和训练管线旨在让各国气象水文部门在保留数据完全控制权的同时，整合基于 AI 的洪水预报。

Google开源/仓库开源生态数据/训练

推荐理由：谷歌开源的水文模型框架，是少数真正能救命的AI应用。不是秀参数，而是把工具直接塞给一线预报员，让他们用本地数据训练。务实，值得给赞。

02:38

Hacker News 热门（buzzing.cc 中文翻译）

64

大型人工智能公司的一半股份应归公众所有

美国参议员伯尼·桑德斯（Bernie Sanders）在其官网发布的专栏文章中提出，大型人工智能公司的一半股份应归公众所有。

政策/监管行业动态

02:23

Claude：Blog（网页）

精选76

Claude Cowork 入门最佳实践

Anthropic 增长营销负责人 Austin Lau 介绍了非技术知识工作者使用 Claude Cowork 的最佳实践。Claude Cowork 是面向文档、电子表格等多步骤任务的 AI 助手，用户无需编程技能，将其指向文件夹或连接已有应用即可委托任务。与用于快速问答和头脑风暴的 Chat 以及面向开发者的 Claude Code 不同，Claude Cowork 适用于需要产出交付物、涉及多个文件或应用、可重复执行的场景。Lau 给出了判断任务是否适合的五项检查清单，并预告将于6月4日分享具体营销用例。

Anthropic教程/实践

关联讨论 1 条

推荐理由：Anthropic 官方教你如何把 Claude Cowork 用到极致，从每日摘要到自动报表，非技术人员看完就能上手，比自己硬摸索省十倍时间。

02:17

The Verge：AI（RSS）

49

Google Gemini AI 智能体 Spark 上手体验：高效得令人不安，但也暴露了空洞的承诺

Google 发布 Gemini AI 智能体 Spark，同事 David Pierce 和 Jay Peters 分别进行了体验。Spark 能够自动获取用户未明确输入的信息，例如 David 的狗名 Frida 和 Jay 妻子的名字。尽管功能强大，但文章指出，这种对“生产力”的追逐忽略了真正需要解决的问题。

智能体Google现象/趋势

02:16

AYi@AYi_AInotes

65

Google 发布 Gemma 4 12B：无独立视觉编码器的统一多模态架构

Google 推出 Gemma 4 12B（Apache 2.0），采用无独立视觉编码器的统一多模态架构。仅用 35M 参数的轻量嵌入器，将图像切为 48×48 块、音频（16kHz 原始波形）切为 40ms 帧，直接作为 token 输入 Transformer。M4 Max 上 4-bit 量化识图延迟 1.2-1.5 秒，官方称 16GB 内存可用，但社区指出高分辨率多图会压线。该设计暗示：当基座模型足够大，专用子模块不再是必需，未来一个微调好的统一模型可能取代传统拼装 Whisper、LLaVa 等多模态 pipeline。

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google多模态大佬观点端侧

02:15

Ethan Mollick@emollick

68

5月初，顶级超级预测者预计2026年底前最长METR 80%任务时间范围可达3-4小时。然而5月底，Anthropic的Claude Mythos模型在METR基准预览中即以80%成功率达到3小时6分钟，直接落在专家和超级预测者对2026年底的中位数预测范围内（3-4小时）。此前基线为1.5小时。此次突破表明AI能力进展速度远超预期。

Forecasting Research Institute: We also asked forecasters to predict the longest 80% success time horizon achieved by the end of 2026. All three groups ...

智能体Anthropic大佬观点

01:47

Yuchen Jin@Yuchenj_UW

63

越来越多的工程师现在在AI token上花费的钱比他们的基本工资还要多。科技公司面临一个残酷的两难选择： > 让每个人尽情使用token并以AI速度前进 > 增加token预算并扼杀氛围 > 裁掉50%的人，给剩下的人无限token

现象/趋势

01:45

StepFun@StepFun_ai

56

在 @modal 上用 SGLang 部署 Step 3.7 Flash 🚀 Modal 是一个无服务器 AI 平台，用于部署和扩展计算密集型工作负载，无需管理基础设施。他们的新指南展示了如何在 Modal 上使用 SGLang 服务我们的开源权重 Step 3.7 Flash，采用 8×H100 GPU、Modal Volumes 以及兼容 OpenAI 的聊天补全端点。很高兴与 Modal 合作，让 StepFun 模型更易于构建者使用。 https：//modal.com/docs/examples/stepfun_inference

教程/实践部署/工程

01:38

Hacker News 热门（buzzing.cc 中文翻译）

58

莱顿人工智能与数学宣言

莱顿人工智能与数学宣言（Leiden Declaration on Artificial Intelligence and Mathematics）在 leidendeclaration.ai 上线发布。

现象/趋势

01:23

Claude：Blog（网页）

精选68

Claude Code技能使用经验：Anthropic内部实践

Anthropic 分享了内部使用 Claude Code 的 Skills（技能）功能的经验。Skills 是指令、脚本和资源的文件夹，智能体可发现并调用它们以提升准确性和效率。Anthropic 内部已有数百个活跃使用的技能，它们可归为九类，包括库和 API 参考、产品验证、数据获取与分析、业务流程与团队自动化、代码脚手架与模板、代码质量与审查等。最佳技能专注于单一类别，涵盖过多功能会混淆智能体。团队发现，投入时间优化验证类技能对 Claude 输出质量的提升最显著。

智能体AnthropicMCP/工具教程/实践

关联讨论 4 条

推荐理由：这不是产品公告，而是从几百个内部技能中血泪总结出的实战手册。如果你想让Claude Code真正变成你的工程副驾驶，这9类技能和‘gotchas’章节至少省你三个月踩坑。

01:23

Claude：Blog（网页）

精选73

Anthropic 用 Claude 赋能自助数据分析

Anthropic 使用 Claude 自动化了 95% 的业务分析查询，整体准确率约 95%。其关键在于构建智能体分析栈（agentic analytics stack），通过数据基础层、维护验证流程和技能（skills）分别解决概念-实体歧义、数据过时和检索失败三大错误来源。相比编码场景，数据分析的难点在于将用户问题映射到正确的数据实体，而执行 SQL 反而是简单的。Anthropic 的数据科学团队因此得以专注于因果建模、预测和机器学习等战略工作。

智能体Anthropic教程/实践数据/训练

推荐理由：Anthropic 把内部用 Claude 搞自助分析踩过的坑全摊开，技能模板和「语义层优先」的强制流程是实打实的干货，做数据 agent 的团队可以直接抄作业。

01:21

Bloomberg：Technology（RSS）

49

高盛Minnis：AI是驱动市场的"代际性"力量

高盛集团全球另类资产发起部门主管Christina Minnis表示，人工智能投资热潮是一个“根本性、代际性”的现象，正在驱动市场并向整体经济扩散。

现象/趋势

01:20

Chubby♨️@kimmonismus

17

这大概是 GPT-5.6。要么明天，要么下周，我想。朋友们，准备好了。我们即将迎来一场狂野之旅！

leo 🐾: mercury-alpha

OpenAI其他

01:05

Thariq@trq212

25

如果这个提示词让你觉得写得很好，那是因为Suzanne在业余时间是一名作家！你可以在这里阅读她的短篇小说《Mall of America》：https：//suzannewang.com/mall-of-america 这是我最喜欢的关于人类境况且恰好涉及AI的短篇小说之一。

Thariq: been asking others at Anthropic how they stay in the loop with Claude and fully understand the work being done this is o...

Anthropic其他

00:51

Bloomberg：Technology（RSS）

67

Ray Dalio 称 AI 泡沫终将破裂，财富将转化为货币

亿万富翁投资者 Ray Dalio 表示，所有伟大的技术变革都会产生泡沫，他在蓬勃发展的 AI 市场中看到了泡沫迹象，并认为这个泡沫最终会随着财富转化为货币而破裂。

大佬观点现象/趋势

00:45

Ethan Mollick@emollick

60

大多数人，包括非常有成就的人，对LLM的运作方式没有准确的认知（他们凭什么有呢？）你可以从广泛的观念中看到这一点：认为AI只是从已知来源复制，或者它只能产生平均水平的答案，或者它不能产生新想法。

大佬观点现象/趋势

00:45

StepFun@StepFun_ai

44

阶跃星辰（StepFun）称其 Step 3.7 Flash 在与 DeepSeek V4-Flash 的物理编程测试中全面胜出。测试要求在不使用库的情况下，生成一个包含高尔顿板、旋转六边形弹球和同步节拍器三个场景的自包含 HTML5 canvas 动画，并实现真实物理。Step 3.7 Flash 输出 59.6k tokens（耗时 9分57秒），DeepSeek V4-Flash 输出 52.5k tokens（耗时 6分21秒）。尽管 DeepSeek 更快，但 StepFun 模型在物理模拟、视觉效果和逻辑渲染上均占优。主推文指出 Step 3.7 Flash 专为真实世界 agentic 编码任务设计，能保持复杂输出中逻辑、视觉和执行的一致性。

atomic.chat: StepFun Step 3.7 Flash smashed DeepSeek V4-Flash in a physics contest We gave two open-weight models the same task: writ...

DeepSeek编码评测/基准

00:17

elvis@omarsar0

66

微软SkillOpt论文：AI智能体技能实现自我进化

DAIR.AI的Elvis Saravia将微软SkillOpt论文集成到智能体编排器中后，所有智能体技能获得测试框架与自我演化机制。应用于多模态论文图表提取技能时，质量评分从0.73提升至0.93（+20点），提取结果显著改善。Saravia认为这是自我改进AI的早期范例，该思路可扩展至智能体模式优化、工具使用、上下文工程、智能体搜索及工作流评估等环节。他已基于SkillOpt启动多项后续实验。

智能体Microsoft多模态大佬观点