AIHOT

全部动态一手 · 399 条

全部一手资讯 X 论文

6月3日周三

6月2日周二

6月1日周一

5月30日周六

5月29日周五

5月28日周四

5月27日周三

5月26日周二

6月3日

03:23

Gary Marcus：The Road to AI We Can Trust（RSS）

突发：AI理智的梦想成真时刻

Gary Marcus在其个人专栏中分享了一个真实的瞬间，以此反映了他对于人工智能实现稳定、可靠（即“理智”）发展的思考与期许。

大佬观点

00:45

Claude：Blog（网页）

精选74

Claude Code团队实践：智能体编程如何重塑工程组织与流程

在Code w/ Claude SF 2026活动上，Claude Code工程团队分享了将智能体编程设为默认工作方式后带来的流程与结构变革。核心变化包括：规划转向即时（JIT）模式，强调快速原型与反馈；上下文收集变为“先问Claude”；代码审查中Claude处理风格与测试，人工专注于法律、安全等专业判断。新范式下，工程瓶颈从编写代码转向验证、审查与安全维护。

Anthropic大佬观点现象/趋势部署/工程

关联讨论 2 条

推荐理由：Anthropic 工程总监把 Claude Code 团队流程全晒了出来，从抛弃半年路线图到代码审查只留专家复审，每一步都反直觉但实战有效，工程领导者直接抄作业。

00:37

Tomer Tunguz 博客（VC 分析）

精选61

开放模型的繁荣生态

根据OpenRouter平台数据，自2025年以来，开放模型使用量显著增长。最新数据显示，开放权重模型产生了69.1%的token使用量，闭源模型为30.9%。新模型的发布会吸引开发者测试，推动token使用量达到新的平台期。开放模型市场内部竞争激烈，领导地位频繁更迭，如DeepSeek的早期优势在2025年末至2026年初被MiniMax与Kimi模型取代，随后MiMo、Qwen、腾讯Hy3、阿里巴巴及Arcee等模型的发布再次改变了份额格局。尽管开放模型目前仍只占推理总量的一小部分，但激烈的竞争与增长表明，开发者正越来越愿意将生产流量路由至开放模型。

开源生态现象/趋势

推荐理由：开放模型在OpenRouter上的token份额已到69%，而且每轮新模型发布都会把使用量推上一个台阶，做推理基础设施的应该重视这个信号。

00:22

Gary Marcus：The Road to AI We Can Trust（RSS）

精选58

Gary Marcus：为什么事情终将崩塌

知名人工智能批评者Gary Marcus在其关于可信赖AI的专栏中，探讨了人工智能发展面临的根本性挑战。文章开篇即指向问题的核心，指出相关数学理论的局限性与人类心理的复杂性，是导致AI系统最终可能出现问题的根源。

大佬观点安全/对齐

推荐理由：Marcus用数学和心理学双重框架解释AI信任为何必然崩溃，比他以往只说深度学习不可信更完整，但核心还是那套，做安全的人可以看看有没有新论据。

6月2日

13:16

公众号：面壁智能（MiniCPM）

对话刘知远：中国AI要"向外卷"，大模型密度定律登上《自然·机器智能》封面

面壁智能首席科学家刘知远提出“大模型密度定律”，该研究登上《自然·机器智能》封面，发现智能密度每3.5个月翻倍。他认为中国AI需“向外卷”，深入产业场景，而非重复OpenAI路径。刘知远指出中国模型与顶尖仍有差距，DeepSeek-V4尚未超越Claude Opus，原始创新是最大短板，但DeepSeek-R1在未公开路线下的创新值得肯定。他还强调智源研究院作为“中间地带”对原始创新的支持作用。

大佬观点现象/趋势端侧

01:26

Google Blog：AI（RSS）

谷歌员工如何使用 Gemini 制作 Google I/O 2026

本文介绍了谷歌员工使用 Gemini 模型来制作 2026 年的 Google I/O 开发者大会。

Google现象/趋势

00:35

Tomer Tunguz 博客（VC 分析）

精选62

AI看跌情绪地图

金融市场对AI的看跌情绪正从整体上升转向板块分化。上季度，软件、半导体、云及超大规模公司的空头比例中位数上升约24%。GPU数据中心业务空头股份在过去一年激增60%。AI云与新型云公司的当前空头比例中位数最高，达16.8%，SaaS与开发工具领域随后，分别为9.5%和8.9%。相比之下，超大规模公司和NVIDIA的空头比例极低，仅为1.1%和1.2%。市场怀疑主要针对那些AI业务仍依赖未来资本、需求或运营杠杆的中小型公司。

现象/趋势

推荐理由：这份AI做空地图把市场怀疑论的矛头指向了谁说得明明白白，GPU云和AI SaaS被看空得最狠，但NVIDIA和超大规模云商几乎没被碰，做投资或者关心谁在裸泳的可以认真看看。

6月1日

22:38

Hugging Face：Blog（RSS）

精选60

超越LLM：为何可扩展的企业AI采用取决于智能体逻辑

可扩展的企业AI采用需超越大语言模型，依靠智能体逻辑来引导模型执行动态、长周期且受约束的企业工作流，从而提升质量、降低成本并建立信任。文中以IBM watsonx Code Assistant for Z为例，展示了智能体逻辑如何通过程序分析等技术，在理解大型遗留代码库时，相比纯LLM基线方法，能以约30倍更低的token消耗达到更优性能。在加速测试生成任务中，该方法亦能使代码覆盖度提升20%-45%，同时token消耗降低最高达15倍。

智能体推理现象/趋势部署/工程

推荐理由：不是又一篇炒作 agent 的文章，IBM 拿真实项目数据说清楚了‘agent logic’怎么让大模型在企业落地时既降本又增效。

22:06

Nathan Lambert：Interconnects（RSS）

精选66

开源与闭源模型在不同的增长曲线上

当模型智能的微小提升能直接转化为实际价值时，开源与闭源模型正沿着不同的增长路径发展。闭源模型通过在特定场景下提供更高的边际智能来创造价值，而开源模型则在其他维度寻找增长点，两者形成了差异化的竞争格局。

大佬观点开源生态

推荐理由：Nathan Lambert 这篇文章一反所有人都在讨论「开源能否追上闭源」的调调，直接指出两者走的根本不是同一条增长曲线，做产品选型的真该看看。

01:14

Gary Marcus：The Road to AI We Can Trust（RSS）

精选58

教皇似乎比Geoffrey Hinton更懂人工智能

这一观点强调，单纯分析AI的输出内容，无法还原其生成过程与背后的推理逻辑，触及了当前AI可解释性研究的核心挑战。

大佬观点安全/对齐现象/趋势

推荐理由：Gary Marcus从教皇演讲抓到一个关键差距，话语和真实推理过程是两码事，做可信AI的人值得琢磨一下。

00:00

Dario Amodei：Blog（网页）

精选56

Anthropic CEO Dario Amodei：AI指数级发展呼唤政策紧急应对

Anthropic CEO Dario Amodei 发表博客指出，AI 以指数级速度发展——四年内模型从勉强写出一行连贯代码到编写主流 AI 公司的大部分代码，而政策制定周期却极其缓慢。Claude Mythos Preview 证明了前沿模型对网络安全构成真实威胁，可能冲击金融、关键基础设施和国家安全。Amodei 认为生物风险与 AI 自主风险即将接踵而至，呼吁全球重新审视监管、宏观经济、科学创新、国家权力和地缘政治五大领域。Anthropic 同日发布了前沿模型测试立法提案和就业替代政策框架，并承诺提供实质性资金支持。

Anthropic大佬观点安全/对齐政策/监管

关联讨论 4 条

推荐理由：虽然是十天前的文章，但 Dario 的长文仍是理解 AI 政策方向最完整的框架，还附带了立法提案，做安全或监管的产品人该细读。

5月30日

18:39

公众号：小米 MiMo

MiMo-V2.5 系列推理全链路优化：将 Hybrid SWA 效率推向极致

小米发布 MiMo-V2.5 系列模型（含 MiMo-V2.5、MiMo-V2.5-Pro），采用 Hybrid Sliding Window Attention（Hybrid SWA）架构，KVCache 存储与计算量均降至 Full Attention 的约 1/7。以 MiMo-V2.5-Pro 为例，70 层中仅 10 层为 Full Attention，60 层为 SWA（窗口大小 128）。团队围绕 KVCache 系统重构（双池管理、按层异步拉取、SWA-aware 前缀缓存树）及分布式缓存 GCache 等环节优化，使存储效率提升约 7×，显著降低长上下文推理成本。

推理教程/实践部署/工程

03:08

Google Blog：AI（RSS）

精选55

参与我们的 I/O 2026 测验：该测验由 Google AI Studio 氛围编程生成

Google 使用其开发工具 Google AI Studio，通过氛围编程（vibe coding）方式，创建了一个关于 Google I/O 2026 主要公告的在线测验。

Google教程/实践

推荐理由：Google 用 AI Studio 自己 vibe code 了个 I/O 测验，是想展示普通人也玩得转，但 quiz 本身信息量不大，想体验 vibe coding 的可以顺手玩玩。

02:52

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选64

Braintrust如何用Codex将客户请求转化为代码

Braintrust的工程师正在使用Codex结合GPT-5.5模型，以加速其实验运行与代码编写的流程。

智能体OpenAI教程/实践编码

推荐理由：真正的工程团队实操，不是 PPT 演示，如果你想了解 Codex 在生产环境中的落地效果，这篇比任何评测都实在。

02:12

Gary Marcus：The Road to AI We Can Trust（RSS）

Token至上时代结束之后会怎样？

文章简要指出，在“Token至上”的时代可能告一段落之后，对于人工智能（AI）的未来，存在两组截然不同的预测。

大佬观点现象/趋势

02:03

Steve Yegge：Medium（RSS）

技术面试的终结

作者基于超过35年的技术面试经验指出，该流程存在根本性缺陷。面试结果极不可靠，面试官意见高度不一致，且评分无法有效预测候选人实际表现。亚马逊的“Bar Raiser”和谷歌的“Hiring Committee”等补救机制并未从本质上解决问题。作者认为，当前的人才评估方式亟需一场根本性的变革。

大佬观点现象/趋势

01:07

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选56

可信第三方评估的共享操作手册

OpenAI 发布了一份关于第三方 AI 评估的指导框架，内容涵盖如何评估前沿系统的能力、安全防护措施及评估本身的有效性。

OpenAI安全/对齐教程/实践评测/基准

推荐理由：OpenAI 首次把模型评估的方法论打包共享，这份指南是给第三方评估者的操作手册，比零散的论文更落地，做评测的团队可以直接抄作业。

00:33

Tomer Tunguz 博客（VC 分析）

精选65

技能提炼

“技能提炼”是一种知识转移方法，由前沿大模型（如 Opus 4.7、GPT-5.1、Gemini 3 Pro）负责撰写并优化标准化的 SKILL.md 流程文件。然后，本地运行的小模型（如 Qwen 35B、Gemma 26B）直接执行这些文件。此过程不同于压缩模型权重的知识蒸馏、训练权重的指令微调或检索事实的 RAG，其核心是提取并转移操作流程，让小模型按步骤执行，从而形成前沿模型作教师、小模型作执行者的循环。

智能体MCP/工具大佬观点

推荐理由：Tomer 把个人代理的完整工作流摆了出来，用大模型写 skill 小模型执行，这条蒸馏思路比调 prompt 高级，想认真跑本地代理的人该盯一下。

5月29日

19:30

Hugging Face：Blog（RSS）

精选71

PyTorch 性能分析系列（一）：torch.profiler 入门指南

本文是 PyTorch profiling 系列的开篇，从最简单的矩阵乘法加偏置操作出发，逐步讲解如何使用 `torch.profiler` 进行性能分析。涵盖 profiler 设置、导出统计表格与 Chrome trace、解读 CPU 和 GPU 活动的时序关系，以及 `torch.compile` 对底层 CUDA kernel 调用链的影响。实验基于 NVIDIA A100-SXM4-80GB GPU 运行，面向基本掌握 PyTorch 但缺乏 profiling 经验的读者。

Hugging Face教程/实践部署/工程

推荐理由：PyTorch profiling 的陡峭学习曲线劝退了很多人，这篇用从零开始的方式把 trace 拆解得明明白白，想做性能优化的同学该收藏。

17:44

公众号：通义实验室（千问）

精选64

通义实验室发布教程：在 Android 手机部署 MCP 感知服务器

通义实验室发布教程，演示如何在 Android 手机上部署 MCP 感知服务器，使手机具备本地视觉与听觉分析能力。核心基于端侧 MNN 推理引擎和 Qwen3-VL 2B 模型（约 1.3GB），摄像头与麦克风采集的音视频在本地实时转化为结构化 JSON，再通过 MCP Tool 供 Claude Code 等云端 Agent 远程调用。整个过程不上传原始数据，仅传输语义提取结果。项目已开源，实测可识别红绿灯状态等场景。

MCP/工具多模态教程/实践端侧

推荐理由：如果你做Agent总觉得AI对物理世界是瞎子，这篇教程就是解药。把Qwen3-VL塞进手机当本地眼睛，不传原始视频只给结构化文字，隐私友好又能被Claude直接调用。

04:11

Gary Marcus：The Road to AI We Can Trust（RSS）

突发：史上三大IPO面临坏消息

客户正认识到，token消耗“已燃烧数百万美元，却未带来任何显著的投资回报”。这一现象对历史上三次最大的首次公开募股（IPO）构成压力，表明市场对AI投资的实际效益产生质疑。

大佬观点现象/趋势

00:33

Tomer Tunguz 博客（VC 分析）

精选61

AI智能体时代下的安全变革

Lemonade的CISO Jonathan Jaffe探讨了AI智能体时代的安全新挑战。他指出，AI对攻击者和防御者同样强大，但可被利用的漏洞窗口正在缩小，因为AI能更快地生成、审查和修补代码。为此，安全团队正向工程团队转型，例如Lemonade的安全部门均由工程师组成，并构建了包含智能体的内部AI平台。同时，每个智能体（单个终端上可能运行200到10000个）都需要被赋予身份，并在操作点由策略进行更复杂的管控，这超越了当前身份与访问管理系统的能力。

智能体MCP/工具大佬观点

推荐理由：Jaffe 给出的结论很提气，AI 对防御方的加成被市场严重低估了，尤其每个 Agent 必须拥有身份和策略控制这个预判，值得所有在做 Agent 架构的人看一遍。

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选61

LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能

LMSYS团队（Intel与SGLang）通过Dynamo和SGLang框架，为视觉语言模型（VLM）启用了异构编码-预填充-解耦（EPD）架构。该方案将视觉编码任务从GPU卸载至CPU（如Intel Xeon 6747P），与GPU协同工作。在Qwen3-VL-8B-Instruct模型的测试中，采用4 CPU + 1 GPU作为编码器、4 GPU作为预填充解码器（能力比R=12）的配置，在ISL/OSL 128/256、1080p 8张图像的负载下，实现了P99 TTFT和请求吞吐量约1.2倍至1.3倍的提升，并将P99 TPOT降低了约1.3倍至30倍。

多模态推理教程/实践部署/工程

推荐理由：做VLM服务部署的可以认真看一下，用CPU头节点做异构EPD分离，几乎零成本换来了TTFT和TPOT的显著提升，有完整脚本和benchmark，能直接上手试。

5月28日

23:41

Google Developers Blog（RSS）

精选64

社区如何利用Tunix和TPU训练Gemma学会"思考"

Google在Kaggle举办的Tunix黑客马拉松，挑战开发者利用TPU和有限算力，将小型基础模型转变为通用推理引擎。获胜团队通过多阶段后训练流程实现了这一目标，该流程结合了监督微调（SFT）与GRPO、SimPO等先进对齐技术。比赛结果表明，社区能够借助开源资源成功训练出高能力的结构化推理模型。

Google开源生态教程/实践数据/训练

推荐理由：Google 官方比赛总结，证明用 Kaggle TPU 和开源工具就能把 Gemma 训练出不错推理能力，对想自己微调模型的小团队是个实用参考。

21:11

Cloudflare Blog

我们如何构建Cloudflare的数据平台及其上的AI智能体

Cloudflare构建了名为Town Lake的统一分析平台，并基于此开发了内部AI智能体Skipper。

智能体教程/实践部署/工程

06:07

Claude：Blog（网页）

精选77

使用大语言模型保障源代码安全

本文分享了使用 Claude Opus 构建威胁模型、发现代码漏洞并进行验证、分类和修复的最佳实践。其核心流程是一个六步循环：威胁建模、沙箱隔离、漏洞发现、验证、分类和修复。作者指出，漏洞发现现在易于并行化，瓶颈已转移到后续的验证与处理阶段。以他们对开源软件的扫描为例，截至2026年5月22日已披露1,596个漏洞，其中97个已修补。指南建议结合代码库文档和专家访谈来构建准确的威胁模型，以降低误报，提升发现的可利用性。

智能体Anthropic安全/对齐教程/实践

推荐理由：Anthropic把这套用Claude扫代码漏洞的方法全公开了，1596个已披露漏洞，验证成了最大瓶颈，安全工程师的饭碗可能要重新定义。

03:33

Tomer Tunguz 博客（VC 分析）

精选61

软件之后是AI时代

软件时代正过渡至“智能体框架”时代。AI作为强大但需驯化的“野马”，其智能驯化包含七个核心组成部分：上下文与记忆、工具与行动、编排与循环、状态与持久性、沙箱与计算、可观测性与治理、成本与工作流优化。这些组件共同构成了一个生产级的智能体系统。这一转变将重塑软件竞争格局，模型通用化的未来中，最佳的智能体驾驭者将获胜。

智能体MCP/工具现象/趋势

推荐理由：Tomer 把 agent 时代的竞争拆成七个组件，不是空谈，而是给了创业公司一个具体的 check-list，做 agent 产品的值得对照一下。

02:06

Claude：Blog（网页）

精选67

AI智能体的零信任安全框架

Anthropic 发布了针对企业部署自主 AI 智能体的安全框架，指出前沿大语言模型正将漏洞利用周期从数月压缩至数小时。部署智能体面临双重风险：基础设施易受 AI 加速攻击，且智能体自身具备自主决策与执行能力。文章提出一个三层零信任架构（基础、高级、优化级）及八阶段实施流程，并概述了提示注入、工具投毒、记忆投毒等特有威胁。

智能体Anthropic安全/对齐教程/实践

推荐理由：当漏洞利用从数月压缩到数小时，安全架构必须同步进化。这篇框架把零信任落地到Agent场景，八阶段路线图和三级成熟度模型比泛泛的安全声明具体得多，企业安全团队值得细读。

01:05

Claude：Blog（网页）

CodeRabbit如何用Claude构建智能体编排系统

AI代码审查平台CodeRabbit发现，AI生成的代码常能通过编译与测试，却不符合开发者真实意图，根源在于开发者隐含假设AI理解上下文。为此，团队基于Claude构建了一个智能体编排系统，置于编码请求与智能体之间。该系统在代码生成前协调多个Claude模型进行结构化规划，输出可审查的产品需求文档，使需求显式化。系统每周助力审查超过200万个PR。

智能体Anthropic教程/实践编码

00:20

Hugging Face：Blog（RSS）

精选72

Reachy Mini 实现完全本地化语音交互

Reachy Mini 机器人现可通过 `speech-to-speech` 库实现完全本地化的语音交互，无需依赖云端。该方案采用级联流水线架构，对外提供 Realtime API 兼容的 WebSocket 接口。默认组件包括 Silero VAD 用于语音活动检测、Parakeet-TDT 作为语音转文本模型、通义千问（Qwen3-TTS）作为文本转语音模型。大语言模型推荐使用 llama.cpp 运行 Gemma 4。所有数据均在本地处理，保障了隐私且无 API 费用。

智能体Hugging Face教程/实践语音

推荐理由：小众硬件的本地语音实战，但HF这套开源管线证明端到端对话已完全可用，所有组件都可自由替换，想做本地化语音助手的人可以照抄。

5月27日

22:20

Hugging Face：Blog（RSS）

精选61

TRL 新增 Delta Weight Sync：通过 Hub Bucket 传输权重变化，每步从 1.2 GB 降至 20-35 MB

异步强化学习中，训练器每步需将完整模型权重（如1T参数checkpoint约1 TB）传输给推理引擎。TRL新增PR利用相邻RL优化步骤间约99%的bf16权重比特相同的特点，仅将变化的权重编码为稀疏safetensors文件，上传至Hugging Face Bucket并通知vLLM获取。在Qwen3-0.6B上，每步传输从1.2 GB降至20–35 MB。实验还展示了完全分离的训练场景：训练器、vLLM和Wordle环境分别位于不同机器和Hugging Face Space中，权重通过单个Hub bucket流动，无需共享集群、RDMA或VPN。

Hugging Face教程/实践数据/训练部署/工程

推荐理由：异步RL训练中权重同步的瓶颈被HuggingFace用稀疏增量方案解决了，带宽直接省了两个数量级，还给了可运行的TRL分支，做RL训练的可以直接上手试。

22:10

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选56

使用 Codex 构建自改进税务智能体

OpenAI、Thrive 与 Crete 合作，使用 Codex 构建了一个自改进的税务智能体。该智能体能够自动处理报税流程，提升工作准确性并加速整体工作流。

智能体OpenAI教程/实践

关联讨论 1 条

推荐理由：OpenAI 联合 Thrive 把 Codex 塞进税务流程，做出了能自我纠错的申报 agent，金融自动化的同学可以看看他们的错误反馈循环怎么设计的。

19:50

公众号：面壁智能（MiniCPM）

面壁智能发布 MiniCPM5-1B 端侧基座模型，FlagOS 完成云到端跨芯片 Day-0 适配

5月25日，面壁智能发布并开源端侧基座模型MiniCPM5-1B。该模型以1B参数在AA-Index获17.9分，超越所有4B以下开源基座模型。INT4量化后权重仅0.5GB，可在90%以上终端运行。FlagOS社区通过vLLM-plugin-FL推理插件完成跨芯片适配，覆盖英伟达、华为昇腾等8类AI芯片及ARM端侧，支持int8、bf16、fp32精度。多款芯片首token延迟低于NVIDIA H20原生基线；平头哥真武810E在长序列场景下单位算力token吞吐量达H20的93.3%和95.3%。

开源生态教程/实践端侧

17:51

公众号：腾讯元宝

腾讯元宝推出高考备考助手：时间规划、试卷分析与思维导图功能

腾讯元宝上线高考备考辅助功能，提供考前24小时备考管家，可帮助考生规划每日学习任务、一键导出时间表格并打印，还能设置任务提醒，如“该背单词啦”“全真模考时间到”。试卷分析功能支持上传考卷，快速梳理全卷题型与分值分布，帮助考生主攻提分核心考点。此外，元宝能将历史、政治等科目知识点转化为思维导图，并生成押韵记忆口诀，辅助考前快速复习。

教程/实践

04:27

Ethan Mollick：One Useful Thing（RSS）

精选78

选择保持人性

社交媒体平台上的帖子内容正变得越来越相似。这种趋同现象可能意味着大量内容正在被AI生成或同质化处理，引发了人们对于内容原创性与人类独特视角的讨论。

大佬观点

推荐理由：Ethan Mollick 这篇把 AI 时代‘保留人性’的抉择讲透了，不是技术问题而是身份问题，做产品的人尤其该读，它会改变你设计功能的默认前提。

03:31

Tomer Tunguz 博客（VC 分析）

精选58

智能体重力：谁在运行你的智能体？

在数据时代，数据重力是核心力量；而在智能体时代，智能体重力将扮演同样角色。智能体运行需要巨大算力，主要平台将激烈争夺以将其留在自家生态。平台上的智能体与数据越多，其智能体重力就越强。例如，Databricks在微软平台推出的某个功能，虽未明言此目的，却让用户更容易在Databricks中构建智能体，而非微软自家的Fabric。这可能使用户不知不觉间将高价值的智能体及数据工作负载迁移至该平台。因此，赢得并维持智能体重力，将成为智能体时代的核心竞争主题。

智能体大佬观点数据/训练

推荐理由：Tomer Tunguz 提出「Agent Gravity」概念，把数据平台竞争的逻辑从数据引力延伸到了代理引力，做 Infra 和做 Agent 的人都应该读一读，这可能会影响你对平台锁定的判断。

02:11

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选70

我们如何对不同产品中的Claude进行隔离控制

Anthropic通过三重机制控制Claude智能体的部署风险，包括用户误用、模型异常行为和外部攻击。其防护策略聚焦于三个层面：通过沙箱、虚拟机和网络出口控制限制智能体运行环境；利用系统提示词和模型训练引导其行为；以及对MCP服务器、第三方插件等外部内容实施细粒度权限管理。文章以Claude Code、claude.ai和Claude Cowork为例，阐述了不同产品如何设计对应的隔离架构。

智能体Anthropic安全/对齐部署/工程

推荐理由：Anthropic 这次没画饼，实打实把 Claude 三款产品两年来的安全坑和架构演变全摊开讲了，从沙箱逃逸到钓鱼攻击，做 agent 的人读一遍能少踩很多坑。

5月26日

23:49

Nathan Lambert：Interconnects（RSS）

精选67

未来展望：2026年5月的一些想法

文章展望了截至2026年5月AI领域的动态。内容涉及 Gemini Flash 3.5 的发布、名为 Mythos 的新产品或项目、开源与闭源生态平衡（open-closed balance）的讨论、美国开源力量的显著增长（America's open-source surge），以及由此引发的新兴权力博弈（emerging power struggles）。

大佬观点开源生态现象/趋势

推荐理由：Nathan Lambert把Gemini Flash、Mythos等事件串在一起，揭示开源闭源博弈深层逻辑，对搞清行业走向很有启发。

22:34

Runway：News（网页）

精选74

Project Luxo：跨越AI媒体的恐怖谷

Runway通过Project Luxo研究发现，AI生成视频已跨越“恐怖谷”。他们向创意生态从业者展示了《The Rogue》等AI短片及广告样片，评估显示观众开始关注故事本身，而非技术瑕疵。所有作品均由单人团队制作，耗时从3周到4小时不等。Runway认为，这标志着AI媒体成熟——当技术足够好以至于“隐形”，观众沉浸于故事时，便实现了这一跨越。

多模态现象/趋势视频

关联讨论 1 条

推荐理由：Runway放出三部AI短片和一份93%好评的观众调研，正式宣告AI视频跨过恐怖谷。片子质量加上单人几小时出片的效率，让“技术隐身于故事”变得很具体。

22:03

Gary Marcus：The Road to AI We Can Trust（RSS）

Uber COO称未见AI投入产出成比例增长

Uber首席运营官Andrew Macdonald表示，公司并未看到在AI上投入更多成本后，生产力获得了相应的提升。

大佬观点现象/趋势