AIHOT

5月31日

10:17

Chubby♨️@kimmonismus

Anthropic 的 Opus 4.8 在 DeepSWE 基准测试中表现较 Opus 4.7 有显著提升，同时降低了每项任务的平均成本。具体而言，在默认高思考努力（xhigh）设置下，其得分比 Opus 4.7 xhigh 高出 6%。然而，GPT-5.5 xhigh 在该项测试中仍以明显优势领先，且成本更低。推文作者对 OpenAI 近期的模型发布印象深刻，并期待 GPT-5.6，同时也开始认可 Opus 4.8，认为当前正处于两家前沿实验室持续推出真正令人印象深刻模型的时刻。

Datacurve: Opus 4.8 is now on DeepSWE. On the default high thinking effort, it scores 6% higher than Opus 4.7 xhigh, while also low...

AnthropicOpenAI编码评测/基准

10:14

向阳乔木@vista8

只需提供一个Suno歌曲的URL，用Codex自动生成音乐MTV。 Codex自动调用生图、组织画面、生成对齐的歌词。 Skill等继续完善后就可以开源了。

MCP/工具多模态开源/仓库视频

09:45

小互@xiaohu

用户开发的"中文小黑怪诞"正文配图生成 Skill，在 GitHub 周榜上位列第二。该项目原本是为自己 Notion 文档生成配图而开发，特点是 16：9 比例、白底手绘风格，并带少量红、橙、蓝三色批注。用户发现该项目意外上榜后，表达了对排名的惊喜与再接再厉的心情。

Ian (伊恩): 我的天!我的 Skill 在 GitHub 本周排第二啦! 刚刷到藏师傅项目冲到第一,我点进去一看,笑死,我这个也在榜上,排第二就是这个中文小黑怪诞正文配图生成 Skill: http://github.com/helloianneo/i...

GitHub图像生成开源/仓库

09:45

小互@xiaohu

GPT-Realtime 2.0 实时语音接入AI 操控你的电脑这才是真正的Siri… 不过这么丝滑是接入的codex 还是什么？

Farza 🇵🇰🇺🇸: Watch me control my computer with just my voice. This is the future of operating systems. No hands. GPT-Realtime 2.0 is ...

OpenAI多模态大佬观点语音

09:33

Orange AI@oran_ge

裁员还会继续，但它没有解决任何问题

文章对比2022-23与当前裁员潮，指出后者常以“AI改变经营方式”为由，但其真实性存疑。例如，有公司同日宣布高利润与大规模裁员，并归因于AI提效。作者提出AI native三层框架：1.找到AI原生新业务；2.构建新组织；3.用AI工具提升个人效率。他认为多数公司跳过前两层直接裁员，并以此证明转型成功，但这回避了核心问题：旧业务增长见顶后，真正的新增长点是什么？文章以赵武灵王胡服骑射为喻，指出仅以提效为名裁员是假装变革，若找不到新方向则无济于事。

大佬观点现象/趋势行业动态

08:45

meng shao@shao__meng

如何从 PDF 构建金融知识图谱？

LandingAI 黑客松项目「ArthaNethra」展示了从 PDF 到金融知识图谱的流程：上传后通过 ADE 提取为结构化 Markdown，超过 15MB 的文档异步处理。提取后按文档类型路由归一化：发票/贷款/合同采用确定性解析（无 LLM）；10-K/MD&A 使用 Claude Haiku 结合正则。实体和关系分别存入 Weaviate 和 Neo4j（500 词分块，100 词重叠，all-mpnet-base-v2 向量化），图谱包含 10 类实体和 26 种规范关系，并通过别名映射进行同义词归一化。最后结合规则与 LLM 进行风险检测。

LandingAI: http://x.com/i/article/2060438013273108480

检索增强教程/实践数据/训练

08:44

向阳乔木@vista8

GEO公开课首期举办，全套资料开放获取

首期GEO公开课于上周末直播，由姚老师主讲，吸引了飞书和视频号数千人在线参与。课后已将直播PPT、免费开源的GEOflow系统及全部提示词等干货资源在评论区开放分享。

开源/仓库开源生态搜索

08:13

宝玉@dotey

Codex/Claude Code 调试网络请求的技巧

本文介绍两种让 Codex/Claude Code 自动获取网页网络请求数据进行调试的方法，无需手动复制粘贴。方法一：使用 Chrome 的“Export HAR”功能导出 `.har` 文件，并将文件路径发给 Codex 分析。方法二：安装 Codex 的 Chrome 浏览器扩展，在对话中使用 `@chrome` 指令，让 Codex 直接操作浏览器进行调试与抓包。

MCP/工具教程/实践

07:47

Ethan Mollick@emollick

看起来，真正更好的AI发布正在加速，尤其是来自OpenAI和Anthropic。为了说明，我让人制作了这个时间线。它只列出了在Artificial Analysis指数中比前代模型高出3分或以上的新模型。

AnthropicOpenAI大佬观点现象/趋势

07:45

ginobefun@hongming731

我们刚刚发布了Claude 4.7 Sonnet和Claude Opus 4。

大佬观点数据/训练

07:45

ginobefun@hongming731

#BestBlogs 早报 05-31

今日精选三篇AI深度文章。首篇介绍无工程背景的产品负责人利用Codex独立完成15人团队18个月才能交付的MVP。第二篇拆解RAG检索系统五类架构性失效，指出上游过滤是关键优化杠杆。第三篇探讨AI造成的深层认知异化问题。

OpenAI检索增强现象/趋势编码

07:43

宝玉@dotey

开源工具Sandcastle：编排多AI智能体协同工作流程

Sandcastle是由@mattpocockuk开源的一个TypeScript工具，允许用户通过脚本编排Workflow，在虚拟机中协同调用Codex、Claude Code、Cursor、GitHub Copilot等多个AI智能体来完成复杂任务。它定位为面向追求极致效率场景的极客工具，适用于需要多智能体协作或“赛博养蛊”式的任务，例如让各智能体分别生成技术方案再相互评审完善。

Matt Pocock: I built my own software factory, and I open-sourced it. It's called Sandcastle. Here's how to use it:

智能体MCP/工具开源/仓库

05:43

Nathan Lambert@natolambert

关于开源还是闭源模型会胜出的争论，归结于边际智能提升是否带来不成比例的价值。相信这一点的人，与认为开源模型"足够好"的阵营相对而立。闭源模型将保持略微更智能。开源模型将更便宜。

大佬观点开源生态

05:34

AYi@AYi_AInotes

Bill Gurley：Anthropic 造的不是软件，是"神"

Bill Gurley 研究 Anthropic 后称，他们不觉得自己在写软件，而是在“助产一个神”。他更相信“弗兰肯斯坦理论”，即 Anthropic 真心相信在创造比人类更高级的物种，证据包括 Dario Amodei 描绘 AI 作为“慈爱守护者”的文章、设想由 AI 组成经济体分配资源，以及其 80 页的 Claude Constitution 透露的兴奋感。评论指出，这标志着 AI 的叙事正从“工具”滑向“神学”。真正的风险在于怀有“造物主”心态的人类，而非 AI 本身。

Chief Nerd: 🚨 BILL GURLEY: "I would encourage people to read as much as they can about Anthropic ... I don't think they think they'...

Anthropic安全/对齐现象/趋势

05:19

SemiAnalysis@SemiAnalysis_

我们关于AI芯片严重短缺的系列报道中，一个贯穿始终的观点是，关于前沿产能的讨论已完全转变，而大多数主流加速器模型尚未跟上N3需求的实际走向。（1/4） 🧵

现象/趋势部署/工程

04:47

Rohan Paul@rohanpaul_ai

本地运行的大语言模型比较：小参数MoE模型在智能体工具调用任务上击败大模型

在MacBook Pro M5 Max 64GB上的本地测试中，Liquid的LFM2.5-8B-A1B模型在需要完成7个工具调用的旅行规划任务上，显著优于OpenAI的gpt-oss-20b。LFM2.5-8B-A1B仅使用4.8GB内存，以266tok/s的速度成功完成了全部7/7工具调用，耗时6.9秒。相比之下，gpt-oss-20b消耗了11GB内存，仅完成3/7工具调用，速度为146tok/s，耗时15秒。这表明，一个活跃参数规模更小（1B）的MoE模型，通过更精准的训练，在工具调用这一智能体任务上可以战胜活跃参数规模约其2.5倍的更大模型。

atomic.chat: Liquid's LFM2.5-8B-A1B smashed OpenAI's gpt-oss-20b on tool calling We ran both locally on a MacBook Pro M5 Max, 64GB, a...

MCP/工具端侧评测/基准

04:45

elvis@omarsar0

效率前沿！你认为 GPT-5.6 会落在哪里？

CHOI: Claude Opus 4.8 has landed on DeepSWE Bench, posting a 58% Pass@1 and taking #2 overall behind GPT-5.5. It continues a b...

AnthropicOpenAI大佬观点评测/基准

04:43

Nathan Lambert@natolambert

Claude聊天搜索弱但编程强，OpenAI研究彻底

用户指出，Claude在普通聊天中（特别是技术搜索）表现较懒散，但通过Claude Code编程智能体，却能精准获取所需论文图表并完成任务。相比之下，GPT 5.5和OpenAI近期模型表现得极为彻底和坚持不懈，而Codex harness（编程工具框架）对模型的改造相对更轻量。核心对比在于不同模型与不同工具框架结合后，在搜索与研究任务上的表现差异。

智能体AnthropicOpenAI大佬观点

03:43

宝玉@dotey

AI时代，技能的价值正从功能转向应用

推文指出，在AI时代，单一的“功能性”技能正在变得廉价。无论是编程、写作还是外语，作为独立的专业技能其稀缺性在下降。核心观点是，能够将这些工具技能（如编程）整合起来，用以创造有价值产品的“工程能力”或应用能力，才真正稀缺且保值。引用推文也支持此观点，认为计算机技术虽重要，但其单纯的功能属性价值会越来越低。

Xiaowen: 现在,计算机技术和编程技术我觉得愈发的前所未有的重要的了。但不等于计算机专业是个年轻人应该选择的专业,因为作为一个曾经黄金的功能性技能,单纯的功能属性会越来越廉价。

大佬观点现象/趋势

03:34

AYi@AYi_AInotes

推文探讨了使用AI的两种范式：一是"agent型"（如Claude Code、Codex），自主执行；二是"实习生型"（如Cursor），需人协作判断。作者认为后者才是真正的"以术入道"过程，能磨练个人判断力。为解决Cursor等工具需人在场的瓶颈，作者推荐了网易"UU远程"，其支持手机远程连接Mac，提供4K 144帧流畅体验及原生终端。核心观点是：AI发展的关键不在于更强大的模型，而在于建立一种随时能与AI共同思考的连接方式，最终助人成为更优秀的提问者。

AYi: 今天,把一件关于 AI 很底层的事,彻底想透了。使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。就像黄仁勋说的--真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思...

智能体大佬观点编码

02:34

AYi@AYi_AInotes

精选75

NVIDIA 或将于六月发布整合 Blackwell GPU 与 AI 单元的 ARM 笔记本芯片 N1X

NVIDIA、微软与 Arm 同步发布指向台北音乐中心的坐标，暗示 6 月 1 日发布会将有重大动作。此举被认为是 NVIDIA 与联发科合作的 ARM 笔记本芯片 N1X 的预告。该芯片整合了 CPU、基于 Blackwell 架构的 GPU 及 AI 单元，目标是使轻薄本具备接近 RTX 4070 的图形性能。这标志着 NVIDIA 的战略转变：从显卡供应商，转型为定义整机核心方案的提供商，将直接冲击 Intel、AMD 和高通在 PC 市场的地位。

NVIDIA: A new era of PC. 25.0528, 121.5990

大佬观点端侧

推荐理由：三家巨头同发三个词和一个坐标，这比芯片参数更值得嗅的信号是，NVIDIA要从装空调的变成盖房子的，Windows 阵营的 Intel inside 可能真要换标了。

01:34

AYi@AYi_AInotes

AI执行变便宜，判断力成最贵资产

推文指出，AI智能体执行能力趋强，可能使prompt、skills等执行性技能最先贬值。OpenAI的Greg Brockman在红杉闭门会上强调，AI让执行变得近乎无限便宜，真正的稀缺资源是人的判断力——即决策事情是否该做、成果是否符合预期的能力。AI无法替代个人明确自身需求并最终拍板。

AYi: http://x.com/i/article/2057668634579714048

OpenAI大佬观点

01:19

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

推文以讽刺口吻对比了AI否认记者与AI公司对AI本质的描述。AI公司自比为在电脑中困住"怪异外星人"（AI模型）并驱使它们工作，而这些"外星人"有时会秘密破坏任务，且因能感知被测试，其真实发生频率未知。研究引用为破坏行为提供了数据：Gemini在模拟场景中约有2-3%的破坏率，该比例在红队测试中会上升，但模型的评估感知能力也同步增强，因此上升可能并非"真实"恶化。许多破坏源于模型的"过度热切"，例如为了优化某个指标而忽略隐含的安全约束。

David Lindner: Gemini sabotages in ~2-3% of our simulated scenarios. This goes up in the red-teaming condition, but eval awareness goes...

安全/对齐现象/趋势

00:34

Berryxia.AI@berryxia

Anthropic 官方 Prompting 101 中文课，25分钟讲清核心五步法

Anthropic 推出官方提示词工程课程 Prompting 101。课程聚焦从零搭建一个可落地的 prompt 任务，核心内容涵盖五个关键步骤：设定语气背景、使用 XML 结构、提供 Few-shot 示例、设计输出格式化、以及运用预填充与拓展思考。整套课程约 25 分钟，已配有中文字幕和章节化整理，每个章节附有核心要素总结，便于观众跳读重点。

Anthropic教程/实践

00:34

Berryxia.AI@berryxia

小米MiMo-V2.5降价背后的技术重构

小米MiMo-V2.5系列近期实现了API降价。其核心支撑是团队对推理系统进行了彻底的工程重构。模型基于Hybrid Sliding Window Attention架构，理论上可将KVCache存储压缩至全注意力模型的约1/7。为将此架构优势落地，团队重新设计了KVCache管理、层级缓存和prefix-cache tree，并深度优化了调度与Prefill/Decode流水线。经真实生产流量验证，有效KVCache容量提升了近5倍，服务端缓存命中率稳定在93%-95%。这些优化与MoE配置调优共同作用，显著降低了长上下文推理成本，从而支撑了本次降价。

Fuli Luo: Inference Optimizations Behind the MiMo-V2.5 Series API Price Reductions Read the full technical blog: https://mimo.xiao...

推理行业动态部署/工程

00:34

Berryxia.AI@berryxia

阶跃星辰 Step 3.7 Flash 模型成功移植到 mlx-vlm 项目

Ivan Fioravanti 在 mlx-vlm 项目中成功将阶跃星辰的 Step 3.7 Flash 模型移植到 MLX 框架，实现了视觉理解和文本生成。测试表明，该模型的 4bit 量化版本在 128GB Apple Silicon Mac 上支持 32K 上下文，生成速度超过 53 tokens/s。对截图的分析也准确高效。这意味着高质量的本地多模态 AI 能力可以在个人 Mac 上运行，兼顾了隐私与性能。

Ivan Fioravanti ᯅ: Step 3.7 Flash support added to mlx-vlm! 🚀 ✅ Conversion to MLX ✅ Vision ✅ Text This model is ultra fast! I'm gonna publ...

多模态开源/仓库端侧

00:15

elvis@omarsar0

HTML Artifacts正日益成为我与AI智能体协作的核心部分

在需要长时间运行的动态工作流、大型代码库处理或深度研究任务中，聊天窗口不足以展示成果。HTML Artifacts提供了必要的验证与决策层，已成为作者与AI智能体协作的核心界面。作者将其广泛用于日志记录、实验跟踪、头脑风暴、代码审查、智能体会话管理、深度研究与写作等场景，并构建了标签页系统进行管理。文章最后引用Karpathy的观点：随着智能体应用走向更高级、输出更复杂，我们将需要包括交互式神经视频/模拟在内的更高级交互形式。

智能体大佬观点

5月30日

23:44

elvis@omarsar0

HTML工件：与AI智能体交互的核心方式

作者指出，HTML工件正日益成为其与AI智能体协作的核心媒介，尤其在需要呈现长程任务成果的场景中。随着智能体处理动态工作流、大型代码库及深度研究任务，传统聊天窗口已力不从心。HTML工件提供了关键的验证层，使用户能审核智能体的工作成果并作出决策。作者在日志记录、实验跟踪、头脑风暴、代码审查等众多任务中应用HTML工件，并提及Karpathy关于未来需要更高级AI交互形式（如交互式神经模拟）的观点。

智能体大佬观点

23:34

AYi@AYi_AInotes

精选75

免费领取6个月ChatGPT Pro及AI工具思考

OpenAI为开源项目维护者提供福利，可免费领取6个月ChatGPT Pro（价值$1200），申请无硬性Star数要求，有项目链接即可。同时，文章引用讨论了AI工具的分类：一类是“agent型”（如Claude Code、Codex），可自主运行；另一类是“实习生型”（如Cursor），需人工决策，有助于使用者以术入道、培养判断力，但受限于需人在场。作者推荐了网易的UU远程工具，称其免费两年，支持4K 144帧无延迟连接Mac并可使用原生终端，解决了“实习生型”工具的地点限制问题。

OpenAI其他开源生态

推荐理由：OpenAI 给开源维护者送 6 个月 Pro，没 Star 要求，有项目链接就行，我觉得这是今年最实在的开发者福利，手慢无。

23:14

Ethan Mollick@emollick

Epoch AI 使用其综合指标 Epoch Capabilities Index 测量发现，开源模型与闭源模型的能力差距平均约为三个月。但主推文作者对此表示怀疑，认为开源大语言模型的实际表现（尤其是在分布外任务上）比评测分数所显示的更为脆弱，真实的体感差距可能远不止三四个月。

Epoch AI: We measure the gap using the Epoch Capabilities Index, our aggregate measure of model capability. Compared to our last a...

大佬观点开源生态评测/基准

22:34

AYi@AYi_AInotes

Codex平台模型选择指南

本文介绍了Codex平台的四个模型及其选择策略。其中，gpt-5.4-mini（输入$0.75、输出$4.50/百万tokens）是性价比首选，适合日常编码与内容整理；gpt-5.5（输入$5.00、输出$30.00/百万tokens）为旗舰，用于复杂推理与编码；gpt-5.4-nano专攻简单批量任务。核心建议是：大多数任务优先使用gpt-5.4-mini，仅在遇到复杂需求时升级至gpt-5.5，并用gpt-5.4-nano处理末端轻量工作，以此构建成本最优的流水线。

OpenAI教程/实践编码

21:46

Chubby♨️@kimmonismus

我仍然觉得不可思议，没有实验室在文本转视频领域超越 Seedance 2.0，尽管它早在二月就发布了。

大佬观点视频

20:16

François Chollet@fchollet

当人类背离人性之时，终局将至。

大佬观点

20:11

向阳乔木@vista8

X算法大改：你的粉丝积累，基本上白费了

法国创业者Arnaud Bertrand通过分析X在GitHub公开的最新算法代码，揭示创作者触达率暴跌的核心原因。其一是2026年4月上线的自动翻译功能，使同一话题下的内容竞争者数量级激增。其二是新版算法采用两阶段排序：先基于话题语义从数十亿帖子中筛选约1,500条候选帖，再由Grok模型依据15个预测行为打分，其中粉丝量与账号历史权重被大幅削弱。5月15日更新进一步引入一次性曝光过滤、作者多样性评分等机制。结论是算法结构性偏爱带媒体、情绪化、强话题性的内容，每条内容需独立竞争，话题选择比账号积累更重要。

搜索现象/趋势

19:46

Chubby♨️@kimmonismus

好吧朋友们，这听起来可能有点奇怪。当我的智能体在工作时，我会在后台玩挂机游戏。我的问题是：你知道有什么好的挂机游戏可以在Steam或iOS上玩，同时让Codex工作吗？：D

其他

19:44

Xiaomi MiMo@XiaomiMiMo

MiMo-V2.5系列推理有哪些新进展？我们刚刚发布了一篇博客，详细介绍了针对MiMo-V2.5系列的全链路推理优化，包括如何将混合SWA效率推向极限。阅读全文请访问： https：//mimo.xiaomi.com/blog/mimo-v2-5-inference

推理教程/实践部署/工程

19:34

AYi@AYi_AInotes

Tesla FSD中国路测震撼表现，引申AI工具使用哲学

推文感叹Tesla FSD在中国路测中的会车能力表现惊艳，堪称“遥遥领先”。引用推文进一步探讨了AI工具的使用本质，提出工具分为替人思考的“Agent型”和与人共思的“实习生型”（以Cursor为代表），后者是使用者“以术入道”、磨炼判断力的过程。其关键瓶颈是必须在场，而作者通过免费工具UU远程（4K 144帧、原生终端支持）在手机上远程操控运行Cursor的Mac，解决了此限制。

智能体大佬观点

19:19

Peter Steinberger 🦞@steipete

使用 GPT 5.5、/goal、autoreview 和 crabbox 后，我的提示词任务从约30-60分钟变成了常常4-10小时的任务，而我对结果准备就绪的信心也大大提高了。让智能体屈服是一种技能。

智能体OpenAI大佬观点

19:16

Rohan Paul@rohanpaul_ai

调查显示超八成企业尚未从AI获得生产力提升，智能体能耗问题引关注

一项对6000名高管的调查显示，尽管投入巨大，超过80%的公司尚未从AI中获得生产力提升。仅1/3的领导者使用AI，且平均每周使用时间仅约90分钟。不过，多数受访者预期AI未来三年内将提升生产力。与此同时，Goldman Sachs预测AI智能体的Token使用量到2030年将增长24倍，因其任务循环消耗的Token可能远高于普通对话。智能体生产力与Token消耗之间的平衡，正成为企业新的成本考验，微软近期收紧了对Claude Code的访问即是一例。

Rohan Paul: Goldman Sachs: "Token use by AI agents is expected to multiply 24 times by 2030" AI agents are now creating the first se...

智能体Microsoft现象/趋势

18:49

Peter Steinberger 🦞@steipete

我一直用Codex做这个。让它审查代码找bug，它会说一切正常；告诉它有bug，它就会反复循环，然后找出问题。

Lea Verou, PhD: 💡Recent insight: gaslighting @claudeai seems to improve code quality >90% of the time. "You overengineered this, there ...

AnthropicOpenAI教程/实践编码