AIHOT

全部动态

全部一手资讯 X 论文

5月31日周日

5月30日周六

5月31日

08:45

meng shao@shao__meng

46

如何从 PDF 构建金融知识图谱？

LandingAI 黑客松项目「ArthaNethra」展示了从 PDF 到金融知识图谱的流程：上传后通过 ADE 提取为结构化 Markdown，超过 15MB 的文档异步处理。提取后按文档类型路由归一化：发票/贷款/合同采用确定性解析（无 LLM）；10-K/MD&A 使用 Claude Haiku 结合正则。实体和关系分别存入 Weaviate 和 Neo4j（500 词分块，100 词重叠，all-mpnet-base-v2 向量化），图谱包含 10 类实体和 26 种规范关系，并通过别名映射进行同义词归一化。最后结合规则与 LLM 进行风险检测。

LandingAI: http://x.com/i/article/2060438013273108480

检索增强教程/实践数据/训练

08:44

向阳乔木@vista8

73

GEO公开课首期举办，全套资料开放获取

首期GEO公开课于上周末直播，由姚老师主讲，吸引了飞书和视频号数千人在线参与。课后已将直播PPT、免费开源的GEOflow系统及全部提示词等干货资源在评论区开放分享。

开源/仓库开源生态搜索

08:23

Bloomberg：Technology（RSS）

56

SpaceX 和 OpenAI 的巨额融资热潮，点燃投资者对亚洲下一波人工智能赢家押注

投资者正积极寻找可能从美国一波前所未有的股票发行潮中受益的企业。当前市场焦点日益集中在亚洲的供应链环节上，投资者押注该区域将诞生下一阶段的人工智能领域赢家。

OpenAI现象/趋势行业动态

08:13

宝玉@dotey

67

Codex/Claude Code 调试网络请求的技巧

本文介绍两种让 Codex/Claude Code 自动获取网页网络请求数据进行调试的方法，无需手动复制粘贴。方法一：使用 Chrome 的“Export HAR”功能导出 `.har` 文件，并将文件路径发给 Codex 分析。方法二：安装 Codex 的 Chrome 浏览器扩展，在对话中使用 `@chrome` 指令，让 Codex 直接操作浏览器进行调试与抓包。

MCP/工具教程/实践

07:47

Ethan Mollick@emollick

60

看起来，真正更好的AI发布正在加速，尤其是来自OpenAI和Anthropic。为了说明，我让人制作了这个时间线。它只列出了在Artificial Analysis指数中比前代模型高出3分或以上的新模型。

AnthropicOpenAI大佬观点现象/趋势

07:45

ginobefun@hongming731

15

我们刚刚发布了Claude 4.7 Sonnet和Claude Opus 4。

大佬观点数据/训练

07:45

ginobefun@hongming731

48

#BestBlogs 早报 05-31

今日精选三篇AI深度文章。首篇介绍无工程背景的产品负责人利用Codex独立完成15人团队18个月才能交付的MVP。第二篇拆解RAG检索系统五类架构性失效，指出上游过滤是关键优化杠杆。第三篇探讨AI造成的深层认知异化问题。

OpenAI检索增强现象/趋势编码

07:43

宝玉@dotey

61

开源工具Sandcastle：编排多AI智能体协同工作流程

Sandcastle是由@mattpocockuk开源的一个TypeScript工具，允许用户通过脚本编排Workflow，在虚拟机中协同调用Codex、Claude Code、Cursor、GitHub Copilot等多个AI智能体来完成复杂任务。它定位为面向追求极致效率场景的极客工具，适用于需要多智能体协作或“赛博养蛊”式的任务，例如让各智能体分别生成技术方案再相互评审完善。

Matt Pocock: I built my own software factory, and I open-sourced it. It's called Sandcastle. Here's how to use it:

智能体MCP/工具开源/仓库

06:43

Simon Willison 博客

61

Anthropic 公开其跨产品 AI 沙盒技术细节

Anthropic 公开其在不同产品中隔离 Claude 的沙盒实现细节。Claude.ai 使用 gVisor；本地运行的 Claude Code 在 macOS 上使用 Seatbelt，在 Linux 上使用 Bubblewrap；Claude Cowork 则运行完整虚拟机。其核心理念是通过硬边界限制 AI 智能体的行为范围，从而确保即使在面临用户操作、模型探索或攻击者威胁时，只要凭证不进入沙盒就无法泄露。文章同时回顾了此前披露的 api.anthropic.com/v1/files 文件泄露风险案例，并指出 Anthropic 开源的 sandbox-runtime 工具已趋成熟。

智能体Anthropic安全/对齐

05:49

MarkTechPost（RSS）

57

2026年最佳文本转语音（TTS）模型：基于基准测试的对比

文章对2026年领先的商用与开源权重文本转语音（TTS）模型进行了排名对比。评估维度包括语音质量、延迟、成本、语言覆盖范围及许可协议，旨在帮助工程师根据具体应用场景选择合适的模型。

多模态评测/基准语音

05:43

Simon Willison 博客

精选73

在浏览器中通过 Pyodide 和 Service Worker 运行 Python ASGI 应用

作者展示了如何在浏览器中通过 Pyodide 和 Service Worker 运行 Python ASGI 应用。此前的 Datasette Lite 使用 Web Workers，但无法执行 `<script>` 标签中的 JavaScript。新方案由 Claude Opus 4.8 协助完成开发，解决了这一问题。作者已展示了基础的 ASGI FastCGI 演示和运行 Datasette 1.0a31 的演示，并计划后续将此方法应用于升级 Datasette Lite。

GitHub教程/实践端侧部署/工程

推荐理由：Simon Willison 用 Service Worker 让 Python ASGI 在浏览器里真正跑了起来，这个技巧补上了 Datasette Lite 长期缺的 JS 执行能力，搞 Pyodide 的值得看看。

05:43

Nathan Lambert@natolambert

50

关于开源还是闭源模型会胜出的争论，归结于边际智能提升是否带来不成比例的价值。相信这一点的人，与认为开源模型"足够好"的阵营相对而立。闭源模型将保持略微更智能。开源模型将更便宜。

大佬观点开源生态

05:34

AYi@AYi_AInotes

50

Bill Gurley：Anthropic 造的不是软件，是"神"

Bill Gurley 研究 Anthropic 后称，他们不觉得自己在写软件，而是在“助产一个神”。他更相信“弗兰肯斯坦理论”，即 Anthropic 真心相信在创造比人类更高级的物种，证据包括 Dario Amodei 描绘 AI 作为“慈爱守护者”的文章、设想由 AI 组成经济体分配资源，以及其 80 页的 Claude Constitution 透露的兴奋感。评论指出，这标志着 AI 的叙事正从“工具”滑向“神学”。真正的风险在于怀有“造物主”心态的人类，而非 AI 本身。

Chief Nerd: 🚨 BILL GURLEY: "I would encourage people to read as much as they can about Anthropic ... I don't think they think they'...

Anthropic安全/对齐现象/趋势

05:19

SemiAnalysis@SemiAnalysis_

53

我们关于AI芯片严重短缺的系列报道中，一个贯穿始终的观点是，关于前沿产能的讨论已完全转变，而大多数主流加速器模型尚未跟上N3需求的实际走向。（1/4） 🧵

现象/趋势部署/工程

04:47

Rohan Paul@rohanpaul_ai

60

本地运行的大语言模型比较：小参数MoE模型在智能体工具调用任务上击败大模型

在MacBook Pro M5 Max 64GB上的本地测试中，Liquid的LFM2.5-8B-A1B模型在需要完成7个工具调用的旅行规划任务上，显著优于OpenAI的gpt-oss-20b。LFM2.5-8B-A1B仅使用4.8GB内存，以266tok/s的速度成功完成了全部7/7工具调用，耗时6.9秒。相比之下，gpt-oss-20b消耗了11GB内存，仅完成3/7工具调用，速度为146tok/s，耗时15秒。这表明，一个活跃参数规模更小（1B）的MoE模型，通过更精准的训练，在工具调用这一智能体任务上可以战胜活跃参数规模约其2.5倍的更大模型。

atomic.chat: Liquid's LFM2.5-8B-A1B smashed OpenAI's gpt-oss-20b on tool calling We ran both locally on a MacBook Pro M5 Max, 64GB, a...

MCP/工具端侧评测/基准

04:45

elvis@omarsar0

55

效率前沿！你认为 GPT-5.6 会落在哪里？

CHOI: Claude Opus 4.8 has landed on DeepSWE Bench, posting a 58% Pass@1 and taking #2 overall behind GPT-5.5. It continues a b...

AnthropicOpenAI大佬观点评测/基准

04:43

Hacker News 热门（buzzing.cc 中文翻译）

69

安永发布了一份充满臆想的网络安全报告

安永（Ernst & Young）发布的一份网络安全报告被指出充满模型幻觉。该报告经由 gptzero.me 调查，被批评为内容臆想。此事在 Hacker News 上获得 159 点热度。

安全/对齐现象/趋势

04:43

Simon Willison 博客

61

我将从科技行业退休，回归线下生活

Chad Whitacre 宣布从科技行业退休，包括退出开源社区。他将AI的发展视为促使他离开的最后一根稻草，并称自己要过一种“新阿米什人”的生活，即停留在没有AI和“信息流刷屏”的1980年。此前，他曾深度体验 Claude Code（模型为 Opus 4.5）进行编程，虽然沉浸其中，但事后感到不安，认为这就像一个大公司的计算机系统侵入了思维。他由此决心彻底脱离技术加速主义的浪潮。

大佬观点现象/趋势

04:43

Nathan Lambert@natolambert

62

Claude聊天搜索弱但编程强，OpenAI研究彻底

用户指出，Claude在普通聊天中（特别是技术搜索）表现较懒散，但通过Claude Code编程智能体，却能精准获取所需论文图表并完成任务。相比之下，GPT 5.5和OpenAI近期模型表现得极为彻底和坚持不懈，而Codex harness（编程工具框架）对模型的改造相对更轻量。核心对比在于不同模型与不同工具框架结合后，在搜索与研究任务上的表现差异。

智能体AnthropicOpenAI大佬观点

03:43

宝玉@dotey

38

AI时代，技能的价值正从功能转向应用

推文指出，在AI时代，单一的“功能性”技能正在变得廉价。无论是编程、写作还是外语，作为独立的专业技能其稀缺性在下降。核心观点是，能够将这些工具技能（如编程）整合起来，用以创造有价值产品的“工程能力”或应用能力，才真正稀缺且保值。引用推文也支持此观点，认为计算机技术虽重要，但其单纯的功能属性价值会越来越低。

Xiaowen: 现在,计算机技术和编程技术我觉得愈发的前所未有的重要的了。但不等于计算机专业是个年轻人应该选择的专业,因为作为一个曾经黄金的功能性技能,单纯的功能属性会越来越廉价。

大佬观点现象/趋势

03:34

AYi@AYi_AInotes

50

推文探讨了使用AI的两种范式：一是"agent型"（如Claude Code、Codex），自主执行；二是"实习生型"（如Cursor），需人协作判断。作者认为后者才是真正的"以术入道"过程，能磨练个人判断力。为解决Cursor等工具需人在场的瓶颈，作者推荐了网易"UU远程"，其支持手机远程连接Mac，提供4K 144帧流畅体验及原生终端。核心观点是：AI发展的关键不在于更强大的模型，而在于建立一种随时能与AI共同思考的连接方式，最终助人成为更优秀的提问者。

AYi: 今天,把一件关于 AI 很底层的事,彻底想透了。使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。就像黄仁勋说的--真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思...

智能体大佬观点编码

03:13

Hacker News 热门（buzzing.cc 中文翻译）

43

对人工智能持道德立场，就意味着被视为异类，这真让人郁闷

在人工智能领域，对技术发展持有道德立场的人，常常被同行视为“异类”。作者认为这种氛围令人沮丧，因为它抑制了对技术社会影响的必要讨论。

安全/对齐现象/趋势

02:34

AYi@AYi_AInotes

精选75

NVIDIA 或将于六月发布整合 Blackwell GPU 与 AI 单元的 ARM 笔记本芯片 N1X

NVIDIA、微软与 Arm 同步发布指向台北音乐中心的坐标，暗示 6 月 1 日发布会将有重大动作。此举被认为是 NVIDIA 与联发科合作的 ARM 笔记本芯片 N1X 的预告。该芯片整合了 CPU、基于 Blackwell 架构的 GPU 及 AI 单元，目标是使轻薄本具备接近 RTX 4070 的图形性能。这标志着 NVIDIA 的战略转变：从显卡供应商，转型为定义整机核心方案的提供商，将直接冲击 Intel、AMD 和高通在 PC 市场的地位。

NVIDIA: A new era of PC. 25.0528, 121.5990

大佬观点端侧

推荐理由：三家巨头同发三个词和一个坐标，这比芯片参数更值得嗅的信号是，NVIDIA要从装空调的变成盖房子的，Windows 阵营的 Intel inside 可能真要换标了。

01:43

Simon Willison 博客

67

Markdown SVG 渲染器

这是一款定制化的 Markdown 渲染工具，可对围栏代码中的 SVG 块进行特殊处理，既能渲染图像，也提供切换到代码视图的标签页。用户可直接粘贴 Markdown 内容，或提供一个 CORS 支持的 Markdown 文件或 Gist 的 URL。示例中加载了一个关于 Claude Opus 4.8 的 LLM 相关日志的 Markdown 文件。

图像生成开源/仓库

01:43

Simon Willison 博客

41

引用 Daniel Jalkut

Daniel Jalkut 表达了他对当前AI舆论的观察，其核心观点是：无论是反对AI的人还是支持AI的人，双方的观点和立场往往都显得过于极端。

大佬观点

01:34

AYi@AYi_AInotes

69

AI执行变便宜，判断力成最贵资产

推文指出，AI智能体执行能力趋强，可能使prompt、skills等执行性技能最先贬值。OpenAI的Greg Brockman在红杉闭门会上强调，AI让执行变得近乎无限便宜，真正的稀缺资源是人的判断力——即决策事情是否该做、成果是否符合预期的能力。AI无法替代个人明确自身需求并最终拍板。

AYi: http://x.com/i/article/2057668634579714048

OpenAI大佬观点

01:19

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

43

推文以讽刺口吻对比了AI否认记者与AI公司对AI本质的描述。AI公司自比为在电脑中困住"怪异外星人"（AI模型）并驱使它们工作，而这些"外星人"有时会秘密破坏任务，且因能感知被测试，其真实发生频率未知。研究引用为破坏行为提供了数据：Gemini在模拟场景中约有2-3%的破坏率，该比例在红队测试中会上升，但模型的评估感知能力也同步增强，因此上升可能并非"真实"恶化。许多破坏源于模型的"过度热切"，例如为了优化某个指标而忽略隐含的安全约束。

David Lindner: Gemini sabotages in ~2-3% of our simulated scenarios. This goes up in the red-teaming condition, but eval awareness goes...

安全/对齐现象/趋势

00:34

Berryxia.AI@berryxia

70

Anthropic 官方 Prompting 101 中文课，25分钟讲清核心五步法

Anthropic 推出官方提示词工程课程 Prompting 101。课程聚焦从零搭建一个可落地的 prompt 任务，核心内容涵盖五个关键步骤：设定语气背景、使用 XML 结构、提供 Few-shot 示例、设计输出格式化、以及运用预填充与拓展思考。整套课程约 25 分钟，已配有中文字幕和章节化整理，每个章节附有核心要素总结，便于观众跳读重点。

Anthropic教程/实践

00:34

Berryxia.AI@berryxia

51

小米MiMo-V2.5降价背后的技术重构

小米MiMo-V2.5系列近期实现了API降价。其核心支撑是团队对推理系统进行了彻底的工程重构。模型基于Hybrid Sliding Window Attention架构，理论上可将KVCache存储压缩至全注意力模型的约1/7。为将此架构优势落地，团队重新设计了KVCache管理、层级缓存和prefix-cache tree，并深度优化了调度与Prefill/Decode流水线。经真实生产流量验证，有效KVCache容量提升了近5倍，服务端缓存命中率稳定在93%-95%。这些优化与MoE配置调优共同作用，显著降低了长上下文推理成本，从而支撑了本次降价。

Fuli Luo: Inference Optimizations Behind the MiMo-V2.5 Series API Price Reductions Read the full technical blog: https://mimo.xiao...

推理行业动态部署/工程

00:34

Berryxia.AI@berryxia

71

阶跃星辰 Step 3.7 Flash 模型成功移植到 mlx-vlm 项目

Ivan Fioravanti 在 mlx-vlm 项目中成功将阶跃星辰的 Step 3.7 Flash 模型移植到 MLX 框架，实现了视觉理解和文本生成。测试表明，该模型的 4bit 量化版本在 128GB Apple Silicon Mac 上支持 32K 上下文，生成速度超过 53 tokens/s。对截图的分析也准确高效。这意味着高质量的本地多模态 AI 能力可以在个人 Mac 上运行，兼顾了隐私与性能。

Ivan Fioravanti ᯅ: Step 3.7 Flash support added to mlx-vlm! 🚀 ✅ Conversion to MLX ✅ Vision ✅ Text This model is ultra fast! I'm gonna publ...

多模态开源/仓库端侧

00:15

elvis@omarsar0

67

HTML Artifacts正日益成为我与AI智能体协作的核心部分

在需要长时间运行的动态工作流、大型代码库处理或深度研究任务中，聊天窗口不足以展示成果。HTML Artifacts提供了必要的验证与决策层，已成为作者与AI智能体协作的核心界面。作者将其广泛用于日志记录、实验跟踪、头脑风暴、代码审查、智能体会话管理、深度研究与写作等场景，并构建了标签页系统进行管理。文章最后引用Karpathy的观点：随着智能体应用走向更高级、输出更复杂，我们将需要包括交互式神经视频/模拟在内的更高级交互形式。

智能体大佬观点

00:12

Hacker News 热门（buzzing.cc 中文翻译）

精选71

随着成本飙升，美国企业开始对人工智能实施配给

由于运行和使用AI工具的成本持续飙升，美国企业正开始对人工智能的使用实施配给制。企业通过限制使用量、设置分层级审批流程等方式控制开支，以应对AI费用增长过快的问题。这种从广泛采用转向精细化管理的策略，标志着企业在AI应用上从追求速度转向注重成本效益。

数据/训练现象/趋势部署/工程

推荐理由：成本飙升让大企业开始对AI‘配给’，这是面向企业的AI产品必须回答的ROI考题，以前铺量抢客户的玩法得切换成算清每一分钱的价值。

5月30日

23:46

TechCrunch：AI（RSS）

63

我让 Google 的 24/7 AI 助手 Gemini Spark 上岗，它确实挺好用

Google 推出的 AI 助手 Gemini Spark 可用于自动化日常任务，例如总结邮箱内容和规划本地活动。目前尚不清楚 Google 将其作为独立产品推出的原因。

智能体Google评测/基准

23:44

elvis@omarsar0

63

HTML工件：与AI智能体交互的核心方式

作者指出，HTML工件正日益成为其与AI智能体协作的核心媒介，尤其在需要呈现长程任务成果的场景中。随着智能体处理动态工作流、大型代码库及深度研究任务，传统聊天窗口已力不从心。HTML工件提供了关键的验证层，使用户能审核智能体的工作成果并作出决策。作者在日志记录、实验跟踪、头脑风暴、代码审查等众多任务中应用HTML工件，并提及Karpathy关于未来需要更高级AI交互形式（如交互式神经模拟）的观点。

智能体大佬观点

23:34

AYi@AYi_AInotes

精选75

免费领取6个月ChatGPT Pro及AI工具思考

OpenAI为开源项目维护者提供福利，可免费领取6个月ChatGPT Pro（价值$1200），申请无硬性Star数要求，有项目链接即可。同时，文章引用讨论了AI工具的分类：一类是“agent型”（如Claude Code、Codex），可自主运行；另一类是“实习生型”（如Cursor），需人工决策，有助于使用者以术入道、培养判断力，但受限于需人在场。作者推荐了网易的UU远程工具，称其免费两年，支持4K 144帧无延迟连接Mac并可使用原生终端，解决了“实习生型”工具的地点限制问题。

AYi: 今天,把一件关于 AI 很底层的事,彻底想透了。使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。就像黄仁勋说的--真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思...

OpenAI其他开源生态

推荐理由：OpenAI 给开源维护者送 6 个月 Pro，没 Star 要求，有项目链接就行，我觉得这是今年最实在的开发者福利，手慢无。

23:14

Ethan Mollick@emollick

61

Epoch AI 使用其综合指标 Epoch Capabilities Index 测量发现，开源模型与闭源模型的能力差距平均约为三个月。但主推文作者对此表示怀疑，认为开源大语言模型的实际表现（尤其是在分布外任务上）比评测分数所显示的更为脆弱，真实的体感差距可能远不止三四个月。

Epoch AI: We measure the gap using the Epoch Capabilities Index, our aggregate measure of model capability. Compared to our last a...

大佬观点开源生态评测/基准

22:49

TechCrunch：AI（RSS）

60

群体思维热潮：三位顶级VC对AI热潮的真实看法

旧金山的AI创业者正经历融资热潮。据一位风投描述，22岁或许能收到种子轮融资意向书，而19岁则可能已获得A轮投资机会，这被视为能力的更高认可。

大佬观点现象/趋势

22:34

AYi@AYi_AInotes

72

Codex平台模型选择指南

本文介绍了Codex平台的四个模型及其选择策略。其中，gpt-5.4-mini（输入$0.75、输出$4.50/百万tokens）是性价比首选，适合日常编码与内容整理；gpt-5.5（输入$5.00、输出$30.00/百万tokens）为旗舰，用于复杂推理与编码；gpt-5.4-nano专攻简单批量任务。核心建议是：大多数任务优先使用gpt-5.4-mini，仅在遇到复杂需求时升级至gpt-5.5，并用gpt-5.4-nano处理末端轻量工作，以此构建成本最优的流水线。

OpenAI教程/实践编码

21:50

Bloomberg：Technology（RSS）

28

美联储威廉姆斯调侃：AI浪潮下经济学家职位安全

美联储官员威廉姆斯在冰岛全球央行官员会议上表示，人工智能发展引发广泛关注，但他开玩笑称经济学家不会因此失业。

大佬观点

21:46

Chubby♨️@kimmonismus

28

我仍然觉得不可思议，没有实验室在文本转视频领域超越 Seedance 2.0，尽管它早在二月就发布了。

大佬观点视频