AIHOT

Steve Yegge：Medium（RSS）

作者基于超过35年的技术面试经验指出，该流程存在根本性缺陷。面试结果极不可靠，面试官意见高度不一致，且评分无法有效预测候选人实际表现。亚马逊的“Bar Raiser”和谷歌的“Hiring Committee”等补救机制并未从本质上解决问题。作者认为，当前的人才评估方式亟需一场根本性的变革。

大佬观点现象/趋势

The Verge：AI（RSS）

科技公司迫切希望拍摄你做家务的画面

AI训练数据初创公司Shift宣布将为纽约人提供免费家庭清洁服务，并计划扩展至伦敦等城市。作为交换，Shift要求拍摄其清洁人员工作的视频，记录洗碗、擦柜台、扫地、拖地等所有家务劳动。这些视频数据正被机器人公司竞相收集，用于训练机器完成家务，最终目的是销售家用服务机器人。

具身智能数据/训练现象/趋势

宝玉@dotey

用AI开发Mac应用的几点实用经验分享

一位开发者分享了借助AI开发Mac应用的四点经验：建议优先使用AppKit而非SwiftUI，因后者界面较弱，而AI已弥补了AppKit开发复杂度高的短板；推荐在编码前先用Claude Design打磨UI与UX；指出Opus模型生成的UI优于GPT-5.5；并提到Codex提供了一个名为“Build macOS Apps”的官方插件可供使用。

卫斯理: 今天想到一点,我是否可以去做 mac app? 理由如下 - 会 objective-c/swift 我是国内比较早进入 iOS 开发的那批人 - 正好有个 idea - 正好有 claude code ,以前总觉得 appkit 很难用,...

教程/实践编码

Rohan Paul@rohanpaul_ai

精选76

亲测为实：难以置信的推理速度

Kog团队在标准数据中心GPU上实现了极高的单用户推理速度，在8× AMD MI300X GPUs上达到3,000 tokens/s，在8× NVIDIA H200上达到2,100 tokens/s。相比常规推理速度（约100-300 tokens/s），实现了10-30倍提升。其核心思路是将LLM解码视为内存流问题，通过协同设计monokernel、重建同步机制、针对性内存访问映射及采用延迟张量并行的Laneformer模型架构，消除了传统流程的阻塞点。

大佬观点推理部署/工程

推荐理由：Rohan亲自测完Kog AI的3000 token/s，把单用户推理速度拉高了10-30倍，这套monokernel设计可能改写低延迟推理的玩法，做实时AI产品的团队必须盯紧。

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选56

可信第三方评估的共享操作手册

OpenAI 发布了一份关于第三方 AI 评估的指导框架，内容涵盖如何评估前沿系统的能力、安全防护措施及评估本身的有效性。

OpenAI安全/对齐教程/实践评测/基准

推荐理由：OpenAI 首次把模型评估的方法论打包共享，这份指南是给第三方评估者的操作手册，比零散的论文更落地，做评测的团队可以直接抄作业。

Berryxia.AI@berryxia

Liquid AI发布设备端优化模型LFM2.5-8B-A1B

Liquid AI发布了LFM2.5-8B-A1B，一款为设备端优化的模型。它采用8B MoE架构，但仅有1.5B active参数，在38T tokens上进行了大规模RL训练，并将上下文扩展至128K。该模型的工具调用与多步智能体能力强劲，表现可接近4倍参数规模的模型。它支持在单台笔记本上完整运行本地智能体循环，具备低延迟与隐私优势。该模型兼容llama.cpp、MLX、vLLM等框架，覆盖Apple、NVIDIA、AMD硬件。

Liquid AI: Today, we're releasing LFM2.5-8B-A1B, a device-optimized model designed to power real-life applications on phones, lapto...

智能体模型发布端侧

AYi@AYi_AInotes

AI并未提升组织效率，反而暴露了其记忆缺失问题

AI工具虽使个体效率大幅提升，却未加快组织整体产出。核心在于组织普遍缺乏“记忆”：MIT Sloan 2026年报告显示95%的企业AI投资未产生可衡量回报，超过30%的团队时间用于重复建立上下文。个体生产力因AI工具（记忆留存于个人账户）而提升，但这种收益无法在组织层面整合，导致“个人在飞，组织在垮”。Sequoia在AI Ascent峰会提出，2026年将是长周期智能体的商业元年，下一轮AI将卖结果而非工具。

现象/趋势部署/工程

Tomer Tunguz 博客（VC 分析）

精选65

技能提炼

“技能提炼”是一种知识转移方法，由前沿大模型（如 Opus 4.7、GPT-5.1、Gemini 3 Pro）负责撰写并优化标准化的 SKILL.md 流程文件。然后，本地运行的小模型（如 Qwen 35B、Gemma 26B）直接执行这些文件。此过程不同于压缩模型权重的知识蒸馏、训练权重的指令微调或检索事实的 RAG，其核心是提取并转移操作流程，让小模型按步骤执行，从而形成前沿模型作教师、小模型作执行者的循环。

智能体MCP/工具大佬观点

推荐理由：Tomer 把个人代理的完整工作流摆了出来，用大模型写 skill 小模型执行，这条蒸馏思路比调 prompt 高级，想认真跑本地代理的人该盯一下。

AK@_akhaliq

minWM 一个用于实时交互视频世界模型的全栈开源框架

开源/仓库开源生态视频

TechCrunch：AI（RSS）

精选70

Cognition的Scott Wu表示：AI编程智能体不应取代人类

Cognition公司开发了Devvin，这是一个号称首个且最成功的AI编程智能体。其著名程序员创始人Scott Wu明确表示，该智能体并非旨在取代人类程序员。

智能体大佬观点编码

推荐理由：Devin 创始人主动说 AI 编码代理不该取代人类，这个表态本身比技术有意思，做开发者工具的产品人该琢磨一下背后的潜台词。

elvis@omarsar0

AI智能体评估新指标：有效反馈计算提升成功率

新研究提出“有效反馈计算（EFC）”指标，用于优化AI智能体测试框架的设计。传统评估中，原始token数和工具调用次数预测智能体失败的R²值仅为0.33至0.42，而EFC将此提升至0.99。基于EFC进行资源重分配，可在相同计算量下将智能体成功率从0.27显著提升至0.90，使框架设计从经验猜测变为可预测过程。

智能体arXivMCP/工具论文/研究

向阳乔木@vista8

AI辅助PPT设计流程

用户分享其AI驱动的PPT制作流程：先用GPT 5.5 Pro和Grok搜集资料并形成个人理解；再由Codex或CC加工成Markdown格式的经验帖；然后将内容上传至Youmind，生成大纲及20页高清PPT页面；最后导出图片包，在Keynote中完成自我介绍、FAQ等最终页面的制作。

OpenAI教程/实践

Hacker News 热门（buzzing.cc 中文翻译）

在标准GPU上进行实时大语言模型推理：单次请求生成速度达3k tokens/s

该技术成果展示了在标准GPU硬件上实现大语言模型实时推理的可能性。核心性能指标为单次请求的生成速度可达到3000个tokens每秒（3k tokens/s per request）。这一结果表明，对于特定场景或模型配置，即使在非专用集群的常规计算设备上，也能实现高速的模型输出，对于降低大语言模型的使用门槛和成本具有参考意义。

推理教程/实践部署/工程

Hacker News 热门（buzzing.cc 中文翻译）

请使用 AI

文章呼吁人们使用人工智能（AI）。作者Shawn Smucker在Substack上发布该文，并在Hacker News上引发讨论，获得101个社区积分。

安全/对齐现象/趋势

X.PIN@thexpin

华为提出τ定律应对芯片制程瓶颈

由于美国出口管制，华为在芯片先进制程竞赛中面临困难。为此，华为于2026年5月提出“τ（Tau）定律”，旨在为后摩尔时代的芯片性能提升提供新框架。该定律的核心是优化有效RC时间常数（τ）以提升信号传播速度。其方法是不完全依赖制程微缩，而是从晶体管、电路、芯片互连及系统架构四个层次进行优化，以压缩τ值。华为将其描述为中国公司首次提出具有全球影响力的后摩尔扩展框架。

推理现象/趋势端侧部署/工程

Peter Steinberger 🦞@steipete

"clanker"不是贬义词。"vibe coding"才是。

Armin Ronacher ⇌: More musings after some people got upset about the word clanker. https://lucumr.pocoo.org/2026/5/26/clankers/

大佬观点编码

Chubby♨️@kimmonismus

o3 本该被命名为 GPT-5。是时候说再见了。很棒的模型。

Tibor Blaho: OpenAI is retiring o3 from ChatGPT on August 26, 2026 and GPT-4.5 on June 27, 2026 (these changes apply only to ChatGPT,...

OpenAI大佬观点

歸藏(guizang.ai)@op7418

AI编程工具不止写代码：新实用场景涌现

推文指出，Claude Code、Cursor等AI编程工具的能力已超越代码编写。作者分享了一个实际用例：在手机安装谷歌框架遇到问题时，通过Claude Code自动完成了下载安装包、安装和调试的全过程，体现了这类工具在解决日常技术问题上的潜在实用价值。

智能体Anthropic教程/实践端侧

Berryxia.AI@berryxia

开源项目：Three.js打造3D盛唐长安互动世界

作者开源了一个使用3D渲染技术Three.js搭建的盛唐长安互动世界项目。项目核心功能是接入Agora Skills，实现了实时语音互动。用户可以在虚拟世界中与NPC对话、与李白对诗、玩诗词小游戏、进入珍宝馆欣赏诗画，以及逛AI展馆体验古今融合。作者透露该项目花费了2周开发时间及800美元成本，现已托管在GitHub上并开放体验。

多模态开源/仓库语音

AYi@AYi_AInotes

AI让认知变廉价，关键在能否用它造新东西

红杉资本举办闭门会议，聚集150位AI领域创始人与OpenAI、Google、英伟达的核心高管。与会者将AI对认知工作的影响，比作电解法让铝价暴跌99.5%，使铝从比黄金贵的建筑材料变为廉价的铝箔。这隐喻写代码、写文案等长期练就的认知能力正迅速贬值。但观点强调，认知能力变便宜并非危机，真正的挑战是：当思考变得像铝箔一样随手可得时，能否用这些“白菜价”的脑力，去创造以前根本造不起的新事物。

AYi: http://x.com/i/article/2057668634579714048

大佬观点现象/趋势

Bloomberg：Technology（RSS）

市场重注押宝AI，这位哈佛教授却持保留态度

在人工智能需求推动下，市场接近历史高点，投资者正大举押注AI增长。哈佛大学经济学教授、国际货币基金组织（IMF）前第一副总裁吉塔·戈皮纳思（Gita Gopinath）做客Odd Lots播客，与主持人探讨了由AI驱动、没有社会动荡的“完美生产世界”是否可能实现。

大佬观点现象/趋势

Rohan Paul@rohanpaul_ai

在真实拳击场辩论：Transformer 架构与后继者的未来

这是一场关于AI架构的辩论。Transformer阵营指出，其凭借简单、硬件友好、可扩展的优势主导当下，核心是基于键值存储的记忆与注意力机制，并强调任何替代架构必须能在扩展性上与之匹敌，且需达到约10倍优势才能颠覆现有技术栈。Post-Transformer阵营则认为，当前大语言模型的推理更像是后置的文本步骤，真正的突破在于实现模型内部的“潜在推理”与持续学习能力，并指出长上下文不等于真正记忆，未来可能是混合架构。辩论还提到，当前公开基准测试易被优化，而困惑度（Perplexity）仍是评估前沿模型的有效指标。最后指出，尽管Transformer仍占主导，但前沿正在拓宽，并列举了Pathway的BDH、Sakana AI的CTMs和Liquid AI的LFMs等新兴架构作为例证。

推理数据/训练现象/趋势

Hacker News 热门（buzzing.cc 中文翻译）

人工智能会导致前端领域重蹈"失落的十年"覆辙吗？

现象/趋势编码

AYi@AYi_AInotes

今天，把一件关于 AI 很底层的事，彻底想透了。

本文探讨了使用AI的两种核心路径：以Claude Code、Codex为代表的AI智能体型工具，可自主执行任务；以及以Cursor为代表的实习生型工具，需用户监督判断，后者是磨练判断力（以术入道）的关键。但Cursor依赖本地运行，限制了使用场景。作者通过UU远程（网易出品，免费）解决了这一问题，其手机端可实现4K 144帧低延迟连接，并原生支持完整终端，方便在移动端操作Cursor，实现了与AI实习生的随时连接。核心观点是AI工具的尽头是磨练我们成为值得被认真回答的提问者。

智能体大佬观点编码