AIHOT

08:00

HuggingFace Daily Papers（社区热门论文）

55

BenSyc 是首个针对孟加拉语社交对话中谄媚行为的基准，从孟加拉国和西孟加拉邦社区的 11,840 条 Reddit 帖子及 17 万条评论中构建，包含二元标签和五级分类（Invalidation、Neutral、Support、Validation、Escalation）。评估超15个开源和闭源LLM，最佳模型在二元检测上仅达61.8 Macro-F1，五类分类为61.7 Macro-F1。多个模型在情绪化场景中频繁生成强烈验证或升级响应，凸显文化语言多样基准的重要性。

安全/对齐论文/研究

07:59

Berryxia.AI@berryxia

63

OpenAI 发布 Codex 应用场景新页面，列出七大领域委托任务

OpenAI 发布 Codex 应用场景新页面，展示各团队已委托编码代理执行的七大类任务：工程开发、产品开发、质量测试、安全检查、数据分析、内部工具及生命科学工作流程。具体案例包括审查 GitHub PR 并理解大型代码库、将截图转为响应式 UI、模拟真实用户操作进行 QA 测试、重构老旧代码与数据迁移、修复安全漏洞、撰写 PRD、分析数据集、开发内部应用及辅助生命科学研究。页面表明编码代理正从演示阶段融入日常工作。

Mark Kretschmann: OpenAI just published a new Codex use-case page, and it's basically a catalog of what teams are already handing over to ...

智能体OpenAI产品更新编码

07:59

Berryxia.AI@berryxia

14

Google 3.5 Pro 看来真的是没有能打的了！只能拿这种测试来"蒙骗"大众了。 Google 大善人醒醒啊，你看看隔壁即将发布的是啥模型和自己家的这对比下啊！ 😑

Google大佬观点

07:46

Eric@ericmitchellai

26

Eric Mitchell 发推称"Nvidia 基本上就是一辆汽车"，并引用 @perrymetzger 的观点：那些在线上说 AI 仍频繁幻觉、不能写代码的人，就像试图说服你每天开的车不存在--你明明在开车上班、花钱加油、依靠它通勤 20 英里，他们却说你想象或替汽车公司撒谎。这些人仿佛活在完全不同的现实。推文借汽车类比 Nvidia，点出 AI 实际用户与线上批评者之间的认知鸿沟。

Perry E. Metzger: I have said this before, but to those of us using AI systems to get lots of work done reliably and quickly, the people w...

OpenAI现象/趋势

07:40

Bloomberg：Technology（RSS）

61

Naver 将使用 Nvidia 的 AI 模型以巩固在韩国的领先地位

韩国 Naver Corp. 与 Nvidia 达成合作，将基于 Nvidia 的 AI 模型建设数据中心，旨在巩固其在韩国人工智能领域的领先地位。

数据/训练行业动态部署/工程

07:31

宝玉@dotey

36

Claude Code 虽然移动端可以 remote control，但是 plan 后不能 bypass permission，需要不停的确认，神烦

Anthropic大佬观点编码

07:08

Rohan Paul@rohanpaul_ai

66

MIT研究追踪超10万GitHub开发者：AI编码工具使代码量增300%，但发布仅增30%

麻省理工新研究追踪超10万GitHub开发者使用三代AI编码工具（自动补全、交互式agent、自主agent）的生产漏斗。自主AI agent使代码提交数提升180%，但实际发布仅增30%。代码量激增近300%，经人工审核后收益降至150%，最终发布仅增约30%。研究估算替代弹性为0.25，即AI能力大幅提升时仅能替代少量人类工作。应用市场同样显示新应用数量增加，但总使用量未升。瓶颈在于人类仍需负责审查、测试、打包和发布等环节，AI加速的局部任务并未转化为同等产出增长。

Rohan Paul: FT publisehd a piece. AI is raising software supply faster than demand. AI is producing far more work inside companies, ...

GitHub编码论文/研究

06:48

jason@jxnlco

14

但这……"Codex 几乎适用于一切"。

OpenAI大佬观点编码

06:40

karminski-牙医@karminski3

58

Ideogram 4实测：9.3B开放权重原生2K

ideogram发布Ideogram 4文生图模型，开放权重，仅9.3B参数，支持原生2K分辨率生成。作者将其与通义Z-image-Turbo生成效果对比，认为两者风格相似。

图像生成开源生态评测/基准

06:38

Rohan Paul@rohanpaul_ai

53

FT/MIT：AI编辑增300%，发布仅30%瓶颈明显

FT报道MIT一项研究，跟踪软件团队从文件编辑到审查到发布的完整生产漏斗。使用AI后，开发者创建或编辑文件数量增加近300%，但在审查阶段增益降至150%，最终到软件发布仅提升约30%。这表明AI在加速局部编码任务上效果显著，但人类审查、协调、产品判断、测试和发布流程仍是决定产出价值的关键瓶颈，大量额外工作未能转化为最终产品。

现象/趋势部署/工程

06:37

elvis@omarsar0

55

超强AI模型即将发布：避免锁定单一供应商

未来几周将有超强AI模型发布，模型能力可能迎来阶段性提升。DAIR.AI创始人Elvis Saravia认为，当前最大的错误是从成本或工程角度锁定单一供应商，建议开始利用模型组合（包括开源模型），保持“模型无关”，以便随时切换模型以发挥其各自优势。对于编程智能体，开源模型表现已媲美前沿模型。他建议将“AI模型路由”作为核心策略，高效分配任务/工作给不同模型，这是一项高回报的AI工程投入。

智能体大佬观点编码

06:32

Tibo@thsottiaux

42

我有了一个新的巨型按钮，可以为 Codex 按下。在接下来的 100 天里，我们将每天挑选一位用 Codex 做出令人印象深刻或极其有用工作的人，给他们一个月的 10 倍使用额度，看看他们能做出什么。明天是第一个。

OpenAI编码行业动态

05:37

Rohan Paul@rohanpaul_ai

67

Demis Hassabis 新采访：AGI 可能于 2030 年前后到来

Google DeepMind 联合创始人兼 CEO Demis Hassabis 在新采访中表示，社会需要意识到我们没有多少时间准备了，人类正站在奇点的山麓。他认为 AGI 可能只需几年，大约 2030 年（±1 年）就能实现。推文作者评论指出，真正的颠覆不在于 AGI 何时精准到达，而在于机构能否适应——后 AGI 世界技术变化远快于人类系统响应速度，学校、公司、政府均未做好准备。若 AGI 按前沿实验室时间线到来，这一滞后将压缩成危险鸿沟。

DeepMind大佬观点现象/趋势

05:33

SenseTime@SenseTime_AI

26

商汤 Phil Wong 谈中国 AI 优势与差异化实践

商汤资本市场主管 Phil Wong 在汇丰私人银行圆桌会议上指出，中国 AI 优势日益体现于成本、产品质量及提升终端客户生产力与效率。真正差异化在于大规模创造可衡量业务成果。商汤实践包括：多模态模型 SenseNova U1 以较小规模实现强性能；AI 工具 Office Raccoon（数据分析与 PPT 生成）和 Seko（视频制作）；AI 基础设施 SenseCore 通过算力协同优化降低能耗、提升效率。此外需关注空间智能、世界模型等前沿领域。

多模态大佬观点

05:10

SemiAnalysis@SemiAnalysis_

57

NVIDIA的新Nemotron3 Ultra在TerminalBench等编码任务上被Kimi K2.6和GLM5.1击败。为了让全球Nemotron联盟训练委员会训练前沿开源模型，黄仁勋应邀请至少以下一家前沿AI实验室加入委员会：DeepSeek、MoonshotAI、MiniMax、Qwen、StepFun、zAI GLM。

开源生态编码评测/基准

04:58

Hacker News 热门（buzzing.cc 中文翻译）

33

Linear 为何如此快？技术解析

performance.dev 上发布的一篇技术解析文章，探讨项目管理工具 Linear 实现快速性能的原理，在 Hacker News 上获得 111 个点赞。

其他部署/工程

04:58

swyx@swyx

43

swyx 宣布明天将发布"今年最大的代码评测基准"。他在引用推文中提到，已有第二家初创公司基于他的播客内容开展销售和评测，并感慨播客直接或间接影响了许多人的职业路线。

swyx: lol heard a 2nd startup today that has made sales and evals based on this podcast its fun to be "just an interviewer", b...

编码评测/基准

04:39

Yuchen Jin@Yuchenj_UW

65

OpenAI的Sora负责人离职了。 OpenAI的芯片负责人跳槽去了Anthropic。 "同时押注所有大赌注"的策略开始显得脆弱。当你在编程领域与Anthropic进行白刃战时，其他所有赌注都在流血。（在编程本身方面，OpenAI显然已经迎头赶上。）

AnthropicOpenAI大佬观点

04:33

TechCrunch：AI（RSS）

47

大型AI公司计划上市引发价格上涨担忧

大型AI公司计划上市，预计未来将出现更多价格上涨。原文标题探讨这是否标志着Tokenpocalypse的开端。

OpenAI行业动态

04:18

jason@jxnlco

14

近期生活

其他

04:09

Chubby♨️@kimmonismus

65

Demis Hassabis：AGI约2030年到来，等同于奇点

DeepMind创始人Demis Hassabis在Google I/O上表示，AGI（约2030年）的到来将等同于奇点——一个不可逆转的技术突破点。他直言社会需要尽早准备，因为时间不多了；回顾当下，我们正站在奇点的山脚。推文作者将其视为比工业革命快10倍、强10倍的深刻革命，人类社会正面临前所未有的变革。

DeepMind大佬观点安全/对齐现象/趋势

03:50

Hugging Face：Blog（RSS）

27

Amazing Digital Dentures（一个失败的项目）

受《神奇数字马戏团》启发，作者尝试用 Nemotron 30b 构建一个数字宠物，自动生成以 Three.js 实现的冒险游戏，起初作为过度工程化的待办列表，后转向纯冒险生成。长提示、技能卡及 RAG 方案均未产出可运行游戏（常出现空白屏幕）。项目最终转型为简单的 HTML 玩具制作器，能一次生成时钟、待办列表、贪吃蛇、打砖块，但俄罗斯方块等复杂项目仍会崩溃。作者正寻求新方向。

其他编码

03:45

Greg Brockman@gdb

68

OpenAI 公布了数十个 Codex 实际工作流程，展示团队如何用其自动化任务。用例包括：管理收件箱并草拟回复、审阅 GitHub PR、将 Figma 设计转为代码、理解大型代码库、自动分类 bug、用自然语言查询数据集、从提示词部署应用、构建 Mac/iOS 应用、自动创建幻灯片、将 Slack 对话转为编码任务、用 AI 动作操控电脑。Codex 正从 AI 助手演变为 AI 队友。

Suraj Sharma: OpenAI just published dozens of real-world workflows showing how teams are using it to automate work. > Manage your inbo...

智能体OpenAI教程/实践编码

03:27

AYi@AYi_AInotes

62

Google向量存储压缩：31GB→4GB，速度超FAISS

Google提出一种AI记忆压缩技术，可将1000万个文档的向量存储从31GB内存压缩至仅4GB，且搜索速度超过目前最常用的FAISS方法。该技术使本地运行大语言模型并结合个人数据变得更加可行。

AYi: http://x.com/i/article/2060717603987791878

Google检索增强数据/训练论文/研究

03:23

gabriel@gabriel1

55

我已从OpenAI辞职。今年早些时候我离开了Sora，在OpenAI成立了一个团队来打造伟大的东西。但我一直是个创始人，在AGI到来之前，我还有一个最后的产品需要打造。已经开始想念我所有的朋友和同事们，我相信你们！后续更多。

OpenAI行业动态

03:11

Peter Steinberger 🦞@steipete

60

这是您的月度提醒：您不应再手动提示编码智能体了。您应该设计循环来提示您的智能体。

智能体教程/实践编码

03:07

Rohan Paul@rohanpaul_ai

49

Meta-Agent Challenge：当前AI智能体能否自主构建更好的智能体？

一项新研究提出Meta-Agent Challenge（MAC）基准，测试AI智能体能否在没有人类设计帮助的情况下自主构建更优智能体。智能体需在安全工作区内自行发明策略、编写代码、测试并从失败中学习。实验覆盖数学、科学问答、竞赛编程、代码修复和长终端任务5个领域。结果显示，当前智能体大多无法超越人工设计的强智能体系统，仅Claude等少数封闭前沿模型取得较好表现。研究认为，当前智能体更像是强大的执行者，而非具备可靠自改进能力的工程师。

智能体arXiv论文/研究评测/基准

02:37

Rohan Paul@rohanpaul_ai

42

机器人在实时突发外力下的移动与恢复。恢复阶段有点意思 😀

具身智能行业动态

02:31

宝玉@dotey

精选81

ChatGPT 要变 AgentGPT 了

OpenAI 正筹备 ChatGPT 自 2022 年上线以来最大规模改版，从聊天机器人转向超级应用/Agent 平台，整合编程工具 Codex、图像生成及第三方应用（Canva、Booking）。高管称“聊天已死”，目标成为跨平台个人 AI 助手，未来甚至省去用户输入提示词。改版预计未来几周在网页和手机端上线。商业压力：ChatGPT 有 9 亿周活用户、5000 万付费用户、月收入 20 亿美元但未盈利；企业客户贡献约 40% 收入，目标年底达 50%；Codex 桌面版周活超 500 万。竞争对手 Anthropic 估值已达 9650 亿美元。OpenAI 刚完成 1220 亿美元融资，估值 8520 亿美元，IPO 目标估值可能超 1 万亿美元。

金融汪: 根据《金融时报》报道:Open AI 正在筹划对ChatGPT推出以来的最大规模改革 "聊天已死" AI的未来不在于回答问题的聊天机器人,而在于能够为用户执行任务的智能体,也就是Agent!

智能体OpenAI行业动态

推荐理由：ChatGPT要从聊天框升级成超级应用，把Codex和Agent全塞进去，这是OpenAI在IPO前最重要的一次产品赌注，对开发者和普通用户都会改变使用习惯。

02:27

AYi@AYi_AInotes

9

Damn，有钱真的能改变一个人

AYi: http://x.com/i/article/2060717603987791878

其他

02:07

Rohan Paul@rohanpaul_ai

46

AI 可以在医学发现方面做很多事情，但也有一些合理的担忧，即 AI 正在超越博士水平的病毒学家，这可能会助长一种并非假设性的生物武器风险。 --约翰霍普金斯大学教授兼 Anthropic 顾问 Ben Buchanan

Anthropic大佬观点安全/对齐

02:07

Rohan Paul@rohanpaul_ai

49

推理模型后训练数据入门：改进的关键在可验证反馈而非数据规模

论文指出，更好的推理模型更依赖可验证的训练证据，而非原始数据规模。推理数据的关键不是简单问答对，而是提供答案、步骤、工具操作或完整尝试好坏判断的反馈信号。每个训练样本应描述为包含任务、模型行为、检查信号和元数据的记录。研究者按检查方式分类：数学和代码用精确规则、智能体工具用环境检查，无精确检查器时用人类或模型判断。常见误区包括：长推理链可能虚假、更难样例对部分模型无效、更大数据集仍可能缺失关键覆盖。智能体数据应保留失败动作、重试、恢复、状态差异和终端检查等“混乱”信息，因为学习信号常在其中。

智能体arXiv推理数据/训练

02:03

TechCrunch：AI（RSS）

52

Notion 恢复 Anthropic 服务后产品负责人震惊于转发量

Notion 恢复了对 Anthropic 的访问。其产品负责人表示，对“转发此事的人数”感到“震惊”。

Anthropic行业动态

01:58

Hacker News 热门（buzzing.cc 中文翻译）

69

车床（Lathe）：利用LLMs学习新领域，而非跳过

Lathe（车床）是一个基于大型语言模型（LLMs）的工具，核心理念是使用LLMs帮助用户逐步学习一个陌生领域，而非直接替代学习过程。项目托管在 GitHub 上。

GitHub开源/仓库

01:36

Ethan Mollick@emollick

63

现在正是储存一些你最困难、最有价值、最不寻常的好主意的好时机--无论是为了工作、爱好还是新的事业。得益于 AI，真正好且独特的想法实现起来变得极为廉价，但找到它们却不一定更容易。巨大的机会就在眼前。

大佬观点

01:31

宝玉@dotey

74

baoyu-design：在本地复现 Claude Design 的开发工作流

宝玉分享开发模式：先用 Claude Design 设计 App UI/UX，生成 HTML+CSS+React+data.js（优于 Figma，利于 AI 理解和 Git 版本管理）；再用 Claude Opus 4.8 实现 MVP（GPT 5.5 在 UI 实现上差距明显）。因反复在本地与网页间导出替换设计稿繁琐，他编写工具解析 HAR 文件、解密 Claude Design 二进制内容，分析其 Prompt 和内置组件，将核心逻辑本地化集成到 Cursor（利用网页标记功能），配合 Opus 4.8 即可本地运行。最终开源 GitHub 项目“baoyu-design”。

宝玉: 最近为了研究 Claude Design,专门写了一个工具,可以解析 HAR 文件,解密 Claude Design 传输的二进制内容,这样可以方便的看到请求的 Prompt

智能体AnthropicGitHubMCP/工具

01:31

Nathan Lambert@natolambert

35

美国开源回来了。HuggingFace 首页前 30 个模型中，有 9 个由 Nvidia 发布。 Slowly， then suddenly！

0xSero: American Open Source is so back. 9 / 30 of the models on page 1 of Huggingface are published by Nvidia.

开源生态现象/趋势

01:07

Rohan Paul@rohanpaul_ai

精选76

特朗普政府与OpenAI讨论通过公共财富基金入股AI初创公司

据FT报道，特朗普政府正与OpenAI探讨通过公共财富基金机制让政府入股AI初创公司。方案是AI企业捐赠小部分股权至该基金，基金通过账户或分红将收益返还美国公民，而非政府直接运营公司。这不同于特朗普去年对Intel的90亿美元直接持股。OpenAI此前已提出公共财富基金概念，持有长期资产，让公民分享AI增长红利。政治背景方面，选民担忧失业、数据中心成本与企业控制，而AI公司需要华盛顿在基建、采购和监管上的支持。

Rohan Paul: FT: Trump administration, OpenAI discussing possible government stake in the AI startup. OpenAI has already floated a Pu...

OpenAI政策/监管

推荐理由：这次不是简单罚款或国有化，而是让AI公司捐股给全民基金，收益直接分到个人。想法很乌托邦，但放在“抢AI红利”的大背景下，各怀心思。

01:07

elvis@omarsar0

59

论文提出用代码压缩率衡量AI智能体是否真正发现新知识

本周一篇AI论文探讨自我改进智能体是否真正发现新知识，还是仅重新组合已知信息。作者将行为分为三类：检索（查询已有笔记本）、搜索（组合现有工具）和发现（发明新概念），并用范畴论和左Kan扩展定义——若旧版本能产生相同结果则非发现。他们构建Builder/Breaker agent研究蛋白质力学，四轮中R²从0.48升至0.68再降至0.54和0.41，看似变差实则不断挑战更难蛋白质并重写理论：数据增长近10倍，模型代码仅增长1.3倍。论文提出用代码压缩率作为真实发现信号。链接：arxiv.org/abs/2606.01444。

智能体arXiv大佬观点推理

01:05

MarkTechPost（RSS）

50

使用GEPA构建反思性提示优化：多组件提示、结构化反馈与保留验证

本教程展示如何利用GEPA这一反思性提示进化框架，改善小型语言模型在多步算术应用题上的表现。从弱种子提示出发，构建确定性基准并定义能返回可操作反馈的结构化评估器。多组件设置同时进化指令字段与输出格式规则，最后在保留验证集上对比基线提示与优化提示，检验优化效果是否泛化。

推理教程/实践