AIHOT

全部动态一手 · 2413 条

全部一手资讯 X 论文

5月17日周日

5月16日周六

5月15日周五

5月17日

11:00

公众号：可灵AI（快手·视频）

戛纳倒计时|可灵AI戛纳论坛议程抢先看

行业动态视频

03:54

Dwarkesh Patel：Podcast & Blog（RSS）

精选57

RLVR 可能在科学领域格外糟糕

RLVR（强化学习与验证）在科学理论验证中可能表现出不成比例的缺陷。科学理论的验证循环周期长达数十年甚至数个世纪，且当前被视为更优的理论实际上常会做出更差的预测。这一矛盾揭示了基于短期反馈的强化学习范式与科学探索长期性、复杂性之间的根本冲突，凸显了现有AI方法在应对科学发现这类超长反馈周期任务时存在的结构性局限。

大佬观点推理数据/训练

推荐理由：Dwarkesh 这个判断很锋利，RLVR 在科学上的验证循环太长，可能是个结构性缺陷，做科学智能体的朋友值得冷静看看。

03:54

Dwarkesh Patel：Podcast & Blog（RSS）

关于预训练并行化与失败训练运行的笔记

近期访谈揭示了大规模语言模型预训练中的并行化策略与失败案例。关键变化包括从数据并行转向更复杂的模型并行、流水线并行及混合策略，以应对万亿参数模型的内存与计算挑战。具体指标显示，某些失败训练运行因硬件故障或超参数设置不当，导致数百GPU小时损失。成功案例则通过优化通信开销与负载均衡，将训练效率提升约15-30%。这些经验为GPT、Claude、LLaMA等模型的稳定训练提供了重要技术参考。

大佬观点数据/训练

03:54

Dwarkesh Patel：Podcast & Blog（RSS）

The mistake of conflating intelligence and power

文章指出将“智能”与“权力”混为一谈是一个根本性错误。如果仅将“智能”定义为“在广泛领域中实现目标的能力”，那么斯大林将成为有史以来最“智能”的人。这一观点揭示了当前对人工智能（如GPT、Claude、LLaMA等）能力的讨论中，可能存在的概念混淆和评估偏差。真正的智能应包含更丰富的维度，而非单纯以目标达成的效力或权力大小来衡量。

大佬观点安全/对齐

01:32

Nathan Lambert：Interconnects（RSS）

精选58

本月开源AI模型领域迎来密集发布，包括Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5和GLM-5.1等一系列重要新版本。这些模型均在CAISI的V4评估框架下进行了性能评测。多个团队几乎同期推出旗舰级更新，反映出开源社区当前高速迭代的竞争态势。

DeepSeek开源生态行业动态评测/基准

推荐理由：过去一个月开源圈下饺子式发模型，这篇把 Gemma 4 到 GLM-5.1 都理了一遍，附上 CAISI 对 DeepSeek V4 的评估，补课效率很高。

5月16日

18:32

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选58

OpenAI 与马耳他合作，向所有公民提供 ChatGPT Plus

OpenAI 与马耳他政府达成合作，将向该国所有公民免费提供 ChatGPT Plus 订阅服务。此次合作旨在扩大人工智能技术的普及范围，并包含面向公民的 AI 技能实践培训，以帮助民众负责任地使用 AI。该计划是国家级大规模推广 ChatGPT Plus 的首例，预计将提升马耳他全民的 AI 素养与应用能力。

OpenAI现象/趋势行业动态

推荐理由：一个小国直接给全体公民配发 ChatGPT Plus，这比任何宽泛的 AI 战略都实在，可能成为其他国家公共服务的参照模板。

17:13

Google DeepMind：Blog（RSS）

精选61

加强新加坡的AI未来：一项新的国家合作

新加坡与Google DeepMind达成战略合作，共同将前沿人工智能技术应用于解决该国在医疗健康、教育创新和可持续发展等领域的复杂挑战。双方旨在通过该国家级伙伴关系，推动AI技术在实际场景中的落地，以应对社会性难题，提升国家科技竞争力。

DeepMindGoogle行业动态

推荐理由：官方合作公告，AI 含量基本是 PR 包装，目前只有框架没有具体落地项目，关注东南亚市场的可以扫一眼。

16:16

Google DeepMind：Blog（RSS）

精选59

寻找新型传染病背后的分子开关

Clare Bryant教授利用Co-Scientist这一工具，针对新兴传染病背后的基因触发因素进行研究，旨在揭示驱动这些疾病出现的分子开关机制。这项工作有望帮助快速识别潜在的新发传染病威胁，为疾病监测与早期预警提供新的技术路径。

DeepMind其他论文/研究

推荐理由：这不是什么惊天动地的突破，但 Co-Scientist 在传染病研究中找到分子开关的案例，标志着 AI 辅助科学发现正从「能做什么」真正走向「实际做了什么」的落地阶段。

16:08

Google DeepMind：Blog（RSS）

开辟衰老研究新路径

Calico Life Sciences 通过 Co-Scientist 平台，将零散的衰老研究发现进行连接与整合，从而生成新的研究线索与方向。该工具旨在加速衰老领域的科学探索，为后续研究提供创新思路。

智能体教程/实践

16:00

Google DeepMind：Blog（RSS）

精选57

加速肝脏疾病机制的发现

研究者 Filippo Menolascina 使用 AI 工具 Co-Scientist，旨在寻找新的肝脏疾病治疗方法，并解释现有药物为何仅对部分患者有效。该研究聚焦于加速对疾病机制的理解，以推动更精准的治疗方案开发。

DeepMindGoogle论文/研究

推荐理由：DeepMind 的 Co-Scientist 在肝病治疗上发现了新机制，这种从数据里自动找靶点的能力，对做药物研发的人来说是实打实的加速，值得看。

15:53

Google DeepMind：Blog（RSS）

精选55

联合生物学工具包，探索ALS新疗法

波士顿儿童医院与麻省理工学院的实验室达成合作，共同利用生物学工具包，探索基于RNA的肌萎缩侧索硬化症新疗法。这项跨机构合作旨在为这种神经退行性疾病开发创新治疗路径。

DeepMind论文/研究

推荐理由：Co-Scientist 把两个顶尖实验室连起来搞 ALS 新疗法，这是 AI 辅助科研从论文到医院的一个真实信号，做生物医药的可以留意一下这种跨团队协作模式。

15:40

Google DeepMind：Blog（RSS）

揭开老药新用对抗肝纤维化的可能性

斯坦福大学遗传学家利用Co-Scientist工具，在现有药物中筛选用于治疗慢性肝病和肝纤维化的潜在疗法。这种方法专注于老药新用，旨在加速药物发现过程，为肝纤维化这一难治性疾病提供新的治疗思路。

DeepMind论文/研究

15:17

OpenAI：官网动态（RSS · 排除企业/客户案例）

数据科学团队如何使用 Codex

Codex 能够帮助数据科学团队根据实际工作输入，自动化生成根本原因简报、影响报告、关键绩效指标备忘录、范围分析以及仪表板规格文档。该工具将自然语言描述转化为结构化分析框架，提升了从数据查询到报告生成的工作流效率，使团队能更快速地将业务问题转化为可执行的数据分析方案。

OpenAI教程/实践数据/训练编码

15:17

OpenAI：官网动态（RSS · 排除企业/客户案例）

业务运营团队如何使用 Codex

业务运营团队可利用 Codex，将实际工作输入转化为多种关键文档。该工具能够基于真实工作内容，自动生成项目简报、战略更新报告、领导决策包以及进度更新等材料。这一应用展示了 Codex 如何将日常运营数据与沟通需求直接连接，提升文档创建效率与一致性，帮助团队更专注于核心业务决策。

智能体OpenAI教程/实践

15:17

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选61

销售团队如何使用 Codex

销售团队可利用 Codex 基于实际工作输入，自动生成一系列关键销售文档。具体功能包括创建管道简报、会议准备材料、预测审核、客户计划以及停滞交易诊断。这一应用将日常沟通与数据转化为结构化、可操作的销售支持内容，帮助团队提升效率与决策质量。

OpenAI教程/实践编码

推荐理由：如果你是销售运营或者做销售自动化工具的，这篇 OpenAI 官方教程把 Codex 在销售场景的用法讲得很具体，包括管线简报、会议准备、预测审查这些，可以直接抄作业。

11:14

Google DeepMind：Blog（RSS）

精选60

WeatherNext如何帮助美国国家飓风中心更好预测飓风Melissa在牙买加的历史性登陆

WeatherNext AI模型协助气象预报员为社区在飓风Melissa登陆前提供了前所未有的准备时间。该模型通过提升预测准确性与提前量，帮助牙买加等地成功应对了这场历史性的飓风事件，显著增强了灾害预警的时效性。

DeepMind行业动态

推荐理由：AI 天气预报模型第一次在真实飓风预报中证明自己，帮社区多争取到宝贵的准备时间，比任何 benchmark 都管用，做气象和灾害响应的可以仔细看看。

08:30

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选67

Databricks将GPT-5.5引入企业智能体工作流

Databricks宣布在企业智能体工作流中集成GPT-5.5模型。这一决策基于该模型在OfficeQA Pro专业基准测试中取得的突破性性能表现，创造了新的行业标杆。GPT-5.5的引入将提升企业自动化流程的准确性与效率。

智能体OpenAI行业动态

推荐理由：Databricks用GPT-5.5跑企业代理，OfficeQA Pro刷榜，对数据平台是个信号，但这就是条合作新闻，没有可落地的细节。

06:57

Claude Code：GitHub Releases（RSS）

精选61

Claude Code v2.1.143 版本更新：插件管理与用户体验增强

Claude Code 发布 v2.1.143 版本，重点增强了插件管理功能，包括强制执行插件依赖关系，并新增了插件市场的预估上下文成本显示。为方便直接编辑工作副本，增加了 `worktree.bgIsolation: "none"` 设置。多项体验得到改进：后台会话唤醒后保留模型与努力级别设置；Windows PowerShell 工具默认绕过执行策略；`claude agents` 命令新增多个参数以配置默认会话。此外，本次更新修复了大量错误，包括修复损坏的 `.credentials.json` 文件导致 CLI 启动卡住、Windows Terminal 中的右键粘贴问题、后台会话错误捕获 IDE 文件引用，以及 macOS 上后台作业读取特定目录文件的权限错误等。

智能体Anthropic产品更新编码

关联讨论 2 条

推荐理由：Claude Code 的 v2.1.143 是个纯修补版本，修了一大堆边缘 bug 外加几个小优化，对重度用户可能是救命稻草，其他人可以等下次大版本。

06:50

Google DeepMind：Blog（RSS）

精选69

Gemini 3.5：具备行动能力的前沿智能

Google发布了Gemini 3.5模型，该模型专注于提升执行复杂任务的能力。其核心特点是支持“代理式工作流”，即能够像助手一样自主规划并执行一系列多步骤、复杂的操作，旨在将先进的语言理解与实际问题解决能力相结合。

智能体Google模型发布

关联讨论 15 条

推荐理由：Google DeepMind 官宣 Gemini 3.5，明确主打复杂 Agent 任务执行，这是大厂在 Agent 方向最直白的表态之一。但除了这句宣言，目前公开细节很少，可以先标记关注，等正式发布再深挖。

05:02

xAI：News（网页）

精选70

将Grok接入Hermes智能体

xAI宣布，用户现可将Grok订阅账户接入Nous Research的开源自改进智能体Hermes Agent。该集成对所有订阅层级开放，允许用户在Hermes环境中直接使用Grok 4.3进行文本对话与高级推理、调用其文本转语音功能生成语音回复，并利用Grok Imagine创建图像与视频。Hermes Agent可持久运行于电脑、沙盒或VPS，具备跨会话长期记忆能力，并能连接WhatsApp、Discord等通讯平台。用户通过安装Hermes Agent并选择Grok提供商即可完成配置。

智能体xAI产品更新开源生态

关联讨论 2 条

推荐理由：如果你已经在用或想尝试Nous Research的Hermes Agent，现在可以直接用Grok订阅，不必再多付一份模型API钱，而且Grok 4.3的推理和图像生成都能在agent里跑，对个人开发者挺友好。

03:19

Tomer Tunguz 博客（VC 分析）

精选72

推理的一阶导数：AI浪潮下的增长逻辑

AI推理是当今规模最大、增长最快的技术市场，预计七年内将达到2500亿美元。直接销售或转售推理服务的公司增长迅猛，如Anthropic和谷歌云。在AI时代前的软件公司中，Datadog和Twilio作为“推理的一阶导数”脱颖而出：Datadog的LLM可观测产品数据量近一季增长近两倍，其约20%的AI客户贡献了约80%的年度经常性收入；Twilio则通过AI重构的语音服务吸引客户。当前周期呈现高度集中特点，少数客户能驱动巨大收益。对于非AI原生公司，核心战略在于如何转售推理服务或从其客户的大量采购中获益。

大佬观点推理现象/趋势

推荐理由：Tomer 用「推理的第一导数」这个框架讲透了一件事，Twilio 和 Datadog 的暴涨不是偶然，而是买推理的衍生需求，pre-AI 公司想活就得问自己怎么沾上推理的光。

01:01

Claude：Blog（网页）

精选67

在法律行业全面部署Claude：产品指南与实施路线图

2026年报告显示，法律团队生成式AI使用率已从44%跃升至87%。为应对日益复杂的工作，法律行业正将Claude应用于合同审阅、并购尽调及诉讼准备等核心流程，并通过多款产品组合提升效率：Chat用于即时研究，Claude Cowork处理跨文件协作，Microsoft 365插件集成办公套件，Platform支持定制应用开发。Anthropic同步发布法律行业部署指南，涵盖产品矩阵、12个预设业务领域插件及三阶段实施路线图，并解答数据托管与权限保护等关键问题。

智能体Anthropic教程/实践部署/工程

推荐理由：Anthropic法律团队亲自下场写路线图，从合同红笔到隐私评估，把Claude全家桶怎么用、什么时候用讲透了，律所和法务部可以直接照着推。

00:57

GitHub Blog

构建通用无障碍智能体--以及我们在此过程中的收获

GitHub正在试点一项实验性的通用无障碍智能体。该项目旨在探索如何利用AI技术提升软件的可访问性，通过智能体自动识别并修复代码中的无障碍问题。试点过程中，团队总结了关键经验，包括需要平衡自动化建议与开发者控制权，以及如何有效处理不同编程语境下的多样化无障碍需求。这项实验是GitHub Copilot在AI辅助编程领域的进一步探索，致力于让开发工具更具包容性。

智能体GitHub教程/实践

00:54

Dwarkesh Patel：Podcast & Blog（RSS）

精选61

Eric Jang - 从零开始构建 AlphaGo

文章以AlphaGo为例，阐述了智能的基本构成要素。AlphaGo至今仍是最清晰、最完整的范例，它融合了三大核心基础：搜索技术、从经验中学习以及自我对弈。这三大要素共同构成了其实现超越人类棋艺的关键路径。

DeepMind大佬观点推理

推荐理由：从亲历者视角还原 AlphaGo 的架构决策，对做 RL 和搜索的人来说是教科书级的复盘点，比论文更生动。

00:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选63

ChatGPT 推出全新个人理财体验

OpenAI 为美国地区的 ChatGPT Pro 用户推出个人理财功能预览版。用户可安全连接个人金融账户，获取基于自身财务状况、目标和优先级生成的 AI 洞察与指导。该体验通过账户关联实现个性化分析，标志着 ChatGPT 正式向个人金融助手领域拓展。

OpenAI产品更新

关联讨论 2 条

推荐理由：ChatGPT 开始接银行账户给理财建议了，这个步子比我想的激进，虽然现在只面向美国 Pro 用户，但个人理财是高频刚需场景，后续铺开的可能性不小。

5月15日

22:42

Gary Marcus：The Road to AI We Can Trust（RSS）

精选62

美国人工智能政策一团糟，以下是应对之策

美国各州和联邦层面已提出约1200项人工智能相关法案，但至今未能形成统一的国家政策框架。这种分散且矛盾的立法状态，可能导致监管冲突、创新受阻，并削弱美国在全球人工智能治理中的竞争力。当前亟需建立跨层级的协调机制，将零散的提案整合为连贯的战略，以平衡技术发展与风险管控。

大佬观点政策/监管

推荐理由：Gary Marcus 痛批美国 AI 政策有 1200 个法案却没有框架，给出的修复建议很实在，关心 AI 监管走向的可以一读。