AIHOT

5月20日

05:44

OpenAI@OpenAI

精选70

人们每周在ChatGPT中生成超过15亿张图像。研究员 @kenjihata 与产品负责人 @adele__li 及主持人 @AndrewMayne 一起，探讨自 Images 2.0 发布以来出现的新用例和趋势。

OpenAI图像生成现象/趋势

推荐理由：OpenAI 首次把内部图像生成数据摊开聊，每周 15 亿张的量级说明这功能已经不是玩具了，做图像产品的可以对着用例风向调方向。

04:59

Emad@EMostaque

看来许多自回归模型将被转换为扩散模型。

数据/训练现象/趋势

04:38

Google Gemini@GeminiApp

精选72

使用 Gemini 3.5 Flash 构建你的第一款游戏。无需复杂的3D建模，即可将日常物品直接转化为互动的数字体验。从一个 Nano Banana 提示开始，在 Canvas 中将你的图像变成游戏，并优化你的愿景以获得最佳游戏体验。

Google多模态教程/实践

推荐理由：Google Gemini 官方教你把日常物品照片变成互动游戏，Nano Banana 到 Canvas 的链路很直接，想试 Gemini 多模态能力的人可以当入门案例跑一遍。

04:33

ClaudeDevs@ClaudeDevs

精选73

计算机使用功能使Claude成为能够操作真实用户界面的智能体。新博客文章探讨如何在生产环境中确保其可靠性：包括提高点击准确性、选择思考努力级别、在长会话中保持上下文，以及记录Claude可重放的演示操作： https：//claude.com/blog/best-practices-for-computer-and-browser-use-with-claude

智能体AnthropicMCP/工具教程/实践

推荐理由：这篇博客把 Computer use 从“能用”真正推到“生产级”，聚焦点击精度、思考模式选择、长会话上下文保持这些实际卡点，如果你在让 Claude 操作 UI，这是必读的避坑指南。

04:11

Josh Woodward@joshwoodward

Gemini Omni太有趣了--视频编辑能力简直逆天！

Google多模态大佬观点视频

04:11

Josh Woodward@joshwoodward

Gemini 3.5 Flash是一款令人难以置信的模型，速度超快，今天就在Gemini中试试吧！

Google大佬观点模型发布

04:11

Google DeepMind@GoogleDeepMind

Gemini 3.5 Flash 🤝 @Antigravity 观看模型如何部署多个子代理来设计和构建整个城市。

智能体Google教程/实践

04:10

Google AI@GoogleAI

我们与@GoogleDeepmind团队坐下来，深入探讨了全新的Gemini Omni Flash模型背后的幕后故事、难忘时刻，以及许多许多（偶尔令人尴尬的）视频生成案例。观看完整的发布说明节目请访问：http：//goo.gle/49adTFp

Google行业动态

04:10

Google AI@GoogleAI

一些来自社区的有趣Gemini Omni用例👇🧵 （我们将在全天持续更新此推文串）

Google多模态教程/实践

03:41

宝玉@dotey

Codex 看起来又双叒叕重置了！感觉又错过了几十亿 Token！

宝玉: 每次 Codex 一重置就后悔之前没多用一点

其他大佬观点

03:01

Chubby♨️@kimmonismus

感谢 Sundar - 第一次参加 I/O 就已感觉宾至如归。 Gemini 3.5 Flash 在这个价位上的表现确实令人印象深刻。效率竞赛才刚刚开始！

Sundar Pichai: Workhorse model! (and hope you're enjoying your first I/O)

Google大佬观点模型发布

03:01

François Chollet@fchollet

Gemini 【引用 @arcprize】：Gemini 3.5 Flash ARC-AGI（已验证） ARC-AGI-2： - 高配：72.1%，$0.85 - 最低配：8.9%，$0.11 ARC-AGI-1： - 高配：92.5%，$0.42 - 最低配：48.8%，$0.06 Gemini 3.5 Flash在ARC-AGI测试中与GPT-5.5（中配）表现相当

ARC Prize: Gemini 3.5 Flash ARC-AGI (Verified) ARC-AGI-2: - High: 72.1%, $0.85 - Minimal: 8.9%, $0.11 ARC-AGI-1: - High: 92.5%, $0....

Google多模态推理评测/基准

02:59

Sundar Pichai@sundarpichai

主力模型！（希望你喜欢你的第一个 I/O）

Chubby♨️: Insane evals for a Flash model! Gemini 3.5 Flash is really good for its size!

Google大佬观点推理

02:59

Emad@EMostaque

迫不及待想看到Gemini Omni在@NotebookLM的电影级解说视频中登场👀

Google其他

02:55

AYi@AYi_AInotes

Google掀桌子，AI游戏规则真的变了

Google在I/O大会发布的Gemini 3.5 Flash与Antigravity平台，标志着AI竞争从模型性能转向构建Agent基础设施。Flash以4倍于顶级模型的速度解决了复杂Agent的延迟瓶颈，使24/7自主Agent成为可能；Antigravity则提供桌面端、CLI、SDK等全栈开放底座，目标成为“Agent时代的AWS”。Google将这些能力全量开放，意在降低Agent开发门槛，争夺生态定价权。这宣告了AI行业正从聊天机器人时代，迈入构建数字劳动力生态的新阶段。

Sundar Pichai: Just off stage at #GoogleIO, some highlights from this morning 🧵 Gemini 3.5 Flash is available today for everyone in @a...

智能体Google大佬观点推理

02:29

Jeff Dean@JeffDean

在充满Gemini公告的#GoogleIO美好一天，与我的Gemini团队同事@OriolVinyalsML和@borgeaud_s在一起！每次听到"Gemini"就喝一口水！

Oriol Vinyals: This is my third Google I/O in a row. Some things have changed, some (like the amazing colleagues that were there since ...

Google行业动态

02:29

Ethan Mollick@emollick

也获得了 Gemini 3.5 Flash 的早期访问权限。作为 Flash 模型，它速度非常快且能力很强，尽管不如完整的前沿模型强大。我已将其添加到程序生成的单次城镇画廊中（它出现了一个错误并自行修正）：https：//hg-20f7d1a3ce.netlify.app/#gemini-3-5-flash

Google评测/基准

02:28

向阳乔木@vista8

LeCun从Meta离职创业，押注"反LLM"架构方向

Yann LeCun离职Meta后创办AMI，押注基于世界模型的JEPA架构，与主流LLM不同。他批评LLM虽在语言任务有效，但缺乏预测行动后果和规划能力，无法真正理解物理世界且结构上不安全。LeCun倡导在抽象表示空间进行预测的自监督学习，以推动智能泛化。同时，他推进Tapestry项目，通过联邦学习构建去中心化的全球共识模型，应对AI控制集中化问题。

Meta大佬观点推理

01:59

Ethan Mollick@emollick

Gemini Omni："一个男人一边吃着蒜香面包，一边在独轮车上保持平衡，站在翻滚的番茄酱海洋上方的小平台上，朗读《荒原》中的《溺水之死》。在酱海中央，漂浮着一颗戴着高顶礼帽、长着亮蓝色眼睛的肉丸。"

Google其他多模态视频

01:59

elvis@omarsar0

人们和公司越早认识到这一点，就越能更好地利用AI。这很有道理。我们训练当前的AI系统，是为了在与人类专业知识结合时达到最佳效果。未来可能会有变化。更自主的智能体即将到来。但即便如此，人类的验证和创造力仍将至关重要。【引用 @balajis】：每个AI智能体最终都有一个人类委托人。

Balaji: Every AI agent ultimately has a human principal.

智能体大佬观点

01:28

Ethan Mollick@emollick

我早期获得了Gemini Omni的访问权限："一只穿着飞行员制服的海獭在纽约上空的热气球里，向一只被笔记本电脑分心的河獭解释为什么精神航空破产了。在旁边的另一个热气球里，威廉·莎士比亚正在与一个由披萨制成的机器人搏斗"

Google其他多模态视频

01:02

Berryxia.AI@berryxia

老马承认目前Cursor 模型和Claude的差距，也说了X AI 也不能没有它。是整个生态中必须要有的一部分，得努力追赶。

Elon Musk: @karankendre Anthropic will not be destroyed. Their AI+harness goes far beyond coding and Opus 4.7 is still better than ...

Anthropic大佬观点编码

01:02

Microsoft Research@MSFTResearch

让社区通过参与AI开发流程来影响AI，可以改善AI，并帮助社区认识到AI为其提供良好服务的潜力。

Microsoft大佬观点

00:59

François Chollet@fchollet

大多数人类任务并非马尔可夫过程，最优的下一步行动无法仅凭当前状态决定。它很大程度上取决于过去的轨迹、原始意图和上下文约束。一个无法以绝对保真度压缩和追踪其过去轨迹的智能体，其效用可能只有能做到这一点的智能体的20%。

智能体大佬观点

00:53

AYi@AYi_AInotes

Karpathy加入Anthropic：一次指向未来的"关键投票"

前OpenAI创始团队成员Andrej Karpathy宣布加入Anthropic，被普遍视为AI行业的一次地震级事件。但这并非单纯的人才流动。Karpathy在声明中将LLM前沿的未来数年定义为“formative years”（关键塑形期），这被解读为对“AI发展见顶论”的直接反驳，意味着真正的爆发窗口期现在才刚开始。他选择Anthropic，本质上是其个人对未来AI发展路径的深度判断和“投票”，即认为LLM的下一次重大突破，很可能在安全与极致能力协同发展的路径上实现。这标志着行业竞争的核心，已从当下的模型比拼，延伸至对长期技术路线的押注。

Andrej Karpathy: Personal update: I've joined Anthropic. I think the next few years at the frontier of LLMs will be especially formative....

Anthropic大佬观点现象/趋势行业动态

关联讨论 14 条

00:42

Nathan Lambert@natolambert

学术失衡：AI研究转向闭源与全球知识扩散

本文指出，AI研究正从学术界主导向工业界闭源化转变，打破了长期由中立学者传播前沿知识的社会平衡。科技公司通过制造不信任感掌控叙事，削弱了科学界服务公众的传统。同时，金融驱动的“错失恐惧症”迫使许多志在学术的人才流向工业界。作者认为，尽管短期内发展由闭源模型主导，但知识最终必然扩散，其长期轨迹仍与开放科学紧密相连。在这一趋势下，凭借更利于研究获取与传播的环境，中国有望在未来成为全球AI研究的新中心。

大佬观点开源生态现象/趋势

00:36

DogeDesigner@cb_doge

马斯克《福布斯》访谈：科技愿景与争议观点

在《福布斯》访谈中，埃隆·马斯克就多个领域阐述了激进观点。他批评针对OpenAI的诉讼败诉开创了“危险先例”，并计划上诉。其核心预测包括：AI发展呈指数级，5年内数字智能或超全人类智能总和；全球经济规模有望数年内翻倍；人形机器人将达数亿台。SpaceX致力于开发全复用火箭，以实现大规模太空运输并建立地外城市。他将Neuralink脑机接口技术视为“耶稣级”创新，能恢复残障人士机能。此外，他还提及了隧道交通、合成医学等机遇，整体展现出以技术加速人类文明进程的强烈紧迫感与乐观构想。

OpenAI具身智能多模态大佬观点

00:34

🚨 AI News | TestingCatalog@testingcatalog

Gemini Omni测试 🔥 这是我目前见过的最棒的"赛博朋克黑客机器人"视频之一。它在场景构图方面比最新的Veo模型处理得更好。

Google视频评测/基准

00:32

凡人小北@frxiaobei

AI技能与工具助力独立站SEO优化

本文推荐了一套针对独立站的便捷SEO优化方案。核心是名为“seo-audit”的AI技能，可安装在Codex或Claude Code等编程助手环境中，自动抓取网站并生成初步诊断报告，高效识别Sitemap、301重定向、noindex与canonical标签等常见配置问题。此外，文章还推荐了两项关键辅助工具：使用PageSpeed Insights测试并提升移动端访问速度（建议90分以上），以及利用在线工具检测网站中的404错误与死链。这套组合方案为独立站运营者提供了从技术审计到体验优化的实用入口。

向阳乔木: 如果你的网站SEO收录不好,可安装这个Skill:seo-audit 让 AI 抓取网站做一个初步分析,能发现不少基础问题。安装指令:npx skills add https://github.com/coreyhaines31/mark...

搜索教程/实践

00:26

向阳乔木@vista8

Gemini Omni Flash 效果很拉胯啊！提示词：生成墨比斯风格的科幻动画短片，银河系搭车客指南好像根本没理解第二句话…

Google多模态评测/基准

00:09

歸藏(guizang.ai)@op7418

用户测试了谷歌新上线的Gemini Omni Flash的视频编辑功能，但实际效果并不理想。用户提及原始视频来源，并明确表示其效果远不如SeeDance 2.0。同时，该推文引用了另一条关于Gemini Omni Flash已上线Flow平台的信息，表明其具备了一定的可用性。整体来看，尽管新模型可用，但用户对其当前的视频编辑能力持保留态度，并认为在效果上与特定竞品存在差距。

歸藏(guizang.ai): 哇! 谷歌新视频模型 Gemini Omni Flash 已经上线 FLow

Google视频评测/基准

00:06

DogeDesigner@cb_doge

埃隆·马斯克：脑芯片或能创造"耶稣级"奇迹。 - 脑机接口或能赋予人类赛博格超能力。 - Neuralink或可帮助脑部或脊髓损伤患者重新说话、视物，甚至行走。 - 直接脑接口或可为双眼视神经受损者，甚至先天失明者恢复视力。 - 这些突破如同"耶稣级奇迹"，因其可能深刻改变人类生活。

具身智能大佬观点

00:02

Berryxia.AI@berryxia

斯坦福数学家40年观察："最聪明的学生"不是笨，而是从来没人教他们「先干什么」

斯坦福数学家George Pólya通过40年观察发现，优秀学生面对难题时常因急于计算而失败，根源在于跳过了真正理解问题的关键步骤。他在《How to Solve It》中提出的四步解题法里，深刻理解问题与回顾反思是决定成败的核心。这一原理与当下使用Claude、Cursor等AI工具的现象高度相似：许多人未充分理解问题就急于让AI生成内容，反而降低效率。因此，最高阶的技巧是先慢下来，确保真正理解问题再行动，无论在数学解题还是AI协作中都至关重要。

Dr.Xiao.AI: A Stanford mathematician spent forty years watching one brilliant student after another crash into hard problems. Not be...

大佬观点

00:02

Berryxia.AI@berryxia

精选78

NVIDIA开源首个4-bit超长视频生成基础设施

NVIDIA研究员开源LongLive 2.0，这是首个支持4-bit量化、覆盖训练与推理全流程的端到端长视频生成基础设施。其核心技术包括FP4量化与并行加速，在5B模型上实现45.7 FPS的生成速度。该框架支持真实视频训练、蒸馏、多镜头生成、序列并行、KV缓存优化及异步解码部署，旨在解决以往长视频生成速度慢或仅限短片的瓶颈。

Yukang Chen: 🚀 Excited to release LongLive 2.0! 🎬 An end-to-end infrastructure for long video generation, with FP4 and parallelism ...

开源/仓库部署/工程

推荐理由：NVIDIA研究员把4-bit长视频生成的全套设施端出来了，45.7FPS跑5B模型，做视频工程的可以直接拿来魔改，这是把长视频的成本打下来的关键一步。

00:02

凡人小北@frxiaobei

AI提效后，组织协作面临新挑战

核心问题在于，AI大幅提升个人效率后，团队协作反而可能变得更困难。因为组织层面的AI应用并非个人提效的简单放大，而是需要解决如何将AI深度嵌入现有协作结构、打破信息壁垒的问题。当前很少有团队关注后者。Lucius AI 正尝试解决这一痛点，其核心是构建组织的“上下文层”，旨在减少团队中超过30%时间被浪费在重复重建已有决策上下文上的现象，从而弥合个人高效与组织协同之间的鸿沟。

Lucius: We raised $3M to build Lucius AI - the Context Layer for Your Organization. Backed by Future Capital Discovery Fund, we'...

现象/趋势部署/工程

5月19日

23:56

Emad@EMostaque

推文指出通用人工智能（AGI）的重要性远超多数人认知，其发展可能仅需数年甚至已初现端倪。在这一预期下，顶尖人才向AGI相关公司聚集是合乎逻辑的趋势。Karpathy宣布加入Anthropic，正是这一趋势的体现；他强调了大语言模型（LLM）前沿研究在未来数年的关键作用，表明该领域正吸引核心研发力量。这反映出行业竞争焦点已转向AGI竞赛，人才流动加速了技术布局。

Andrej Karpathy: Personal update: I've joined Anthropic. I think the next few years at the frontier of LLMs will be especially formative....

Anthropic大佬观点行业动态

23:35

宝玉@dotey

Gemini更新引发用户不满：GEM固定功能缺失导致操作繁琐

用户指出Gemini最新UI更新移除了将常用GEM固定至侧边栏的功能，导致频繁使用的GEM需在数十个项目中反复查找，操作效率显著下降。建议恢复固定功能或增加输入框@调用快捷方式，并批评产品设计缺乏用户场景考量。