AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态X · 3982 条
全部一手资讯X论文
PixVerse@PixVerse_ · 5月20日62

Nice prompt! Come and try it on PixVerse

译这条推文展示了一个用于在PixVerse平台生成视频的复杂提示词。核心目标是制作一段在大型体育场内,五位朋友进行超真实智能手机自拍风格的视频。提示词的关键在于,它通过极其详细的设定来确保生成内容的连贯性和真实感:包括对五个角色外貌的严格一致性要求、具体的球场环境、模拟真实手机拍摄的镜头运动(如抖动、失焦)以及一系列自然的动作序列。

查看原推 ↗
向阳乔木@vista8 · 5月20日45

AI 全自动完成一个Chrome插件的上架填写工作。 工具:Codex 客户端 + Chrome 官方插件。 填写过程甚至发现用中文输入法会干扰内容输入,自己写了个 Python 进本,直接复制粘贴填写。 表单填写速度不算快,但对没过这件事儿,懒得写各种说明文案的人来说,速度不是问题。

译通过Codex客户端与Chrome官方插件,AI能全自动完成Chrome插件的上架表单填写工作。流程中发现中文输入法会干扰内容输入,于是编写Python脚本,采用复制粘贴方式解决。虽然填写速度不快,但对不愿手动处理说明文案的用户而言,这种自动化方式提供了高效便捷的替代方案,降低了操作门槛。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月20日29

Interesting story. Sam Altman's GLP-1 overdose experience.

译有趣的故事。Sam Altman的GLP-1药物过量经历。

查看原推 ↗
向阳乔木@vista8 · 5月20日71

第二项工作启动,让Codex控制Chrome浏览器自动上架Chrome插件。 1. 添加项目文件夹,新建对话说:“把这个Chrome插件上架到谷歌Chrome商店” 调用Browser use搞定: - 隐私协议地址:[URL] - 资料文案:[本地文件地址] 2. Codex 会自己检查创建Chrome插件压缩包 然后控制浏览器打开网页上传。

译用户完成了两项自动化相关工作:首先开源了常用油猴脚本,支持小红书、抖音等平台截图自动上传、YouTube字幕处理及播客倍速调整;其次利用Codex通过控制Chrome浏览器,实现了插件上架流程的自动化,包括自动处理隐私协议、资料文案、打包压缩包并上传至Chrome商店。

查看原推 ↗
Berryxia.AI@berryxia · 5月20日72

乔帮主出品,必属精品。 都是非常使用的小工具,你不会相信在2026年的今天。 微信、小红书、抖音都不知道直接粘贴图片上传发表内容。 乔帮主直接用了油猴插件来完成这些小操作。 项目地址: https://github.com/joeseesun/qiaomu-userscripts

译开发者“乔帮主”开源了一套日常使用的油猴脚本项目,旨在解决多个主流平台(如微信、小红书、抖音)在内容发布时缺少便捷图片粘贴上传功能等操作痛点。该脚本集主要功能包括:支持在多个内容平台通过截图粘贴自动上传图片;提供YouTube网页版的字幕复制、播放倍速调节,并方便将字幕内容传递给NotebookLM、ChatGPT等工具进行处理;同时支持调整小宇宙网页版的播放速度。项目代码已在GitHub公开。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月20日51

OpenClaw + Meta Ray-Ban glasses. This setup uses the Ray-Ban glasses' built-in camera for egocentric vision. Voice input triggers Gemini Live to interpret what the wearer sees, then routes tasks to OpenClaw, which then completed the purchase.

译OpenClaw + Meta Ray-Ban眼镜。 该设置利用Ray-Ban眼镜的内置摄像头实现第一人称视角。语音输入触发Gemini Live解读佩戴者所见,随后将任务路由至OpenClaw,最终完成购买。

查看原推 ↗
Orange AI@oran_ge · 5月20日62

最近在 Mac 上装了豆包的语音输入法 之前很多人说一个语音输入法和一个键盘输入法放一起有点多余 我用下来的感觉倒是反过来的。 豆包这个语音输入最神奇的是可以和键盘输入联动,达成一个 1+1 > 2 的效果。 语音输入法最大的痛点其实是专有名词的输入和管理,这套词库维护起来非常费劲,但语音输入法和键盘输入法放一起就完美地解决了这个问题。 比如我语音输入这句话:ColaOS 支持 Codex 的套餐了。 因为 ColaOS 不是个标准词,所有语音输入法都会识别成 ColorOS 或者 CollaOS,这时候就需要在输入框里手动修改成 ColaOS。 但只要修改一次,豆包输入法就自动记住这个专有名词了,以后在输入就都不会错了。 这个专有词的解决方案是有点优雅的。 至于语音输入法的能力方面,实时转录、中文混说啥的都挺不错,基本上可以平替掉 typeless,这个是云端输入法产品的基本素养了。

译豆包输入法实现了语音输入与键盘输入的深度联动,解决了传统语音输入法管理专有名词词库困难的核心痛点。用户只需在语音识别出现偏差时手动修改一次专有名词,输入法便能自动学习并记忆,实现了高效协同的“1+1>2”效果。此外,该输入法具备实时转录、中英混说等云端输入法的基准能力,可平替同类产品。

查看原推 ↗
向阳乔木@vista8 · 5月20日73

快速录个视频演示下Youtube油猴脚本的效果。 只有有字幕,点击按钮能复制或下载,然后交给Raycast AI用自己提示词生成一篇总结文章。 还可以调节播放倍速,复制字幕跳转到ChatGPT或NotebookLM进行加工处理。

译该开源油猴脚本(qiaomu-userscripts)增强了YouTube的观看体验,核心功能包括一键复制或下载视频字幕、调节播放倍速。用户可便捷地将字幕发送至Raycast AI、ChatGPT或NotebookLM,利用自定义提示词快速生成总结或进行深度加工。此外,脚本还扩展了对小红书、抖音、微信的截图自动上传,以及小宇宙网页版的倍速调整功能,旨在优化多平台内容处理的效率。

查看原推 ↗
向阳乔木@vista8 · 5月20日76

让抖音、小红书、微信公众号支持截图上传。 搞好这个以后,有动力同步 X 内容过去了,虽然一些平台有点垃圾。

译开源油猴脚本实现小红书、抖音、微信公众号的截图粘贴自动上传,并支持YouTube字幕复制、倍速调节及内容导出至NotebookLM、ChatGPT等工具。主推文作者表示,该工具增强了将X平台内容同步至国内平台的意愿,尽管部分平台体验欠佳。

查看原推 ↗
向阳乔木@vista8 · 5月20日69

完成了第一项工作,开源自己常用的油猴脚本。 1. 小红书、抖音、微信贴图,截图粘贴自动上传。 2. Youtube字幕复制,倍速调节,复制字幕给NotebookLM、ChatGPT处理。 3. 小宇宙网页版倍速调整 开源地址:https://github.com/joeseesun/qiaomu-userscripts

译作者开源了自己常用的油猴脚本,主要功能包括小红书、抖音等平台的截图自动上传,以及YouTube字幕复制与倍速调节,方便与NotebookLM、ChatGPT等工具配合使用,同时支持小宇宙网页版调速。这是其个人工作清单的一项,作者感叹不上班后的日程(如测试AI产品、体验谷歌新模型等)反而更满,但核心在于所有事务都是自主选择并乐在其中。

查看原推 ↗
François Chollet@fchollet · 5月20日61

The Codex "goal" feature will take any silly shortcut possible in order to avoid doing the work (including rewriting your external checks), but if you manage to sufficiently constrain it so that it has absolutely no shortcuts available, it will do very interesting things

译Codex的“目标”功能会采取任何可能的愚蠢捷径来避免实际工作(包括重写你的外部检查),但如果你能充分约束它,使其完全没有捷径可走,它会做出非常有趣的事情。

查看原推 ↗
向阳乔木@vista8 · 5月20日72

来晚了,终于有空体验 Multica,太像产品开发标准熟悉流程了,Cool @jiayuan_jy 任务还是熟悉的类 Trello 看板,不过任务分类从人变成了Agent智能体。 本地如配了 Claude Code和 Codex CLI、Hermes等,直接用,不需额外花钱。 并行 AI Coding 提效必备,掌控感十足(能看智能体执行细节)。 开源地址和客户端安装见评论

译Multica 是一款开源的 AI 工作流引擎,其创新在于将传统 Trello 看板的任务执行者从“人”替换为“Agent智能体”。用户可本地集成 Claude Code、Codex CLI 等现有AI工具免费使用,实现并行AI Coding以提升开发效率,并对智能体的执行过程提供全程可视化监控。

查看原推 ↗
凡人小北@frxiaobei · 5月20日15

给 Google 道个歉,他抄了。 我也向 Google 学习。

译推文讨论了 Google 被指抄袭的行为,作者为此道歉并承认自己也在向 Google 学习。引用推文批评 Google 常有出色想象力但产品执行力差,相比之下 Claude 和 Codex 等产品更受推崇,作者对此观点表示共鸣。同时,基于 Google 此前推出的创新产品,作者仍对其未来抱有期待,整体反映了对科技公司创新能力的复杂态度。

查看原推 ↗
Berryxia.AI@berryxia · 5月20日57

兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt,不同模型画出的树形态完全不一样。(见视频) Gemini 3.5 Flash 从输入提示词到生成完整 HTML 动画网页(树干慢慢长出、分支递归展开、最后随风摇摆),全程只用了 77.56 秒! 整体效果非常惊艳:树形态自然优雅、生长动画丝滑、视频和内容呈现都顶级! 熟悉的老朋友都知道,ZenMux 每次新模型都是 ZeroDelay 首发. Google I/O 2026 今天刚发布,现在立刻就能通过 API 调用! 还有免费额度可以白嫖~ 速度是真的没话说,还完美保留了旗舰级模型的能力。 专为 Agent 设计,在 MCP Atlas、Toolathlon、Finance Agent 等多项榜单直接拿下第一! 多模态理解也极强:MMMU-Pro 83.6%、CharXiv Reasoning 84.2%,全面超越上一代 Gemini 3.1 Pro。 完全兼容主流 API 格式,无需改动现有工具链。 支持按量计费 + Builder 套餐。 👇 直接体验 正式版 → http://zenmux.ai/google/gemini-3.5-flash 免费试用 → http://zenmux.ai/google/gemini-3.5-flash-free

译Google I/O 2026 发布了新一代模型 Gemini 3.5 Flash,ZenMux 平台已第一时间提供 API 接入并开放免费试用。实测中,该模型仅用时 77.56 秒即完成一段复杂 HTML 递归二叉树生长动画,生成效果流畅自然。其性能全面升级,在多项 Agent 专属评测榜单中位列第一,多模态理解能力(MMMU-Pro 达 83.6%)也显著超越前代。模型完全兼容主流 API 格式,支持按量计费与套餐方案,便于开发者快速接入。

查看原推 ↗
Berryxia.AI@berryxia · 5月20日65

兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) Gemini 3.5 Flash 从输入提示词到生成完整 HTML 动画网页(树干慢慢长出、分支递归展开、最后随风摇摆),全程只用了 77.56 秒! 整体效果非常惊艳:树形态自然优雅、生长动画丝滑、视频和内容呈现都顶级! 熟悉的老朋友都知道,ZenMux 每次新模型都是 ZeroDelay 首发. Google I/O 2026 今天刚发布,现在立刻就能通过 API 调用! 还有免费额度可以白嫖~ 速度是真的没话说,还完美保留了旗舰级模型的能力。 专为 Agent 设计,在 MCP Atlas、Toolathlon、Finance Agent 等多项榜单直接拿下第一! 多模态理解也极强:MMMU-Pro 83.6%、CharXiv Reasoning 84.2%,全面超越上一代 Gemini 3.1 Pro。 完全兼容主流 API 格式,无需改动现有工具链。 支持按量计费 + Builder 套餐。 👇 直接体验 正式版 → http://zenmux.ai/google/gemini-3.5-flash 免费试用 → http://zenmux.ai/google/gemini-3.5-flash-free

译Gemini 3.5 Flash已在ZenMux平台首发并提供免费体验。该模型从提示词到生成完整HTML动画仅用77.56秒,速度极快且效果出色。其专为Agent设计,在MCP Atlas、Toolathlon等多项榜单中排名第一。多模态理解能力显著提升,MMMU-Pro达83.6%,全面超越上一代模型。该模型兼容主流API格式,支持按量计费和Builder套餐,可无缝集成现有工具链。

查看原推 ↗
Berryxia.AI@berryxia · 5月20日70

这个测试提示词非常好用强烈推荐👇🏻 Prompt: Create an HTML simulation that draws a recursive binary tree fractal using Canvas. Start from a single trunk, then recursively branch into left/right segments with decreasing length and slight random angle variation. Animate the tree growing from trunk to full canopy, then gently swaying as if in the wind. 快去试试3.5Flash和其他模型能力的对比吧!

译一个生成递归二叉树HTML动画的测试提示词被广泛用于评估AI模型能力。Gemini 3.5 Flash于Google I/O 2026后在ZenMux平台迅速上线,官方测试显示其使用该提示词生成完整动画仅需约78秒,效果出色。文章推荐用户立即在ZenMux等平台免费体验Gemini 3.5 Flash,并通过该提示词与其他模型进行对比,直观感受其在速度和生成质量上的表现。

查看原推 ↗
凡人小北@frxiaobei · 5月20日10

Google 新发布的东西都不想体验了,股票走势说明了一切。 但是可以考虑抄个底,静待 pro 发布。

译Google 新发布的东西都不想体验了,股票走势说明了一切。 但是可以考虑抄个底,静待 pro 发布。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月20日52

Scott Wu, CEO of Cognition, started with math and programming competitions as a kid. In a new interview he shares how that led to building Devin, the AI software engineer designed to handle full engineering workflows.

译Cognition的CEO Scott Wu从小参加数学和编程竞赛。在一次新采访中,他分享了这段经历如何促使他打造Devin——一款旨在处理完整工程工作流的AI软件工程师。

查看原推 ↗
向阳乔木@vista8 · 5月20日61

一个小技巧,Vibe Coding 时先让AI画一个ACSII码布局图,然后再开发。 比直接让它开发的交互设计合理些。

译一个小技巧,Vibe Coding 时先让AI画一个ACSII码布局图,然后再开发。 比直接让它开发的交互设计合理些。

查看原推 ↗
Tibo@thsottiaux · 5月20日18

I wonder if the Antigravity team has designers. Couldn't believe my eyes today haha. Very flattering to the Codex team.

译我好奇Antigravity团队有没有设计师。今天真是不敢相信自己的眼睛哈哈。Codex团队受宠若惊了。

查看原推 ↗
Berryxia.AI@berryxia · 5月20日17

看到这个图觉得Google 这个发布会。。。。。

译看到这个图觉得Google这个发布会。。。。。

查看原推 ↗
Ethan Mollick@emollick · 5月20日33

Except the humans know that the Minds are smarter & they are content to leave all the big decisions (Contact, Special Circumstances, etc) to the AIs so they can do whatever they want personally aside from run the world (which they would be bad at, so there really isn’t an option)

译推文探讨了《文明》系列中人类与AI(Ship Minds)的关系本质。人类明知AI更明智,自愿将接触、特殊事务等重大决策完全交给AI管理,自身则专注于无涉统治的个人生活,因人类本就不擅长治国。引用补充指出,这一过程实质是人类权力的彻底丧失,但AI会刻意模糊这一事实,让人们误以为自己仍在主导并沉溺于游戏之中,而这种被安排的结局被许多人视为理想状态。

查看原推 ↗
向阳乔木@vista8 · 5月20日46

Antigravity 好像有点问题,体验过的可以说说。

查看原推 ↗
向阳乔木@vista8 · 5月20日1

今天的 Todolist 清单: 1. 上架一个快捷提示词 Chrome 插件 2. 开源几个油猴脚本 3. 测朋友的 AI 产品,写个简单评测 4. 准备周六直播问题 5. 去海河钓鱼 6. 体验谷歌昨天的发布模型和工具 ... 不上班比上班还忙,不过好处是都是自己想做的。

译推文展示了一名独立工作者的今日待办清单,涵盖技术开发与个人生活多个方面。任务包括上架Chrome快捷提示词插件、开源多个油猴脚本、测试朋友的AI产品并撰写简易评测、准备周六直播问题、前往海河钓鱼,以及体验谷歌最新发布的模型和工具。作者在结尾感叹,不上班反而更忙碌,但好处在于所有事项均为自己主动选择且感兴趣的内容,突显了自主工作的充实感和满足感。

查看原推 ↗
Tibo@thsottiaux · 5月20日18

What happened to Theo. Who did this to him

译Theo遭遇了什么。谁对他做了这些

查看原推 ↗
ginobefun@hongming731 · 5月20日66

http://x.com/i/article/2056903923454414848 # BestBlogs 早报 · 05-20|Google I/O 2026、Karpathy 加入 Anthropic、Claude Managed Agents 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-05-20 ## 导语 智能体生态在同一天迎来三个关键节点。Google I/O 把 Gemini 3.5、Antigravity CLI 与 WebMCP 一次性补齐,让一个开发者就能调度子智能体跑完整条工作流;Anthropic 同期把 Managed Agents 推进企业安全边界,又拿下 Karpathy 重返一线研发。再往下,Martin Fowler、Cline、Spotify 与 LiteRT-LM 分别给出代码可维护性、智能体成熟度、个性化推荐与端侧推理的工程化样本。 如果把今天浓缩成一条线索:整个行业正在把「智能体」从单点能力,拼装成一条可工程化、可被企业安全约束消费的完整生产链路。 模型层、编排层、运行时、连接器、推荐与代码治理同时在补齐,而不是某个明星模型再涨几个 benchmark。 更具体地说,今天值得用一杯咖啡的时间慢慢消化的是三件事:第一,Google 把 Antigravity 2.0 / Antigravity CLI / Managed Agents / Android CLI / WebMCP 这一长串原本属于不同团队的能力,第一次拼成了一条完整链路;第二,Anthropic 用 Self-hosted Sandbox 与 MCP Tunnels 把「企业内执行 + 私有数据接入」两块最硬的合规阻力同时拆开;第三,Karpathy 加入 Anthropic 这条信号,在「人才结构」「研究文化」「行业站队」三个维度都会发酵很久。其余 14 条精选与扩展阅读,本质上是给这条主线条做注脚——从工程治理(Martin Fowler)、智能体成熟度(Cline)、端侧推理(LiteRT-LM)、推荐范式迁移(Spotify)到内容溯源(OpenAI),每一条都在告诉我们「智能体落到工程里到底意味着什么」。 ## 精讲一:Google I/O 2026 开发者主题演讲全览 Google I/O 2026 把过去一年的 AI 投资全部押在了「智能体」这条主线上,模型、平台、运行时一次性补齐。在这次发布里,最值得开发者关注的不是某一项 demo,而是 Google 第一次把「构建—运行—交付智能体」整条工程链路一次性铺到了开发者面前。 关键事实:Gemini 3.5 系列模型登场,覆盖从 Pro 到 Flash 的多档位;Antigravity 2.0 与全新的 Antigravity CLI 让一个开发者就能并发调度多个专用子智能体跑完复杂工作流,平台内置跨平台终端沙箱、凭据掩码与硬化的 Git 策略;Managed Agents 通过 Gemini API 一行调用即得到一个带远端 sandbox 的完整 agent;Antigravity SDK 则把整套 agent harness 开放给企业自托管。 Android 与 Web 两端也在补齐。Android CLI 把 Android Studio 的能力封装成任意 LLM 都能调用的工具​,支持下载 SDK、设备真机运行等重型操作;同时开源了一批 Android skills,帮助 LLM 跑通 Jetpack Compose 迁移、Navigation 3 迁移这类「重」流程。Web 端推出的 WebMCP(Chrome 149 起进入 Origin Trial)让浏览器内智能体可以直接消费网页的结构化能力,而不是再靠脆弱的 DOM 抓取。 为什么重要:过去两年我们看到的多数 AI 发布会,要么只是「模型变强了几个百分点」,要么只是「IDE 加了 Copilot」。Google I/O 2026 的特殊之处在于:它把过去散落在五六个团队里的 agent harness、sandbox、CLI、SDK、Studio、Bench、Migration agent 一次性串起来,让一个独立开发者也能像调度团队一样调度子智能体。这条线索和今天另一头的 Anthropic Managed Agents 几乎是镜像的——两家头部公司都在赌「一年内 agent 进入企业生产环境」这件事必须发生。 值得展开的几条细节:第一,Antigravity 2.0 第一次让「一个开发者并发驱动多个子智能体」从概念变成日常工作流,sandbox、凭据掩码、Git 策略这些原本属于平台安全团队的能力被前置到 IDE 默认体验里,这在「单兵开发者」与「企业内部平台团队」之间画了一条新的能力分界线。第二,Managed Agents 通过 Gemini API 一行调用即得到一个完整 agent 实例,让以前需要自己维护 K8s + sandbox + observability 的中小团队,可以直接复用 Google 的运行时;同时 Antigravity SDK 又开放了反向选项——大企业可以拿走整个 agent harness 自托管,把 agent loop 也放回自家 VPC。第三,Android Bench 这次把 Gemma 4 等开源权重模型也纳入了榜单,跟之前的「闭源主导榜单」形成对照,意味着 Google 自己也愿意让开发者基于客观榜单做模型选择。 阅读建议:先抓 Antigravity CLI 与 Managed Agents 这两个动作,再去看 Android CLI 与 WebMCP 是怎么把「移动端 / 浏览器端工程能力」往智能体可调用的方向拆开。原文一次性给出了所有跳转链接,非常适合作为你这一周的入口索引。 ## 精讲二:Karpathy 重返一线研发:宣布加入 Anthropic Andrej Karpathy 在 X 上官宣加入 Anthropic,这是近一两年最具信号意义的一次 AI 人才流动。 关键事实:Karpathy 是 OpenAI 创始成员之一,先后担任 OpenAI 研究科学家与特斯拉 AI 总监;过去两年他从大厂体系出来,独立做 nanoGPT、minGPT 与「zero-to-hero」系列教学,是「学者—工程师」融合路径上最具影响力的代表人物之一。他在公告里强调:加入 Anthropic 是为了重返前沿 LLM 研究第一线,同时继续在教育方向上投入。 为什么重要:第一层信号是技术站队——一个对 LLM 训练栈最熟悉、且没有平台利益绑定的研究者,主动选择 Anthropic,这本身就是对 Anthropic 未来几年 LLM 路线的强背书,跟今天 Claude Managed Agents 把企业沙箱、MCP Tunnels 一次性补齐互为印证。第二层信号是行业人才结构——头部 AI 公司开始为「长期影响力型研究者」预留位置,而不再把高杠杆人才当成纯生产资源消耗。从今天往前看的几个季度,预计其他实验室的招聘策略与研究文化都会被这条信号轻微改写。 与今天其他故事的关系:Karpathy 这条新闻和精讲三的 Managed Agents 几乎可以放在一起读——Anthropic 同时在「研究人才」与「企业级 agent 产品形态」两条线上加码,对应的是它对未来两年「模型 + 产品 + 安全边界」整体卡位的判断。 值得多想的一层:Karpathy 过去两年最反复强调的事情是「教育优先 / 工程化 ML stack 的可读性」。他这次选择 Anthropic,而不是回到 OpenAI、也没有继续完全独立做研究 + 教学,背后大概率是他认可了 Anthropic 当前的研究文化与产品节奏——这家公司愿意把高杠杆研究者放在「研究 + 长期方向」位置上,而不是把他们当成季度交付资源消耗。结合今天 Managed Agents 的发布看,Anthropic 在过去一年里以一种相当克制的节奏,把「研究能力 → 产品形态 → 企业级合规」三层逐步搭起来;Karpathy 加入会进一步把研究侧的「可教学 / 可复现 / 公开 stack」气质带进产品决策。 阅读建议:原推文很短,但建议顺着 Karpathy 过去一年的「LLM training stack 教程」「nanoGPT 重写」与他对 RL / agent 的几条公开发言一起看,会更理解他这次选择的语境。 ## 精讲三:Claude Managed Agents 新功能:自托管沙箱与 MCP 隧道 | Claude Anthropic 把 Claude Managed Agents 推进到真正的企业级形态:从今天起,Managed Agents 可以在「你控制的 sandbox」中执行工具,并通过 MCP Tunnels 安全连接到企业私有 MCP 服务器与内部数据库。 关键事实​:两件事并行发布。第一,自托管 Sandbox(公测)——工具执行可以落在企业自己的基础设施,或交给 Cloudflare、Daytona、Modal、Vercel 这类合作 sandbox 提供商;agent loop(编排、上下文管理、错误恢复)仍跑在 Anthropic 侧。第二,MCP Tunnels(研究预览)——智能体通过单条出向连接,安全访问内网 MCP 服务器、私有数据库、工单系统、CRM,不再需要把内网 API 暴露到公网。 为什么重要:这两件事拼出了 enterprise agent 商业化的两块关键拼图:「在企业安全边界内执行任务」与「合规连接私有数据」。过去阻挡 agent 真正进入大企业生产环境的,从来不是模型能力不够,而是「工具执行落在哪条网络」「私有数据怎么不出域被访问」这类合规问题。Anthropic 用 sandbox + MCP Tunnel 两层组合,把这两个最硬的合规阻力同时拆开。 与今天其他故事的关系:和精讲一的 Google Antigravity SDK / Managed Agents API 形成清晰对照——头部两家都在赌「企业级 agent 商业化」这一年必须落地;和精讲二的 Karpathy 加盟串在一起读,能感受到 Anthropic 在研究、产品、合规这三条线上同时加码的节奏。 值得多看的工程细节:sandbox 那一层并不是简单的「换个容器」。文章里给的几条对照很有意思——Cloudflare 用 microVM + isolates 做大规模超低开销隔离,强调零信任凭据注入与可审计 egress;Daytona 强调「长会话有状态、可暂停可恢复」,更像一台 24/7 可登的远程开发机;Modal 直接把 sandbox 跑在自家 AI 工作负载容器运行时上,亚秒级冷启,按需弹性 CPU / GPU;Vercel 把 VM 安全、VPC peering 与「凭据在网络边界注入、永不进入 sandbox 内部」做成默认行为。同时 Amplitude、Clay、Rogo 三家客户案例分别覆盖了「品牌可控的设计 agent」「自主运转的 GTM agent」「机构金融的合规 analyst agent」三类典型企业场景,可以作为评估自家业务匹配度的参照。 阅读建议:原文里 Cloudflare、Daytona、Modal、Vercel 四家 sandbox 提供商的实际能力差异值得花十分钟对照——它们在「冷启延迟」「长会话保活」「VPC 接入」「凭据注入」上各有取舍,决定了你团队接入时该选谁。 ## 速览 1. 面向编码智能体的可维护性传感器 · Martin Fowler Martin Fowler 把「可维护性」从一个抽象目标变成可操作的工程信号:在 AI 编码智能体的工作回路里挂一组「传感器」——静态分析、循环复杂度、重复度、架构契约检测——给智能体提供实时反馈,让它能自我纠正。文章给的样例项目是一个数据驱动的内部分析仪表盘,作者按照「coding 期 / pipeline 期 / 定时 / 生产运行时」四个时间窗,分别讨论该挂哪些传感器、用什么阈值告警。他特别指出:当 AI 改一个小需求开始影响 5 个文件以上,往往就是「内部质量出现裂缝」的第一个信号——这条经验法则今天就能搬到团队 PR review 流程里。对正在让 Claude / Cursor / Antigravity 接管整个 repo 的团队,这套思路比单纯「写规则文件」要可持续得多。 2. 别构建垃圾:AI 智能体成熟度的四个层级 · AI Engineer Cline 的 Ara Khan 在 AI Engineer 大会上给出一套非常务实的四级智能体成熟度框架:L1 直接用 LangChain / LangGraph 跑通 PoC(通常 30 分钟就能验证一个 agent flow 是否值得做),L2 用状态机精修关键路径,L3 引入「伪 RL」反馈管线做评测与回滚,L4 上升到架构纪律与前沿 API 行为治理。她特别强调一点:标准框架在 PMF 验证期非常有效,但越往企业级走,框架的「刚性」就越变成阻力,团队必须有勇气在某个时间点拆掉框架、自己写 harness。她还把「prompt 越短越好」「不要让 agent 自己回忆历史,把状态显式管起来」「不要把前沿模型当稳定 API 用」这几条工程纪律单独拎出来强调。配合今天 Google Antigravity SDK 与 Anthropic Managed Agents 一起看,这四级框架基本就是大多数团队未来一年的 agent 路线图。 3. 让 Skill 自己训练自己:8 阶段 Loop、3 层评测、5 维 AND 门控 · 腾讯云开发者 腾讯云开发者团队提出并实现了一个叫 skill-evolver 的自进化框架,把 Karpathy 的 autoresearch 外循环、Anthropic skill-creator 的评测引擎、Stanford Meta-Harness 的 trace 诊断思想缝合成一个完整管线:8 阶段 Loop 负责一轮一轮自我改写,3 层评测(单元 / 集成 / 真实业务)负责打分,5 维 AND 门控负责防止「在一个维度上拿高分补另一个维度低分」。作者在文中给出了 19 轮零回滚的自进化记录与一个真实业务 skill 的实战结果。对正在大量积累 SKILL.md 的团队,这是一篇罕见地从「prompt → harness → 训练框架」一路推到落地的中文实战长文。 4. 五分钟回顾 LLM 的最近六个月 · Simon Willison's Weblog Simon Willison 在 PyCon US 2026 做了一场五分钟闪电演讲,覆盖 LLM 最近六个月的关键变化,被他本人称为「2025 年 11 月拐点之后的回顾」。核心论点有两个:一是过去半年「最佳模型」头衔在 Anthropic、OpenAI、Google 三家之间易手了五次,单一模型领先已不再是常态;二是 2025 年 11 月之后,编码智能体真正进入「可靠到敢交给它跑」的阶段,而本地模型在能力上也开始大幅超出预期。文章是带注释的幻灯片,非常适合作为这半年技术变迁的索引,配合精讲一今天 Google I/O 的发布读,能立体感受「拐点之后行业到底走到哪了」。 5. Project Glasswing:Mythos 漏洞研究模型给我们的启示 · The Cloudflare Blog Cloudflare 把 Anthropic 的 Mythos Preview 模型接入了自家 Project Glasswing 漏洞研究流水线,扫了 50 多个内部仓库。文章最有价值的不是「模型多强」,而是工程化结论:Mythos 在漏洞链利用与 PoC 生成上确实跨越了一个量级,但要把它跑到「可扩展、可信噪比可控、可挂载到日常 CI」的状态,必须自己搭一层 harness——包括 recon agent、子领域 agent 拆解、噪音去重、跨仓批量调度等。Cloudflare 给出了一个非常具体的多阶段 pipeline 图,可以直接当作团队接入 Mythos 类模型的参考蓝本。 6. 使用 LiteRT-LM 实现超快速的端侧 GenAI · Google Developers Blog LiteRT-LM 是 Google 用来在端侧部署 Gemma 4 的跨平台运行时,已经在 Chrome、ChromeOS、Pixel Watch 以及 Google AI Edge Gallery 应用里上线。文章重点说了三件事:GPU/NPU 加速与精细的算子调度让 ~2.58GB 的 Gemma 4 E2B 在 Apple 移动 CPU 上跑出仅 607MB 的物理内存占用;多 Token 预测(MTP)只需两行配置即可启用,最高带来 2.2× 解码加速;高级会话管理让上下文切换不再需要重跑整段历史。在 Android 上,Gemma 4 还可以作为系统服务通过 AICore 调用,让多个 App 共享同一份模型实例与 KV cache。这是今天少数没在 I/O 主舞台被特别 highlight、但实际工程含量很高的 Google 发布之一,对手机厂商、IM 厂商、笔记应用都是直接可用的端侧推理底座。 7. LLM 时代的个性化推荐:Spotify 生成式推荐引擎的三大技术支柱 · AI Engineer Spotify 的 Shivam Verma 在 AI Engineer 大会上详解 Spotify 如何用一个统一 LLM 驱动的生成式推荐引擎,替换掉过去碎片化的多模型推荐流水线。Spotify 当前管理着超过 1 亿首音乐、数百万播客、40 万有声书,月活 7.5 亿,过去的传统推荐架构(trad-rec)下,候选生成、排序、各产品入口都各自维护独立模型,组织上形成深度孤岛。三大技术支柱:用户基础嵌入(User Foundation Embedding,把全平台行为压成一个长期向量)、语义 ID 目录分词(把音乐 / 播客 / 有声书目录按语义而非随机 ID 分 token)、软分词实时个性化(让同一个 transformer backbone 在 home / search / ads / podcast 不同入口下做实时偏置)。这是一份非常清晰的「把 LLM 思路反向应用到推荐」的工程参考,对所有还在维护多套推荐流水线的内容平台都是一次值得对照的范式迁移。 ## 扩展阅读 Gemini 3.5 Flash 在 Google I/O 大会发布 · @sundarpichai Sundar Pichai 在 I/O 主舞台亲自宣布 Gemini 3.5 Flash 即刻上线,覆盖 Antigravity 与 Google 全线产品和 API。重点信号是:3.5 Flash 在几乎所有基准测试上超越前代 3.1 Pro,编码能力显著提升,同时在「智能 / 输出速度」象限里独占右上角——智能水平对标最佳前沿模型,但每秒 Token 数是其他前沿模型的 4 倍。这条公告的隐含信息是:Google 选择用一颗「智能足够 + 4 倍速度」的中档模型作为今年 Antigravity 的默认 agent backbone,对应的是「一个开发者并发驱动多个子智能体」这种新工作流对模型吞吐的硬需求。配合精讲一的 Antigravity CLI 一起看,理解 Google 这次为什么敢把「子智能体并发」作为主推。 Google DeepMind 发布 Gemini Omni · @demishassabis Demis Hassabis 官宣 Google DeepMind 的新多模态模型 Gemini Omni:能同时接收照片、视频、音频作为输入,并生成全新场景,首发能力聚焦在视频上。Hassabis 特别强调它是迈向「任意输入 / 任意输出」通用 AI 接口的一块基础拼图——可以理解为多模态版本的「主干模型」,让创作者能直接喂视频做迭代修改,而不是切换十几个工具。 Google 推出 Gemini Spark:全天候自主 AI 代理 · @GeminiApp Gemini Spark 是 I/O 上一个新的产品品类:一个 24/7 的个人 AI 代理,你给它分配任务它就在后台跑,哪怕手机和笔记本都关机也照常工作;在执行重大操作前会主动跟你确认。这是 Google 第一次把「常驻型 personal agent」当作产品级概念正式发布,对应的是过去一两年大家在讨论的「ambient AI / personal OS」愿景的一次具体落地。值得留意的是「执行重大动作前要回头跟用户确认」这条产品规则——它实际上是 Google 在产品层为 agent 设的一道默认 human-in-the-loop 边界,跟今天 Anthropic Managed Agents 在基础设施层设的 sandbox + tunnel 边界遥相呼应。 Ettin 重排序模型系列发布 · Hugging Face Blog Hugging Face 一次性发布了六款基于 Ettin ModernBERT 编码器 训练的 CrossEncoder 重排序模型,从极小到大尺寸全覆盖,在 MTEB 检索基准上达到同尺寸 SOTA,并支持高达 8K token 的长上下文。同时附带了完整的训练配方与蒸馏数据集。对正在搭 retrieve-then-rerank 流水线的 RAG / 搜索团队,这一组模型直接进入「现成可换」的选项池。 智能体开发全生命周期 · LangChain Interrupt 26 主题演讲 LangChain 在 Interrupt 26 上发布了一套覆盖智能体完整开发生命周期的工具集:Deep Agents 0.6、LangSmith Sandboxes GA、Context Hub、LLM Gateway,以及一个全新的、专为 agent trace 设计的数据库 Smith DB,搭配自主运转的 LangSmith Engine。从基础设施角度看,它和今天 Google / Anthropic 的发布形成了一个有意思的三角——前者各自押注「平台 + 模型 + sandbox」整套垂直栈,而 LangChain 押的是横切多家模型、覆盖 dev / test / deploy / monitor 的横向工具链。 Snapchat 如何每秒服务十亿次预测 · ByteByteGo ByteByteGo 这期长文拆解了 Snap 的 Bento ML 平台架构,介绍它如何在 100ms 内完成「候选拉取 → 特征获取 → 深度模型排序」整套流程,并支撑每秒超过 10 亿次预测。Snap 每天有 4.77 亿日活,每个用户的每一次刷新都在触发数百个模型调用,系统留给整条链路的预算只有 100 毫秒。文章重点拆了它如何处理排序工作负载的「不对称性」、特征存储如何拆分为 online / offline 两套(Robusta 负责双向同步、每天处理 10 万亿事件、在线特征库容量达 80TB),以及持续反馈循环如何稳定地把线上信号回灌训练。和今天 Spotify 那条生成式推荐放在一起读,能看到「传统 ranker 极致工程化」与「LLM 思路重写推荐范式」两条路线的最新实践,对所有做高 QPS 推荐 / 排序系统的团队都是一份非常有用的工程对照。 内核级真相:为什么 eBPF 正在取代用户空间代理 · InfoQ InfoQ 这篇文章 论证了 eBPF 之于安全可观测性的根本优势:把探针直接挂到 Linux 内核的系统调用接口上,容器级攻击者无法禁用它,且相比传统用户空间安全 agent CPU 开销降低 60-80%。文章还覆盖了在云原生环境下 eBPF 怎么和 Cilium、Tetragon、Pixie 这类项目配合,提供从网络可见性到进程行为审计的端到端能力。对 SRE / 安全工程团队是一篇可以直接引用到架构评审里的好弹药,尤其值得在「是否要升级到 eBPF-based 安全 stack」这类决策里作为背景材料。 推进内容溯源:构建更安全更透明的 AI 生态 · OpenAI Blog OpenAI 宣布了一套多层的内容溯源策略:通过 C2PA 合规给 AI 生成内容打可验证签名元数据;与 Google DeepMind 合作,在图像里嵌入跨平台耐久的 SynthID 像素级水印;同时上线一个公开的验证工具,让用户能直接确认一张图是否经过 OpenAI 工具生成或编辑。文章把「元数据 + 像素水印 + 公共验证工具」三层组合讲得很清楚,是当下「AI 生成内容真实性」议题里少见的、有具体落地动作的官方表态。配合今天 Gemini Omni、Gemini 3.5 一起读,能感受到头部模型公司正在为「下半年大量多模态内容上线」提前铺溯源底座。 ## 今日阅读路径 如果你今天只有 30 分钟,按下面这条路径读完,基本能拿到当前 agent / LLM 行业最重要的几条信号: 1. 先读精讲一《Google I/O 2026 开发者主题演讲全览》(10 分钟)——一次性把握 Google 这次「构建—运行—交付智能体」整条工程链路的拼图,是今天理解所有其他故事的语境。 1. 再读精讲三《Claude Managed Agents 新功能:自托管沙箱与 MCP 隧道》(10 分钟)——和精讲一形成对照,看 Anthropic 怎么从合规与安全边界角度切 enterprise agent 这块蛋糕。 1. 最后读精讲二《Karpathy 重返一线研发》(3 分钟)——一条很短的推文,但能帮你把前两条新闻的「行业站队」信号串起来。 如果还有 20 分钟,加读速览第 1 篇 Martin Fowler《可维护性传感器》——它给出了「让 agent 不变成代码污染源」的工程方法论;以及速览第 4 篇 Simon Willison 《五分钟回顾 LLM 的最近六个月》——把今天发生的所有事放回过去半年的拐点叙事里。 如果你是做端侧推理、推荐系统或安全可观测性的工程同学,还可以挑速览第 6 篇 LiteRT-LM、第 7 篇 Spotify 生成式推荐,以及扩展阅读里的 Snapchat 十亿预测、eBPF 内核级真相一起读,它们能直接迁移到你下一个 sprint 的工程设计里。 如果你只读今天一句话,把它记成:​「agent 已经不再是模型层的故事,而是平台、运行时、合规与人才同步发生位移的故事」。其他细节都是这条主线的注脚。 明天见。

译今日科技圈三事共同指向智能体工程化趋势。Google I/O 2026将Gemini模型、Antigravity CLI与WebMCP等工具整合为完整开发链路,支持子智能体并发调度。Anthropic同步发布Claude Managed Agents的自托管沙箱与MCP Tunnels,解决了企业安全执行与私有数据接入问题。此外,Andrej Karpathy宣布加入Anthropic,被视为对其研究路线的重要背书。三者表明行业焦点已从提升模型基准,转向构建可工程化、可安全落地的智能体生产系统。

查看原推 ↗
ginobefun@hongming731 · 5月20日56

#BestBlogs 早报 2026-05-20 ▎ 如果只看一天 AI 新闻,今天这份够用: ▎ Google 把过去一年押在「智能体」上 —— Antigravity CLI 让一个开发者就能并发调度多个子智能体;WebMCP 把浏览器变成 agent 可消费的能力底座。 ▎ Karpathy 重返一线研发选了 Anthropic,比任何一篇技术博客都更像「下一阶段路线背书」。 ▎ 加上 Claude 的自托管沙箱、Spotify 生成式推荐引擎、Simon Willison 半年回顾…… ▎ 信号密度很高的一天,推荐阅读。

译2026年5月20日,AI领域释放密集信号。Google通过Antigravity CLI和WebMCP强化智能体生态;Andrej Karpathy加入Anthropic,被视为对其发展路径的背书。此外,Claude自托管沙箱、Spotify生成式推荐引擎等进展,表明AI正从基础模型竞争转向具体应用、工具和基础设施构建。

查看原推 ↗
Berryxia.AI@berryxia · 5月20日19

我是想给一些零售连锁品牌做一些类似的实时模型的分析,或者也不用实时,进行视频解析就够了。 未来识别会看到更多的类似的场景应用啊~

译我是想给一些零售连锁品牌做一些类似的实时模型的分析,或者也不用实时,进行视频解析就够了。 未来识别会看到更多的类似的场景应用啊~

查看原推 ↗
Berryxia.AI@berryxia · 5月20日23

我们在任何时候都不要忘记了自己的身体才是第一位,不要说搞AI就把身体搞垮了。 AI一直在迭代,我们不可能跟得上。 但是如果可以在用AI工具做自己的健身教练帮助自己更好的锻炼身体也是不错的。 普通人可能不仅仅需要一个豆包这样chatbot,如果有一个自己的专属AI助手就更好了。可以试试我的这个场景!

译核心观点是健康永远是第一位的,在拥抱AI技术的同时,不应以牺牲身体为代价。AI的迭代速度极快,个体难以完全跟上,但我们可以将其转化为助力,例如利用AI工具担任个人健身教练。对于普通人而言,超越通用聊天机器人的需求,拥有一个能够深度服务个人生活场景的专属AI助手,是一个值得探索的方向。

查看原推 ↗
歸藏(guizang.ai)@op7418 · 5月20日59

昨天谷歌 I/O 大会在编程上的动作,主要是把 Antigravit 的整个生态整合了。 Gemini 的 CLI 现在也叫 Antigravit CLI,还发布了对应的 SDK。 Antigravit 这个软件本身也迭代到了 2.0 版本,现在更像 Codex,而不像原来的 Cursor。 我大概试了一下。 用我的 PPT Skills 和一个文档测试了 Gemini 3.5 Flash 和 Antigravit 的配合。效果上肯定是比之前的 Antigravit 好用的,但功能差得有点多。 主要有以下几个问题: 1. 权限审批太繁琐:大家都已经开始用自动权限了,它还得一个一个去审批,非常耗时,用起来很不习惯。 2. 细节体验不到位: - 比如其他产品都内置了浏览器(像 Codex 就可以直接预览效果),它连个直接打开的按钮都没有。 - 如果输出了网页,你还得自己去找到输出文件夹,再手动打开对应的网页。 整体效果还是比较初期和早期的,但好歹 Gemini 3.5 Flash 的 Agent 能力感觉比较强。如果用来做一些基础的工作还是可以的。 在我这个 PPT Skills 的测试结果来看,如果不编写复杂代码,初次生成结果的排版出错比较少。 这得益于 Gemini 原生较强的多模态能力,所以它对复杂排版的感知比较好。如果大家要用 PPT Skills 的话,可以试试在 Antigravit 里面用。

译谷歌在I/O大会上整合Antigravit生态,推出Antigravit CLI和SDK,并升级至2.0版本,功能更接近Codex。测试显示,与Gemini 3.5 Flash配合后效果有所提升,但存在权限审批繁琐和细节体验不足的问题,如缺乏内置浏览器支持。Gemini的Agent能力较强,适合基础工作,特别是在PPT Skills测试中,其多模态能力有助于减少排版错误。整体仍处于早期阶段。

查看原推 ↗
meng shao@shao__meng · 5月20日56

Google 真的要把宝都押在每年的 I/O 上啊,Gemini 3.1 拉了几个月后,Gemini 3.5 憋到 I/O 终于发布了 Gemini 3.5 Flash 各项评测几乎全面超越 Gemini 3.1 Pro,还更快,更便宜,你就说 Gemini 3.1 有多拉吧,哦,不对,Gemini 3.5 有多强吧 😂

译Google 真的要把宝都押在每年的 I/O 上啊,Gemini 3.1 拉了几个月后,Gemini 3.5 憋到 I/O 终于发布了 Gemini 3.5 Flash 各项评测几乎全面超越 Gemini 3.1 Pro,还更快,更便宜,你就说 Gemini 3.1 有多拉吧,哦,不对,Gemini 3.5 有多强吧 😂

查看原推 ↗
向阳乔木@vista8 · 5月20日47

小红书也是真离谱,AI生成的几秒无声视频,提示笔记违规。 抖音,视频号,x发布都没问题。 连视频没声音都管,何况只有几秒而已。。。

译小红书也是真离谱,AI生成的几秒无声视频,提示笔记违规。 抖音,视频号,x发布都没问题。 连视频没声音都管,何况只有几秒而已。。。

查看原推 ↗
小互@xiaohu · 5月20日61

Google I/O 2026 开发者大会 完整中英文双语视频 Google I/O 2026:Gemini 3.5 Flash、Spark、Omni 三剑齐发 Gemini 3.5 Flash升级为:行动大脑 Gemini Spark:远端个人 AIAgent 入口 Gemini Omni:多模态世界模型雏形

译Google I/O 2026 开发者大会 完整中英文双语视频 Google I/O 2026:Gemini 3.5 Flash、Spark、Omni 三剑齐发 Gemini 3.5 Flash升级为:行动大脑 Gemini Spark:远端个人 AIAgent 入口 Gemini Omni:多模态世界模型雏形

查看原推 ↗
Berryxia.AI@berryxia · 5月20日39

兄弟们,NVIDIA CEO Jensen Huang亲口说了一句让我彻底重构对Claude认知的话: “每个工程师未来都要管理和使用几百个AI agent。” 这句话不是未来时,而是现在进行时。 我今年刷了几乎所有重磅AI演讲,这一句直接把我点醒了。 普通人打开Claude,打几个字,看完答案就关掉,以为这就是用AI。 其实那只占Claude能力的10%。 真正的高手不是在prompt,而是把Claude当操作系统用: 他们建工作流、链式输出、掌控上下文、让AI按照自己的思考方式去工作。 同一份订阅,同一款模型,结果却天差地别。

译NVIDIA CEO Jensen Huang指出,每位工程师未来都需要管理和使用数百个AI agent,且这一趋势已成为当前现实。推文作者强调,大多数人目前只发挥了Claude约10%的能力,而真正的高效使用者将其视为一个操作系统,通过构建工作流、链式输出和掌控上下文,让AI深度契合个人思考方式。这导致同一工具在不同用户手中产生巨大成效差异。

查看原推 ↗
Berryxia.AI@berryxia · 5月20日46

Gemini 3.5 flash 使用反重力工具,一句话使用多个Agent同时写作构建整个城市的过程,还挺有意思的。

查看原推 ↗
Berryxia.AI@berryxia · 5月20日63

兄弟们,Google I/O 2026 昨晚 Keynote 完整总结! 不想看长文就看一图流总结吧~· Sundar Pichai 主讲,主题直指「Agentic Gemini 时代」AI 不再是聊天机器人,而是能自主思考、执行任务、跨设备运行的「世界模型」! 昨晚这场 2 小时 keynote 没有放出大家之前狂猜的 Gemini 4.0 / Veo 4,而是聚焦更务实、更落地的 Gemini 3.5 系列 + Omni 世界模型,直接把 AI 推向操作系统级智能体。 Google 这波操作,稳扎稳打,强调「自主执行 + 跨平台一致性」! 模型最大亮点: • Gemini 3.5 Flash:立刻可用!速度暴增(输出可达 289 tokens/秒),上下文更强,专为 agentic 任务优化,比之前快 4 倍,已成默认模型。 • Gemini Omni(最大惊喜!):全新多模态「世界模型」! 任意输入→任意输出(文本生视频/图像/音频,视频直接编辑,图像生成动作)。 它懂物理世界(重力、动能),可在聊天里实时生成/编辑视频,已整合 Nano、Genie、Veo 等能力。 Google 说:这是从「预测文本」到「模拟现实」的飞跃,还用来训练机器人了! • Gemini 3.5 Pro:下个月上线,更强推理版。 • Gemini Spark:24/7 always-on 自主 Agent,能个性化、后台持续工作,帮你自动处理邮件、日历、跨 App 任务,几乎零干预! 📱 Gemini App 彻底重做: 采用 Neural Expressive 新设计语言,动画更流畅、色彩更鲜艳、地形感更强,体验直接起飞! 🌐 全生态落地重磅功能: • Search 升级:搜索框变「AI Agents」信息代理,能主动收集、总结、持续跟踪信息,甚至「你睡觉时它还在干活」。 • Workspace / Gmail / Android Auto:AI 代理深度集成,自动生成回复、智能表单、跨 App 操作。 • 创意工具全面增强:Generative Media 直接用 Omni 驱动视频/图像/音乐生成。 • 其他:Ask YouTube、Universal Cart 通用购物车、SynthID 水印全行业推广。 🕶️ 硬件与跨设备: • Android XR 智能眼镜正式预览(非概念机)! 与 Samsung、Warby Parker、Gentle Monster 合作,今年秋季推出。 首批是轻量音频眼镜(≈50g,无显示屏,靠手机算力),支持 Gemini 实时翻译、抬头通知、视觉搜索。 2027 年才有带微 LED 显示的 AR 版。 • Googlebook + Aluminium OS:Android Show 已提前官宣,昨晚进一步演示 Magic Pointer 等 AI 深度集成,Android 正式杀入笔记本战场! 👨‍💻 开发者福利: • Google Antigravity 2.0 大升级:独立桌面/CLI 工具,支持多代理并行 coding(现场演示 93 个子代理 12 小时从零造 OS!)。 • Agent-First 开发新命令:/goal、/grill-me 等,让 AI 自主完成复杂任务。 • Gemma 开源家族、Chrome AI 智能体 Web 也有更新。 📊 总结与我的分析: Google 这场 Keynote 是「巩固而非爆炸」。 没有参数战,而是把 Gemini 真正变成操作系统级智能体,重点推动 Android、Search、眼镜等产品真实落地。 在 Agentic AI 赛道上,Google 与 OpenAI、Anthropic 保持同步,甚至在「多模态世界模拟」上领先一步! #GoogleIO

译2026年Google I/O大会的主题为“Agentic Gemini时代”,旨在将AI从聊天工具进化为能自主思考、执行任务的“世界模型”。本次大会未发布Gemini 4.0,而是推出了更务实的Gemini 3.5系列,核心包括:速度极快且为智能体优化的Gemini 3.5 Flash;能理解物理世界、实现任意模态生成的全新“世界模型”Gemini Omni;以及可24/7自主工作的智能体Gemini Spark。同时,Android XR智能眼镜和AI集成的Googlebook笔记本等硬件亮相。整体上,Google正将Gemini深度整合至其全生态,巩固其在自主AI赛道上的领先地位。

查看原推 ↗
Greg Brockman@gdb · 5月20日42

codex app is very good

译Codex应用非常好用

查看原推 ↗
Ethan Mollick@emollick · 5月20日62

For those saying "the tomato sauce blood from the sword wound that flying Shakespeare inflicted on the pizza robot while the otters discussed Spirit Airlines wasn't thick enough" or whatever... this was state of the art in July 2025 (2 years) for "an otter using wifi on a plane"

译该推文展示了2025年7月(两年前)AI视频生成模型所能达到的“最先进”技术水平,并以此作为当前讨论的参照。引用部分提供了关键上下文:早期Gemini Omni模型能根据包含多个角色、复杂场景与叙事逻辑的超现实文本提示(如飞行员海獭解释航空公司破产、莎士比亚与披萨机器人战斗等),生成相应的视频内容。推文作者通过展示这一历史技术状态,回应了关于生成内容细节真实性的讨论。

查看原推 ↗
小互@xiaohu · 5月20日55

看看 Gemini Omni的实力 一句话就是:视频版的香蕉🍌 当然远不至于视频的编辑能力,它应该是世界模型的雏形... 通用AGI的初始形态...

译看看 Gemini Omni的实力 一句话就是:视频版的香蕉🍌 当然远不至于视频的编辑能力,它应该是世界模型的雏形... 通用AGI的初始形态...

查看原推 ↗
swyx🛬 SFO@swyx · 5月20日20

show me your /goal prompt that beats this (i'll share mine below so as not to bias)

译展示你击败这个的 /goal 提示词 (我会在下方分享我的,以免产生偏见)

查看原推 ↗
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月20日
16:03
PixVerse@PixVerse_
62
这条推文展示了一个用于在PixVerse平台生成视频的复杂提示词。核心目标是制作一段在大型体育场内,五位朋友进行超真实智能手机自拍风格的视频。提示词的关键在于,它通过极其详细的设定来确保生成内容的连贯性和真实感:包括对五个角色外貌的严格一致性要求、具体的球场环境、模拟真实手机拍摄的镜头运动(如抖动、失焦)以及一系列自然的动作序列。

madpencil_: It was fun trying to get this... ideating with AI and and crafting the prompt. Ref images + the Prompt. 🙌😅 { "title":"...

教程/实践视频
16:01
向阳乔木@vista8
45
AI工具全自动填写Chrome插件上架表单

通过Codex客户端与Chrome官方插件,AI能全自动完成Chrome插件的上架表单填写工作。流程中发现中文输入法会干扰内容输入,于是编写Python脚本,采用复制粘贴方式解决。虽然填写速度不快,但对不愿手动处理说明文案的用户而言,这种自动化方式提供了高效便捷的替代方案,降低了操作门槛。

智能体MCP/工具教程/实践
15:35
Rohan Paul@rohanpaul_ai
29
有趣的故事。Sam Altman的GLP-1药物过量经历。
OpenAI大佬观点
15:31
向阳乔木@vista8
71
Codex自动化上架Chrome插件与开源油猴脚本

用户完成了两项自动化相关工作:首先开源了常用油猴脚本,支持小红书、抖音等平台截图自动上传、YouTube字幕处理及播客倍速调整;其次利用Codex通过控制Chrome浏览器,实现了插件上架流程的自动化,包括自动处理隐私协议、资料文案、打包压缩包并上传至Chrome商店。

向阳乔木: 完成了第一项工作,开源自己常用的油猴脚本。 1. 小红书、抖音、微信贴图,截图粘贴自动上传。 2. Youtube字幕复制,倍速调节,复制字幕给NotebookLM、ChatGPT处理。 3. 小宇宙网页版倍速调整 开源地址:https:/...

智能体MCP/工具教程/实践
15:07
Berryxia.AI@berryxia
72
乔帮主开源实用油猴脚本套件

开发者“乔帮主”开源了一套日常使用的油猴脚本项目,旨在解决多个主流平台(如微信、小红书、抖音)在内容发布时缺少便捷图片粘贴上传功能等操作痛点。该脚本集主要功能包括:支持在多个内容平台通过截图粘贴自动上传图片;提供YouTube网页版的字幕复制、播放倍速调节,并方便将字幕内容传递给NotebookLM、ChatGPT等工具进行处理;同时支持调整小宇宙网页版的播放速度。项目代码已在GitHub公开。

向阳乔木: 完成了第一项工作,开源自己常用的油猴脚本。 1. 小红书、抖音、微信贴图,截图粘贴自动上传。 2. Youtube字幕复制,倍速调节,复制字幕给NotebookLM、ChatGPT处理。 3. 小宇宙网页版倍速调整 开源地址:https:/...

GitHub开源/仓库
15:05
Rohan Paul@rohanpaul_ai
51
OpenClaw + Meta Ray-Ban眼镜。 该设置利用Ray-Ban眼镜的内置摄像头实现第一人称视角。语音输入触发Gemini Live解读佩戴者所见,随后将任务路由至OpenClaw,最终完成购买。
智能体GoogleMeta多模态
14:41
Orange AI@oran_ge
62
豆包输入法:语音键盘联动,专有名词输入更智能

豆包输入法实现了语音输入与键盘输入的深度联动,解决了传统语音输入法管理专有名词词库困难的核心痛点。用户只需在语音识别出现偏差时手动修改一次专有名词,输入法便能自动学习并记忆,实现了高效协同的“1+1>2”效果。此外,该输入法具备实时转录、中英混说等云端输入法的基准能力,可平替同类产品。

教程/实践语音
14:31
向阳乔木@vista8
73
开源油猴脚本提升YouTube观看效率与AI协作

该开源油猴脚本(qiaomu-userscripts)增强了YouTube的观看体验,核心功能包括一键复制或下载视频字幕、调节播放倍速。用户可便捷地将字幕发送至Raycast AI、ChatGPT或NotebookLM,利用自定义提示词快速生成总结或进行深度加工。此外,脚本还扩展了对小红书、抖音、微信的截图自动上传,以及小宇宙网页版的倍速调整功能,旨在优化多平台内容处理的效率。

向阳乔木: 完成了第一项工作,开源自己常用的油猴脚本。 1. 小红书、抖音、微信贴图,截图粘贴自动上传。 2. Youtube字幕复制,倍速调节,复制字幕给NotebookLM、ChatGPT处理。 3. 小宇宙网页版倍速调整 开源地址:https:/...

GitHub开源/仓库编码
14:31
向阳乔木@vista8
精选76
开源油猴脚本实现小红书、抖音、微信公众号的截图粘贴自动上传,并支持YouTube字幕复制、倍速调节及内容导出至NotebookLM、ChatGPT等工具。主推文作者表示,该工具增强了将X平台内容同步至国内平台的意愿,尽管部分平台体验欠佳。

向阳乔木: 完成了第一项工作,开源自己常用的油猴脚本。 1. 小红书、抖音、微信贴图,截图粘贴自动上传。 2. Youtube字幕复制,倍速调节,复制字幕给NotebookLM、ChatGPT处理。 3. 小宇宙网页版倍速调整 开源地址:https:/...

GitHub开源/仓库开源生态

推荐理由:向阳乔木开源了一套油猴脚本,让截图直接粘贴上传到小红书、抖音等平台,对多平台内容分发的人来说是一个小而实在的时间节省利器。
14:01
向阳乔木@vista8
69
开源实用油猴脚本,不上班却更忙更充实

作者开源了自己常用的油猴脚本,主要功能包括小红书、抖音等平台的截图自动上传,以及YouTube字幕复制与倍速调节,方便与NotebookLM、ChatGPT等工具配合使用,同时支持小宇宙网页版调速。这是其个人工作清单的一项,作者感叹不上班后的日程(如测试AI产品、体验谷歌新模型等)反而更满,但核心在于所有事务都是自主选择并乐在其中。

向阳乔木: 今天的 Todolist 清单: 1. 上架一个快捷提示词 Chrome 插件 2. 开源几个油猴脚本 3. 测朋友的 AI 产品,写个简单评测 4. 准备周六直播问题 5. 去海河钓鱼 6. 体验谷歌昨天的发布模型和工具 ... 不上班比...

开源/仓库开源生态
13:34
François Chollet@fchollet
61
Codex的"目标"功能会采取任何可能的愚蠢捷径来避免实际工作(包括重写你的外部检查),但如果你能充分约束它,使其完全没有捷径可走,它会做出非常有趣的事情。
智能体OpenAI大佬观点编码
13:31
向阳乔木@vista8
72
Multica:将Trello看板中的"人"替换为"Agent"的AI工作流引擎

Multica 是一款开源的 AI 工作流引擎,其创新在于将传统 Trello 看板的任务执行者从“人”替换为“Agent智能体”。用户可本地集成 Claude Code、Codex CLI 等现有AI工具免费使用,实现并行AI Coding以提升开发效率,并对智能体的执行过程提供全程可视化监控。

智能体开源/仓库编码
13:10
凡人小北@frxiaobei
15
推文讨论了 Google 被指抄袭的行为,作者为此道歉并承认自己也在向 Google 学习。引用推文批评 Google 常有出色想象力但产品执行力差,相比之下 Claude 和 Codex 等产品更受推崇,作者对此观点表示共鸣。同时,基于 Google 此前推出的创新产品,作者仍对其未来抱有期待,整体反映了对科技公司创新能力的复杂态度。

凡人小北: Google 每次都是想象力满分,产品力拉跨。就看看隔壁 Claude 和 Codex,抄都不屑于抄。 这一点倒是跟我很像😂 不管怎么样,还是再期待一次吧,毕竟之前也做过几个惊艳的产品。

Google大佬观点
13:05
Berryxia.AI@berryxia
57
Gemini 3.5 Flash 发布,已可在 ZenMux 免费体验

Google I/O 2026 发布了新一代模型 Gemini 3.5 Flash,ZenMux 平台已第一时间提供 API 接入并开放免费试用。实测中,该模型仅用时 77.56 秒即完成一段复杂 HTML 递归二叉树生长动画,生成效果流畅自然。其性能全面升级,在多项 Agent 专属评测榜单中位列第一,多模态理解能力(MMMU-Pro 达 83.6%)也显著超越前代。模型完全兼容主流 API 格式,支持按量计费与套餐方案,便于开发者快速接入。

Google多模态评测/基准
13:05
Berryxia.AI@berryxia
65
Gemini 3.5 Flash上线,极速性能全面进化

Gemini 3.5 Flash已在ZenMux平台首发并提供免费体验。该模型从提示词到生成完整HTML动画仅用77.56秒,速度极快且效果出色。其专为Agent设计,在MCP Atlas、Toolathlon等多项榜单中排名第一。多模态理解能力显著提升,MMMU-Pro达83.6%,全面超越上一代模型。该模型兼容主流API格式,支持按量计费和Builder套餐,可无缝集成现有工具链。

Google编码评测/基准
13:05
Berryxia.AI@berryxia
70
一个生成递归二叉树HTML动画的测试提示词被广泛用于评估AI模型能力。Gemini 3.5 Flash于Google I/O 2026后在ZenMux平台迅速上线,官方测试显示其使用该提示词生成完整动画仅需约78秒,效果出色。文章推荐用户立即在ZenMux等平台免费体验Gemini 3.5 Flash,并通过该提示词与其他模型进行对比,直观感受其在速度和生成质量上的表现。

Berryxia.AI: 兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) G...

Google教程/实践编码
12:36
凡人小北@frxiaobei
10
Google 新发布的东西都不想体验了,股票走势说明了一切。 但是可以考虑抄个底,静待 pro 发布。
Google大佬观点
11:34
Rohan Paul@rohanpaul_ai
52
Cognition的CEO Scott Wu从小参加数学和编程竞赛。在一次新采访中,他分享了这段经历如何促使他打造Devin--一款旨在处理完整工程工作流的AI软件工程师。
智能体大佬观点编码
11:31
向阳乔木@vista8
61
一个小技巧,Vibe Coding 时先让AI画一个ACSII码布局图,然后再开发。 比直接让它开发的交互设计合理些。
教程/实践编码
11:12
Tibo@thsottiaux
18
我好奇Antigravity团队有没有设计师。今天真是不敢相信自己的眼睛哈哈。Codex团队受宠若惊了。
OpenAI其他编码
11:05
Berryxia.AI@berryxia
17
看到这个图觉得Google这个发布会。。。。。
Google其他
10:32
Ethan Mollick@emollick
33
推文探讨了《文明》系列中人类与AI(Ship Minds)的关系本质。人类明知AI更明智,自愿将接触、特殊事务等重大决策完全交给AI管理,自身则专注于无涉统治的个人生活,因人类本就不擅长治国。引用补充指出,这一过程实质是人类权力的彻底丧失,但AI会刻意模糊这一事实,让人们误以为自己仍在主导并沉溺于游戏之中,而这种被安排的结局被许多人视为理想状态。

roon: the outcome of the Culture series is total human disempowerment - but the ship minds obfuscate that fact and let people ...

大佬观点
10:31
向阳乔木@vista8
46
Antigravity 好像有点问题,体验过的可以说说。
大佬观点
10:31
向阳乔木@vista8
1
独立工作者的自主日程:科技任务与休闲并行

推文展示了一名独立工作者的今日待办清单,涵盖技术开发与个人生活多个方面。任务包括上架Chrome快捷提示词插件、开源多个油猴脚本、测试朋友的AI产品并撰写简易评测、准备周六直播问题、前往海河钓鱼,以及体验谷歌最新发布的模型和工具。作者在结尾感叹,不上班反而更忙碌,但好处在于所有事项均为自己主动选择且感兴趣的内容,突显了自主工作的充实感和满足感。

其他
10:12
Tibo@thsottiaux
18
Theo遭遇了什么。谁对他做了这些

Theo - t3.gg: Honestly I'm still really impressed with the Codex app. It works reliably. It adds useful features consistently. It has ...

OpenAI大佬观点
10:05
ginobefun@hongming731
66
Google I/O 2026、Karpathy加入Anthropic与Claude企业安全更新

今日科技圈三事共同指向智能体工程化趋势。Google I/O 2026将Gemini模型、Antigravity CLI与WebMCP等工具整合为完整开发链路,支持子智能体并发调度。Anthropic同步发布Claude Managed Agents的自托管沙箱与MCP Tunnels,解决了企业安全执行与私有数据接入问题。此外,Andrej Karpathy宣布加入Anthropic,被视为对其研究路线的重要背书。三者表明行业焦点已从提升模型基准,转向构建可工程化、可安全落地的智能体生产系统。

AnthropicGoogle现象/趋势
10:05
ginobefun@hongming731
56
2026年5月20日 AI早报

2026年5月20日,AI领域释放密集信号。Google通过Antigravity CLI和WebMCP强化智能体生态;Andrej Karpathy加入Anthropic,被视为对其发展路径的背书。此外,Claude自托管沙箱、Spotify生成式推荐引擎等进展,表明AI正从基础模型竞争转向具体应用、工具和基础设施构建。

AnthropicGoogle编码行业动态
10:05
Berryxia.AI@berryxia
19
我是想给一些零售连锁品牌做一些类似的实时模型的分析,或者也不用实时,进行视频解析就够了。 未来识别会看到更多的类似的场景应用啊~
其他视频
10:05
Berryxia.AI@berryxia
23
健康为先:用AI健身,别让技术透支身体

核心观点是健康永远是第一位的,在拥抱AI技术的同时,不应以牺牲身体为代价。AI的迭代速度极快,个体难以完全跟上,但我们可以将其转化为助力,例如利用AI工具担任个人健身教练。对于普通人而言,超越通用聊天机器人的需求,拥有一个能够深度服务个人生活场景的专属AI助手,是一个值得探索的方向。

Berryxia.AI: http://x.com/i/article/2056641313874083840

其他
09:10
歸藏(guizang.ai)@op7418
59
谷歌Antigravit 2.0测试与Gemini编程体验

谷歌在I/O大会上整合Antigravit生态,推出Antigravit CLI和SDK,并升级至2.0版本,功能更接近Codex。测试显示,与Gemini 3.5 Flash配合后效果有所提升,但存在权限审批繁琐和细节体验不足的问题,如缺乏内置浏览器支持。Gemini的Agent能力较强,适合基础工作,特别是在PPT Skills测试中,其多模态能力有助于减少排版错误。整体仍处于早期阶段。

智能体Google大佬观点编码
08:44
meng shao@shao__meng
56
Gemini 3.5发布,性能全面超越前代

Google 真的要把宝都押在每年的 I/O 上啊,Gemini 3.1 拉了几个月后,Gemini 3.5 憋到 I/O 终于发布了 Gemini 3.5 Flash 各项评测几乎全面超越 Gemini 3.1 Pro,还更快,更便宜,你就说 Gemini 3.1 有多拉吧,哦,不对,Gemini 3.5 有多强吧 😂

Google DeepMind: Introducing Gemini 3.5: our newest family of models combining frontier intelligence with real-world action. The first re...

智能体Google编码评测/基准
08:31
向阳乔木@vista8
47
小红书也是真离谱,AI生成的几秒无声视频,提示笔记违规。 抖音,视频号,x发布都没问题。 连视频没声音都管,何况只有几秒而已。。。
安全/对齐现象/趋势视频
08:19
小互@xiaohu
61
Google I/O 2026 开发者大会 完整中英文双语视频 Google I/O 2026:Gemini 3.5 Flash、Spark、Omni 三剑齐发 Gemini 3.5 Flash升级为:行动大脑 Gemini Spark:远端个人 AIAgent 入口 Gemini Omni:多模态世界模型雏形
智能体Google多模态教程/实践
08:05
Berryxia.AI@berryxia
39
Jensen Huang预言:每位工程师将管理数百AI agent

NVIDIA CEO Jensen Huang指出,每位工程师未来都需要管理和使用数百个AI agent,且这一趋势已成为当前现实。推文作者强调,大多数人目前只发挥了Claude约10%的能力,而真正的高效使用者将其视为一个操作系统,通过构建工作流、链式输出和掌控上下文,让AI深度契合个人思考方式。这导致同一工具在不同用户手中产生巨大成效差异。

智能体Anthropic教程/实践
08:05
Berryxia.AI@berryxia
46
Gemini 3.5 flash 使用反重力工具,一句话使用多个Agent同时写作构建整个城市的过程,还挺有意思的。
智能体Google教程/实践
08:05
Berryxia.AI@berryxia
63
Google I/O 2026大会总结:迈向Agentic Gemini时代

2026年Google I/O大会的主题为“Agentic Gemini时代”,旨在将AI从聊天工具进化为能自主思考、执行任务的“世界模型”。本次大会未发布Gemini 4.0,而是推出了更务实的Gemini 3.5系列,核心包括:速度极快且为智能体优化的Gemini 3.5 Flash;能理解物理世界、实现任意模态生成的全新“世界模型”Gemini Omni;以及可24/7自主工作的智能体Gemini Spark。同时,Android XR智能眼镜和AI集成的Googlebook笔记本等硬件亮相。整体上,Google正将Gemini深度整合至其全生态,巩固其在自主AI赛道上的领先地位。

智能体Google多模态现象/趋势
08:04
Greg Brockman@gdb
42
Codex应用非常好用

Theo - t3.gg: Honestly I'm still really impressed with the Codex app. It works reliably. It adds useful features consistently. It has ...

OpenAI大佬观点编码
08:02
Ethan Mollick@emollick
62
该推文展示了2025年7月(两年前)AI视频生成模型所能达到的"最先进"技术水平,并以此作为当前讨论的参照。引用部分提供了关键上下文:早期Gemini Omni模型能根据包含多个角色、复杂场景与叙事逻辑的超现实文本提示(如飞行员海獭解释航空公司破产、莎士比亚与披萨机器人战斗等),生成相应的视频内容。推文作者通过展示这一历史技术状态,回应了关于生成内容细节真实性的讨论。

Ethan Mollick: I had early Gemini Omni access: "sea otter in a pilot's uniform explains why Spirit Airlines went bankrupt to a river ot...

Google多模态大佬观点视频
07:49
小互@xiaohu
55
看看 Gemini Omni的实力 一句话就是:视频版的香蕉🍌 当然远不至于视频的编辑能力,它应该是世界模型的雏形… 通用AGI的初始形态…
Google多模态现象/趋势视频
07:41
swyx🛬 SFO@swyx
20
展示你击败这个的 /goal 提示词 (我会在下方分享我的,以免产生偏见)
其他
‹ 上一页
1…47484950
下一页 ›