AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态X · 3988 条
全部一手资讯X论文
Orange AI@oran_ge · 5月21日28

为什么大家一说到 ai 就要聊到赚钱呢? ai 是未来的水电煤 你在用电的时候会考虑这次用电能不能帮你赚钱吗?

查看原推 ↗
X.PIN@thexpin · 5月21日85

Just tested Alibaba's brand new Qwen3.7-Max. Prompt: build a single-file physics-simulation webpage: wind tunnel, cloth, soft body, fluid, all in one index.html, CSS + JS inlined.

译刚刚测试了阿里巴巴全新的Qwen3.7-Max。 提示词:构建一个单文件物理模拟网页:风洞、布料、软体、流体,全部集成在一个index.html中,CSS + JS内联。

查看原推 ↗
Elon Musk@elonmusk · 5月21日59

Tips for using Grok Build

译Grok Build 使用技巧 感谢 @skcd24 的提示。现在我可以完全在主 Grok Build 实例中工作,无需为其他集群打开额外标签页。

查看原推 ↗
Orange AI@oran_ge · 5月21日60

看晚点对豆包的报道,还是挺感慨的 豆包赢下了 AI chatbot 的胜利 只是这场胜利的价值几何,没有人能衡量 一些有趣的点: 朱骏在 2024 年 5 月的演讲中特意提到,豆包已经拥有 800 万个智能体。这次尝试没过多久便失败了。一段时间过后,团队发现除了 “豆包” 这个主智能体以外,其它智能体的用户活跃度都不高。 他们做了一次实验,将豆包以外的智能体全部下架,结果用户活跃、留存没有受到任何影响。 2024 年上半年,豆包的 “多 bot” 尝试受挫后,团队一度陷入迷茫,开始寻找新的突破口。他们曾考虑根据用户在豆包对话中表达的兴趣进行主动的内容推荐,推荐内容包括抖音短视频,类似后来 ChatGPT 做的 Pulse,但最终决定不上线。 一位知情人士说,当时豆包对用户留存不满,所以想借抖音这款公司留存最好的产品来提高数据,“有些病急乱投医”。 抖音的单用户日均使用时长曾经从 30 分钟涨到 120 分钟,而豆包仍稳定在 10 分钟以内,尚不足以对传统的互联网产品造成威胁。

译豆包在AI聊天机器人市场赢得了用户规模上的胜利,但这场胜利的实际价值与可持续性存疑。其早期尝试的百万智能体生态活跃度极低,移除后对核心数据毫无影响,显示用户需求仍高度集中于主智能体。在“多bot”策略受挫后,团队曾迷茫地考虑借助抖音内容来提升豆包用户留存,但并未执行。目前,豆包的用户日均使用时长仍远低于抖音,尚未对传统互联网产品形成实质威胁。

查看原推 ↗
凡人小北@frxiaobei · 5月21日66

医生侧的 AI 一直在解决这样一个问题, 怎么让医生问诊时不用自己去 EHR 里扒过敏史、用药记录、过往手术…… 特别是 OpenEvidence,这一步更是割裂。 OpenEvidence + Cedars-Sinai 今天发布的 patient-aware 临床 AI,解决的就是这个。 但是 context 的源头还没解决,患者自己历史说了什么、记了什么、上次问了哪些问题还是全靠口述。 看到 Kin Health 的一个创业项目,在做的就是这层,帮患者录诊、整理摘要、生成下次要问的问题。 所有的数据跟着患者走,不锁定在任何一个医院系统里。 两个拼在一起,整条链才算通。 https://techcrunch.com/2026/05/18/kin-health-raises-9m-to-build-an-ai-notetaker-for-patients/

译OpenEvidence与Cedars-Sinai合作推出患者感知型临床AI,使医生能在Epic系统中直接调取完整病历(如过敏史、用药记录),并生成个性化诊疗建议,解决医生手动整理病史的痛点。但患者侧的病史信息仍依赖口述,形成信息缺口。Kin Health通过AI工具帮助患者录制问诊、整理摘要并生成待问问题,数据由患者自主携带,不绑定医院系统。二者结合,形成从医生到患者的全链路医疗AI支持,真正实现诊疗信息的双向流通与协同。

查看原推 ↗
歸藏(guizang.ai)@op7418 · 5月21日50

这个会打包成 Skill,任何 Agent 都能控制里面显示什么。 可以通过配合定时任务去定期刷新里面的信息和数据,配合磁吸把它吸在你的屏幕边,就是一个常态化的看板。 关机休眠的时候会展示你的介绍信息和二维码,这样你外出就直接可以加好友

译该推文展示了一种将墨水屏硬件与AI Agent结合的创新应用。核心思路是通过打包为Skill,使任意AI Agent都能控制墨水屏显示内容:设备开机时,AI可推送待办事项、日历等信息,配合磁吸安装和定时任务刷新,形成常态化桌面看板;关机或休眠时,屏幕则利用墨水屏特性静态显示个人介绍与二维码,便捷实现数字名片功能。项目计划以Skills形式开源,便于拥有类似硬件的用户复用开发。

查看原推 ↗
歸藏(guizang.ai)@op7418 · 5月21日14

现在手上项目老多了: 1. Code Pilot 的重构马上就要完成了 2. 墨水屏的 Skills,应该今天或明天就能完成 3. 还有一个基于 PPT Skills 的项目,是通过 HTML 变成视频的这个 Skill 还在进行中 4. 基于 PPT Skills 生成小红书、微信图文封面的功能,也在进行中 5. PPT Skills 的第三个主题也在进行中

译该推文集中通报了多个技术项目的最新进展。其中,Code Pilot的重构工作已接近完成;墨水屏相关的Skills功能开发预计今日或明日就能完成。同时,基于PPT Skills的几个衍生项目正在推进,包括将HTML转换为视频的功能,以及生成适用于小红书、微信的图文封面功能。此外,PPT Skills的第三个主题也已启动开发。整体展现了多项技术工具的并行开发与快速迭代状态。

查看原推 ↗
ginobefun@hongming731 · 5月21日69

真棒👍

译用户一次性开源了17套面向GEO的实践Skill,其中14套覆盖了从战略、页面、内容到监测、运营等大部分场景,另有3套与GEOFlow系统配套。每个Skill专注解决一个关键问题,例如“品牌知识图谱”、“页面GEO诊断”与各类内容创作改造等。所有Skill均配有示例报告和使用说明,相关成果已发布于GitHub并持续更新。

查看原推 ↗
Chubby♨️@kimmonismus · 5月21日53

Google I/O is coming to an end, and it has been nothing less than one of the most impressive moments of my life. Why? First, simply because I had the privilege of being there in person while some of the brightest minds in the world talked about the future of AI and the direction technology is taking. Google I/O may officially be Google’s annual developer conference, but this year it felt like everything revolved around one central theme: AI. There was almost no product, no category, no part of the Google ecosystem that was not being reshaped, extended, or reimagined through AI. More than that, AI felt like the gravitational center of nearly every release. I tried to attend as many sessions as possible. In humanoid robotics, people are now talking about "physical AGI." Demis Hassabis, CEO of Google DeepMind, spoke about the possibility that we may be on the cusp of a new golden age of scientific discovery, with AI helping us make progress toward solving some of the hardest problems in medicine and science. And agentic AI showed, once again, how AI is becoming more proactive, more capable, and more deeply integrated into the way we work, build, and create. But beyond the announcements, what affected me most was the feeling of being there. I have rarely felt such a strong sense of optimism, enthusiasm, and genuine excitement about what is coming next. There was this almost physical feeling of momentum: the sense that we are not just watching a technological revolution unfold, but that we have the opportunity to participate in it, shape it, and help explain it to the world. (Something im really missing in germany/europe) I cannot even count how many fascinating conversations I had, how many wonderful and incredibly intelligent people I was able to meet, and how much I learned in just two days. The atmosphere was full of joy, curiosity, and ambition - and somehow, it felt like everyone was welcome. What made it even more special for me were the conversations I had on camera with remarkable people from Google, including Robby Stein, VP of Product at Google Search, Paige Bailey and Omar Sanseviero from Google DeepMind, Logan Kilpatrick, Product Lead for Google AI Studio and the Gemini API, Lizzie Tao from the NotebookLM team, and, most personally meaningful to me, Demis Hassabis. I could never have imagined that one day I would meet him in person. These two days will stay with me for a very long time. Tomorrow, I am heading back to Germany. But honestly, not for long. From May 31, I will already be back in San Francisco for Microsoft Build, and hopefully I will get the chance to meet even more people I have not had the opportunity to meet yet. My journey is only just beginning. Thank you for being part of it.

译Google I/O 2025全面聚焦AI,几乎重塑了所有产品与生态。现场探讨了“物理AGI”与主动式AI等前沿方向,DeepMind CEO Demis Hassabis提出AI或将推动科学发现的黄金时代。活动洋溢着强烈的乐观与参与感,作者与多位Google高管深入交流,尤其与Hassabis的会面令人难忘。从美国到欧洲,作者正踏上科技探索的新旅程。

查看原推 ↗
Berryxia.AI@berryxia · 5月21日35

AI&硬件的结合玩起来会很好,有点像当年的安卓刚出来的时期,大家都可以自定义ROM包刷机的感觉。

译主推文认为,AI与硬件的结合将带来类似安卓早期自定义ROM的创造性体验。具体案例展示了一种墨水屏硬件的设想:设备运行时,AI可推送待办、日历等动态信息供实时查看;关机后则利用墨水屏特性常显个人名片,便于社交。该方案将功能模块化打包为Skills,分享给社区,体现了AI赋能传统硬件、实现个性化场景应用的潜力。

查看原推 ↗
AYi@AYi_AInotes · 5月21日77

http://x.com/i/article/2057300084354670592 # 用我的神级Prompt测试了Gemini 3.5 Flash,确认了一件事:Google直接宣告AI 大模型纯聊天时代彻底终结了! 这篇文章跟大家只捞干货,核心三部分:Gemini 3.5 Flash 到底强在哪?怎么免费玩上?我自用的 Gemini 神级提示词开源,8大场景直接拿去用!文章最后放了宝藏彩蛋给大家! # 目录 ## 一、Gemini 3.5 Flash 到底强在哪? ## 核心数据:289 tokens/s 是什么概念 ## 二、战略判断:Google 为什么不再卷 benchmark ## 三、上手体验:Gemini 3.5 Flash免费入口 +玩法 ## 四、自用神级Gemini Prompt开源: 1. KERNEL-X 终极动态专家系统 1. HE COMPILER IDENTITY (全栈编译器人格) 1. 唯一需要的Vibe Coding提示词 1. Naval Ravikant分身(决策神器,哲学/人生Prompt) 1. AI工作流程专家系统提示词 1. 认知挖掘提示词 1. 深度研究报告Prompt 1. 神级反思Prompt ## 五、写在最后:这轮 AI 竞赛的终局是什么 # 一、核心数据 289 tokens/s 是什么概念 - 速度:289 tokens/s(3.1 Pro 的 2.1 倍,GPT-4o 的 4 倍) - 智能:AA Intelligence Index 55(3.1 Pro 是 57) - 幻觉:暴降 31 个百分点,可靠性质的飞跃 - Agent 能力:GDPval-AA Elo 1656(3.1 Pro 1314),MCP 多步工作流 83.6% - 一句话:Flash 首次同时把速度、智能、可靠性三个维度拉满 我尽量讲人话把这些数字意味着什么跟大家说明白讲清楚: 289 tokens/s 的输出速度:你按下回车,还没来得及切回微信看一眼消息,3000 字已经写完了,3.1 Pro 这时候还在思考人生,GPT-4o 和 Claude Opus 直接被甩开 4 倍。 智能指数 55:离四个月前还是旗舰的 3.1 Pro 只差 2 分。 幻觉率暴降 31 个百分点,这个数字最离谱,以前用 Flash 做 Agent 我心里始终有根弦,因为它会编。 现在我让它跑多步工作流,自己不确定的地方它会主动停下来问,跟以前硬编的路数完全不同,属于质的变化。 # 二、战略判断 ## Google 为什么不再卷 benchmark? 说实话,在 Flash 出之前,我每次开新对话都要纠结半天, 用 Pro,等它思考完够泡一杯咖啡, 用 Flash,又怕它在关键步骤上幻觉一下,前面跑的全白费, 三年了,快和准只能选一个,我们从 GPT-3.5 忍到现在。 Flash 这次第一次把这两件事同时解决了。 # 三、免费上手体验 我自己测 Flash 用的是 ZenMux,这也是我一直跑模型的聚合平台。 昨晚刷到它已经免费上线3.5 Flash,顺手就接着测了一天,打开就能用,不用 API、不用翻墙。 它有个多模型 PK 功能,同一个 prompt 能同时丢给 Flash、Claude、GPT 看谁出得好。 我后面那 8 个压箱底的 prompt,有几个就是在这种 PK 模式下磨出来的。 但我也得说一下边界,免得有人冲进去发现不对。 Flash 不是万能的,我让它写长文(3000+字以上)的时候,后半段质量肉眼可见地往下掉,逻辑会开始飘,真要写深度长文我还是会回 Pro,毕竟Flash 是速度型选手,不是耐力型选手。 我现在的分工是:Agent 跑流程、批量处理、即时对话——全交给 Flash,深度思考、长文创作、复杂推理这些还是 Pro。 这套搭配跑了一天,体感是: 聊天框时代的纠结,在这一天里消失了。 # 四、自用神级Gemini Prompt开源 ZenMux 上已经开放免费体验,不用折腾API不用翻墙,打开就能跑:https://zenmux.ai/invite/DIX0WC 用以下给大家开源的最顶的经过实战检验的提示词尽情体验Gemini 3.5 Flash的强大吧。 ## KERNEL-X 终极动态专家系统(我的王炸提示词,迭代了10版) ## 全栈现实编译器Prompt—把模糊的现实需求,编译为逻辑严密、概念独创、且极具透明度的“高维智力资产 ## 这是你唯一需要的Vibe Coding提示词: # 读懂纳瓦尔需要十年,我用 1 条提示词把它封装成了财富与清醒操作系统 ## 复杂问题分析Prompt 神级反思Prompt ## AI工作流程专家系统提示词 ## 深度研究报告Prompt ## 五、写在最后:这轮 AI 竞赛的终局是什么 写到这,我想聊一个更大的问题。 Gemini 3.5 Flash 这次发布,最让我在意的不是 289 tokens/s,也不是幻觉率暴降 31 个百分点,这些数字半年后就会被新的数字盖过去。 最让我在意的是 Google 这次出手的逻辑变了。 以前的逻辑是:我的模型比你聪明,所以你应该用我。 OpenAI 和 Anthropic 到现在还在玩这套——GPT-5 传闻、Claude 的推理深度、各种 benchmark 军备竞赛,比的是智商。 Google 这次的逻辑是:我不跟你比谁更聪明了,我比的是谁能让 AI 真正跑起来。 289 tokens/s 意味着什么?意味着 Agent 从一个“理论上有用”的东西,变成了“今天下午就能塞进工作流”的东西。一个人坐在电脑前,五分鐘跑完十几个步骤、调几次工具、回头修正自己的错误——这件事以前只存在于 Demo 视频里,现在变成真的了。 这才是终局的雏形。 聊天的终局是 Agent。Agent 的终局是基础设施。 什么意思?当 AI 快到一定程度、可靠到一定程度、便宜到一定程度——它就不再是一个“产品”了。 它是水电煤。你不会每天早上起来想“今天要不要用一点电”,你只是按下开关。 AI 的未来也是一样:你不会再纠结用哪个模型、切哪个窗口、等它思考几秒钟——你只需要一个动作,它已经把活干完了。 Google 这次干的,就是把“按下开关”这个动作往前推了一大步。 那 OpenAI 和 Anthropic 在干嘛? 说实话,他们不是没看到这个趋势,是他们船的惯性太大。 旗舰模型推理成本高、推理时间长、商业模式绑在“更聪明的模型”这条线上——转向的速度型产品,会动自己的旗舰定价体系,这不是技术问题,是商业枷锁。 所以 Flash 这次的对手,其实不是 GPT-4o 或者 Claude Opus,是 Google 自己的过去——那个只会在 benchmark 上跟人拼刺刀的 Google。 Google 终于不用“聪明”来证明自己了,它开始用“快”来定义游戏规则。 最后聊一句对你我的影响, Agent 这件事,门槛已经从“技术能力”转移到了“想象力”。 以前你得会搭 LangChain、会写工具调用链、会被各种框架的坑绊倒,才能跑起来一个勉强能用的 Agent。现在门槛降到了——你能不能想清楚一个任务,然后花五分钟跟模型说清楚。 说到底,AI 竞赛的终局不是谁赢了谁,是有一天你回头看,发现那些曾经需要半天的事情,现在你只需要一句话, 而这一天,比所有人以为的都要近。 ## 彩蛋时刻 分享一个宝藏提示词网站,跟强大的Gemini 3.5非常搭,绝对能解决你工作、生活、学习中的大部分问题和困惑! http://prompts.chat —— 目前最强开源免费 AI Prompt 社区! 上千条高质量提示词,按行业/场景直接分类: - AI Agents(目前我用的最多的让我直接起飞) - 商业分析、写作、代码、营销、图像生成…… 搜索关键词秒出最优模板,复制粘贴就能用! 特点: - 完全免费 + 开源 - 社区驱动,每天都有新神 prompt - 支持自建私有库(团队/隐私党福音) - GitHub 15.8万星,OpenAI、Hugging Face 大佬都点赞 再也不用自己瞎琢磨提示词了,效率直接拉满,强烈推荐呀

译Gemini 3.5 Flash实现了289 tokens/s的输出速度(约为GPT-4o的4倍),同时将幻觉率大幅降低31%,首次在速度、智能和可靠性上达成平衡。这标志着AI发展从单纯比拼模型“智商”的基准竞赛,转向追求“能用起来”的实用主义。高速与可靠性的结合,使得能够执行复杂多步任务的AI Agent从理论走向现实,可能重塑行业竞争格局,未来AI将如同基础设施一般无缝融入工作流。

查看原推 ↗
凡人小北@frxiaobei · 5月21日63

Codex 用到极致避个雷,我把持续对话流用爆了,设置了定时任务的需要注意下。 单个对话里上下文长度也是资源,把任务拆的足够清楚才可持续。 更好的方式应该是共享记忆。

译推文分享了使用Codex时的经验与注意事项。核心指出单个对话的上下文长度是有限资源,若滥用持续对话流(如设定密集的定时任务)可能导致效果下降或资源浪费。有效的做法是将任务拆解得足够清晰、明确,以提升可持续性。长远来看,更理想的解决方案应是建立共享记忆机制,而非依赖单一长对话的上下文承载。引用的背景文章进一步佐证了相关技术原理,但核心观点强调:优化任务结构比单纯延长对话更为关键。

查看原推 ↗
凡人小北@frxiaobei · 5月21日55

- 在我们的领域专长上深入 - 在相邻技能和领域上扩展 - 在此基础上学会很好地使用 AI

译在我们的领域专长上深入 在相邻技能和领域上扩展 在此基础上学会很好地使用 AI

查看原推 ↗
meng shao@shao__meng · 5月21日65

在 Codex/Claude Code 等 Coding Agents 领域,文字是主要的输入输出方式;而在更广泛的通用 Agents 领域,特别是陪伴、实时交互等 Agents 方面,实时语音交互非常重要,语音的仿真生动程度、语音响应的及时性,这些都是 Voice Agent 在 LLM 基础之上要考虑的重点。 Voice Agent 的搭建过程,模型主要包括 ASR、VOD、TTS、LLM 等,而通信基础主要依靠 WebRTC 这个在直播和在线会议场景最通用的方案,前几天 OpenAI 也针对实时语音发布了 WebRTC 相关的技术方案。 在 WebRTC 领域,有一个非常常用的方案团队:Agora,他们也推出了 Agora Skills,让 AI Agent 可以快速安装和理解、使用。 今天咱们就看看基于 Codex 安装使用 Agora Skills 的完整过程。 首先是 Agora Skills 安装,我只需要告诉 Codex:“安装 Agora Skills:https://github.com/AgoraIO/skills”,1-2 分钟后 Codex 自动安装完成。 安装完成它向 Codex 展示 Skills 的主要内容,包括了 Agora 的 RTC、RTM、Conversational AI、CLI 等多个产品的直接集成。因为 Agora Skills 的使用涉及到 Agora Token 认证,在 CLI 中也可以快速完成登录和环境变量设置保存,在网页端登录一次后,就不需要再离开 Codex 了。 然后我让 Codex 帮我用 Agora Skills 写一个 Demo:用 Agora Skills 帮我搭一个浏览器里的 voice AI agent demo,从登录 Agora、创建项目到本地跑通,把关键log和性能数据展示出来。 也是完全 Codex 自动读取 Skills 后完整,我没有介入,说明 Skills 中各种能力的编排和集成做的还是很到位,也是2-3 分钟后,Demo 就写完并运行起来了。 这个 Demo 的功能主要是语音实时对话,从对话体感上看,很流畅,接近于人和人之间语音通话的响应延迟,语音包和 LLM 都可以切换,这里我只做了默认集成。 看几个关键数据: · 整个 RTC、RTM、Conversational AI 启动过程在2-3秒内,很快 · 从我说话结束,到 Voice Agent 首个语音包输出(我听到声音),1秒左右 如果你在做 Voice Agent 方面的探索,可以接入 Agora Skills 快速验证你的想法,让你的 Agent 能实时和你对话。抛砖几个场景,朋友们可以去尝试回来再交流:给 Agent 做一个会说话的陪伴形象、虚拟男女友、把声音和形象装进智能硬件。。 https://github.com/AgoraIO/skills

译实时语音交互是通用 Agent 领域的关键。本文介绍了构建 Voice Agent 所需的技术栈(ASR、TOD、TTS、LLM)及 WebRTC 通信基础,并重点展示了 Agora 推出的 Agora Skills。该工具能快速安装并集成 Agora 的 RTC、RTM 等多种能力。通过 Codex 自动安装 Agora Skills,演示了一键生成浏览器端语音 AI Agent Demo 的完整流程。该 Demo 实现了流畅的实时对话,响应延迟仅约 1 秒,极大简化了开发者验证语音陪伴等场景的开发流程。

查看原推 ↗
Tibo@thsottiaux · 5月21日11

Codex is feeling codexy

译Codex 感觉很 Codex

查看原推 ↗
向阳乔木@vista8 · 5月21日71

最近两天爆火的写论文Skill 看来太刚需了,没几天都1.6w Star了。 安装命令: /plugin marketplace add Imbad0202/academic-research-skills /plugin install academic-research-skills 开源地址:https://github.com/Imbad0202/academic-research-skills

译最近两天爆火的写论文Skill 看来太刚需了,没几天都1.6w Star了。 安装命令: /plugin marketplace add Imbad0202/academic-research-skills /plugin install academic-research-skills 开源地址:https://github.com/Imbad0202/academic-research-skills

查看原推 ↗
宝玉@dotey · 5月21日63

这图还挺有意思,描述了 AI 时代的 T 型开发者需要的能力模型。 (一)生成式 AI 应用 (GenAI usage) 这块内容像一把大伞,横跨在整个 T字的最顶层。这意味着,无论你是做前端、后端还是算法,熟练使用生成式 AI 已经成为了所有开发者都必须掌握的通用底层能力。 (|)核心软件工程 (Core software engineering) 这是图中那根最粗壮的黑色竖线,也是开发者安身立命的看家本领。在这个核心阵地上,需要做到深度增加——也就是说,有了 AI 的辅助,专业技术基本功不仅不能丢,反而要更深、更牢固的专业技能。 (- )相邻工程领域 (Adjacent engineering) ( -)非工程领域 (Non-engineering) 这两大块分别构成了 T 字向左右延伸的横线。 左边代表与你专业相关的周边技术(比如前端懂一点后端) 右边则是完全非技术领域的能力(比如懂一点产品思维、业务逻辑或沟通技巧)。 在这两个方向上,需要做到广度增加。 在 AI 的加持下,现在可以比以往更容易地打破壁垒,快速拓宽自己的知识边界,成为一个懂技术的“全才”。

译该推文解析了AI时代的“T型开发者”能力模型。模型核心包含三个维度:顶层,生成式AI应用成为所有开发者必须掌握的通用基础能力;纵向,借助AI进一步深化核心软件工程的专业技能;横向,借助AI更高效地拓展至相邻工程领域及产品思维、沟通等非工程技能。此模型旨在帮助开发者构建兼具专业深度与跨界广度的知识结构。观点指出,该T型能力框架不仅适用于开发者,也适用于所有职业。

查看原推 ↗
Berryxia.AI@berryxia · 5月21日62

兄弟们,看来微软的Copilot 是真的自己都懒得用! 这不微软今天办了一场Claude 使用的的工作坊! 花半小时看完它,还是不错的! 高级开发者布道师Marlene Mangami直接拉着大家动手,用Foundry + Claude建了一个真实可用的AI Agent。 他们没讲空洞概念,而是用一家叫Sparkles的纸杯蛋糕店做案例: 顾客涌进来点单、选口味、生成客户ID、处理优惠券、准备取货……全流程让Agent自动接管。 从部署云模型,到接入MCP服务器连工具和数据源,再到给Agent赋予企业级安全和可观测性,一步一步教完。 现场还直接用Skillable环境让大家跟着敲代码,完成就送纸杯蛋糕。 AI Agent终于不是实验室玩具,而是开发者能快速从原型做到生产落地的真实工具。

译微软举办Claude使用工作坊,通过构建纸杯蛋糕店AI Agent的案例,演示了从部署云模型、接入MCP服务器连接工具与数据源,到赋予企业级安全与可观测性的完整流程。工作坊以实操为主,开发者可现场跟随编码,强调AI Agent已从概念验证进入快速生产落地的实用阶段,成为开发者能直接构建的业务工具。

查看原推 ↗
向阳乔木@vista8 · 5月21日4

今天想做的事: 1. 开源Suno音乐生成Skill,研究MTV合成 2. 服务器部署即梦Docker API 3. 迁移网站首页到 Cloudflare 4. 学习一篇经典 AI 论文 5. 回北京,路上找龙凤河钓点,测试小物钓鱼竿

译内容分享了多项技术工作计划与个人行程。重点包括开源Suno音乐生成Skill,研究MTV合成技术;计划在服务器上部署即梦Docker API;将网站首页迁移至Cloudflare;学习一篇经典AI论文。此外还提及了返京途中寻找钓点以测试钓鱼竿的安排。

查看原推 ↗
AYi@AYi_AInotes · 5月21日76

说实话,OpenAI这条推文我看了三遍。 第一遍看懂了"AI解了80年数学悬案", 第二遍看懂了"几何问题用数论来破", 第三遍才反应过来——最震撼的不是结果,是AI自己想出了这条路, 而咱们人类80年来都觉得这条路太冷门不值得走。 这道题叫平面单位距离问题,1946年埃尔德什提出来的。 简单说就是:平面上撒一堆点,让尽量多的点对之间距离正好是1。 80年来所有数学家都信一个结论:最优解长得像方格子,没法再优化了。 OpenAI的AI说:你们错了,它找了一整族全新的构造方法,不是方格子,效率比方格子明显高出一截。 用的什么工具呢? 就是代数数论里最冷门的那套——无限类域塔、Golod–Shafarevich理论。 因为几何和数论,这两帮数学家以前基本不聊天,AI说你们应该聊聊🤣 菲尔兹奖得主Tim Gowers写进审稿论文:如果是人写的,我直接推荐《数学年刊》接收。 数论专家Arul Shankar说:AI不只是助手,它有了原创天才想法并完整执行。 他的125页思维链已经公开,人类数学家验证通过,证明这不是噱头炒作。 以前AI在数学里的角色很清晰: 辅助验证, 帮人算, 搜索已知模式, 但这次不一样, AI自己想了一条路, 人类80年都觉得这条路太冷门、太反直觉、不值得走, AI偏偏走了,而且还走通了。 人类觉得不靠谱所以没试的路,有多少其实是通的? 这事想想有点后背发凉,但更多的是期待 hhh

译OpenAI的一个AI模型自主攻克了“平面单位距离问题”,这是数学家埃尔德什于1946年提出的一个著名开放难题。近80年来,学界普遍认为最优构造近似于方格子,而该AI模型通过运用代数数论中冷门的Golod-Shafarevich理论,发现了一整族效率更高的全新构造,推翻了原有定见。此成就标志着AI首次独立解决一个数学领域的核心开放问题,其关键在于提出并完整执行了一条人类因直觉认为不可行而从未尝试的创新路径。

查看原推 ↗
swyx🛬 SFO@swyx · 5月21日14

TIL @balajis was a one man internal agi for @brian_armstrong before openclaw existed

译今天才知道,在OpenClaw出现之前,@balajis 曾是 @brian_armstrong 的个人内部AGI。

查看原推 ↗
Orange AI@oran_ge · 5月21日50

直到今天,还是有很多人把做产品和赚钱划等号 有产品=能赚钱 为什么会有这么天真的想法呢? 做过独立开发者的都知道,最难的根本不是开发,是卖出去 要卖出去就得学自媒体营销,甚至到后面终于发现: 能自己赚钱的人怎么都能赚钱,并不依赖做产品这一件事 对,赚钱和做产品根本上是两件事,产品只是赚钱的一个交付物的选项 做产品是工程问题,能赚钱是商业问题 工程问题已经基本快被 AI 彻底解决了 商业问题,对不起,AI 还没到入门阶段 所以下次看到别人vibe做出一个产品的时候不要再问对方收入了 问就代表你还没有从这个【有产品=能赚钱】思想钢印里走出来

译推文核心观点指出,将“做产品”与“赚钱”直接等同是一种常见误区。对于开发者而言,真正的难点并非开发产品本身,而是如何将其成功销售出去。这本质上是商业问题,而非工程问题。当前,AI技术已能基本解决工程层面的挑战,但商业变现能力尚未被AI攻克。因此,产品只是实现商业价值的交付方式之一,能否赚钱更多取决于独立的商业运作能力,而非单纯依赖产品。

查看原推 ↗
向阳乔木@vista8 · 5月21日72

Suno 生成 Skill 做了优化,增加了近6000个音乐风格检索,让生成的音乐更准确。 用谷歌CDP刷新获取登录Token,完全不用打开网站就能创作歌曲了。 开源地址:https://github.com/joeseesun/qiaomu-suno-master Skill 安装指令:npx skills add joeseesun/qiaomu-suno-master

译这条推文介绍了一个对Suno AI音乐生成工具进行优化的Skill。该Skill新增了近6000个音乐风格检索,显著提升了生成音乐的准确性。此外,它通过谷歌CDP技术刷新获取登录Token,使用户无需访问网站即可直接创作歌曲。推文提供了该Skill的开源GitHub地址和安装指令。

查看原推 ↗
向阳乔木@vista8 · 5月21日75

乔木 Suno Skill效果演示,生成一首空灵的德语音乐。 每月10美元,想听什么风格,就生成什么风格,虽然比人的匠心制作差得远,但随时随地生成任意风格歌曲。 哪怕给一个github仓库都能写一首歌出来。。

译这是基于Suno AI音乐生成工具的技能实现,可通过简单指令按用户需求生成不同风格的歌曲(例如德语空灵风格)。该技能订阅费用为每月10美元,支持高度自定义的风格生成。技术层面已优化,新增近6000个音乐风格检索以提升准确性,并可通过谷歌CDP免登录直接调用。项目已开源,提供GitHub仓库地址与安装指令,降低了创作门槛。目前AI生成音乐在艺术性上仍与人工制作存在差距,但实现了快速、灵活的创作可能。

查看原推 ↗
Josh Woodward@joshwoodward · 5月21日11

Glad you're liking it!

译很高兴你喜欢它!

查看原推 ↗
AYi@AYi_AInotes · 5月21日66

Damn,终于有人懂了 AI Agent的护城河根本不在模型上! xAI刚刚推送了Grok Build的更新,没有任何酷炫的新功能,全是bug修复和底层优化。 但就是这条平淡的更新日志,让我确定Grok Build已经走在了所有编码Agent的最前面。 这次更新最杀的几个点: 1. 修复了后台子代理静默失败的问题,这是所有AI Agent最致命的痛点 2. 终于支持macOS Intel和Windows ARM,老设备用户狂喜 3. 解决了CJK字符路径问题,中文用户再也不用被路径地狱折磨 4. 优化了上下文压缩,Agent能跑更久不崩 很多公司还在比谁的模型参数更大,谁能生成更花哨的demo。 xAI在默默填坑。 填那些看不见但会让你在生产环境崩溃的坑。 填那些别人觉得"不重要"但会劝退90%用户的坑。 决定胜负的从来都不是今天多了哪个酷炫功能, 而是昨天那些看不见的坑,有没有被填上。 #Grok #xAI #AIAgent

译xAI为Grok Build推送的更新看似平淡,无炫酷新功能,但专注于修复致命的“后台子代理静默失败”、支持更多平台及中文字符路径等基础问题。这体现了其工程优先策略,在竞争对手比拼模型参数与演示时,xAI默默填补那些会导致生产环境崩溃、劝退用户的“隐形坑”。这一系列底层优化与漏洞修复,正悄然构筑其编码Agent的长期护城河。

查看原推 ↗
meng shao@shao__meng · 5月21日24

Personal update: 是的,我还是没有加入 Anthropic 😂 因为我不想坐地铁时,我的 Macbook Pro 因为 Claude Code 运行长时任务而合不上! (别扯了,明明是即使投了简历也过不了筛选。。) 不过作为资深打工牛马,我的 Macbook Pro 比我更辛苦,还是让它跟我享享福吧。 失业之中,在云端咱们过一把指挥团队的瘾,我的团队都在云端远程办公,而且团队里的每一个人(Agent),从设计师、品牌策划到程序员、测试都是我自己亲自创建的。 团队创建了,那咱们先拉个短会,快速对齐一下进度 😂

译推文以幽默口吻更新个人状态,提及未加入Anthropic的原因。核心内容在于作者失业期间,利用AI技术在云端创建了一个包含设计师、策划、程序员等角色的虚拟团队,并通过开会来模拟创业管理体验,展现了当前AI Agent技术应用的一种新趣味。

查看原推 ↗
Ethan Mollick@emollick · 5月21日63

If this is true, using the best public estimates we have of LLM resource use, solving this Erdos problem took 0.6–6.3 kWh of electricity and about 3–31 liters of water. So that is less than three almonds worth of water and the electricity equivalent of 2-20 miles of EV driving.

译基于公开估算,LLM解决Erdos问题的资源消耗极低:电力仅0.6–6.3千瓦时(相当于电动汽车行驶数英里),水耗约3–31升(少于三颗杏仁的耗水量)。引用的估算进一步指出,该过程使用了GPT-5.6 Pro,处理时间约5至32小时,成本在120至1000美元之间。核心观点是,相对于解决这类数学问题的重大成果而言,LLM所需的资源和时间投入并不算多。

查看原推 ↗
meng shao@shao__meng · 5月21日68

Forward Deployed Engineering (FDE) 是什么?为什么 OpenAI、Anthropic 等 AI 顶流都在力推 FDE,它会是下一个值得转型的职业吗? 为什么 AI 公司疯抢 FDE? @vasuman 这个判断很直接:如果智能本身正在被商品化,那么唯一的竞争优势就是"如何用、用在哪"。 模型能力会被 Anthropic、OpenAI 等拉平,套壳产品也会被复制。真正难复制的是——把 AI 嵌入到某家具体公司的具体业务流里。这件事没法用通用产品解决,只能派人去干。 所以 Applied AI 公司的商业模式是:把 FDE 派驻到客户现场,做"AI 转型外包",客户为效率提升付费。一个能独立完成"理解客户问题 → 写进陌生代码库 → 向非技术高管讲清商业价值"的人,vas 称之为 "million-dollar hire"。 角色的核心要求:必须 On-site! 这一点借用了 Palantir 的传统(FDE 的定义来源): · 2010 年 Palantir 的 FDE 跟着美军特种部队驻阿富汗,白天部队执行任务、晚上 FDE 改代码。 · Palantir CTO 的原话:"你无法为一个你不在其中的环境构建产品。" 迁移到 AI 场景的含义是:真正的效率提升需要"围绕 AI 重建公司",这不可能远程完成,必须坐在客户身边,基于公司专有数据和上下文构建定制 Agent。 FDE 的工作三阶段 1. Audit(审计 / 诊断):以原型 Demo 收尾 驻场轮岗各部门(例如 RevOps 两周、采购一周、财务一个月),目标是: · 摸清每个团队的工作流 · 找到瓶颈 · 判断哪些该自动化、哪些不该 三条"是否上 Agent"的判断原则,非常实用: · 规则可抽象,但输入形态多样(邮件 / PDF / 扫描件),且需要调工具?上 Agent! · 规则和输入都可预测?写普通代码,更快更便宜! · 需要模式识别 + 领域专家判断?保留人工! 另外两条经验法则: · 量要够大:一个月跑 5 次的流程,ROI 撑不起来。 · 别滥用 AI:大多数任务用"一串工具调用 + 一次 LLM 编排"就够了,过度用 AI 会带来 token 成本和质量下降。 2. Evals(评估) 客户砸百万美金做 AI 部署,必须有办法证明"它真的在工作"。好的 eval 不是只看最终答案对不对,而是验证 AI 是否像人一样思考。两个方法: · 拆解人的步骤逐步打分:人解决问题是多步的,把 checkpoint 列出来,看 AI 是否每一步都过关。 · 从黄金样本反向锚定:和资深员工一起把"完美答案"写出来 20 个,作为标尺度量所有产出。 Evals 的真正用途是让怀疑 AI 的高管敢签字——它是商业信任工具,不只是工程工具。 3. Deployment(部署) 几条非常反直觉但很务实的原则: · 不要做大规模数据迁移。在现有数据层(SharePoint、数据库)之上建 API,让模型作为 orchestrator 去查询。客户花了几年几百万上 ERP,不会让你再拆一次。 · 先搭沙箱执行环境,在客户基础设施里安全测试。 · 从最小自治单元起步,再逐步给权限。例:先让 Agent 只做"发现 bug → 调查 → 写工单",跑稳了再允许它"写代码 + 提 PR"。 如何在 30 天内成为 FDE?! vas 认为三类背景最容易切入:咨询顾问、PM、软件工程师。 咨询/PM 的短板:工程能力 解法是用作品集补齐。从下面四个项目里挑两个深做: · 一个能跑通你前公司某个完整流程的生产级 Agent(调 API、记录思考、有失败兜底)。 · 一个面向特定行业数据集(法律 / 医疗 / 财报)的 RAG pipeline。 · 一个自己写的 eval 框架,多维打分(正确性、格式、成本、延迟)。 · 一个把 LLM 接入到不支持 AI 的遗留系统的 MCP。 vas 强调:"Do not outsource your understanding to AI"——别让 AI 替你理解,否则面试一聊就穿。 SWE 的短板:沟通 工程师做同样的项目,但必须能把每个组件、技术选型、迭代过程、商业结果讲清楚,并能回答"你为什么解这个痛点、真实客户场景里会怎么走"。 30 天路线图(角色无关) Week 1:Agent loop 基础(读 Anthropic Building Effective Agents)、tool use、guardrails、context vs 外部记忆、audit trail Week 2:结构化输出(JSON)、Demo → Prod 常见坑、checkpoint 机制 Week 3:重试与指数退避、成本优化(小模型做小事 / 缓存 / token 上限)、构建 golden dataset、多 Agent 并行架构 Week 4:复盘 + 大声讲出来,把每件事绑到商业指标上

译Forward Deployed Engineering (FDE) 是AI公司派驻客户现场的工程师角色,核心是将AI能力嵌入企业具体业务流。随着模型能力趋同,真正优势在于“如何用”,而FDE正是解决AI落地“最后一公里”的关键。该角色借鉴Palantir传统,强调必须现场工作,围绕企业专有数据重建流程。其工作涵盖业务审计、效果评估(Evals)与务实部署三阶段。咨询、PM及软件工程师可通过30天路线图与作品集转型,但需弥补各自短板——工程能力或商业沟通能力。FDE被视作“百万美金级人才”,是AI时代高价值的职业新方向。

查看原推 ↗
Chubby♨️@kimmonismus · 5月21日52

As excited as I am that a takeoff seems to have begun and we are entering a golden age of science, one thing remains: I'm hearing more and more from all sides that AGI is within reach. This applies to Google (AGI, Physical AGI), as well as OpenAI and Anthropic. The only caveat: there's no unified definition of what AGI actually is. There have been attempts to standardize a definition, and in my opinion, the most sensible one is Google DeepMind's. But as long as we're talking about different things, it's difficult to find common ground to say *when* AGI will be achieved (which AGI).

译推文指出,当前科技界正迎来科学发展黄金期,AGI实现看似触手可及。然而,各方对“AGI”缺乏统一定义,影响了对其实现时间的共识。尽管Google DeepMind的定义被认为较合理,标准不一仍是核心问题。OpenAI的Sam Altman强调AGI在加速科研、企业和个人目标实现三方面的潜力,并特别呼吁加强“个人AGI”的发展投入。

查看原推 ↗
Ethan Mollick@emollick · 5月21日57

Math is easy* because it has verifiable outputs and few messy judgement choices to make. Which AI labs have the guts to make advancing social science a priority? It may actually do more for human flourishing to unlock sociology, econ & psych reseach. * For AIs, not for humans

译数学很简单*,因为它有可验证的输出,且无需做太多混乱的判断选择。 哪些AI实验室有勇气将推进社会科学作为优先事项?解锁社会学、经济学和心理学研究可能实际上更能促进人类繁荣。 *对AI而言,而非对人类

查看原推 ↗
meng shao@shao__meng · 5月21日69

看看 Alex Finn 推荐的 Codex 远程开发架构,虽然 1000x 生产力略显夸张 😄 Alex 的核心理念是把"写代码的设备"和"发指令的设备"分离开: 一台主力机(Mac Studio):唯一真正执行代码编写的环境,所有代码库、依赖、运行时都集中在这里。 多台终端设备(iPad、iPhone、第二台 Mac Studio、两台 Mac mini):只作为"遥控器",向主力机发送指令。 带来的结果是:物理位置与开发能力解耦——在床上、在超市、在日本、在车里,都能继续推进同一套代码。 三层技术架构 1. 主力机(Host) · 始终开机、禁用睡眠。 · 在 Codex 应用中开启 Settings → Connections → Control this Mac,把自己暴露为可被远程控制的节点。 2. 控制端(Clients) · 所有其他设备在 Codex 中开启 Control other devices。 这些设备不存放代码,只负责发送 prompt、查看结果。 3. 网络层(Tailscale) · 在所有设备上安装 Tailscale,组成一张私有 mesh 网络(基于 WireGuard)。 · 作用不仅是穿透 NAT,更关键的是:让其他 AI agent(他举例的 OpenClaw、Hermes)能够跨机器跳转、在不同节点上执行修改。 · 等于把"多台设备"在网络层抽象成"一台逻辑机器"。 落地步骤(精简版) 1. 选一台桌面设备作为 Host(Mac mini 或 Mac Studio 优先)。 2. 系统设置中关闭自动睡眠,确保常开。 3. Host 上:Codex → Settings → Connections → Control this Mac 打开。 4. 其他每台设备:Codex → Settings → Control other devices 打开。 5. 全部设备安装 Tailscale,登录同一账号,组成私有网络。 6.(可选)部署跨机 agent(如 OpenClaw、Hermes),让它们利用 Tailscale 跨节点执行任务。

译Alex Finn 提出的远程开发架构核心在于将“执行代码的主机”与“发送指令的终端”分离。一台主力机(如Mac Studio)常开,作为唯一执行环境,集中所有代码与依赖;其他设备(如iPad、iPhone)仅作为“遥控器”发送指令。通过Codex的远程控制功能与Tailscale私有网络连接,开发者可在任何地点、任何设备无缝推进同一项目,实现开发能力与物理位置的解耦,从而提升灵活性和效率。

查看原推 ↗
宝玉@dotey · 5月21日74

http://x.com/i/article/2057247064115838976 # 来自 Codex 官方团队的分享:如何把 Codex 用到极致 作者:jason (@jxnlco) 原文: 大多数开发者刚接触代码编辑类的 AI 智能体 (AI Agent) 时,通常只让它们干一件事:写代码。比如让它检查一下代码库,生成个差异对比 (diff),跑跑测试,然后再提个合并请求 (pull request)。 写代码确实依然是 Codex 的核心强项。但仔细想想,我们在电脑上做的大部分工作,本质上其实都和代码息息相关:执行终端命令、浏览网页、调用应用程序接口、导出文档、响应各种事件,或者是触发自动化流程。当 Codex 开始延伸到这些领域时,它给人的感觉就不再只是一个狭义上的“编程助手”了,而是进化成了一个能帮你搞定各种电脑工作的“全能打工人”。 Codex 的新特性 让这种转变变得触手可及。现在的对话流 (thread) 可以记住你们的上下文、调用各种工具、展示生成的文件 (artifacts),还能在不同的提示词之间无缝衔接,再也不用每次聊完都“重新认识”一遍了。 想要彻底榨干 Codex 的潜能,你需要把下面这些绝招组合起来用: - 能够长期保存记忆的“持久对话流 (durable threads)” - 在你掌控全局时,灵活使用语音输入、任务干预 (steering) 和任务排队 (queuing) - 借助浏览器、电脑操控 (computer-use)、模型上下文协议服务器 (MCP servers, 一种让 AI 安全连接本地数据和工具的通用标准) 以及各类连接器,让 Codex 的手伸向代码库之外的地方 - 当你离开电脑时,利用对话流自动化 (thread automations) 和目标驱动 (Goals) 让它继续搬砖 - 熟练使用侧边栏 (side panel),随时审查它生成的代码、文档、幻灯片和其他文件 ## 持久对话流 (Durable threads) > 持久对话流:可以长时间运行的 Codex 对话流,能在你多次使用的过程中,始终为你保留工作上下文。 把对话流“置顶 (Pinned threads)”是让这些持久对话随叫随到的好办法。这对于那些需要反复推进的工作流来说简直是神器,比如: - 一个专属的“幕僚长”对话流(帮你处理日常杂务) - 一个专门负责产品发布的对话流 - 一个负责审查文档的对话流 - 一个专门盯着外部数据的监控对话流 它们不是那种聊完即焚的闲聊框,而是持久的工作空间。随着时间的推移,Codex 可以随时回到这些对话中,它会记得你之前做过的决定、你的个人偏好以及当前的进度。如果没有这个功能,你每次都得从零开始把这些背景信息重新喂给它。 置顶快捷键让这个操作变得极为实用。只要按下 Command-1 到 Command-9,你就能瞬间穿越回这些保存好的专属对话流里继续工作。 ## 语音输入 (Voice input) 语音输入之所以好用,是因为它能在你把想法字斟句酌地敲成文字之前,先把你脑子里最原始、最粗糙的念头捕捉下来。 Codex 内置了语音输入功能。这对于那些“嘴上说得清,打字嫌麻烦”的模糊想法特别管用。比如: > “我记得有个叫 Ben 的人在 Slack 上提过这事儿。 细节我忘了。 你去帮我找找看。” 对于一个会自己搜索、收集上下文并向你汇报的 AI 智能体来说,这几句话就足够它干活了。 当你脑子里有一个大概的想法,但还没完全成型时,花两三分钟对着它“碎碎念”,把思绪一股脑倒出来,效果也出奇的好。 录音转写也是同样的道理。一份未经修饰的会议记录,或者一段口述的计划草案,往往比一份简短的总结更有价值。因为那些粗糙的记录里,保留了你犹豫的语气、强调的重点,以及那些还没讲完的灵光一现。 ## 任务干预与排队 (Steering and queuing) 当你把语音输入和对运行中任务的直接控制结合起来时,它的威力才真正显现出来。 当一个任务正在执行时,如果你想 > 任务干预 (Steering):在当前任务还没完成时,中途打断 Codex 并给它指引新的方向。 当你发现 AI 跑偏了,需要在它撞南墙之前纠正它时,这个功能就派上用场了。比如,在让它审查网站时,你可以一边在侧边栏上指指点点,一边直接开口打断它的工作: - “把这个调小一点” - “这两个元素之间的间距看着不太对劲” - “这句文案写错了” > 任务排队 (Queuing):在 Codex 完成当前步骤后,给它安排接下来的活儿。 任务排队就不太一样了。它不会打断正在进行的任务,而是把新任务排在队伍后面。你可以这么跟它说: > “等这活儿干完之后,把预览链接发到 Slack 给审核人看看。” 简单来说,“干预”是改变 Codex 眼下正在做的事,而“排队”是安排它接下来要做的事。这两个功能都能让你在任务执行的过程中,始终保持一种“人机合一”的掌控感。 ## 工具与触达范围 (Tools and reach) 当一个对话流有了连续的记忆后,下一个问题就是:它能触碰到什么?Codex 的触角可以向外一层层延伸: - $browser 在侧边栏中运行的应用内浏览器,Codex 可以在这里审查网页并在上面做标记。 - @chrome 可以获取你浏览器的登录状态,用来处理那些基于 Chrome 的工作流。 - @computer 专治那些只能通过桌面图形界面 (GUI) 来完成的任务。 $browser 适合在侧边栏做网页审查;@chrome 适合那些需要你账号登录状态的浏览器内工作;而 @computer 则用来搞定那些只能在电脑桌面上点来点去的任务。 MCP 服务器和各类连接器把这种能力进一步延伸到了你的整个工作流中。Slack 集成、以及各种 MCP 工具连接器 和 MCP 指南 之所以重要,是因为很多关键任务在变成代码之前,最初往往只是一条聊天消息、一封收件箱里的邮件,或者一个日程安排问题。 技能 (Skills) 让那些重复的工作流可以被反复利用。一旦某个工作流被证明好用,你可以将它固化为技能,这样 Codex 下次就能直接跑通,而不需要从头开始重新学习这个流程。 ## 随时随地工作 (Work from anywhere) 随时随地与 Codex 协同工作 的理念,彻底打破了我们“必须坐在电脑前才能干活”的传统限制。一个任务可以在你装满文件、权限和本地环境的 Mac 电脑上启动,然后当你离开工位用手机查看时,它依然在默默推进。 这在很多碎片时间里非常有用。你可以让 Codex 在电脑上跑一个耗时很长的任务,然后自己离开工位去喝杯咖啡。如果在外面时它有问题问你,你可以直接用手机回复、批准它的下一步行动,或者在回座位前就给它指派新的方向。你的本地环境安安静静地待在那里干活,而你的人却可以自由移动。 ## 自动化 (Automations) 自动化功能 能让 Codex 按照你设定的时间表自动干活。如果是需要每天从零开始的任务,比如生成日报或者例行检查代码库,那就用“定时自动化 (scheduled automation)”。但如果需要在一个带有历史记忆的对话中继续推进工作,那就用“对话流自动化 (thread automation)”。 > 对话流自动化:就像一种定时唤醒的“心跳”机制,它会按照设定的时间表,定期回到同一个 Codex 对话流中继续工作。 把对话流置顶固然好用,但它毕竟还得等你主动回去找它。而“对话流自动化”则可以每隔几分钟或几小时自己去查岗,一直跑到满足某个条件为止,甚至还能根据情况自己调整查岗的频率。 比如,你的“幕僚长”对话流可以每 30 分钟跑一次: > 每 30 分钟,去查一下我的 Slack 和 Gmail 里有没有需要处理但还没回的消息。 帮我排个优先级。 如果有人向我提问,尽可能深入地去查资料,然后帮我起草一份回复,但不要直接发送。 当你回到电脑前时,那些最耗时耗力的“收集背景资料”的工作往往已经做完了。作为人类,你只需要做最后拍板发出去的决定。 对话流自动化也非常适合用来处理“反馈循环”。它可以默默盯着你在代码合并请求、Google 文档或是 Slack 里的评论,趁你不在的时候自动推进后续的修改工作。 想象一个制作动画的场景:审核人在 Slack 里发了一个视频。对话流自动化可以定时检查讨论进度,一旦有修改意见进来,它就自动渲染一版新的,然后在原贴里艾特审核人并回复新视频。如果某个软件的集成接口没法自动完成最终的上传,它甚至能调动“电脑桌面自动化”通过图形界面把最后一步走完。 这个完整的闭环跨越了接收反馈的 Slack、负责渲染的代码库,以及负责最终上传的桌面自动化工具。 ## 目标设定 (Goals) 当一个任务有一个清晰的终点线,并且 AI 智能体可以不断朝着那个终点努力时,目标 (Goals) 的威力就彻底爆发了。 > 目标:运行时间更长的 Codex 任务,有一个明确的终点线,AI 会在一段时间内持续向它冲刺。 一个糟糕的目标是这样定的: > 把这个 Markdown 文件里的计划实现一下。 一个优秀的目标必须有一个可以被衡量的成功标准。 比如,一位工程师想把一个内部工具从 Python 语言迁移到 Rust 语言,他可以建好新目录,设定好目标,并画一条明确的终点线: > 直到所有单元测试全部通过,这个新版本的开发才算完成。 目标设定,其实就是把“持续执行”和“验证器 (verifier)”结合在了一起。你作为人类来定义想要的结果、何时停止的条件,以及用来判断 Codex 有没有离终点更近的信号。 好用的验证器包括: - 一套完整的测试用例 - 一项基准性能测试 - 一个能稳定复现的 Bug - 一个验证矩阵 - 一个必须始终跑通的端到端工作流 有野心固然重要,但没有验证机制的野心,就只是在许愿而已。 ## 侧边栏 (The side panel) 侧边栏功能 让你生成的工作成果始终和你们的聊天窗口并排在一起。你再也不用把文件导出来,然后痛苦地在不同软件之间切来切去了,直接在原位就能审查。生成的成果可能是代码,但也可能是幻灯片、PDF 文件、网页、表格,或者任何其他生成的东西。 它特别擅长处理四种工作: 1. 检查生成文件 (artifacts) 1. 标注需要修改的地方 1. 操作网页界面 1. 审查代码或文件的变更 侧边栏允许用户直接原地查看 Markdown 文档、电子表格、数据表、普通文档和幻灯片。你可以不打断现有的工作流,直接检查、做标记、修改文件。 你的幻灯片或 PDF 就乖乖敞开在对话框旁边,随时等你检阅和修改。 应用内浏览器 让 Codex 能够直接检查渲染好的网页,控制它,甚至直接响应你在网页上做的标注。对网页或文件的评论全部留在这个工作闭环里,再也不用像以前那样把它拆分成一个个单独的交接任务了。 网页既变成了它的输出结果,也变成了你可以操控的控制面板。Codex 可以建好一个页面,在侧边栏打开它,自己检查它,修 Bug,然后原地不断迭代优化同一个东西。 下面这些场景配合侧边栏尤其好用: - 用单个 index.html 来做轻量级的静态展示 - 跑 Storybook 来审查用户界面 (UI) 组件 - 用 Remotion Studio 搞代码生成的动画 - 在浏览器里放映的幻灯片演示 - 用于数据分析流的数据应用 (data apps) 一个简简单单的 index.html 文件就能变成一个好玩的交互式小应用,连服务器都不用搭。而且,对话流自动化还能随着时间推移悄悄更新这些静态文件,这样等你回来时,总能看到最新的进展等着你。 ## 共享记忆 (Shared memory) 当那些长时间运行的对话流能够打破单次聊天的界限,把记忆共享出去时,它们的作用将发生质的飞跃。 > 共享记忆 (Shared memory):存储在单一对话之外的持久上下文,它可以让未来的工作能够基于一些明确的、可追溯的信息继续推进。 一个相对稳妥的做法是,把这些持久的对话流“锚定”在一个 Obsidian 知识库 (vault) 里。说白了,就是建一个存放纯文本文件的文件夹。它简单直白,方便你随时查看、修改、移动,而且能保存很久。团队可以把这个文件夹放在任何你们喜欢的云盘里,比如 Git、Dropbox、Google Drive 或是其他的同步工具中。 你的知识库可能长这样: > [text] vault/ ├── TODO.md ├── people/ ├── projects/ ├── agent/ └── notes/ 在最外层目录下,你可以放一个 AGENTS.md 文件。在这里,你可以给 Codex 定规矩:当它了解到关于人员、项目、决策以及待办事项的新情况时,应该如何更新这个知识库。 别死板地照抄某一种知识库结构。你需要做的是“教”你的 AI 智能体:那些持久的上下文该放在哪,哪些上下文需要保留,以及什么时候不要瞎折腾去改文件。 一份实用的 AGENTS.md 指南里可以这么写: - 把 ~/vault 当作你长期的工作记忆区。 - 尽量把笔记整理得有条理,别搞得到处都是碎片记录。 - 准确地把待办事项、人员、项目、每日总结和草稿分类放好。 - 把做过的决定、遇到的卡点、负责人、日期和有用的链接好好保存下来。 - 如果没有什么实质性的新进展,不要随意修改知识库里的文件。 代码库是用来存代码的。而这个知识库,是用来存不断滚动的上下文的:牵涉到哪些人、改了什么、卡在哪里、接下来谁跟进,以及那些如果在两次聊天中间断掉就会彻底消失的细节。 重要的上下文绝不应该仅仅锁死在某一次聊天的文字记录里。把它们写下来,放在下一个对话流能够立刻接手的地方。 Codex 自己也在 设置 > 个性化 > 记忆 中提供官方的 记忆功能。它们就像是系统自带的本地记事本,用来记住你的个人偏好、常用的工作流以及一些经常踩的坑。不过,这个功能是用来辅助你清晰写下来的上下文的,而不是取代它。Chronicle 记忆组件 也是同样的思路,它能帮 Codex 从你最近屏幕上发生的事情中提取并构建记忆。 ## 从代码向外延伸 (From code outward) Codex 虽然还是以写代码为本行起家,但现在,围绕代码的诸多周边工作,都能在这个同一套系统里搞定了:无论是 MCP 服务器、网页界面、电脑桌面控制、对话流自动化,还是那些可以在侧边栏直接审查的文件。 这彻底改变了我们控制它的方式。“任务干预”可以在中途打断它的动作;“任务排队”可以帮它安排好下一步;“对话流自动化”能让你人不在场时系统依然运转;而“目标设定”则给它画了一条清晰的终点线,让 Codex 知道要一直往哪里冲。 如今的 Codex 已经可以扛起一个完整的工作流:从听取指令、执行任务,一直到最终文件的审查。哪怕这些工作早已经超出了代码库的范畴,它也依然游刃有余。

译Codex已从单纯的代码生成工具,进化为能处理各类电脑任务的“全能打工人”。其核心在于利用持久对话流实现长期记忆,并能调用浏览器、电脑操控等工具,打破工作流限制。通过自动化与目标设定,Codex可离线持续工作,大幅提升生产力。

查看原推 ↗
宝玉@dotey · 5月21日68

这位博主做了系列 Google Omni vs Seedance 2.0的对比视频,看起来差距还是蛮明显

查看原推 ↗
宝玉@dotey · 5月21日68

Codex 使用技巧:Steer 和 Queue 通常 Agent 执行一个任务不会马上结束,可能会要等几分钟甚至更久,如果这时候你有个新的要求想补充,这里有两种方式补充:Steer(任务干预) 和 Queue(排队)。 > Steer(快捷键:Shift + Enter):在当前任务还没完成时,中途打断 Codex 并给它指引新的方向。 这个功能相当于你按停止,输入新指令然后再让 Agent 继续。但不需要你去手动停止再让它继续,只要输入指令,按 Shift + 回车,或者先回车,在点击“Steer”按钮就可以发送。Agent 会在下一轮工具调用间隙直接添加新的指令到上下文。 > Queue(快捷键:Enter):在 Codex 完成当前步骤后,给它安排接下来的活儿。 任务排队就不太一样了。它不会打断正在进行的任务,而是把新任务排在队伍后面。而且你提交多条信息,它在任务结束后,不会一次性把你队列的消息执行,而是执行一条,完成这一条对应的任务后,继续下一条。 所以有时候我睡觉前,会在一个长任务后面加上几个 “Continue” 消息到队列,让它尽可能多跑一会,免得中间就停止了。 简单来说,“Steer”是改变 Codex 眼下正在做的事,而“Queue”是安排它接下来要做的事。

译本文介绍了在 Codex Agent 执行任务时补充新要求的两种核心操作:Steer 与 Queue。Steer 通过快捷键 Shift+Enter 在任务进行中直接插入新指令,改变 Agent 当前的工作方向;Queue 则通过 Enter 键在当前任务完成后添加新任务,并按顺序逐一执行,适用于安排后续步骤。两者本质区别在于 Steer 干预当下执行,Queue 规划未来任务。此外,用户可通过队列添加多个“Continue”指令,实现任务持续运行,适用于需要无人值守的场景。

查看原推 ↗
karminski-牙医@karminski3 · 5月21日64

我是这么接受AI写的代码的: prompt其实现在是真正的代码, 而代码其实是IR了. 大模型则是代码编译为IR的编译器, 只不过目前这个编译器还不够理想. (参考CPython也是一坨. 但不妨碍诞生了整个生态)

译本文将AI辅助编程类比为新的编译器范式:提示词(Prompt)是源代码,程序代码是中间表示(IR),大模型则充当编译器。这一认知框架试图缓解程序员在效率与控制感之间的焦虑,同时也反映了传统开发习惯与新兴工作方式之间的摩擦与碰撞。

查看原推 ↗
Chubby♨️@kimmonismus · 5月21日15

I met a lot of really cool people at Google I/O, but the most exciting was @LizzieTao the genius behind the @notebooklm X account 🥰🤯

译在谷歌I/O大会上遇到了很多非常酷的人,但最令人兴奋的是@LizzieTao,她是@notebooklm X账号背后的天才🥰🤯

查看原推 ↗
Google AI Developers@googleaidevs · 5月21日59

Using the new Managed Agents in the Gemini API, @RampLabs built their advanced finance agents without touching the backend infrastructure. Learn more ↓

译通过使用Gemini API中的新托管代理功能,@RampLabs构建了他们的高级财务代理,无需接触后端基础设施。 了解更多 ↓

查看原推 ↗
Sam Altman@sama · 5月21日35

three of the things we are most excited about: 1. AGI accelerating research 2. AGI accelerating companies 3. personal AGI accelerating everyone in achieving their goals today it was great to announce the unit distance result. yesterday it was great to announce that we are offering to invest $2M in openai credits into every YC company. now we need to increase our efforts on the third!

译我们最兴奋的三件事: 1. AGI加速研究 2. AGI加速公司发展 3. 个人AGI加速每个人实现目标 今天很高兴宣布单位距离成果。 昨天很高兴宣布我们将为每家YC公司提供200万美元的OpenAI积分投资。 现在我们需要在第三点上加大努力!

查看原推 ↗
karminski-牙医@karminski3 · 5月21日66

Midjourney 创始人自爆没有使用N卡导致落后一年? 刚刚在 X 上有个讨论 TPU(Google Tensor Processing Unit)的帖子, Midjourney 创始人 David Holz 不经意间爆了个大料:解释了为什么他们过去一年在产品迭代上显得如此疲软. (原帖已经删帖了, 毕竟用着TPU然后说TPU不好不太好哈哈哈, 而且今天 GoogleI/O 还在搞. 所以我给大家截图了评论) 简单来讲, Midjourney 之前为了搞底层基建, 把技术栈搞成了精分状态:在 TPU 上使用 JAX 框架训练模型, 又在 GPU 上使用 PyTorch 进行推理. 结果就是, 团队天天在这两套环境中来回横跳, 工具链断层, 调试极其困难(老黄的 N 卡从 IR 到算子再到驱动都能调试, 社区经验也很多, TPU 生态跟不上). 而且由于用 JAX (Google 搞的运行在 TPU上的魔改 NumPy), 导致开源社区里海量现成的 PyTorch 训练代码根本无法直接用, 全得自己移植. David 更是直接说 "如果可以回到过去, 我会从一开始就尝试使用纯英伟达的解决方案. " 所以如果说 DeepSeek 用国产卡, 搞各种极限优化是因为缺卡被逼出来的, 那 Midjourney 纯粹就是自己作(zuō, 一声)出来的了 要知道去年以来, 以 Google Nano-banana 为代表的修图大模型, 和各家能直接在图片里精准嵌入上千字的文生图大模型疯狂爆发. 对比之下, Midjourney 发布的 V7 和 V8 两个大版本在这些"平民化"功能上根本没法打. 我自己是 Midjourney 的订阅用户, 我现在基本只用它做前期的创意草稿和风格探索(毕竟 MJ 的风格连贯性和艺术感目前还是最强的), 然后精修和提升分辨率全都使用 nano-banana.而如果要排版做海报直出, 而做海报之类的直接用 OpenAI 的 ChatGPT Images 了. 帖子下面有个中国老哥评论得好:「亡羊补牢, 为时不晚」. 希望今年 Midjourney 赶紧跟上, 毕竟目前风格迁移这个领域还是 Midjourney 比较好, 基本盘还在的. #Midjourney #NVIDIA #TPU #文生图大模型

译Midjourney 创始人透露,团队因使用 TPU + JAX 训练、GPU + PyTorch 推理的混合技术栈,导致工具链断裂、调试困难,且无法利用开源社区丰富的 PyTorch 资源,严重拖慢了产品迭代速度。创始人反思,若重新开始会选择基于 NVIDIA 的统一方案。对比之下,其他文生图模型在功能上发展迅速,Midjourney 虽在风格艺术性上仍有优势,但在核心功能竞争上已显疲态。

查看原推 ↗
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月21日
15:59
Orange AI@oran_ge
28
为什么大家一说到 ai 就要聊到赚钱呢? ai 是未来的水电煤 你在用电的时候会考虑这次用电能不能帮你赚钱吗?
现象/趋势
14:30
X.PIN@thexpin
85
刚刚测试了阿里巴巴全新的Qwen3.7-Max。 提示词:构建一个单文件物理模拟网页:风洞、布料、软体、流体,全部集成在一个index.html中,CSS + JS内联。
推理教程/实践
关联讨论 9 条X:OpenRouter (@OpenRouter)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen:Blog Retrieval(API)X:通义千问 / Qwen (@Alibaba_Qwen)X:Kim (@kimmonismus)X:Rohan Paul (@rohanpaul_ai)X:opencode (@opencode)
14:27
Elon Musk@elonmusk
59
Grok Build 使用技巧 感谢 @skcd24 的提示。现在我可以完全在主 Grok Build 实例中工作,无需为其他集群打开额外标签页。

Yun-Ta Tsai: If you are managing multiple machines across clusters and farms, you could ask Grok Build to spin off a sub-agent SSH tu...

智能体MCP/工具xAI教程/实践
14:27
Orange AI@oran_ge
60
豆包赢了,但代价是什么?

豆包在AI聊天机器人市场赢得了用户规模上的胜利,但这场胜利的实际价值与可持续性存疑。其早期尝试的百万智能体生态活跃度极低,移除后对核心数据毫无影响,显示用户需求仍高度集中于主智能体。在“多bot”策略受挫后,团队曾迷茫地考虑借助抖音内容来提升豆包用户留存,但并未执行。目前,豆包的用户日均使用时长仍远低于抖音,尚未对传统互联网产品形成实质威胁。

智能体现象/趋势
13:19
凡人小北@frxiaobei
66
医疗AI的全链路闭环:从医生到患者的数据整合

OpenEvidence与Cedars-Sinai合作推出患者感知型临床AI,使医生能在Epic系统中直接调取完整病历(如过敏史、用药记录),并生成个性化诊疗建议,解决医生手动整理病史的痛点。但患者侧的病史信息仍依赖口述,形成信息缺口。Kin Health通过AI工具帮助患者录制问诊、整理摘要并生成待问问题,数据由患者自主携带,不绑定医院系统。二者结合,形成从医生到患者的全链路医疗AI支持,真正实现诊疗信息的双向流通与协同。

OpenEvidence: Until now, physicians using AI in clinic had to assemble the patient's context themselves. Allergies, comorbidities, med...

现象/趋势行业动态
13:17
歸藏(guizang.ai)@op7418
50
AI赋能墨水屏:从智能看板到数字名片

该推文展示了一种将墨水屏硬件与AI Agent结合的创新应用。核心思路是通过打包为Skill,使任意AI Agent都能控制墨水屏显示内容:设备开机时,AI可推送待办事项、日历等信息,配合磁吸安装和定时任务刷新,形成常态化桌面看板;关机或休眠时,屏幕则利用墨水屏特性静态显示个人介绍与二维码,便捷实现数字名片功能。项目计划以Skills形式开源,便于拥有类似硬件的用户复用开发。

歸藏(guizang.ai): 终于找到了这种墨水屏硬件最适合的场景: 开机的时候,让 AI 往里边推一个 To-do、日历,一些基础的需要记的信息 把它挂在屏幕边上(用磁吸) 关机的时候,利用墨水屏的特性让它显示名片,这样大家加好友什么的直接看就行 太实用了! 到时候打...

智能体MCP/工具教程/实践
13:17
歸藏(guizang.ai)@op7418
14
五大技术项目并行推进,多项功能进入收尾阶段

该推文集中通报了多个技术项目的最新进展。其中,Code Pilot的重构工作已接近完成;墨水屏相关的Skills功能开发预计今日或明日就能完成。同时,基于PPT Skills的几个衍生项目正在推进,包括将HTML转换为视频的功能,以及生成适用于小红书、微信的图文封面功能。此外,PPT Skills的第三个主题也已启动开发。整体展现了多项技术工具的并行开发与快速迭代状态。

MCP/工具其他
13:15
ginobefun@hongming731
69
用户一次性开源了17套面向GEO的实践Skill,其中14套覆盖了从战略、页面、内容到监测、运营等大部分场景,另有3套与GEOFlow系统配套。每个Skill专注解决一个关键问题,例如"品牌知识图谱"、"页面GEO诊断"与各类内容创作改造等。所有Skill均配有示例报告和使用说明,相关成果已发布于GitHub并持续更新。

姚金刚: 一次性开源17套GEO Skill 把这一年来对GEO的研究、学习、实践与思考,大都融合了进去 欢迎下载使用 这套Skill的一些说明: 1、其中14套Skill,覆盖了目前大部分的GEO相关场景,另外3套Skill,与GEOFlow这个系...

GitHub开源/仓库搜索
13:14
Chubby♨️@kimmonismus
53
Google I/O亲历:AI浪潮中的震撼与希望

Google I/O 2025全面聚焦AI,几乎重塑了所有产品与生态。现场探讨了“物理AGI”与主动式AI等前沿方向,DeepMind CEO Demis Hassabis提出AI或将推动科学发现的黄金时代。活动洋溢着强烈的乐观与参与感,作者与多位Google高管深入交流,尤其与Hassabis的会面令人难忘。从美国到欧洲,作者正踏上科技探索的新旅程。

Google大佬观点
13:10
Berryxia.AI@berryxia
35
主推文认为,AI与硬件的结合将带来类似安卓早期自定义ROM的创造性体验。具体案例展示了一种墨水屏硬件的设想:设备运行时,AI可推送待办、日历等动态信息供实时查看;关机后则利用墨水屏特性常显个人名片,便于社交。该方案将功能模块化打包为Skills,分享给社区,体现了AI赋能传统硬件、实现个性化场景应用的潜力。

歸藏(guizang.ai): 终于找到了这种墨水屏硬件最适合的场景: 开机的时候,让 AI 往里边推一个 To-do、日历,一些基础的需要记的信息 把它挂在屏幕边上(用磁吸) 关机的时候,利用墨水屏的特性让它显示名片,这样大家加好友什么的直接看就行 太实用了! 到时候打...

大佬观点端侧
13:03
AYi@AYi_AInotes
77
Gemini 3.5 Flash:速度、智能与可靠性三重突破,开启AI实用主义新时代

Gemini 3.5 Flash实现了289 tokens/s的输出速度(约为GPT-4o的4倍),同时将幻觉率大幅降低31%,首次在速度、智能和可靠性上达成平衡。这标志着AI发展从单纯比拼模型“智商”的基准竞赛,转向追求“能用起来”的实用主义。高速与可靠性的结合,使得能够执行复杂多步任务的AI Agent从理论走向现实,可能重塑行业竞争格局,未来AI将如同基础设施一般无缝融入工作流。

智能体GoogleMCP/工具评测/基准
关联讨论 2 条X:Google DeepMind (@GoogleDeepMind)X:opencode (@opencode)
12:48
凡人小北@frxiaobei
63
推文分享了使用Codex时的经验与注意事项。核心指出单个对话的上下文长度是有限资源,若滥用持续对话流(如设定密集的定时任务)可能导致效果下降或资源浪费。有效的做法是将任务拆解得足够清晰、明确,以提升可持续性。长远来看,更理想的解决方案应是建立共享记忆机制,而非依赖单一长对话的上下文承载。引用的背景文章进一步佐证了相关技术原理,但核心观点强调:优化任务结构比单纯延长对话更为关键。

宝玉: http://x.com/i/article/2057247064115838976

教程/实践编码
12:48
凡人小北@frxiaobei
55
在我们的领域专长上深入 在相邻技能和领域上扩展 在此基础上学会很好地使用 AI

Zara Zhang: Great slide from the "How to thrive as an AI-era developer" session at Google I/O today I think this T-shape will apply ...

教程/实践现象/趋势
12:22
meng shao@shao__meng
65
Agora Skills:快速构建实时语音交互 Agent 的实践

实时语音交互是通用 Agent 领域的关键。本文介绍了构建 Voice Agent 所需的技术栈(ASR、TOD、TTS、LLM)及 WebRTC 通信基础,并重点展示了 Agora 推出的 Agora Skills。该工具能快速安装并集成 Agora 的 RTC、RTM 等多种能力。通过 Codex 自动安装 Agora Skills,演示了一键生成浏览器端语音 AI Agent Demo 的完整流程。该 Demo 实现了流畅的实时对话,响应延迟仅约 1 秒,极大简化了开发者验证语音陪伴等场景的开发流程。

智能体GitHub教程/实践语音
12:22
Tibo@thsottiaux
11
Codex 感觉很 Codex
OpenAI其他编码
12:04
向阳乔木@vista8
71
最近两天爆火的写论文Skill 看来太刚需了,没几天都1.6w Star了。 安装命令: /plugin marketplace add Imbad0202/academic-research-skills /plugin install academic-research-skills 开源地址:https://github.com/Imbad0202/academic-research-skills
智能体GitHub开源/仓库
11:22
宝玉@dotey
63
AI时代T型开发者能力模型解析

该推文解析了AI时代的“T型开发者”能力模型。模型核心包含三个维度:顶层,生成式AI应用成为所有开发者必须掌握的通用基础能力;纵向,借助AI进一步深化核心软件工程的专业技能;横向,借助AI更高效地拓展至相邻工程领域及产品思维、沟通等非工程技能。此模型旨在帮助开发者构建兼具专业深度与跨界广度的知识结构。观点指出,该T型能力框架不仅适用于开发者,也适用于所有职业。

Zara Zhang: Great slide from the "How to thrive as an AI-era developer" session at Google I/O today I think this T-shape will apply ...

Google教程/实践编码
11:09
Berryxia.AI@berryxia
62
微软Claude工作坊:AI Agent从原型到生产落地

微软举办Claude使用工作坊,通过构建纸杯蛋糕店AI Agent的案例,演示了从部署云模型、接入MCP服务器连接工具与数据源,到赋予企业级安全与可观测性的完整流程。工作坊以实操为主,开发者可现场跟随编码,强调AI Agent已从概念验证进入快速生产落地的实用阶段,成为开发者能直接构建的业务工具。

智能体AnthropicMCP/工具Microsoft
11:04
向阳乔木@vista8
4
开源Suno音乐生成Skill,并推进多项技术部署

内容分享了多项技术工作计划与个人行程。重点包括开源Suno音乐生成Skill,研究MTV合成技术;计划在服务器上部署即梦Docker API;将网站首页迁移至Cloudflare;学习一篇经典AI论文。此外还提及了返京途中寻找钓点以测试钓鱼竿的安排。

其他
11:03
AYi@AYi_AInotes
76
OpenAI模型突破性自主解决80年数学悬案

OpenAI的一个AI模型自主攻克了“平面单位距离问题”,这是数学家埃尔德什于1946年提出的一个著名开放难题。近80年来,学界普遍认为最优构造近似于方格子,而该AI模型通过运用代数数论中冷门的Golod-Shafarevich理论,发现了一整族效率更高的全新构造,推翻了原有定见。此成就标志着AI首次独立解决一个数学领域的核心开放问题,其关键在于提出并完整执行了一条人类因直觉认为不可行而从未尝试的创新路径。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究
关联讨论 14 条X:Noam Brown (@polynoamial)X:AI Safety Memes (@AISafetyMemes)X:Emad Mostaque (@EMostaque)The Decoder:AI News(RSS)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Greg Brockman (@gdb)X:OpenAI (@OpenAI)Hacker News 热门(buzzing.cc 中文翻译)X:Sam Altman (@sama)TechCrunch:AI(RSS)X:Kim (@kimmonismus)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Oran Ge (@oran_ge)
10:49
swyx🛬 SFO@swyx
14
今天才知道,在OpenClaw出现之前,@balajis 曾是 @brian_armstrong 的个人内部AGI。
智能体大佬观点
10:49
Orange AI@oran_ge
50
做产品≠能赚钱:商业认知大于技术能力

推文核心观点指出,将“做产品”与“赚钱”直接等同是一种常见误区。对于开发者而言,真正的难点并非开发产品本身,而是如何将其成功销售出去。这本质上是商业问题,而非工程问题。当前,AI技术已能基本解决工程层面的挑战,但商业变现能力尚未被AI攻克。因此,产品只是实现商业价值的交付方式之一,能否赚钱更多取决于独立的商业运作能力,而非单纯依赖产品。

大佬观点教程/实践现象/趋势
10:34
向阳乔木@vista8
72
Suno AI音乐工具新增6000种风格检索并支持免登录创作

这条推文介绍了一个对Suno AI音乐生成工具进行优化的Skill。该Skill新增了近6000个音乐风格检索,显著提升了生成音乐的准确性。此外,它通过谷歌CDP技术刷新获取登录Token,使用户无需访问网站即可直接创作歌曲。推文提供了该Skill的开源GitHub地址和安装指令。

开源/仓库教程/实践语音
10:34
向阳乔木@vista8
精选75
开源Suno技能:一键生成任意风格AI音乐

这是基于Suno AI音乐生成工具的技能实现,可通过简单指令按用户需求生成不同风格的歌曲(例如德语空灵风格)。该技能订阅费用为每月10美元,支持高度自定义的风格生成。技术层面已优化,新增近6000个音乐风格检索以提升准确性,并可通过谷歌CDP免登录直接调用。项目已开源,提供GitHub仓库地址与安装指令,降低了创作门槛。目前AI生成音乐在艺术性上仍与人工制作存在差距,但实现了快速、灵活的创作可能。

向阳乔木: Suno 生成 Skill 做了优化,增加了近6000个音乐风格检索,让生成的音乐更准确。 用谷歌CDP刷新获取登录Token,完全不用打开网站就能创作歌曲了。 开源地址:https://github.com/joeseesun/qiaom...

GitHub多模态教程/实践

推荐理由:乔木这个 Suno Skill 把音乐生成从“抽卡”变成“精准点唱”,6000 种风格检索让普通人也能玩出花样,虽然比不上专业制作,但做短视频配乐绝对够用,看完就能装。
10:19
Josh Woodward@joshwoodward
11
很高兴你喜欢它!

Max Weinbach: Daily Brief in Gemini! I like this quite a bit

Google行业动态
10:01
AYi@AYi_AInotes
66
xAI用基础修复定义AI Agent竞争力

xAI为Grok Build推送的更新看似平淡,无炫酷新功能,但专注于修复致命的“后台子代理静默失败”、支持更多平台及中文字符路径等基础问题。这体现了其工程优先策略,在竞争对手比拼模型参数与演示时,xAI默默填补那些会导致生产环境崩溃、劝退用户的“隐形坑”。这一系列底层优化与漏洞修复,正悄然构筑其编码Agent的长期护城河。

skcd: Bug fixes shipping to Grok Build (release notes will be available in the TUI) - macOS x86_64 (Intel) support - Windows A...

智能体xAI大佬观点编码
09:52
meng shao@shao__meng
24
失业期间,我用AI Agent组建了一个云端虚拟团队

推文以幽默口吻更新个人状态,提及未加入Anthropic的原因。核心内容在于作者失业期间,利用AI技术在云端创建了一个包含设计师、策划、程序员等角色的虚拟团队,并通过开会来模拟创业管理体验,展现了当前AI Agent技术应用的一种新趣味。

Anthropic其他
09:39
Ethan Mollick@emollick
63
基于公开估算,LLM解决Erdos问题的资源消耗极低:电力仅0.6-6.3千瓦时(相当于电动汽车行驶数英里),水耗约3-31升(少于三颗杏仁的耗水量)。引用的估算进一步指出,该过程使用了GPT-5.6 Pro,处理时间约5至32小时,成本在120至1000美元之间。核心观点是,相对于解决这类数学问题的重大成果而言,LLM所需的资源和时间投入并不算多。

will depue: just quick napkin math on how long this took (unless i missed where they said): the published CoT summary is 111,145 tok...

大佬观点推理
09:22
meng shao@shao__meng
68
Forward Deployed Engineering (FDE):AI落地的"最后一公里"关键与新兴职业方向

Forward Deployed Engineering (FDE) 是AI公司派驻客户现场的工程师角色,核心是将AI能力嵌入企业具体业务流。随着模型能力趋同,真正优势在于“如何用”,而FDE正是解决AI落地“最后一公里”的关键。该角色借鉴Palantir传统,强调必须现场工作,围绕企业专有数据重建流程。其工作涵盖业务审计、效果评估(Evals)与务实部署三阶段。咨询、PM及软件工程师可通过30天路线图与作品集转型,但需弥补各自短板——工程能力或商业沟通能力。FDE被视作“百万美金级人才”,是AI时代高价值的职业新方向。

vas: http://x.com/i/article/2057172544277606401

智能体教程/实践现象/趋势部署/工程
09:09
Chubby♨️@kimmonismus
52
科技界热议AGI:定义分歧成共识障碍,个人应用获重点关注

推文指出,当前科技界正迎来科学发展黄金期,AGI实现看似触手可及。然而,各方对“AGI”缺乏统一定义,影响了对其实现时间的共识。尽管Google DeepMind的定义被认为较合理,标准不一仍是核心问题。OpenAI的Sam Altman强调AGI在加速科研、企业和个人目标实现三方面的潜力,并特别呼吁加强“个人AGI”的发展投入。

Sam Altman: three of the things we are most excited about: 1. AGI accelerating research 2. AGI accelerating companies 3. personal AG...

OpenAI大佬观点
09:09
Ethan Mollick@emollick
57
数学很简单*,因为它有可验证的输出,且无需做太多混乱的判断选择。 哪些AI实验室有勇气将推进社会科学作为优先事项?解锁社会学、经济学和心理学研究可能实际上更能促进人类繁荣。 *对AI而言,而非对人类
大佬观点数据/训练
08:51
meng shao@shao__meng
69
Alex Finn 推荐的 Codex 远程开发架构,虽然 1000x 生产力略显夸张 😄

Alex Finn 提出的远程开发架构核心在于将“执行代码的主机”与“发送指令的终端”分离。一台主力机(如Mac Studio)常开,作为唯一执行环境,集中所有代码与依赖;其他设备(如iPad、iPhone)仅作为“遥控器”发送指令。通过Codex的远程控制功能与Tailscale私有网络连接,开发者可在任何地点、任何设备无缝推进同一项目,实现开发能力与物理位置的解耦,从而提升灵活性和效率。

Alex Finn: You need to set up this Codex system I have Been taking advantage of their new remote features and my productivity has 1...

教程/实践编码部署/工程
08:18
宝玉@dotey
74
Codex 从编程助手到全能打工人

Codex已从单纯的代码生成工具,进化为能处理各类电脑任务的“全能打工人”。其核心在于利用持久对话流实现长期记忆,并能调用浏览器、电脑操控等工具,打破工作流限制。通过自动化与目标设定,Codex可离线持续工作,大幅提升生产力。

智能体MCP/工具教程/实践编码
07:48
宝玉@dotey
68
这位博主做了系列 Google Omni vs Seedance 2.0的对比视频,看起来差距还是蛮明显

Ratul Ali: Google Omni vs Seedance 2.0 😳 Olympic Diving Test - Seedance 2.0 also wins this test!🔥 Prompt👇 Female Olympic diver f...

Google图像生成视频评测/基准
07:18
宝玉@dotey
68
Codex 使用技巧:Steer 和 Queue

本文介绍了在 Codex Agent 执行任务时补充新要求的两种核心操作:Steer 与 Queue。Steer 通过快捷键 Shift+Enter 在任务进行中直接插入新指令,改变 Agent 当前的工作方向;Queue 则通过 Enter 键在当前任务完成后添加新任务,并按顺序逐一执行,适用于安排后续步骤。两者本质区别在于 Steer 干预当下执行,Queue 规划未来任务。此外,用户可通过队列添加多个“Continue”指令,实现任务持续运行,适用于需要无人值守的场景。

智能体OpenAI教程/实践
07:18
karminski-牙医@karminski3
64
接受AI代码的新视角:从编译器范式看Prompt与代码

本文将AI辅助编程类比为新的编译器范式:提示词(Prompt)是源代码,程序代码是中间表示(IR),大模型则充当编译器。这一认知框架试图缓解程序员在效率与控制感之间的焦虑,同时也反映了传统开发习惯与新兴工作方式之间的摩擦与碰撞。

Baye: 我至今还是无法接受不看 AI 写的代码,大到代码的架构,小到模块化的设计、写的 SQL、甚至是 Key 的设计,我都要自己把握才能心安。这就导致我效率上不去,从来没用完过五小时/周限额,是不是已经算是老派程序员了。

大佬观点编码
07:05
Chubby♨️@kimmonismus
15
在谷歌I/O大会上遇到了很多非常酷的人,但最令人兴奋的是@LizzieTao,她是@notebooklm X账号背后的天才🥰🤯
Google其他
07:05
Google AI Developers@googleaidevs
59
通过使用Gemini API中的新托管代理功能,@RampLabs构建了他们的高级财务代理,无需接触后端基础设施。 了解更多 ↓
智能体Google教程/实践
06:18
Sam Altman@sama
35
我们最兴奋的三件事: 1. AGI加速研究 2. AGI加速公司发展 3. 个人AGI加速每个人实现目标 今天很高兴宣布单位距离成果。 昨天很高兴宣布我们将为每家YC公司提供200万美元的OpenAI积分投资。 现在我们需要在第三点上加大努力!
OpenAI大佬观点
06:17
karminski-牙医@karminski3
66
Midjourney 创始人自爆没有使用N卡导致落后一年?

Midjourney 创始人透露,团队因使用 TPU + JAX 训练、GPU + PyTorch 推理的混合技术栈,导致工具链断裂、调试困难,且无法利用开源社区丰富的 PyTorch 资源,严重拖慢了产品迭代速度。创始人反思,若重新开始会选择基于 NVIDIA 的统一方案。对比之下,其他文生图模型在功能上发展迅速,Midjourney 虽在风格艺术性上仍有优势,但在核心功能竞争上已显疲态。

Google图像生成大佬观点
‹ 上一页
1…454647484950
下一页 ›