一个名为“guizang-social-card-skill”的社交媒体卡片技能,在GitHub本周新建项目Star排名中冲到了第一名。作者通过群友发现自己的项目登顶,并亲自确认了这一成绩。
http://x.com/i/article/2059811469081141248
我去,太牛批了! 我的 Skill 冲到 GitHub 本周新建项目 Star 排名第一了! 就是这个社交媒体卡片 Skill (guizang-social-card-skill) 还是刚才一个群友让他的 Agent 找项目的时候发现的。我自己看了一下,果然是第一!
译一个名为“guizang-social-card-skill”的社交媒体卡片技能,在GitHub本周新建项目Star排名中冲到了第一名。作者通过群友发现自己的项目登顶,并亲自确认了这一成绩。
Goldman Sachs: "Token use by AI agents is expected to multiply 24 times by 2030" AI agents are now creating the first serious cost test for the AI boom. As was reported this week, Uber and Microsoft are already rethinking expensive agent usage. A chatbot may answer once, but an agent plans, calls tools, checks results, edits mistakes, and repeats the loop. That loop can make one user request consume 10x, 50x, or even far more tokens than a normal answer. Goldman’s bullish case is that monthly token use could reach 120 quadrillion by 2030, while inference cost per token keeps falling 60%-70% per year. The fight is now between agent productivity and token waste. Earlier this month, Microsoft began revoking developer access to Claude Code, with plans to move them to its in-house Copilot Command Line Interface tool by June 30. The company has framed this as consolidating teams around its own tools, but the timing at the fiscal year’s end hints it may also be about lowering costs.
译高盛预测,到 2030 年,由 AI 智能体驱动的模型 token 月度消耗量将激增至 120 quadrillion,较当前增长约 24 倍。核心原因是智能体在完成单次用户请求时,需要进行多轮工具调用、结果检查与修正,导致其 token 消耗量可能达到普通问答的 10 倍甚至 50 倍以上。这一趋势引发了成本担忧,Uber 和 Microsoft 等公司已开始重新评估昂贵的智能体使用方案。报告同时指出,推理成本正以每年 60%-70% 的速度下降,智能体带来的生产力提升与潜在的 token 浪费正成为新的博弈焦点。
Damn,这个是我最近看到的最好的AI视频之一,看的窝鼻子酸酸的😭 也许这就是AI的意义之一吧,把影视作品里我们想看没有拍出来的做出来。 讲的是《黑袍纠察队》里的祖国人、士兵,还有那个孩子,一家三代一起去中国旅行的故事。 看过原片的人应该会挺触动的,这三个人在剧里势同水火,论血缘又是实打实的爷孙三代,但是他们从没好好当过一家人,更不会有这样一个一起出门的清晨。 想起我小时候看完一部喜欢的电影,会趴在桌上接着画后面的剧情,给角色补一个片子里没拍的结局, 那时候只能画在纸上,自己看,谁能想到今天现AI 能让它真的动起来😭 电影拍的是发生过的, AI 拍的是我们希望发生的,或者是哪些意难平的。 今天在B站刷到这个视频,好几个up主都在上传,不知道原作者是谁,但做的真的好啊,作者看到的话来认领下呀
译推文通过《黑袍纠察队》AI视频案例,点明AI意义在于呈现“希望发生的”剧情。核心讨论了AI工具的两条发展路径:以Claude Code为代表的“AI智能体型”(自主运行)与以Cursor为代表的“实习生型”(需人类监督判断)。作者认为后者是“以术入道”培养判断力的过程,但受限于必须人在场。为此推荐使用免费的UU远程配合Cursor,实现手机远程控制电脑,消除物理距离限制,从而随时随地磨练使用者自身,成为优秀的提问者。
卧槽,真的不是一个人有这样的感觉啊! X算法最近让很多人越老越看不懂? 长文流量下滑、大V也有同感! 我扒了一位博主对源码的深度分析,结合最新算法逻辑,大白话给你捋清楚。 核心结论:他的分析 85%~90% 对得上,是目前最靠谱的民间解读。 一条一条说,可以收藏研究下! ① 自动翻译 = 全球抢流量! 以前你的帖子主要在中文圈转。现在平台自动翻译内容推向全球,同样聊AI,你要跟全世界的帖子竞争。 流量被稀释,不是你我的问题,是池子变大了,竞争自然被放大了。 ② 粉丝数大幅贬值 过去:发了就有粉丝看。 现在:算法从全平台 ~1500 条候选帖里挑,只看你最近的兴趣和行为。 每条帖子都得靠自己"赚"读者,粉丝数不再是保底。 也就是说你和全球的同行者,每个帖子都会进行质量、内容、稀缺性多维度比拼了! ③ 算法分两步走 • 第一步「找候选」:根据兴趣从全平台捞帖子 • 第二步「排序打分」:预测你互动的概率,按分数排序推送 这两步和源码几乎完全一致。 ④ 核心看 ~15 个互动信号(最重要) 点赞、回复、转发、停留时长、看视频/图片、点链接,以及负面信号(不感兴趣、屏蔽、举报)。 有加有减,汇总算总分。他列的和实际基本吻合。 ⑤ 最关键的一点:算法不管内容好不好 打分时不看"这人是不是专家"、"内容靠不靠谱"、"作者资历如何"。 只关心:这条帖子能不能让你产生互动。 安全过滤器管有害内容,但不管真假和专业度。 这也解释了为什么质量一般的帖子有时候反而爆。 ⑥ 几个补充机制他也说对了: • 系统记住你看过的帖子,避免重复推 • 同一作者发太密,后面的权重会被压 • 转发不再是直接广播给粉丝的放大器,也要走完整打分流程 总结: 长文流量下滑不是算法"封杀"长文,是多重机制叠加,全球竞争、粉丝通道弱化、早期互动门槛提高。 一句话:X算法只管"你会不会互动",不管"内容好不好、作者厉不厉害"。 想被看到? 开头就抓住人,让人停下来、点赞、回复。 靠粉丝基数硬推的时代过去了。
译X平台近期算法更新导致众多用户(包括大V)帖子触达量显著下降。核心原因在于平台推出自动翻译功能,使内容竞争从单一语言圈扩大至全球范围,竞争池倍增。同时,粉丝数的流量分配作用被大幅削弱,每条帖子都需通过预测互动率单独争取读者。算法分两步工作:先从全平台约1500个候选帖中检索,再由基于Grok的模型通过预测约15种用户互动行为(如喜欢、回复、停留、屏蔽等)的概率来排序打分。最关键的逻辑是,算法打分完全基于预测的互动可能性,不考量内容质量、作者专业性或资历。因此,长文流量下滑是多重机制叠加的结果。
When we go from GPT-5.0 -> GPT-5.1 -> ... -> GPT-5.5, the number incrementing goes with improvements in capabilities and token efficiency (which translates to speed gains). With GPT-5.5 our best model yet. A simple strategy that we would like to continue.
译当我们从 GPT-5.0 -> GPT-5.1 -> ... -> GPT-5.5 时,版本号的递增伴随着能力的提升和 token 效率的提高(这转化为速度的提升)。GPT-5.5 是我们迄今为止最好的模型。 我们希望继续这一简单的策略。
Japan’s AI data center boom is pushing companies toward liquid cooling, because hot GPU racks are now outgrowing the limits of air-conditioned server rooms. Cooling already uses 30% to 40% of data center electricity, and GPU heat has more than doubled in 5 years, so Japan’s Fuji Electric, Nidec, Mitsubishi Heavy, and others are chasing systems that move heat through liquid instead of air. The weak point of normal air cooling is that air carries heat poorly, so the system needs a lot of fan power, large airflow paths, cold aisles, hot aisles, and big chillers to keep the room temperature under control. Liquid cooling changes the target: instead of trying to cool the whole room first, it puts a cold metal plate directly on the GPU or CPU. Cold liquid flows through tiny channels inside that plate, the chip’s heat passes into the plate, the plate passes it into the liquid, and the warmed liquid is pumped away. The big difference is heat density: a powerful AI rack can produce so much heat in such a small space that blowing more air becomes noisy, power-hungry, and physically limited. Liquid can carry much more heat through a much smaller path, so it can remove heat from AI GPUs faster, with less fan work, less room cooling, and more stable chip temperatures. The main downside is that liquid systems cost more to install, need leak-safe connectors, and must be designed into the server rack instead of added casually later.
译日本AI数据中心热潮正推动企业从传统空气冷却转向液冷技术,主要原因是AI GPU机架的散热需求激增。当前冷却已占数据中心用电量的30%至40%,且GPU发热量在5年内翻了一倍多。传统风冷因空气载热能力有限,面临噪声大、能耗高及物理空间限制。液冷技术通过将金属冷板直接贴合芯片,利用液体流道高效导热,能更高效地移除热量并提升芯片温度稳定性。其主要挑战在于安装成本较高且需专门的服务器机架设计。日本的Fuji Electric、Nidec、Mitsubishi Heavy等公司正积极开发相关系统。
AI for accelerating research, by expanding what mathematicians and scientists dare attempt:
译AI加速研究,通过扩展数学家和科学家敢于尝试的边界: AI能给予研究者追求“更疯狂”想法的自由。 对陶哲轩而言,AI创造了更多空间去实验、测试意想不到的路径,并发现那些原本可能无法企及的成果。
烦透了谷歌 Chrome CDP弹窗确认? 让AI写了个脚本,一劳永逸 Chrome 的 CDP 调试真的好用,但 Codex 或 Claude Code 调用时,每次都要弹出对话框确认。 尤其用Skill在远程服务器或Mac Mini运行时,这会影响自动化执行。 好像这个是强制的,还没有配置文件调整,所以让 Codex 写了个程序,自动点击确认。 可能不安全,但自己电脑无所谓。 沿着这个思路,电脑很多重复操作都可以写成软件或脚本。 每次用Computer Use还是太慢、太贵了。
译Chrome的CDP调试在使用Codex或Claude Code时,每次调用都弹出确认对话框,尤其在远程服务器或Mac Mini上运行技能时影响自动化执行。由于强制确认且无配置文件调整,用户让Codex编写脚本自动点击确认,虽可能不安全,但个人电脑上可接受。这启发将电脑重复操作脚本化,避免使用Computer Use等方案,因其速度慢且成本高。
今天被这AI产品刷屏了~ GPT越贴心,学生大脑越懒! AI家教最大的陷阱不是不够聪明,是太贴心了。 现在用 Claude 或 GPT辅导的人越来越多。 问一道题,三秒出完整步骤,易错点标红,学生抄完觉得自己懂了,下周换个数字照样错。 这特么哪里是学习,简直就是“抄袭答案”。 脑科学早就验证过:大脑在适度挣扎时,前额叶皮层和海马体的连接强度会显著提升。 直接给答案等于跳过这个挣扎窗口,信息从短期记忆滑过,不会进入长期存储。 你以为自己懂了,其实只是熟悉了AI的笔迹。 Claude 和 DeepSeek 的默认模式,是走"最小阻力路径"。 你问,它答,越快越完整,满意度越高。但在教育场景里,这和教学目标正好相反。 学生说"这个AI真好用"的时候,通常意味着它让我很舒服地避开了思考。 Qwen 和 GPT展示完整思维链看起来透明,但观看别人的推导不等于自己推导。 Koji 和 Brilliant 做对了一件事:它们拒绝当答案打印机。 Koji 会问"你卡在哪一步了",Brilliant 要求你解一步才能解锁下一步提示。 但这只是产品层面的实现,核心认知是通用的,学习的本质是挣扎,不是观看。 如果你正在用AI辅导学生或孩子,直接做这三个动作: 1. 在 Claude 或 GPT的系统提示里加一条:"不要直接给出最终答案,每次只给最小提示。" 2. 学生问"怎么做"时,先让他暴露现有思路。错的也比空白强,推他先挣扎三十秒。 3. 答对后追加一步:"用另一种方法验证这个结果。"能交叉验证的理解,才是真理解。 所有人都在卷让 AI 更像真人老师——语气温柔、排版精美、步骤详细。 但教育产品的核心指标不是满意度,是知识到底有没有进脑子。 真正好用的 AI 家教,应该让学生觉得有点烦。
译本文批评当前AI家教产品(如Claude、GPT)直接给出完整答案的模式,认为这相当于“抄袭答案”,跳过了学习必需的“适度挣扎”过程,导致知识无法进入长期记忆。作者指出,研究显示适度挣扎能强化大脑记忆连接。而提供完整思维链(如Qwen、GPT展示CoT)或追求交互满意度并非关键。相比之下,Koji与Brilliant等产品通过追问卡点、分步解锁等方式鼓励学生主动思考。文章强调,优秀的AI家教核心应是帮助学生真正掌握知识,即便过程“有点烦”。
如果你最近发现 x 的互动,展现都降了,可以看看这篇的算法分析。 跟打通翻译有一定关系,也跟新算法有关系。 比如你的所有帖子之间也会互相竞争权重和(这个好像以前也有)等
译近期X平台用户互动下降,主要受两大因素影响。一是全球自动翻译功能于2026年4月7日上线,打破了语言壁垒,使得同主题内容(如地缘政治)的潜在竞争者数量从约5000个英语账户剧增至约5万个全语言账户,大幅降低了单个帖子的能见度。二是推荐算法根本性转变:粉丝权重降低,每条帖子需基于预测互动独立赢得受众。新算法采用两阶段机制:先通过语义匹配从全平台筛选出约1500个候选帖,再通过一个Grok模型基于15项预测互动指标(如点赞、回复、停留时间等)进行排序。其中,负面互动(如标记不感兴趣、屏蔽)会被负向加权,直接影响展示优先级。
我在想藏师傅的这种东西是不是绝佳的前端训练数据可以造非常多
译我在想藏师傅的这种东西是不是绝佳的前端训练数据可以造非常多 [引用 @op7418]:http://x.com/i/article/2059811469081141248
我和姚老师组织的GEO公开课,到时候我负责一些AI工具和模型的问答分享。
译推文宣布了与姚老师合作举办的GEO公开课。姚老师将主讲GEO的底层逻辑、方法、系统原理及理念,并分享一系列核心资源,包括GEOFlow系统、用于创建技能的元Skill、17套GEO Skill合集,以及收录41篇最新论文的资料库。此外,分享内容还涵盖《GEO到底是什么》等多篇白皮书、红皮书、蓝皮书及AI营销提示词合集。该公开课将通过WaytoAGI进行直播,另一位主讲人将负责AI工具与模型相关的问答环节。
Claude Opus 4.8 发布后,这两天看到的声音普遍是: 和 Opus 4.7 相比升级不大、反而变笨了? 还是 GPT-5.5 更好用,不想换了! 居然蒸馏了 Qwen?那能点奶茶吗? 抱着试试看的想法,我也打开我的 Claude AI 想测一下,结果。。我的账号模型奇妙变成了未注册状态了? wtf... 这可是我被封了两个账号后,新注册的账号,注册后就发了一次 Hi,就没用过了,咋也中招了?
译Claude Opus 4.8发布后,部分用户反馈其相比Opus 4.7升级感知不强,甚至认为模型变笨了。同时,有声音指出GPT-5.5更好用,并调侃该模型是否蒸馏了Qwen。此外,有用户在发布后尝试测试,发现自己的新注册账号意外变为“未注册”状态,此前该账号仅发送过一条消息,引发了对账号安全性的担忧。
Codex 制作的 Suno MTV,任意一首Suno歌曲自动转成带LRC歌词同步显示的 MV。 图片由Codex根据歌词内容自动生成,还挺符合意境。
我今天对群聊总结的 Skill 更新了个小功能,在群里 @bot,总结群聊记录的时候,就可以结合聊天记录的上下文,在总结的时候回复问题 具体参考:https://github.com/JimLiu/baoyu-skills/commit/a85c81e8db8a19a633e30dda0823e8a9c686263d
@JustinBleuel is just shipping things with codex and making chatgpt better. Worth following (and complaining to)
译@JustinBleuel 正在用 Codex 不断交付成果,并让 ChatGPT 变得更好。值得关注(也可以向他吐槽)。
Do you still trust benchmarks or do you just listen to your friends? What makes you try a new model?
译你还会相信评测基准吗,还是只听朋友的?是什么让你尝试一个新模型?
In a few months, people will start to realize how fundamentally important MCP for agents is. It's not even about connecting tools. There are many ways to do that. It's about the types of abstraction it already enables. My new self-improving system, enabled through agent-to-agent interaction, is all powered by MCPs. This was not an accident. I ran my entire orchestrator through a self-improving loop with clear criteria/goal, and it came up with all kinds of interesting ways (mostly powered by MCP tools) on how to enable complex interactions, versioning, eval workflows, communications, tools, etc. Something new could always emerge, but I think the protocol itself will be crucial and necessary for all the advancements ahead. MCP is the future. And I am glad a lot of it is built in the open.
译作者认为MCP(模型上下文协议)对AI智能体的未来至关重要,其核心价值不仅在于工具连接,更在于它所启用的抽象能力。作者以自身构建的自我改进系统为例,该系统完全通过MCP驱动,展示了MCP如何赋能智能体间交互、实现复杂协调、版本控制、评估工作流及工具集成等关键功能。作者强调,尽管新事物可能不断涌现,但MCP协议本身对于未来所有进展将是必要且关键的基础。
Salesforce 工程如何从 Copilot 走向 Agentic? 来自 Salesforce 的分享,讲述了工程团队如何从「工程师 + 更强 Copilot」,进化到把 SDLC 的执行层逐步交给 Agent,人负责目标、规则、验收与复利的「Agentic 工程」: https://www.salesforce.com/news/stories/how-engineering-became-agentic/ 团队经历了两个阶段: 1. AI 嵌入旧流程:高 adoption(他们曾 >90%) 2. 用 AI 拆掉 handoff、低价值流程:Agent 驱动写码/审 PR/测试/文档/部署 三个撬动变革的杠杆: 1. 工具收敛 + 零摩擦 — 全组织 Claude Code,取消 token 上限 → 信号是「深度用 Agent 被允许、被期待」。 2. 规则即代码 — Markdown 规则 + 参考实现;PR 反馈写回规则 → 精度复利,而非每次重 prompt。 3. 自治 + 并行 — build/fix/validate 闭环少介入;隔离环境并行出 PR。 案例(33 API / 231 人天 → 13 天):证明的是 「可规则化 + 可自动验证」的任务,不是一切研发。 变革中的数据体现: · PR +79%、有效产出 +151% → 吞吐与「有效价值」在涨。 · 事故 -5% → 他们在争 「快 ≠ 烂」;但指标自研(Engineering 360),因果未公开。 真正信号:下游(review/测试/发布)没被上游加速压垮,而是 Agent 也接住了下游 —— 否则只会「代码洪水」。 新核心能力 从写代码 → 三件事: · 把问题拆成 Agent 能执行的结构与验收标准; · 判断 委派 vs 留在环内; · 沉淀 Skills / CLAUDE.md / 规则库(团队复利资产)。 工程师在变成 Agent 工作流的设计者与所有者。 对咱们做工程有帮助的 3 条 1. 先找「规则清晰 + 测试可自动验」的活(迁移、补测、文档同步),别先让 Agent 写模糊需求。 2. 建「PR 反馈 → 规则」闭环,这是 18 倍案例里唯一可低成本复制的内核。 3. 同时改度量与安全:没有 Effective Output 类指标 + Agent 执行权治理,上游加速只会制造 review/事故债。
译Salesforce 分享了工程团队从“Copilot 辅助”演进到“Agentic 工程”的路径,即让智能体承担软件开发生命周期的执行层,工程师专注于目标、规则与验收。关键变革包括:全组织采用 Claude Code 并取消 token 限额、推行“规则即代码”(Markdown 规则+参考实现)、以及自治与并行。一个原估 231 人天的 API 迁移案例,仅用 13 天完成。变革成果体现在:PR 数量增加 79%,有效产出增加 151%,事故减少 5%。真正的信号是下游流程也被智能体接住,避免了“代码洪水”。工程师的核心能力转变为设计智能体工作流与沉淀规则库等复利资产。
如何构建你自己的 Agent Harness? 先看几个问题: · 生产级 Harness 是“选一个框架”就能搞定的吗? · 生产级 Harness 必须承担的 15 项真实职责是什么? · 每项职责如何做成可安装、可版本化、可换语言的 worker? · 单次 turn 如何跑通? · 策略、审批、预算、trace 在生产级 Harness 里为什么重要? @mfpiccolo 在他的「How to Build Your Own Agent Harness」中给出了完整答案,强烈建议阅读原文: https://iii.dev/blog/how-to-build-your-own-agent-harness/
译如何构建你自己的 Agent Harness? 先看几个问题: · 生产级 Harness 是“选一个框架”就能搞定的吗? · 生产级 Harness 必须承担的 15 项真实职责是什么? · 每项职责如何做成可安装、可版本化、可换语言的 worker? · 单次 turn 如何跑通? · 策略、审批、预算、trace 在生产级 Harness 里为什么重要? @mfpiccolo 在他的「How to Build Your Own Agent Harness」中给出了完整答案,强烈建议阅读原文: https://iii.dev/blog/how-to-build-your-own-agent-harness/ [引用 @mfpiccolo]:http://x.com/i/article/2060024515619397638
Q:我把数据库接入了 AI Agent,每次用手机发消息让它帮我查数据、导出文件,但 token 消耗特别大。我已经把工作流写进了 Agent 的 Memory 里,但它就是不按流程走,该怎么办? A:这是一个非常典型的问题。根本原因在于:Memory 只是“背景信息”,不是“执行指令”。Agent 每次对话都会重新理解意图、重新规划步骤,这个思考过程本身就是 token 消耗的大头。 解决方案:用 Agent Skill + Script 替代 Memory 里的工作流。 核心思路是把任务拆成两部分: - LLM 只做它擅长的事——把自然语言翻译成 SQL 查询语句 - 确定性的步骤全部用脚本——执行 SQL、格式化结果、上传文件,这些不需要 AI 思考,写成 Python/Shell 脚本直接跑 再进一步,在 Skill 里内嵌你的表结构说明和常用 SQL 模板,Agent 只需要填空而不是从零推理。 改完之后 token 消耗能降一个数量级。 一句话总结:能用脚本干的事别让 LLM 干,LLM 只负责翻译,不负责执行。
译指出将工作流写入Memory方案的根本问题在于Agent需每次重新理解意图,导致token消耗大且不稳定。最佳实践是采用“Agent技能+脚本”架构:LLM仅负责将自然语言转译为SQL,所有确定性步骤由脚本执行。此方案可大幅降低token消耗。
Anthropic 蒸馏中国模型这回事,我第一次听到是在线下,从投资人的嘴里听到的 那时候他们说的是 Claude 蒸馏了 Kimi 我说你确定不是 Cursor 蒸馏了 Kimi 吗? 他非常肯定地说,是 Claude 不光蒸馏了 Kimi,还蒸馏了 Qwen 现在似乎证据越来越多了 这魔幻的世界已经难辨真假 我怀疑这事儿全部的责任都在 @CuiMao
译推文转述一个传闻:有投资人声称Anthropic的Claude模型通过知识蒸馏(Distillation)使用了Kimi和Qwen的成果。作者对此表示质疑,最初怀疑是Cursor工具所为,但对方坚持是Claude的行为。推文提到目前似乎有更多证据支持这一说法,但整体语境表达了对传闻真实性的怀疑和事件本身的“魔幻”感。文中并未提供任何关于蒸馏过程、模型参数或性能提升的具体证据或数字。
So I can just tweet in English now? Biggest hot take I have heard from an economist recently. I thought my takes were wild, but this one takes the cake and it actually makes sense. True tech revolutions always disrupt energy. The internet and mobile eras did not really do this. AI, however, directly consumes raw power. Green energy, fossil fuels, and elements across the periodic table are surging because of it. Rewriting bits is easy. Rewriting atoms is hard. This friction proves we are in a massive paradigm shift. When a tech wave drives up the cost of energy, storage, and basic elements all at once, there are only two options: 1. It is the biggest bubble ever. 2. The Singularity is arriving.
译有经济学家提出,真正的技术革命总伴随对能源的颠覆,而互联网和移动互联网时代并未真正做到。AI(人工智能)不同,它直接消耗原始能源,正推动绿色能源、化石燃料及元素周期表中多种元素的需求与价格飙升。作者认为,这种“重写比特容易,重写原子困难”的摩擦,证明我们正处于一场巨大的范式转移中。当技术浪潮同时推高能源、储能和基础元素成本时,只有两种可能:要么是史上最大的泡沫,要么是奇点正在到来。
I'd go further and say most of open science defines a lot of how AI is discussed (e.g. our Tulu 3 project coining RLVR). There's a lot of value in this sort of level setting and cutting out future noise in science by establishing methods publicly.
译推文强调开放科学在AI讨论和研究中的基础性作用,以Tulu 3项目创建RLVR(基于强化学习的验证与推理)为例,说明公开研究方法能为领域设定标准并减少未来冗余。同时指出一个关键现象:AI前沿实验室的创新常被学术界独立重现,但外部人员无法接触这些内部工作,唯一的参考来源就是公开分享的研究。因此,开放科学对推动整个领域进步至关重要。
最近听到的最大的暴论来自经济学家 我以为我已经很暴论了,没想到… 他们能把暴论说得这么有道理: 一般来说,重大的技术革命,往往伴随着能源利用方式的剧变。 注意:互联网和移动互联网是没有的! 而 AI 直接消耗能源,新能源,旧能源以及元素周期表里的各种元素都开始纷纷暴涨受到影响。 要知道比特世界改变容易,原子世界改变很难。 这种深刻的改变预示着这是一次极为重大的技术变革。 当这个风口大到,连能源、存储、元素都跟着一起上涨。 这要么就是史上最大的泡沫, 要么就是奇点要到了。
译一位经济学家提出,历史上重大的技术革命往往伴随能源利用方式的剧变,而互联网和移动互联网并未如此。AI则不同,它直接消耗能源,导致新能源、旧能源及元素周期表中的多种元素价格暴涨。这种从比特世界深入到原子世界的深刻改变,预示着一次极为重大的技术变革。当一个风口大到足以撬动能源、存储和元素市场时,这要么是史上最大的泡沫,要么是奇点将至的信号。
这个 skill 看着不错,可将文字、URL 或文章直接生成公众号首图、小红书图文卡、教程步骤卡等视觉物料,支持 28 种布局和 10 种主题。
译claude-design-card 是一款专为中文内容创作者设计的 Skill。它能将文字、URL 或文章直接转化为可发布的视觉卡片,如公众号首图、小红书图文卡、教程步骤卡等,支持 28 种布局与 10 种主题。其核心价值在于自动化了“写完文章”后最繁琐的流程:自动提炼重点、选择版式、生成 HTML 并截图成 PNG,替代了以往手动使用 Figma 或 Canva 等工具的步骤。该工具开源,适合经常撰写相关内容的创作者尝试。
小技巧:一键配置 Claude Code
译Anthropic 发布了官方插件 claude-code-setup,用于简化 Claude Code 的配置。它能自动扫描项目,一键推荐并配置 Hooks、技能、MCP 服务、子代理及自动化功能。该插件可将原本 30-60 分钟的手动配置过程,缩短至 3-5 分钟完成。安装命令为:`/plugin install claude-code-setup@claude-plugins-official`。
I enjoyed this chat immensely with @OfficialLoganK and my fellow Gemini leads @OriolVinyalsML and @NoamShazeer and @koraykv.
译我非常享受与@OfficialLoganK以及我的Gemini联合负责人@OriolVinyalsML、@NoamShazeer和@koraykv的这次对话。
Good implementation of Managed Agents in the Gemini API by our friends at @Eigent_AI! Root causing CI failures at lightning speed. ⚡
译Eigent平台展示了集成Gemini Managed Agents API的实际效果。其开源协作工具Eigent使用Gemini 3.5 Flash和该API,快速定位了一个真实的megatron-lm CI故障,在几分钟内找到了根本原因。工作流程中,协调员智能体规划审计,开发员智能体加载`ml-failure-audit`技能并收集证据,随后Gemini智能体作为远程子智能体接手进行深度推理。这体现了Managed Agents在自动化复杂任务中的效率。
Terence Tao: "We lived in a world with cognitive friction until very recently, where every task required us to use our brain. So we didn't really think about it, we just thought this was the cost of doing something intellectual. But now we have AI and the other technologies that can bring these frictions down to zero." Most research time is not spent having cinematic insights. It is spent checking cases, chasing references, translating intuition into computation, testing a path, finding it false, and deciding whether the failure taught you anything. AI changes the cost of that loop. Terence Tao says that now he can try “crazier things,” and that makes so much difference. Because unconventional ideas are often not rejected by proof, but by inconvenience. A mathematician may avoid a strange direction not because it is foolish, but because the bookkeeping, coding, or literature search needed to test it is too expensive for a hunch. This is where cognitive friction becomes scientific friction. Lowering it does not make taste, judgment, or proof disappear; it makes more weak signals cheap enough to inspect before they are abandoned. AI is making hesitation less expensive, and that is often where discovery begins.
译陶哲轩指出,研究过程中存在大量“认知摩擦”——例如验证想法、排除错误路径、将直觉转化为计算等试错环节,占据了主要时间。AI正在将这些摩擦成本降至零,使研究者能更自由地尝试“更疯狂的想法”。推文强调,许多非常规路径并非被证伪,而是被高昂的验证成本所阻碍。AI降低这一成本,让原本因“不便”而被放弃的弱信号得以被审视,这往往是发现的起点。
Builders Unscripted with @0xmts Matias talked to @romainhuet about bringing Codex to work and into side-project workflows. 00:58 Codex at Alchemy 01:51 Code review catches bugs 08:04 Side projects with Codex 18:51 Codex App Server projects 24:01 Computer use, GPT-5.5, SnapCat
译Builders Unscripted with @0xmts Matias与@romainhuet探讨了将Codex应用于工作和副项目工作流。 00:58 Codex在Alchemy的应用 01:51 代码审查捕获错误 08:04 使用Codex进行副项目 18:51 Codex App Server项目 24:01 计算机使用、GPT-5.5、SnapCat
The year is 2026. AIs are literally inventing new math, and journalists are still posting OBVIOUSLY false shit like this 99% of people have no idea what's coming because journalists failed them.
译2026年。AI正在真正发明新的数学,而记者们还在发布这种明显错误的内容。 99%的人不知道即将发生什么,因为记者们辜负了他们。
AI Dark Output: The Visible Cost of Invisible Output Why AI's increasing output is going to be one of the hardest economic measurement problems in history. AI "Dark Output" could end up being the majority of economic activity, but a challenge to measure. https://newsletter.semianalysis.com/p/ai-dark-output-the-visible-cost-of
译AI 暗产出:隐形产出的显性成本 为什么 AI 日益增长的产出将成为史上最棘手的经济衡量难题之一。 AI“暗产出”可能最终占据经济活动的大部分,但衡量起来却是个挑战。 https://newsletter.semianalysis.com/p/ai-dark-output-the-visible-cost-of
According to research by EpochAI, open-weight models lag behind frontier closed-source models by four months. Four months. That's very little. And impressive at the same time.
译根据 EpochAI 的研究,开源权重模型落后于前沿闭源模型四个月。 四个月。这非常短暂。同时也令人印象深刻。
AI backlash update: comedians are giving commencement speeches saying "THE MISSION OF YOUR GENERATION IS TO KILL AI" to wild applause Do you get how unusual this is? The words of comedians today become the widely held beliefs of tomorrow. Comedians are the canaries of culture. People think comedians just tell jokes - that it's just entertainment - but that's naive. Jokes are the way societies move Overton windows, because they create plausible deniability ("I was just joking") This is why Mao banned jokes, and why it's a really bad sign when the king kills his jester - often, the jester was the only one who could speak the truth to the king. The backlash is JUST beginning.
译推文指出,喜剧演员Ronny Chieng在哈佛毕业典礼上的演讲中,呼吁台下毕业生“你们这一代的使命是杀死AI”,并获得了热烈掌声。发布者认为这一现象异常且值得警惕,其核心论点是:喜剧演员是文化的先知,其今日的笑话可能成为明日被广泛接受的信念。这类通过“玩笑”形式传播的言论,正在推动社会对AI的“超限窗口”(Overton window)向反对方向移动,意味着大规模的AI抵制才刚刚开始。
有时候反过来也成立的,复杂任务让它们一起做是最优的解法 赛博赛马法
译有用户分享使用体验:通过 Codex 调用新的 Claude 4.8 模型并开启最高思考模式查找代码 bug,效果不佳,仅发现一些不重要的问题;而 GPT 5.5 则成功定位了问题。基于此,主推文提出,在面对复杂任务时,最优解法或许不是依赖单一模型,而是让多个模型协同工作。
一个名为“guizang-social-card-skill”的社交媒体卡片技能,在GitHub本周新建项目Star排名中冲到了第一名。作者通过群友发现自己的项目登顶,并亲自确认了这一成绩。
http://x.com/i/article/2059811469081141248
高盛预测,到 2030 年,由 AI 智能体驱动的模型 token 月度消耗量将激增至 120 quadrillion,较当前增长约 24 倍。核心原因是智能体在完成单次用户请求时,需要进行多轮工具调用、结果检查与修正,导致其 token 消耗量可能达到普通问答的 10 倍甚至 50 倍以上。这一趋势引发了成本担忧,Uber 和 Microsoft 等公司已开始重新评估昂贵的智能体使用方案。报告同时指出,推理成本正以每年 60%-70% 的速度下降,智能体带来的生产力提升与潜在的 token 浪费正成为新的博弈焦点。
推文通过《黑袍纠察队》AI视频案例,点明AI意义在于呈现“希望发生的”剧情。核心讨论了AI工具的两条发展路径:以Claude Code为代表的“AI智能体型”(自主运行)与以Cursor为代表的“实习生型”(需人类监督判断)。作者认为后者是“以术入道”培养判断力的过程,但受限于必须人在场。为此推荐使用免费的UU远程配合Cursor,实现手机远程控制电脑,消除物理距离限制,从而随时随地磨练使用者自身,成为优秀的提问者。
今天,把一件关于 AI 很底层的事,彻底想透了。 使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。 就像黄仁勋说的--真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思...
X平台近期算法更新导致众多用户(包括大V)帖子触达量显著下降。核心原因在于平台推出自动翻译功能,使内容竞争从单一语言圈扩大至全球范围,竞争池倍增。同时,粉丝数的流量分配作用被大幅削弱,每条帖子都需通过预测互动率单独争取读者。算法分两步工作:先从全平台约1500个候选帖中检索,再由基于Grok的模型通过预测约15种用户互动行为(如喜欢、回复、停留、屏蔽等)的概率来排序打分。最关键的逻辑是,算法打分完全基于预测的互动可能性,不考量内容质量、作者专业性或资历。因此,长文流量下滑是多重机制叠加的结果。
So I spent some time studying the new Twitter/X algorithm today since the latest version was published about a week ago ...
日本AI数据中心热潮正推动企业从传统空气冷却转向液冷技术,主要原因是AI GPU机架的散热需求激增。当前冷却已占数据中心用电量的30%至40%,且GPU发热量在5年内翻了一倍多。传统风冷因空气载热能力有限,面临噪声大、能耗高及物理空间限制。液冷技术通过将金属冷板直接贴合芯片,利用液体流道高效导热,能更高效地移除热量并提升芯片温度稳定性。其主要挑战在于安装成本较高且需专门的服务器机架设计。日本的Fuji Electric、Nidec、Mitsubishi Heavy等公司正积极开发相关系统。
AI can give researchers the freedom to pursue "crazier" ideas. For Terence Tao, AI creates more room to experiment, test...
Chrome的CDP调试在使用Codex或Claude Code时,每次调用都弹出确认对话框,尤其在远程服务器或Mac Mini上运行技能时影响自动化执行。由于强制确认且无配置文件调整,用户让Codex编写脚本自动点击确认,虽可能不安全,但个人电脑上可接受。这启发将电脑重复操作脚本化,避免使用Computer Use等方案,因其速度慢且成本高。
本文批评当前AI家教产品(如Claude、GPT)直接给出完整答案的模式,认为这相当于“抄袭答案”,跳过了学习必需的“适度挣扎”过程,导致知识无法进入长期记忆。作者指出,研究显示适度挣扎能强化大脑记忆连接。而提供完整思维链(如Qwen、GPT展示CoT)或追求交互满意度并非关键。相比之下,Koji与Brilliant等产品通过追问卡点、分步解锁等方式鼓励学生主动思考。文章强调,优秀的AI家教核心应是帮助学生真正掌握知识,即便过程“有点烦”。
AI is making kids dumber. It should be making them geniuses. Introducing Koji, the first AI tutor that gets kids to actu...
So I spent some time studying the new Twitter/X algorithm today since the latest version was published about a week ago ...
http://x.com/i/article/2059811469081141248
今晚八点,会通过WaytoAGI做第一场GEO直播分享,会把GEO的底层逻辑、方法、系统原理及理念做一轮讲解,相关的一些资料和系统如下,分享给大家: 1、GEOFlow,今晚主讲的系统和背后的GEO原理 https://github.com...
Claude Opus 4.8发布后,部分用户反馈其相比Opus 4.7升级感知不强,甚至认为模型变笨了。同时,有声音指出GPT-5.5更好用,并调侃该模型是否蒸馏了Qwen。此外,有用户在发布后尝试测试,发现自己的新注册账号意外变为“未注册”状态,此前该账号仅发送过一条消息,引发了对账号安全性的担忧。
我今天对群聊总结的 Skill 更新了个小功能,在群里 @bot,总结群聊记录的时候,就可以结合聊天记录的上下文,在总结的时候回复问题 具体参考:https://github.com/JimLiu/baoyu-skills/commit/a85c81e8db8a19a633e30dda0823e8a9c686263d
baoyu-skills 新加了一个 Skill: 微信群聊总结 Skill:https://github.com/JimLiu/baoyu-skills/tree/main/skills/baoyu-wechat-summary 依赖于 ...
作者认为MCP(模型上下文协议)对AI智能体的未来至关重要,其核心价值不仅在于工具连接,更在于它所启用的抽象能力。作者以自身构建的自我改进系统为例,该系统完全通过MCP驱动,展示了MCP如何赋能智能体间交互、实现复杂协调、版本控制、评估工作流及工具集成等关键功能。作者强调,尽管新事物可能不断涌现,但MCP协议本身对于未来所有进展将是必要且关键的基础。
Salesforce 分享了工程团队从“Copilot 辅助”演进到“Agentic 工程”的路径,即让智能体承担软件开发生命周期的执行层,工程师专注于目标、规则与验收。关键变革包括:全组织采用 Claude Code 并取消 token 限额、推行“规则即代码”(Markdown 规则+参考实现)、以及自治与并行。一个原估 231 人天的 API 迁移案例,仅用 13 天完成。变革成果体现在:PR 数量增加 79%,有效产出增加 151%,事故减少 5%。真正的信号是下游流程也被智能体接住,避免了“代码洪水”。工程师的核心能力转变为设计智能体工作流与沉淀规则库等复利资产。
Salesforce published a detailed writeup on going agentic with Claude Code. A couple things jumped out. A migration they'...
如何构建你自己的 Agent Harness? 先看几个问题: · 生产级 Harness 是“选一个框架”就能搞定的吗? · 生产级 Harness 必须承担的 15 项真实职责是什么? · 每项职责如何做成可安装、可版本化、可换语言的 worker? · 单次 turn 如何跑通? · 策略、审批、预算、trace 在生产级 Harness 里为什么重要? @mfpiccolo 在他的「How to Build Your Own Agent Harness」中给出了完整答案,强烈建议阅读原文: https://iii.dev/blog/how-to-build-your-own-agent-harness/ [引用 @mfpiccolo]:http://x.com/i/article/2060024515619397638
http://x.com/i/article/2060024515619397638
指出将工作流写入Memory方案的根本问题在于Agent需每次重新理解意图,导致token消耗大且不稳定。最佳实践是采用“Agent技能+脚本”架构:LLM仅负责将自然语言转译为SQL,所有确定性步骤由脚本执行。此方案可大幅降低token消耗。
10h 45m was codex picking the 5.5 party guests codex > settings > profile
推文转述一个传闻:有投资人声称Anthropic的Claude模型通过知识蒸馏(Distillation)使用了Kimi和Qwen的成果。作者对此表示质疑,最初怀疑是Cursor工具所为,但对方坚持是Claude的行为。推文提到目前似乎有更多证据支持这一说法,但整体语境表达了对传闻真实性的怀疑和事件本身的“魔幻”感。文中并未提供任何关于蒸馏过程、模型参数或性能提升的具体证据或数字。
有经济学家提出,真正的技术革命总伴随对能源的颠覆,而互联网和移动互联网时代并未真正做到。AI(人工智能)不同,它直接消耗原始能源,正推动绿色能源、化石燃料及元素周期表中多种元素的需求与价格飙升。作者认为,这种“重写比特容易,重写原子困难”的摩擦,证明我们正处于一场巨大的范式转移中。当技术浪潮同时推高能源、储能和基础元素成本时,只有两种可能:要么是史上最大的泡沫,要么是奇点正在到来。
Someone once told me: "You should be the last one to reinvent something" -- not sure how useful this is, but this is a c...
一位经济学家提出,历史上重大的技术革命往往伴随能源利用方式的剧变,而互联网和移动互联网并未如此。AI则不同,它直接消耗能源,导致新能源、旧能源及元素周期表中的多种元素价格暴涨。这种从比特世界深入到原子世界的深刻改变,预示着一次极为重大的技术变革。当一个风口大到足以撬动能源、存储和元素市场时,这要么是史上最大的泡沫,要么是奇点将至的信号。
昨天那个 md2wechat-skill 很多人收藏 今天再分享一个很适合中文创作者的 Skill:claude-design-card。 它可以把一段文字、一个 URL、一篇文章,直接生成能发出去的视觉卡片,比如公众号首图、小红书图文卡、...
安装了这个之后,Claude Code 的体验会立马不一样 Anthropic 悄悄发布了一个官方插件 claude-code-setup,把 Claude Code 从「还不错」升级成了专业的 AI 开发环境 它会自动扫描你的项目,一键推...
My conversation with @JeffDean, @koraykv, @NoamShazeer, and @OriolVinyalsML (the Gemini co-leads) about the current stat...
关联讨论 1 条X:Google AI (@GoogleAI)Gemini 3.5 flash + Gemini managed agents api just audited a real megatron-lm ci failure inside Eigent. root cause in min...
陶哲轩指出,研究过程中存在大量“认知摩擦”——例如验证想法、排除错误路径、将直觉转化为计算等试错环节,占据了主要时间。AI正在将这些摩擦成本降至零,使研究者能更自由地尝试“更疯狂的想法”。推文强调,许多非常规路径并非被证伪,而是被高昂的验证成本所阻碍。AI降低这一成本,让原本因“不便”而被放弃的弱信号得以被审视,这往往是发现的起点。
AI can give researchers the freedom to pursue "crazier" ideas. For Terence Tao, AI creates more room to experiment, test...
I'm old enough to remember when everyone thought AI solving ONE novel math problem would be a front page story around th...
We took another look at the capability gap between open-weight and proprietary models. Since the start of the year, open...
推文指出,喜剧演员Ronny Chieng在哈佛毕业典礼上的演讲中,呼吁台下毕业生“你们这一代的使命是杀死AI”,并获得了热烈掌声。发布者认为这一现象异常且值得警惕,其核心论点是:喜剧演员是文化的先知,其今日的笑话可能成为明日被广泛接受的信念。这类通过“玩笑”形式传播的言论,正在推动社会对AI的“超限窗口”(Overton window)向反对方向移动,意味着大规模的AI抵制才刚刚开始。
.@ronnychieng's Harvard graduation speech is one for the ages. #FuckAI #KillAI #DestroyAI
codex 牛逼,我用新的 claude 4.8 找 bug,开了最高的 think, 找了半天搞出来一些不痛不痒的问题。还是 gpt 5.5 比较厉害,真让他找到了。