推文指出 Claude Opus 4.7 与 4.8 的发布效果不佳,价格提升但性能无明显改进甚至下降。作者认为 Claude 模型已停滞 4 个月,即使内部拥有 Mythos 等开发工具,模型进步速度依然未显著加快,仍维持约半年一次重大更新的节奏。
Opus 4.7、4.8 的接连失败令人费解 价格更贵,效果无提升,甚至负提升 看看日历,突然意识到 Claude 已经停滞了 4 个月 即便是掌握了模型训练的方法,即便内部已经有了 Mythos 这样的开发利器 模型的进步还是没有太多加速,依然半年一次大更新?
译推文指出 Claude Opus 4.7 与 4.8 的发布效果不佳,价格提升但性能无明显改进甚至下降。作者认为 Claude 模型已停滞 4 个月,即使内部拥有 Mythos 等开发工具,模型进步速度依然未显著加快,仍维持约半年一次重大更新的节奏。
Code is all you need! Search as Code Harness as Code What's next?
译代码就是你所需的一切! 搜索即代码 工具链即代码 接下来是什么?
The everything apps still look a lot like hybrids between chatbots and IDEs, rather than something built for general knowledge work. Too much assuming linearity & that final outputs are the only goal, too little connection to research, not enough chances to steer or select, etc.
译那些"全能应用"看起来仍然很像聊天机器人与 IDE 的混合体,而非为通用知识工作而构建的东西。 太多假设线性流程且最终产出是唯一目标,太少与研究的连接,不够多的引导或选择机会,等等。
this is fine 🐶☕️🔥
译这没事 🐶☕️🔥 [引用 @EMostaque]:我对 Claude Opus 4.8 的评价: 我们应该少担心被变成回形针,多担心被烦死。
„Everyone hates AI slop“ „We are going to decide: is it vibe, is it slop?“ This sounds like a fun event :D
译“大家都讨厌 AI 垃圾内容” “我们将决定:这是氛围感,还是垃圾?” 这听起来是个有趣的活动 :D
Just figured out that „Mai“-1 thinking stands for: Microsoft AI-thinking. 🤯
译刚刚发现“Mai”-1 thinking 代表: 微软 AI 思考。 🤯
I wish the logos and textbox-at-the-bottom interfaces for Discord and Codex did not look so alike at a glance. I have confused the two a couple of times, leading to a confused GPT-5.5 and a confused groupchat.
译我希望Discord和Codex的标志以及底部文本框界面不要乍一看那么相似。我已经混淆过好几次了,导致GPT-5.5和群聊都一头雾水。
It is difficult to know how good MAI-Thinking-1 is from the scores alone (like weirdly low GPQA & Terminal Bench 2.0) But Microsoft makes it really hard to try its models upon release (a general issue with many Microsoft AI products), so I dunno. Stats below Meta Spark, though.
译仅从分数很难判断 MAI-Thinking-1 有多好(比如 GPQA 和 Terminal Bench 2.0 的分数低得奇怪) 但微软在模型发布后很难让人试用(这是许多微软 AI 产品的通病),所以我不太清楚。不过数据低于 Meta Spark。
Playing around a bit with Krea's K2 Large image model. I love how expressive it feels, and the variability you get with each prompt.
译稍微玩了一下 Krea 的 K2 Large 图像模型。我很喜欢它带来的表现力,以及每个提示词产生的多样性。
How do you get Claude Code to check its own work before handing it back? Watch how you can encode your manual checks so Claude closes its own feedback loop:
译如何让 Claude Code 在交回工作前检查自己的成果? 看看如何编码你的手动检查,让 Claude 自己关闭反馈循环:
读了今天Huggingface最热论文,关于如何让AI生成论文图表的Harness框架。 框架会围绕一个共享的结构化规格文档 S。 ① 设计者 D:根据 S 生成可执行的视觉方案 ② 执行者 E:将方案渲染成图像(或代码) ③ 验证者 V:输出带有具体问题定位的诊断报告 ④ 修订者 R:将诊断转化为结构化操作,直接修改 S 中的对应字段 参考并简化,写了一个Skill: 设计者(生图提示词) 执行者(Codex调用GPT-image-2生图) 验收者(审美评判,这个可能不靠谱) 另外整合了抓取Skill,只需要提供URL就能生成配图,哪怕是 X URL。 生成效果如下:
译Hugging Face 上一篇热门论文介绍了名为 Harness 的 AI 论文图表生成框架。该框架围绕一个共享的结构化规格文档 S 运作,包含四个协作角色:设计者生成视觉方案,执行者渲染图像或代码,验证者输出带定位的诊断报告,修订者据此修改规格文档 S。作者参考该框架进行了简化实践,写成一个技能包,其中使用了 GPT-image-2 进行生图,并整合了 URL 抓取功能,可直接生成配图。
Mustafa Suleyman, Microsoft AI: 7 new Microsoft Models, no end in sight when it comes to development, orders of magnitude in the next few years
译Mustafa Suleyman, Microsoft AI: 7个新微软模型,开发无止境,未来几年数量级提升
Law professors wrote questions they were asked during office hours. Gemini 2.5 & humans answered them then other law professors blindly judged the results: -Gemini had a 75% win rate vs. professors -Gemini's answers were rated LESS harmful than humans -Newer models do even better
译法学教授们写下了他们在办公时间被学生问到的问题。Gemini 2.5 和人类分别作答,然后其他法学教授在不知道答案作者的情况下对结果进行了评判: - Gemini 的胜率为 75%,击败了教授们 - Gemini 的答案被评为比人类的答案危害更小 - 更新的模型表现甚至更好
http://x.com/i/article/2061873460926943233 # Codex进化:写代码只是第一块拼图,下一块是什么? 很多公司已经遇到一个尴尬场景。 AI 帮员工写完一段代码很容易。 可一旦任务变成整理 Slack 里的上下文、翻 Google Docs、拉 CRM、做一份高管材料、把数据变成仪表盘,事情马上变复杂。 OpenAI 这次给 Codex 的更新,重点就在这里:把一个开发工具,继续往通用工作系统推。 OpenAI 披露,Codex 每周用户已经超过 500 万。 非开发者,包括分析师、市场、运营、设计师、研究员、投资人和银行从业者,已经约占整体用户 20%,增长速度是开发者的 3 倍多。 这个数字有意思。 Codex 正在从“会写代码的助手”,变成“懂岗位交付的工作台”。 ## 六个角色插件,把 Codex 推进真实工位 这次最硬的变化,是角色插件。 OpenAI 一口气推出了 6 个面向角色的插件:数据分析、创意生产、销售、产品设计、公开股票投资、投行业务。 每个插件不只是多接几个应用。 更关键的是,它把相关应用、技能、指令和工作流打包在一起。 OpenAI 给出的数字是:这些插件合计覆盖 62 个热门应用和 110 个技能。 这背后的产品思路很清楚。 分析师需要追问指标为什么变了,销售需要把客户信号变成跟进动作,投行团队需要把研究和尽调变成客户能看的材料。 岗位不同,默认上下文不同,交付标准也不同。 如果 Codex 想进入这些岗位,就不能只等用户一句一句教它“怎么做”。 它要提前知道这个角色的常见材料、常见工具和常见判断方式。 下面是原文展示的插件生态图标墙(部分) 这堆图标看起来像一张合作名单,但它真正透露的是另一件事:OpenAI 不想让 Codex 只待在自己的产品边界里。 它要进企业已有的工具链。 ## Sites 出现后,AI 回答开始变成工作空间 第二个关键能力叫 Sites。 这是面向 Business 和 Enterprise 客户的预览功能。 Codex 可以把想法、分析和计划做成可分享的交互式网站或小应用,同一个 workspace 里的成员可以通过 URL 访问。 这件事比“生成一个网页”更重要。 很多知识工作的问题,从来不缺一段文字总结。 缺的是一个可以反复查看、协作更新、聚合判断的地方。 比如客户复盘、财务场景规划、产品发布中心、项目看板、创意简报库。 这些东西如果散在文档、表格、聊天记录里,团队就会反复追问同一个问题:最新版本在哪里?谁负责下一步?哪个假设已经改了? Sites 想把这类一次性输出,变成持续协作的页面。 图中是原文展示的收益预测规划器示例。 它说明 Sites 的定位已经越过静态文章,更像能承载数据、状态和决策的轻量工作界面。 OpenAI 还提到,Wix、Base44、Replit、Lovable、Figma、Webflow 和 Emergent 等早期伙伴会参与 Sites 生态建设。 这很关键。 一旦 AI 生成的页面可以被分享、更新、协作,它就开始碰到传统 SaaS 的地盘。 ## 批注让 AI 修改时更像同事 第三个变化是 annotations,批注。 开发者已经在 Codex 里用批注改代码、Markdown 和网站。 现在这个能力扩展到了文档、表格、幻灯片等内容。 用户可以选中网站里的导航栏,让 Codex 改字体;高亮投资论点里的某个判断,让 Codex 查来源;圈出幻灯片上的图表,让它改成更清楚的标签。 这个能力的价值,在于它把“重新生成一遍”变成了“局部修改”。 AI 做第一稿不难,难的是第二轮、第三轮。 人类反馈往往不是抽象的。 “这一句太硬”“这张图看不清”“这个指标口径哪里来的”“这个按钮不像我们品牌”。 批注把反馈固定到具体位置,AI 才更容易只改该改的地方。 从工作流角度看,这比一次性生成更接近真实协作。 ## 真正的变化,是 Codex 开始理解岗位交付 OpenAI 还给了几个内部和客户案例。 OpenAI 内部的非技术团队用 Codex 做内部应用、高管材料、仪表盘,也把创意简报变成符合品牌和设计约束的工作。 Zapier 团队用 Codex 从 Slack、Google Docs、Coda 等工具里提取知识,再整理成事故复盘、响应计划和功能票据。 NVIDIA 研究员用 Codex 加速实验流程,从找研究想法到写机器学习基础设施脚本。 这些案例都有同一个特点:Codex 处理的是一串带上下文的工作,孤立任务只是其中一小段。 这也是角色插件、Sites、批注三件事放在一起的原因。 插件负责接入岗位上下文,Sites 负责把输出变成协作空间,批注负责把反馈循环接起来。 如果说早期 Codex 的问题是“能不能帮开发者写代码”,这次更新的问题变成了“能不能帮一个团队完成工作”。 可用性方面,角色插件会在支持地区逐步向 Codex 用户开放。 管理员可以在 workspace 设置里控制底层应用权限。 Sites 目前面向 Business 和 Enterprise 团队在 Codex app 中预览,Enterprise 管理员可以在后台启用。 OpenAI 还提到,后续会推出更多角色插件,包括企业财务、私募投资、营销策略、战略咨询和法律。 这不是一个小功能更新。 它更像是 OpenAI 在说:AI 工具的下一站,会从更聪明的聊天窗口,走向更懂组织分工的工作系统。 代码只是第一块拼图。 下一块,是那些没人想手动整理、但每家公司都离不开的工作。 原文:Codex for every role, tool, and workflow
译OpenAI披露,Codex每周用户已超500万,其中非开发者用户约占20%,增速是开发者的3倍多。此次更新旨在将其从开发工具推向通用工作系统,主要推出三项能力:1) 面向数据分析、销售等角色的角色插件,覆盖62个应用和110个技能;2) 面向企业客户的Sites功能,可将计划生成为可协作的交互式网站;3) 扩展到文档、表格等的批注功能,支持局部修改。这些更新旨在让Codex更好地理解岗位上下文,进入企业现有工具链。
uhhh did Mustafa just leak the Mythos FLOP count?? was this public knowledge before, even if its an estimate i dont get what you gain out of this
译Mustafa是不是刚泄露了Mythos的FLOP数据?? 这之前是公开信息吗,就算是个估计值我也不明白这有什么好处
It's up to you to break generational trauma
译打破代际创伤是你的责任。
http://x.com/i/article/2061869220716019712 # 字节出来做AI创业一年,她把每一个弯路都说清楚了 > https://www.xiaoyuzhoufm.com/episode/6a100e7da7621e15d0c88337 梦琪创业快一年了,融了钱,pivot(转型)了好几次,最惨的时候觉得"做软件真是脑子进水"。 但她现在反而不焦虑了。 这篇文章是她在曲凯的「42章经」播客里的完整复盘。 字节背景、华丽团队、Agent 故事、连续融资……她走过了过去几年 AI 软件创业者最典型的那条路,然后把每一个弯路都说清楚了。 ## 去年融到钱的软件创始人,都该给 Manus 磕一个 梦琪总结了一个过去两三年 AI 软件创业的标准剧本: 字节背景,组一个好团队,讲一个当下流行的 AI 故事(那时候肯定是 Agent),产品出来之前先融几轮,然后开始转型。 或者出一个小产品,不温不火,等新概念出来再做新产品。 她说,很多人看到这段会对号入座。 今天的软件行业处于低点,但这个低和 2023 年的低不一样。 2023 年是整个行业都低,2025 年是巨身(大模型)非常热、AI 硬件也起来了,软件单独在受冷。 这个背景下,她说去年五月以后融到大钱的软件创始人,都应该感谢 Manus。 因为 Manus 让 Agent 这件事在国内有人愿意看、愿意投。 但她也直接说了:很多 To B 的 Agent 公司,商业模式上和十年前的 SaaS 本质没有区别,只是产品不一样,然后拿到更高的估值。 ## 二三月份,她觉得自己要死了 AI Coding 变强这件事,梦琪用"指数级"来形容,而且说这种推背感"特别特别强烈"。 她聊到一个细节:OpenAI 内部做后训练的同事告诉她,今年 2 月,他们 80% 的代码已经是 agent 写的。 但这位同事并没有因此变得更轻松,因为要做的事变得更多了。 这个细节说明了什么?模型变强,并不等于软件创业变容易了。 但另一个方向的逻辑也成立:如果 AI Coding 这么强,为什么过去三年真正跑出来的产品还是非常少? 梦琪的答案是:大部分产品没有体验可言。 她用了一个很直接的词——"诈骗公司特别多"。 产品宣称能交付的价值,和用户实际用下来的体验,严重不匹配。 她在今年二三月份最焦虑的时候,发现自己回答不了一个问题:你的产品跟直接用 Claude 有什么区别?Claude 生态里随便一个人做个插件,就能干掉你,你怎么办? 没有一个站得住脚的答案。 ## 三次错误决策,一步步走向 SaaS 梦琪的公司叫 Invocal,她把自己这一年的转型过程拆得很细。 第一个错误:做垂直 Agent 成立之前,她就决定不做 General Agent,因为"那会已经有第 18 个 Manus 出现了",不想加入混战。 选了垂直方向,选了达人营销里的 Sourcing(采购) 场景(帮品牌找达人)。 逻辑听起来很顺:找明白达人,就能找明白候选人,找明白客户,Sourcing 是个能泛化的场景。 但做了两个月之后,她发现了一个分叉:两类用户给完全不同的需求。 创始人说"什么都不想按,给我结果";专业用户说"中间每一步我要审计,要确认"。 她选择了服务专业用户,然后把专家经验蒸馏进产品,再卖给非专业用户。 结果某一天她对比了一下,发现这个产品"长得就是 SaaS",和八年前那批 SaaS 公司的产品长相一模一样。 她的结论是:如果你服务专业用户,他们会一直给你提需求,直到你长得跟 Adobe 差不多才会停下来。 这条路必然走向 SaaS,没有别的出路。 第二个错误:选了错误的场景 Sourcing 这个场景本身就不成立。 达人营销的完整链条里,Sourcing 只占 30%,而且对 AI 来说是相对容易的部分。 后面的沟通、谈价、排期,才是最耗时间、最耗人力的地方,而她的产品跳过了这些。 第三个错误:横向扩张而不是纵向深挖 意识到 Sourcing 不是高价值点之后,她面临一个选择:往深做增长全链路,还是横向扩张去做"找候选人、找客户"的通用 Sourcing Agent? 她选了前者,这个决策她觉得是对的。 理由是:掌握了面粉和鸡蛋,不代表你应该同时卖大饼和意大利面。 找人 Agent 的跨场景复购逻辑根本不成立,没有人会同时有找达人、找候选人、找客户的需求。 ## 垂直 Agent 的两个结构性困局 做到 12 月份,梦琪得出了一个"非常难以承认"的结论:垂直 Agent 大概率不成立。 她总结了两个结构性困局。 第一个:客户不用产品,但你又想挣钱,所以你被迫变成 Agency (代理公司) 垂直 Agent 公司在过渡阶段,几乎都要派人去服务客户。 产品是给投资人看的,真正挣钱靠服务。 她听到无数次同行说:内部服务的人也不用这个产品,那这个产品做来干什么? 她用了一个词:"景观效应"。 产品就是一个景,给投资人看这个景。 第二个:To B 本身的结构性问题 To B 周期长,在中国做 To B 是贬义词,在美国做 To B 的华人天花板也很明显。 更关键的是:To B 的 Agent 公司能吃到的最大的新模型红利,只是内部开发效能更高了。 对于产品能解决的问题,效率有没有十倍、二十倍的增长?没有。 ## 去美国待了两个多月,对美国创业生态祛魅了 梦琪在最焦虑的时候跑去硅谷待了两个多月,想搞清楚是自己能力不行,还是垂直 Agent 这件事本身就不成立。 结论是:大家的困境都挺像,都是结构性的困境。 但她还顺带观察了一件事:美国 To B 圈的"骚操作"比她想象中严重得多。 最基础的版本是互相买产品刷流水,你给我 50K,我给你 50K。 但这个太容易被审计出来了,所以现在已经进化成六个人、十个人的复杂交易网络,审计不出来。 她说每到月底,那些美国创业者对她格外热情,后来才明白是想拉她一起冲流水。 她没参与,觉得"没必要,要维持自己的道德标准"。 ## 做了一个浏览器插件,反而看到了曙光 转向 C 端之后,梦琪的团队做了一个叫 CLICK 的浏览器插件,解决一个问题:你开了一堆 Tab,一直切换,找不到信息。同时支持光标旁边唤起 AI 写作。 她说这个产品"能说出 100 个替代品的名字",功能极其简单。 但就是这么一个产品,收到了来自南非用户的反馈:用了这个产品之后,终于能沉浸式干一件事了,不需要在屏幕上划来划去,让焦虑一点点叠加。 这给了她一个关于 C 端产品的核心判断:只要能缩短用户意图和解决方案之间的距离,你就有价值。 CLICK 的价值不是功能有多复杂,而是把"想用 AI 写这段话"这个意图,从"截图→打开 ChatGPT→写 prompt→复制回来"压缩成了"按一个按钮"。 后来他们把 CLICK 扩展成了客户端产品,做了三个月,截止到录制前一天晚上,已经是第 49 个版本了,还有 bug,但稳定性在同类产品里算高的。 梦琪说,越做越对软件有敬畏之心。 软件是由 15,000 个细节组成的,你多吃一个细节,用户体验好一点。 AI Coding 越强,这种感受反而越深。 ## 两种 C 端生意,她选了健身房 她把 C 端的 AI 产品生意分成两类。 第一类是大 R 运营:找一批高消耗用户,一个月给你出几万美金的那种,用户量不多,但客单极高。 Lovable 这类产品的用户量没有想象中多,但一两万个超级用户就够吃了。 第二类是健身房模式:收订阅费,赌用户不会天天来用,或者赌他们的 token 用不满。 这种模式在高竞争环境下很难有超额收益。 梦琪选了健身房模式,因为她不想做一个毛利极低的业务。 ## 用 Reddit 做用研,比你想象的有用 梦琪分享了一个她觉得很有效的用研方法:大量泡 Reddit。 一方面是数据挖掘,但这只能给静态结论。 更重要的是,他们在 Reddit 上发了大量帖子,把每个产品决策拆成决策漏斗,每一层对应 40 到 50 个帖子发出去,回收所有反馈。 她说泡 Reddit 最大的好处是:你会发现很多问题 AI 这么牛了还没解决,比如 context switching(上下文切换) 的问题,每天都有人在吐槽"我在几个 context 里一直切换,我脑子要分裂了"。 泡 Reddit,你就不焦虑了。 因为你看到的是真实的、没被解决的需求,而不是投资人 PPT 里的市场分析。 ## 刚拿到融资,是创始人最接近"愚昧之巅"的时刻 梦琪对自己的批评很直接。 她说创业初期招了一些很厉害的科学家,现在有些在美国的 Research lab(研究机构) 里。 但那些决策不是基于真正的市场需求,而是"我得装一下,我得满足自己的虚荣心,我得展示我有能力把他们都招来"。 她的结论是:大部分纯应用的创业公司不需要任何算法工程师。 你用不上,快放人家去训模型吧。招这个人,纯属给投资人看,显得阵容豪华。 她还说:刚拿到融资的时候,往往是创始人最接近"愚昧之巅"的时刻。 觉得自己讲得太好了,怎么这么能造概念,怎么这么能总结,怎么这么能融会贯通。 等真正做事之后才发现,落地是如此恶心,细节是如此之多。 ## "XX 已死,XX 永生"是 AI 圈的番茄小说 梦琪对这类言论的评价很直接:脑子有病,没有意义。 她的逻辑是:商业社会里所有的竞争,都不是一瞬间完成的。 抖音出来,快手不会今天立刻死。 某个 AI 产品出来,做 workflow 的公司不会立刻死。 这个世界是在动态博弈、动态竞争里运转的。 自媒体特别喜欢把一个漫长的、可能有点枯燥的竞争过程,压缩成几秒钟发生的短剧剧情。 她还有一个观察:AI 的渗透率其实远没有行业内的人想象的高。 她在旧金山做过田野调查,在 101 公路上打了大广告牌的 Wispr Flow,只有 40% 的人知道,知道的人里真正付费在用的可能只有 20%。 还有创业者在路边随机问人"你用不用 ChatGPT",结果很多人根本不知道。 这个世界很参差,很分层。 有的人到现在还把 AI 当简单助手用。 需求是多分层的,渗透率还足够低,这是她乐观的理由。 ## 上一个产品是证明题,这个是简答题 梦琪说,她一直没有做过"全球首款 xxx"的大宣发。 表面原因是觉得浪费钱,一波流留存不好。 但夜深人静的时候,她问自己真实的原因:因为对那个产品不满意,不相信它。 她现在的状态是:这个产品再垃圾,你怎么骂我,我就爱这个产品。这是她的 spark(动力源泉)。 她把上一个产品定性为"机会主义者,迎合市场,想交作业,想做证明题"。 而现在这个产品,她想做一道真的想答的简答题。 她说有一些事是 AI 代替不了的:人内心深处的那种火,那种光,那种 spark。 这是人身上最宝贵的部分,也是她认为一定要保护好的东西。 ## 创业者的牵引力来自哪里 梦琪最后做了一个总结。 她说创业者有非常多的牵引力:投资人给的、市场给的、员工给的、用户给的。 她反思自己过去,外界的牵引力太多,用户的牵引力太少。 用户的牵引力,才是决定你能不能做出好产品的核心因素。 她还说了一句话,可以当作整个复盘的注脚:创业不能用太多左脑。 天天盘概念、推逻辑,被所谓的叙事骗了,然后总是推倒重来,而不是用心去感受你真正想做什么。 第一性原理是:解决问题的最短路径。 其他的都是周边。 如果你现在也在做软件,或者在考虑要不要做,梦琪的这一年给出了一个可以直接对照的清单: 你的产品是在解决真实需求,还是在讲一个好听的故事? 你服务的是专业用户还是普通用户,这两条路通向的终点完全不同。 你的牵引力主要来自用户,还是来自投资人和市场热点? 你对这个产品有没有那种"不做会后悔死"的感觉,还是只是觉得这个机会比较合适? 这四个问题,梦琪都踩过坑了。
译字节背景创业者梦琪复盘其AI软件公司Invocal一年来的转型历程。她经历了典型剧本:组团队、讲AI智能体故事、连续融资,随后经历三次错误决策:选择垂直智能体场景(达人营销的Sourcing资源挖掘)、选错场景(该环节仅占链条30%)、并误判横向扩张。她得出结论:垂直智能体存在结构性困局,易被迫变成代理公司,且To B模式难以获得模型效率的倍增红利。转向C端后,团队开发了浏览器插件CLICK,其核心价值在于缩短用户意图与解决方案的距离。她总结认为,大部分应用层创业公司不需要算法工程师,创始人刚融资时最易陷入“愚昧之巅”。
10 takeaways from OpenAI’s new report on knowledge work and Codex. codex isnt about coding anymore, but all knowledge work!
译OpenAI关于知识工作与Codex新报告的10个要点。 Codex不再仅限于编码,而是面向所有知识工作!
我對 NVIDIA RTX Spark 的幾個想法(先不討論規格細節):裝置端 AI agent 敘事、實現檢視與 Apple WWDC 1. 核心是 NVIDIA CEO 黃仁勳提出的「重新發明 PC」口號,以及裝置端 AI agent workflow 的概念展示(會說概念展示,是因為沒有實機演示)。上述口號與概念展示,有助於短期內加速形成市場對裝置端 AI agent 的共識。 2. 裝置端 AI agent 展示概念元素: OS + cloud/local LLM switching + agent harness + cross-app workflow + sandbox 此概念並非原創,但藉由 GTC 的高曝光度與敘事張力,在可見未來將會主導裝置端 AI agent 使用者情境的敘事。 3. 雖然黃仁勳領先提出了裝置端 AI agent 的願景與敘事,但畢竟未來 2 年內,RTX Spark 裝置仍是筆記型電腦的利基市場,因此現在判斷商業競爭誰輸誰贏還太早。 4. 在 GTC 前,絕大部分關於 RTX Spark(N1X)的討論與預測都聚焦在晶片代號、規格與供應鏈;相較之下,作業系統的重要性鮮少被提及。而黃仁勳此次演說,將作業系統與晶片平台一同放在「重新發明 PC」的核心位置,這也呼應了我先前提出的核心觀點:裝置端 AI 推動升級換機潮的關鍵在作業系統。 5. 軟體是使用者體驗的關鍵。若要確保使用者能體驗到黃仁勳展示的 agentic workflow,仍有很多工作待完成。至少要看到 NVIDIA 的 CUDA Toolkit 公開支援 Windows Arm64,以及 Microsoft 讓 Windows 本機 AI agent 架構從預覽版走向正式商用(GA),包括目前仍在 public preview 的 MCP on Windows、ODR、agent 連接器,以及仍在 private preview 的 Agent Workspace。 如果硬體發售時,上述開發與 OS 工具仍不到位,RTX Spark 裝置就很難兌現發表會的核心訴求,也就是讓使用者真正創造並體驗 AI agent workflow 這個關鍵賣點。 6. 在黃仁勳提出「重新發明 PC」的口號後,Apple 預計在 6 月 8 日舉辦的 WWDC,會如何回應裝置端 AI agent workflow,就變成除了 Siri 改善程度以外的另一個觀察重點。 對 NVIDIA 與 Microsoft 而言,即使 RTX Spark 後續開發與出貨時程有任何變動,也無損這兩家公司在 AI 基礎建設的強勁成長動能。相較之下,消費電子就是 Apple 硬體事業的全部,而裝置端 AI 就是消費電子創新趨勢的主軸,因此 Apple 除了要提出吸引人的敘事外,也需要給出明確的實現規劃,例如更明確的開發工具、agent-ready OS 的更新時程等。
译郭明錤认为,NVIDIA CEO黄仁勋在GTC提出的“重新发明PC”口号,核心是展示端侧AI agent工作流概念。他指出,该概念并非原创,但将借助高曝光度主导未来叙事。然而,现实挑战在于:配备N1X芯片的RTX Spark装置未来两年出货量约1000万台,仍属利基市场;且当前PC主流AI应用与端侧算力关系不大。关键制约在于操作系统支持,Windows需完善相关工具才能兑现端侧AI agent体验。这也将影响Apple在WWDC上如何回应。
A few thoughts on NVIDIA RTX Spark, setting aside the specs for now: the on-device AI agent narrative, a reality check on delivery, and Apple’s WWDC. 1. At the heart of it are two things: Jensen Huang’s “reinvent the PC” slogan and a concept demo of an on-device AI agent workflow. (I call it a concept demo because there was no live demo.) The slogan and concept demo should help speed up market consensus around on-device AI agents in the near term. 2. The key elements of the on-device AI agent concept: OS + cloud/local LLM switching + agent harness + cross-app workflow + sandbox The concept isn't new, but thanks to GTC's reach, it will likely shape how people talk about on-device AI agent use cases for the foreseeable future. 3. Jensen laid out the vision and narrative for on-device AI agents earlier than most. But over the next two years, RTX Spark devices will still be a niche slice of the laptop market, so it's too early to call who wins commercially. 4. Before GTC, most discussion and predictions around RTX Spark / N1X focused on its codename, specs, and supply chain. The operating system rarely came up. In his keynote, Jensen placed the OS alongside the chip platform at the heart of “reinventing the PC.” That echoes my earlier point: the operating system is the key to on-device AI driving the next upgrade cycle. 5. Software is what makes or breaks the user experience. For users to actually experience the agentic workflow Jensen showed, a lot still has to happen. At a minimum, NVIDIA’s CUDA Toolkit needs to officially support Windows Arm64, while Microsoft needs to move Windows’ on-device AI agent stack from preview to general availability (GA), including MCP on Windows, ODR, and agent connectors (all still in public preview), plus Agent Workspace (still in private preview). If these developer and OS tools still aren't in place when the hardware ships, RTX Spark devices will struggle to deliver on the keynote’s core promise: enabling users to actually create and experience AI agent workflows, the product’s core selling point. 6. After Huang's "reinvent the PC" pitch, how Apple responds to on-device AI agent workflows at WWDC (expected June 8) becomes another thing to watch, alongside how much Siri improves. For NVIDIA and Microsoft, even if RTX Spark's development or shipping timeline slips, it won't dent their strong growth in AI infrastructure. Apple is in a different position: consumer electronics is its entire hardware business, and on-device AI is where consumer electronics innovation is heading. So beyond a compelling narrative, Apple also needs to show a concrete plan to deliver, including clearer developer tools and an agent-ready OS update timeline.
译郭明錤分析了NVIDIA在GTC上提出的RTX Spark笔记本及设备端AI智能体概念。他指出,该概念演示(无实际现场展示)包含操作系统、云/本地LLM切换、智能体框架等要素。供应链调查显示,配备相关N1X芯片的设备未来两年出货量约1000万台,仍属利基市场。当前PC端主流AI应用仍依赖云端算力。若设备出厂时,NVIDIA CUDA Toolkit未正式支持Windows Arm64,且Microsoft的设备端AI智能体栈(包括MCP on Windows、ODR等)仍处于预览状态,则RTX Spark将难以兑现其核心卖点。此外,Apple在WWDC上如何应对设备端AI智能体工作流也值得关注。
Quick rant on AI model benchmarks: - Some of the most popular ones are no longer helpful (SWE-bench¹) - It can be very hard to reproduce reported results (so lots of variance) - Take them with a grain of salt, look at the average across many We need some creative new ideas for AI model marketing. Supportive of a Survivor spin-off (who is the AI Jeff Probst!?). I get why every model release shows benchmark scores as the headline. It's actually pretty hard to describe how a model has improved without it sounding like fluff. And also it sounds boring to say the same thing over and over ("it's better at following instructions" repeat x10). Benchmarks make it very clear there is a number, which likely started bad, and is now going up. Yay! The reality is that benchmarks are most useful to those *training* the model so they know where to improve. Model labs use these benchmarks to measure progress, which is why having non-saturated benchmarks is extremely helpful. If you see models getting 90% on an eval, it's probably time to make a harder version. I do think there's a word of caution for everyone interpreting benchmarks. It's very hard to get exactly the same scores, which is why some benches show error bars and do the average over multiple runs. But even further, the hardware and GPUs the evals are running on really matter! Small differences there, or minor tweaks to the prompt, can swing scores by multiple percentage points². All of that to say, it's important to look at many different benchmarks, and then actually use the model to make your own opinion. For example, there's recently been a lot of debate on here about Opus 4.8 not benchmarking as well as other models. But personally I've found the model really good from my own usage. Your mileage may vary! There aren't many high-quality public benchmarks that measure things like the UX of the model responses, the style of the messages, the warmth or directness of the "personality". These things matter *a lot* for the day-to-day usage. How the model performs in the real world is often different from very specific benches. In summary, benchmarks matter but they are not a substitute for extensively testing the model yourself with real work. ¹: https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified ²: https://www.anthropic.com/engineering/infrastructure-noise
译Lee Robinson 批评当前AI模型基准测试存在局限,如 SWE-bench 已过时且结果难以复现。评测分数易受硬件、GPU差异和prompt微小改动影响,波动明显。这些基准对模型训练者衡量进展有价值,但对普通用户,当分数饱和时便失去参考意义。他指出,模型的交互风格、个性等重要因素无法被现有公共基准充分衡量。因此,建议用户综合参考多个基准,并亲自使用模型以形成判断。
It is interesting how much focus is being placed on data centers and the community. Recently, there were numerous reports regarding resistance to data center expansion; now comes the promise from Microsoft: no increase in electricity costs due to data centers, along with resource conservation.
译有趣的是,数据中心和社区受到了如此多的关注。最近有大量关于数据中心扩张阻力的报道;现在微软承诺:数据中心不会导致电费上涨,同时节约资源。
Damn,一个独立开发者用 23.5 小时 + Codex, 把 Whoop 5.0 的订阅墙拆了。 没有破解,没有越狱, 就是一个开源 App,连上你的 Whoop, 心率、血氧、恢复数据直接看, zero 订阅费。 这大概是订阅制硬件今年最不想看到的故事。 这个 App 叫 Goose, GitHub 上完全开源。 作者Bennett晒了时间线, 从 0 到能连上 Whoop 5.0 并读出 HR、SpO2、皮肤温度、恢复分数, 总共 23.5 小时, 而且大比例代码是 Codex 写的。 能做到这件事,不是因为 Whoop 太弱, 是因为它的 BLE 广播协议本身没封死。 Judes Club 之前就有过完整的 Whoop BLE 分析, Goose 本质上是在这个公开协议底子上, 用 Rust 搭了座桥,SwiftUI 做了层皮, 把原本必须走 Whoop 服务器的数据, 直接留在了本地。 很多人以为 Whoop 的护城河是硬件精度, 其实不是。 Whoop 真正的护城河,是你一旦戴了半年, 历史数据、恢复曲线、睡眠趋势全锁在服务器里, 你根本懒得走。 Goose 撕开的不是技术缺口, 是订阅制硬件最脆弱的那层窗户纸: 用户惯性。 这就好比住高级酒店和买房的区别。 Whoop 让你交年费,给你一张房卡, 房间里确实打扫得挺干净, 但你的所有行李、照片、生活习惯, 退房那天全得留在房间里。 Goose 不是另盖了一家酒店, 是告诉你:这房子本来就有扇后门, 你自己拿钥匙进去,东西全带走, 不用看前台脸色。 过去两年 AI 写代码的故事, 大家都在比谁写得更快。 但 Bennett 这件事真正的信号是, AI 把一人挑战封闭硬件生态的成本, 压到了一天之内。 以前逆向硬件需要团队、需要数月、需要固件提取, 现在一个开发者 + Codex, 23.5 小时就能让订阅墙看起来像个笑话。 当然,我非律师,这只是我作为开发者的技术观察。 硬件公司的护城河不会明天消失, 但定义已经在变。 过去的护城河是传感器精度和 App 封闭, 未来的护城河,可能是你愿不愿意把数据主权交出去。 当一个人的周末就能拆一扇墙, 订阅制硬件的终局可能不是被另一家硬件公司打败, 是被一群不想交月租的开发者,一人一天,逐个拆光。 所以说,Whoop 真正的对手不是 Apple Watch, 是每一个周末有空、手边有 Codex、 还觉得 30 美金月费有点贵的开发者。 GitHub 仓库我放一楼了, 有用自取。
译独立开发者Bennett利用Codex AI编程工具,在23.5小时内开发出开源App Goose。该应用可直接通过蓝牙读取Whoop 5.0的健康数据,无需订阅。实现基于公开的BLE协议分析,使用Rust和SwiftUI将数据本地化存储。此举暴露了依赖用户数据锁定和惯性构成的订阅制硬件护城河的脆弱性,并展示了AI工具如何降低个人挑战封闭生态的成本。
From character creation to mocap and retargeting, it's amazing watching creators turn ideas into playable experiences with @Viggle_PINOC . Can't wait to see what's next!
译从角色创建到动捕和重定向,看到创作者们用@Viggle_PINOC将想法转化为可玩体验,真是太棒了。期待接下来的发展!
今天这个视频又被很多人挖出来转发,是因为啥呢? 🤔 半个月之前发布的视频,开始动起来了…
译Moonshot AI创始人杨植麟的40分钟视频近日被广泛转发。他在视频中详细拆解了Kimi K2的训练过程,其核心突破在于仅以460万美元的极低成本完成训练。在近期一场8模型实时编程大赛中,Kimi K2获得第一名。杨植麟通过分享强调了极致优化与架构设计的重要性。
Holy moly, "Model release cadence from 15 months -> 6 weeks". The definition of exponentials!
译天啊,"模型发布周期从15个月缩短到6周"。 这就是指数级增长的定义!
We are witnessing a revolution in medicine driven by AI. Dreams are turning into reality right before our eyes. Obesity is becoming a problem of the past. Eli Lilly's triple agonist, retatrutide, melts fat away, and with it the many downstream consequences of obesity. Since the Industrial Revolution, obesity has grown into one of the most serious problems of modern civilization - and now it is being solved. Literally. Cancers that were once untreatable are becoming treatable thanks to new medicines: melanoma, pancreatic cancer, and many more. And that's before mentioning the other benefits of GLP-1 agonists, such as their anti-inflammatory effects. We are entering what Demis Hassabis calls the "golden age of science." Anyone willing to open their eyes can see it. Science is unfolding in all its potential right in front of us. I couldn't be happier, or more grateful - grateful to witness this.
译AI正在推动医学领域的革命性突破。Eli Lilly研发的三重激动剂retatrutide能有效溶解脂肪,解决肥胖及其下游后果问题。肥胖自工业革命以来已成为现代文明的严重挑战,如今正被攻克。新型药物使黑色素瘤、胰腺癌等曾无法治疗的癌症变得可治疗,同时GLP-1激动剂还具有抗炎等益处。我们正进入Demis Hassabis所说的“科学黄金时代”,见证科学潜力全面展现。
英伟达竟然有 Skill 安全扫描工具,还开源了。 地址见评论区,Skill 安全是个问题,但好像身边很少有人做Skill安全扫描。 可能目前还没听到特别严重的 Skill 造成破坏的案例,但警惕性不能没有。 最好写个 Meta Skill,生成各种自用 Skill。 他人Skill只做 AI 的学习参考。
译英伟达开源了一款针对AI智能体Skill(技能)的安全扫描工具。推文指出,Skill安全虽是一个实际问题,但目前专门做此方向扫描的工具和人员似乎较少。尽管尚未出现由Skill引发的严重破坏性案例,但仍需保持警惕。推文建议,用户可以考虑编写一个Meta Skill(元技能)来自动生成各种所需的Skill,并强调他人的Skill应主要用作学习和参考,而非直接使用。
I wonder how many founders will pass on investors who passed on them in prior rounds I wonder how many would have three dinners & give them an allocation only to slash it to zero at the last moment.
译推文提出疑问:多少创始人会拒绝那些曾在前一轮投资中拒绝过自己的投资人?并引述Anthropic上一轮融资的内幕:一位知名基金的合伙人与Dario共进了三次晚餐后,其份额被削减至零。同时,至少另外四家一线基金也在最后关头被撤。引用推文指出,这些投资人受罚的原因是错过了由Spark领投的Series B——那是Dario经历过最艰难的一轮募资。在风险投资中,信任(conviction)就是一切。
Power smarter AI agents with #𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗦𝗸𝗶𝗹𝗹𝘀 🚀 𝗔𝗻 𝗼𝗽𝗲𝗻-𝘀𝗼𝘂𝗿𝗰𝗲 𝗔𝗜 𝗼𝗳𝗳𝗶𝗰𝗲 𝘀𝗸𝗶𝗹𝗹 𝘀𝘂𝗶𝘁𝗲 𝗳𝗼𝗿 𝗮𝗻𝘆 𝘀𝗸𝗶𝗹𝗹𝘀-𝗰𝗼𝗺𝗽𝗮𝘁𝗶𝗯𝗹𝗲 𝗮𝗴𝗲𝗻𝘁, 𝗶𝗻𝗰𝗹𝘂𝗱𝗶𝗻𝗴 #𝗢𝗽𝗲𝗻𝗖𝗹𝗮𝘄 𝗮𝗻𝗱 #𝗛𝗲𝗿𝗺𝗲𝘀𝗔𝗴𝗲𝗻𝘁. 🖼️ 𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 — image generation & graphic design; mirror visual style from a reference 📊 𝗗𝗮𝘁𝗮 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀 — multi‑sheet parsing, data cleaning, image-based data extraction and visualization 📑 𝗣𝗣𝗧 𝗖𝗿𝗲𝗮𝘁𝗶𝗼𝗻 — outline & content generation, intelligent layout design; outputs editable PPT files 🔍 𝗗𝗲𝗲𝗽 𝗥𝗲𝘀𝗲𝗮𝗿𝗰𝗵 — multi‑source search across academic, tech, social platforms & more; synthesizes insights & generates reports Now fully #OpenSourced. 👉 GitHub https://github.com/OpenSenseNova/SenseNova-Skills ⚡ Quick installation (bundled with Hermes Agent & OpenClaw) https://github.com/OpenSenseNova/SenseNova-Skills/blob/main/INSTALL.md 👾 Discord https://discord.gg/BuTXPHmQub
译商汤开源了AI办公技能套件SenseNova-Skills。这是一个为任何技能兼容智能体(如OpenClaw与HermesAgent)设计的开源技能集合,提供四大核心功能:图像信息图表生成(可镜像参考风格)、数据分析(支持多表解析、清洗与可视化)、PPT创建(生成大纲内容并智能排版,输出可编辑文件)以及深度研究(跨学术、技术、社交等多源搜索并生成报告)。该技能套件现已完全开源。
http://x.com/i/article/2061763779088797696 # Everyone in Robotics Is Burning Cash. Unitree Turned a Profit in China. Late 2017. The World Internet Conference is underway in Wuzhen, a canal town in Zhejiang province. Wang Xingxing—founder of a small Hangzhou robotics outfit called Unitree—doesn’t have a badge to get in. So he sets up outside the doors and demos his company’s first product: an early Laikago, a quadruped robot named for the Soviet space dog that flew on Sputnik 2. His audience: Lei Jun, CEO of Xiaomi, and Wang Xing, CEO of Meituan. Two of the most powerful tech founders in China. Then the robot crashed. Wang had to reboot it right there on the doorstep. By all accounts, it was a deeply awkward few minutes. He was convinced it would work anyway. Nine years later—on the day I was finishing this piece—Unitree’s IPO cleared the Shanghai Stock Exchange’s listing committee, targeting a raise of about 4.2 billion yuan, roughly $610 million. It’s set to become the first dedicated humanoid robotics company to list on China’s A-share market. Around the same time, Nvidia CEO Jensen Huang announced that the company’s Isaac GR00T reference design would integrate Unitree’s H2 Plus humanoid, paired with Nvidia’s Jetson Thor and the GR00T workflow. The H2 Plus is expected to ship by year’s end. If you’ve read about Unitree in the English-language press, you’ve probably gotten the broad-strokes version. How did the company actually go global? What is Wang Xingxing like? And how, in an industry where everyone is hemorrhaging cash, did Unitree start making money? I’ve been lucky enough to interview Wang in person more than once. What follows draws on his IPO prospectus, the company’s reply letter to the exchange, and several off-the-record conversations—an attempt at some real answers. ## A $5,600 Robot With a 40% Margin For the rest of the robotics industry, Unitree’s prospectus is a problem. The field has made enormous technical strides in the last few years, but most companies run on venture money. Losing money is the baseline. Unitree posted a net profit of 77.5 million yuan (about $11 million) in 2024, and by 2025 that had climbed to roughly 600 million yuan ($84 million)—a net margin around 35 percent. That isn’t supposed to be possible right now. Humanoids still aren’t shipping in real volume. Most makers count it a win just to keep build quality consistent. Training data is scarce, so the robots can’t do much that’s useful in the real world. And security is an afterthought—even basic backdoor protection is spotty. Wang isn’t chasing any of those frontiers. Spend time with him and you realize he’s fixated on one question: how do you ship a product that works, at a cost you can actually control? His robots may not be the most advanced on the market. But they’re reliable enough—and once you factor in the price, “reliable enough” starts to look like a steal. He’s been obsessed with cost since long before Unitree existed. As a student, he tried to build a bipedal robot for 200 yuan—about 28 bucks. He tinkered constantly; one experiment, electrolyzing tap water, accidentally released chlorine gas. In 2015, finishing his master’s at Shanghai University, he built a quadruped called XDog out of hobby-grade motors meant for model airplanes. All in, it cost under 20,000 yuan—about $2,800. Boston Dynamics’ Spot, for comparison, rented for more than $70,000. Where Boston Dynamics used hydraulic joints, Wang went electric—and not with industrial motors, but cheap brushless ones. His robot dogs used as few parts as he could get away with. He’s said he started the company with just 2 million yuan—around $280,000—and every yuan had to pull its weight. That same discipline shows up in the humanoids. This March, the Chinese brokerage China Post Securities took apart a base-model G1 (after-tax price: 85,000 yuan, about $12,000) to estimate what it cost to build. The motors, driver boards, and gearboxes—a humanoid’s most critical components—came out with no manufacturer logos at all, which usually means one of two things: Unitree makes them itself, or the supplier is staying very quiet. The memory and storage came from Biwin and Longsys, both Chinese. The main processor was a Rockchip RK3588 (there’s also a Qualcomm-based version, the G1Q). The default lidar came from DJI, with RoboSense or Hesai as options. Mixing in-house parts with cheap commodity components, the teardown pegged the base G1’s bill of materials at around 40,000 yuan (roughly $5,600)—a gross margin north of 40 percent. Upgrade the unit, and that margin sails past 60. This is the engine behind Unitree’s climbing margins: most humanoid buyers are universities and labs, and they tend to splurge on the pricier, modifiable EDU version. The more they buy, the better the math gets. Back in 2024, I interviewed a Unitree salesperson at a trade show. He told me, flatly, that the humanoid business could realistically clear a billion yuan—about $140 million—a year. He wasn’t wrong—2025 revenue came in around 1.71 billion yuan, roughly $240 million. (He later blocked me. Unitree, I gather, keeps its people on a short leash when it comes to reporters.) Please like and follow if you enjoyed our work! ## So Why Did the Money Show Up All at Once? The real puzzle in the prospectus isn’t the early losses. It’s how fast the profits arrived in 2025. Humanoid revenue jumped from 107 million yuan (about $15 million) in 2024 to 869 million ($122 million) in 2025—outearning, for the first time, the robot dogs that built the company. The Western press tends to credit one moment: the dancing robots on China’s CCTV Spring Festival Gala in early 2025, which kicked off a national humanoid craze. That’s not wrong, but it’s not the whole story. Having covered this beat from 2023 to 2025, I can tell you the fascination was building in China well before that broadcast. Unitree’s early H1, back when it could only shuffle, was already pulling millions of views on Douyin. Once a later H1 could fold itself up and walk like a person, Chinese social media lost it. Every product teaser Unitree dropped, ordinary users would re-cut into clips that racked up millions of views overnight—I was one of them, for a while. Other startups noticed and tried to copy the formula. None of it landed the way Unitree’s did. At the 2025 World Robot Conference in Beijing, I asked Wang whether he’d set out to build humanoids on purpose. His answer caught me off guard: “For a long time I was actually against making humanoids. I’d built a bipedal one back in 2009, and the business case was brutal. But by 2022, customers were placing orders—some were paying deposits before we even had a product. So we built one.” That’s it. No vision, no AGI, no sweeping story about automation. Customers wanted one, so he made one. The humanoid frenzy has, in a strange way, almost nothing to do with him—he’s watching it from the sidelines. My honest guess is that the 2025 revenue spike is just the 2023 and 2024 orders finally being fulfilled. This is what separates Wang from most humanoid founders: he’s more conservative. Zhang Peng, founder of the tech-media brand GeekPark and an early Unitree backer, has described him as the rare founder who’ll tell you plainly which problems are hard and how long each will really take. Worth remembering: when Wang was saying these things, he’d just left a three-month stint at DJI. Because he never learned to sell a vision, his path to profit was almost comically simple: build the thing, and the labs will buy it. So labs and universities became his market. Unitree’s gear performed roughly on par with Boston Dynamics’ at about 30 percent of the cost, sometimes less. The electric drivetrain was easy to hack on—grad students could tinker, publish papers, and spread the word at conferences. Marketing, in the usual sense, was a line item he could mostly skip. The Unitree social accounts everyone knows now? They didn’t roll out until 2021. The in-house video team didn’t exist until 2022. Wang barely posts. The prospectus puts Unitree’s 2025 ad spend at 60.53 million yuan—about $8.5 million — not much, for a brand this recognizable. Continue Reading
译中国人形机器人公司宇树科技(Unitree)于2024年实现净利润7750万元人民币,2025年利润增至约6亿元,净利润率约35%,在行业普遍亏损的背景下实现盈利。该公司已通过上海证券交易所上市委员会审核,拟融资约42亿人民币,目标成为首家在A股上市的专业人形机器人公司。其H2 Plus人形机器人预计年底出货,已被Nvidia纳入Isaac GR00T参考设计,将与Jetson Thor整合。宇树以低成本、高可靠性的产品路线实现商业化,基础版G1机器人售价约1200美元。
Another thing about AI writing is that while a single instance of AI writing on a topic may be fine, any situation where lots of people use AI to respond to a particular prompt (comments sections, homework, admissions essays) the similarities among responses is tediously obvious.
译关于AI写作的另一点是,虽然单次针对某个话题的AI写作可能没问题,但在许多人使用AI回应特定提示的任何情况下(评论区、作业、申请文书),回应之间的相似性会变得极其明显。
「当软件编写成本趋近于零时,我发现自己对野心的追求已超越一切。那种不可理喻、不可阻挡的野心。」 这句话来自投资人 Mike Vernal(前 Facebook VP、前红杉合伙人)写的一篇文章,他的文章里说 软件的"三段式剧本"已经过时了,在剧变时代最重要的直接进入深水区的野心(Unreasonable, unrelenting ambition)。 旧剧本是这样的: 第一幕:找一个楔子(wedge),切一个细分市场,做到几千万 ARR,花 3-5 年 第二幕:从单品扩展成套件(suite),交叉销售,做到一亿 ARR,又花 3-5 年 第三幕:变成平台,替掉底层系统 他说这个剧本死了,因为: AI 让写软件的成本趋近于零。 以前你只能单线程推进,先搞定第一幕再想第二幕。现在 Cursor、Clay、Harvey、Lovable 这些公司两年就从 0 到一亿 ARR。 时间窗口压缩了,你没有慢慢来的余裕了。 他的新结论: 别找楔子了,直接跳到深水区。一开始就做整件事。 他举了 Cursor 的例子:当初种子轮的时候 Cursor 就说要直接替掉 VS Code,他觉得疯了(VS Code 刚统一了市场你就要替?)。 结果他错了。现在回头看,替掉 VS Code 反而都不够大胆。 「当软件编写成本趋近于零时,我发现自己对野心的追求已超越一切。那种不可理喻、不可阻挡的野心。 三段式剧本已经过时。在剧变时代依赖楔子策略未免过于保守。 要我说,既然决定放手一搏,不如直接赌上全部身家。」
译投资人Mike Vernal认为,AI让软件编写成本趋近于零,传统“找楔子→扩展套件→变平台”的三段式创业剧本已过时。他指出,Cursor等公司能在两年内从0做到一亿ARR,时间窗口被极大压缩。因此,他主张在创业初期就直接瞄准核心市场(即“深水区”),展现不可理喻、不可阻挡的野心。他以Cursor种子轮时就声称要替代VS Code为例,认为这个目标如今看来甚至还不够大胆。
The recent Ornn H100 index drop to $2.63 (-7.72%) is confusing. But mostly because it's a misleading index. Our H100 hourly has been in a $2.70–$3.01 band for 146 straight days. Ornn's last month alone: $1.80 → $3.22 → $2.63. Why? OCPI is built only from printed transactions. But H100 on-demand has been sold out across our coverage for months. No continuous spot tape exists. What's left is a thin residual of bilateral trades from a narrow contributor set. Small N gets pushed around easily.
译近期Ornn H100指数跌至2.63美元(-7.72%)令人困惑。但这主要因为该指数具有误导性。我们的H100小时价格已连续146天在2.70–3.01美元区间内波动。仅上月Ornn指数就经历了1.80→3.22→2.63美元的剧烈波动。 原因在于OCPI仅基于已成交交易构建。但数月来我们覆盖范围内H100按需实例已售罄。不存在连续的现货交易记录。剩余数据仅来自少数贡献者的双边交易残余。小样本量极易被扭曲。
At @Google I/O, I sat down with @osanseviero and @DynamicWebPaige from Google DeepMind to talk about Gemma, open models, AI Studio, on-device AI, sovereign AI and the future of AI development. A great conversation on how building with AI is becoming more open, local and accessible.
译在 Google I/O 上,我与 Google DeepMind 的 @osanseviero 和 @DynamicWebPaige 坐下来,聊了聊 Gemma、开源模型、AI Studio、端侧 AI、主权 AI 以及 AI 开发的未来。 一场关于 AI 构建如何变得更开放、更本地化、更易获取的精彩对话。
收到了 @dotey 宝玉老师的图解 Skill,已严肃阅读 里面的配图都很有意思,非常适合理解内容,要是对 Skill 学习有需求可以看看
卧槽,赚钱还得是信息差啊, 闲鱼、小红书上已经有人在卖了😭 小红书客单价是真的高, 一个合同审核skills,半小时就能搞定, 卖69块一个,已经卖了5500块了, 看起来我这篇文章是真的值钱的,学会了怎么做 skills,稳赚不赔的副业不就来了吗!
译有用户发现“信息差”副业:在闲鱼、小红书上售卖AI合同审核skills。具体案例显示,一个skills定价69元,已售出超过5500元。主推文者认为,自己此前分享的一篇关于如何制作AI skills的文章提供了关键方法,使得这种“稳赚不赔的副业”成为可能。
推文指出 Claude Opus 4.7 与 4.8 的发布效果不佳,价格提升但性能无明显改进甚至下降。作者认为 Claude 模型已停滞 4 个月,即使内部拥有 Mythos 等开发工具,模型进步速度依然未显著加快,仍维持约半年一次重大更新的节奏。
Workflows are the biggest upgrade to Claude Code's capabilities since skills and subagents. I dove deep into it with @si...
My review of Claude Opus 4.8: We should worry less about being turned into paper clips & more about being annoyed to dea...
Mai-1 thinking: Mid size model, 45b active parameter, MoE, side by side with sonnet 4.6 0 distillation "Microsoft's firs...
Hugging Face 上一篇热门论文介绍了名为 Harness 的 AI 论文图表生成框架。该框架围绕一个共享的结构化规格文档 S 运作,包含四个协作角色:设计者生成视觉方案,执行者渲染图像或代码,验证者输出带定位的诊断报告,修订者据此修改规格文档 S。作者参考该框架进行了简化实践,写成一个技能包,其中使用了 GPT-image-2 进行生图,并整合了 URL 抓取功能,可直接生成配图。
Open claw windows companion app
In a new Stanford study, law professors by far preferred Gemini 2.5 Pro's responses over those written by their peers wh...
OpenAI披露,Codex每周用户已超500万,其中非开发者用户约占20%,增速是开发者的3倍多。此次更新旨在将其从开发工具推向通用工作系统,主要推出三项能力:1) 面向数据分析、销售等角色的角色插件,覆盖62个应用和110个技能;2) 面向企业客户的Sites功能,可将计划生成为可协作的交互式网站;3) 扩展到文档、表格等的批注功能,支持局部修改。这些更新旨在让Codex更好地理解岗位上下文,进入企业现有工具链。
12.30pm today on the @Microsoft Build stream @NoPriorsPod x @latentspacepod x @satyanadella Join us! :)
Normal 🔨Mere Tool🔨 behavior. My hammer only does its job when I ask nicely.
字节背景创业者梦琪复盘其AI软件公司Invocal一年来的转型历程。她经历了典型剧本:组团队、讲AI智能体故事、连续融资,随后经历三次错误决策:选择垂直智能体场景(达人营销的Sourcing资源挖掘)、选错场景(该环节仅占链条30%)、并误判横向扩张。她得出结论:垂直智能体存在结构性困局,易被迫变成代理公司,且To B模式难以获得模型效率的倍增红利。转向C端后,团队开发了浏览器插件CLICK,其核心价值在于缩短用户意图与解决方案的距离。她总结认为,大部分应用层创业公司不需要算法工程师,创始人刚融资时最易陷入“愚昧之巅”。
郭明錤认为,NVIDIA CEO黄仁勋在GTC提出的“重新发明PC”口号,核心是展示端侧AI agent工作流概念。他指出,该概念并非原创,但将借助高曝光度主导未来叙事。然而,现实挑战在于:配备N1X芯片的RTX Spark装置未来两年出货量约1000万台,仍属利基市场;且当前PC主流AI应用与端侧算力关系不大。关键制约在于操作系统支持,Windows需完善相关工具才能兑现端侧AI agent体验。这也将影响Apple在WWDC上如何回应。
許多人期待、Nvidia 可能將要發布的 N1X / Windows PC 處理器,供應鏈調查與重點分析: ▌供應鏈調查顯示,配備 N1X 的裝置未來兩年出貨量約10M ➡ 仍屬利基市場,瞄準對裝置端 AI 算力有需求的重度使用者。 ➡ 未...
郭明錤分析了NVIDIA在GTC上提出的RTX Spark笔记本及设备端AI智能体概念。他指出,该概念演示(无实际现场展示)包含操作系统、云/本地LLM切换、智能体框架等要素。供应链调查显示,配备相关N1X芯片的设备未来两年出货量约1000万台,仍属利基市场。当前PC端主流AI应用仍依赖云端算力。若设备出厂时,NVIDIA CUDA Toolkit未正式支持Windows Arm64,且Microsoft的设备端AI智能体栈(包括MCP on Windows、ODR等)仍处于预览状态,则RTX Spark将难以兑现其核心卖点。此外,Apple在WWDC上如何应对设备端AI智能体工作流也值得关注。
許多人期待、Nvidia 可能將要發布的 N1X / Windows PC 處理器,供應鏈調查與重點分析: ▌供應鏈調查顯示,配備 N1X 的裝置未來兩年出貨量約10M ➡ 仍屬利基市場,瞄準對裝置端 AI 算力有需求的重度使用者。 ➡ 未...
Lee Robinson 批评当前AI模型基准测试存在局限,如 SWE-bench 已过时且结果难以复现。评测分数易受硬件、GPU差异和prompt微小改动影响,波动明显。这些基准对模型训练者衡量进展有价值,但对普通用户,当分数饱和时便失去参考意义。他指出,模型的交互风格、个性等重要因素无法被现有公共基准充分衡量。因此,建议用户综合参考多个基准,并亲自使用模型以形成判断。
I'm tired of useless AI benchmarks. How about we give three people a different model, strand them on an island, and see ...
RTX spark running 120b parameter model locally. Ngl, pretty cool
独立开发者Bennett利用Codex AI编程工具,在23.5小时内开发出开源App Goose。该应用可直接通过蓝牙读取Whoop 5.0的健康数据,无需订阅。实现基于公开的BLE协议分析,使用Rust和SwiftUI将数据本地化存储。此举暴露了依赖用户数据锁定和惯性构成的订阅制硬件护城河的脆弱性,并展示了AI工具如何降低个人挑战封闭生态的成本。
🤓rig+mocap+retarget整个流程走通了。 下一步是完善游戏的controller,做state machine 然后明天开始演戏当动捕演员了🤓 准备给我的游戏设计几个酷炫的技能 想想就好激动。
Moonshot AI创始人杨植麟最近放出了一个40分钟视频。 这位92年生、清华计算机本科第一、CMU博士、Transformer-XL和XLNet共同作者,前Google Brain和Meta研究员,坐在镜头前平静拆解了Kimi K2的...
Intelligence at Work keynote from OpenAI 🍿
AI正在推动医学领域的革命性突破。Eli Lilly研发的三重激动剂retatrutide能有效溶解脂肪,解决肥胖及其下游后果问题。肥胖自工业革命以来已成为现代文明的严重挑战,如今正被攻克。新型药物使黑色素瘤、胰腺癌等曾无法治疗的癌症变得可治疗,同时GLP-1激动剂还具有抗炎等益处。我们正进入Demis Hassabis所说的“科学黄金时代”,见证科学潜力全面展现。
英伟达开源了一款针对AI智能体Skill(技能)的安全扫描工具。推文指出,Skill安全虽是一个实际问题,但目前专门做此方向扫描的工具和人员似乎较少。尽管尚未出现由Skill引发的严重破坏性案例,但仍需保持警惕。推文建议,用户可以考虑编写一个Meta Skill(元技能)来自动生成各种所需的Skill,并强调他人的Skill应主要用作学习和参考,而非直接使用。
Anthropic's last round was apparently a bloodbath behind the scenes. A GP at a prominent fund had dinner with Dario thre...
商汤开源了AI办公技能套件SenseNova-Skills。这是一个为任何技能兼容智能体(如OpenClaw与HermesAgent)设计的开源技能集合,提供四大核心功能:图像信息图表生成(可镜像参考风格)、数据分析(支持多表解析、清洗与可视化)、PPT创建(生成大纲内容并智能排版,输出可编辑文件)以及深度研究(跨学术、技术、社交等多源搜索并生成报告)。该技能套件现已完全开源。
中国人形机器人公司宇树科技(Unitree)于2024年实现净利润7750万元人民币,2025年利润增至约6亿元,净利润率约35%,在行业普遍亏损的背景下实现盈利。该公司已通过上海证券交易所上市委员会审核,拟融资约42亿人民币,目标成为首家在A股上市的专业人形机器人公司。其H2 Plus人形机器人预计年底出货,已被Nvidia纳入Isaac GR00T参考设计,将与Jetson Thor整合。宇树以低成本、高可靠性的产品路线实现商业化,基础版G1机器人售价约1200美元。
投资人Mike Vernal认为,AI让软件编写成本趋近于零,传统“找楔子→扩展套件→变平台”的三段式创业剧本已过时。他指出,Cursor等公司能在两年内从0做到一亿ARR,时间窗口被极大压缩。因此,他主张在创业初期就直接瞄准核心市场(即“深水区”),展现不可理喻、不可阻挡的野心。他以Cursor种子轮时就声称要替代VS Code为例,认为这个目标如今看来甚至还不够大胆。
http://x.com/i/article/2061520512174768128
In case you missed it, I published a video last week that was 100% edited by @cursor_ai + @Remotion + @FFmpeg turning th...
有用户发现“信息差”副业:在闲鱼、小红书上售卖AI合同审核skills。具体案例显示,一个skills定价69元,已售出超过5500元。主推文者认为,自己此前分享的一篇关于如何制作AI skills的文章提供了关键方法,使得这种“稳赚不赔的副业”成为可能。
http://x.com/i/article/2061406941541240838