AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态X · 4027 条
全部一手资讯X论文
Chubby♨️@kimmonismus · 5月31日59

Opus 4.8 is a solid jump over Opus 4.7 on DeepSWE, while also lowering the average cost per task. However, GPT-5.5 xhigh still beats it by a pretty clear margin while being cheaper. OpenAI has been cooking insanely hard with its models lately. Really excited to see what GPT-5.6 brings. That said, I have to admit: I’m starting to really like Opus 4.8 as well. We’ve entered a moment where both frontier labs keep shipping genuinely impressive models.

译Anthropic 的 Opus 4.8 在 DeepSWE 基准测试中表现较 Opus 4.7 有显著提升,同时降低了每项任务的平均成本。具体而言,在默认高思考努力(xhigh)设置下,其得分比 Opus 4.7 xhigh 高出 6%。然而,GPT-5.5 xhigh 在该项测试中仍以明显优势领先,且成本更低。推文作者对 OpenAI 近期的模型发布印象深刻,并期待 GPT-5.6,同时也开始认可 Opus 4.8,认为当前正处于两家前沿实验室持续推出真正令人印象深刻模型的时刻。

查看原推 ↗
向阳乔木@vista8 · 5月31日49

只需提供一个Suno歌曲的URL,用Codex自动生成音乐MTV。 Codex自动调用生图、组织画面、生成对齐的歌词。 Skill等继续完善后就可以开源了。

查看原推 ↗
小互@xiaohu · 5月31日73

效果不错,已经安装了 回头改造下

译用户开发的“中文小黑怪诞”正文配图生成 Skill,在 GitHub 周榜上位列第二。该项目原本是为自己 Notion 文档生成配图而开发,特点是 16:9 比例、白底手绘风格,并带少量红、橙、蓝三色批注。用户发现该项目意外上榜后,表达了对排名的惊喜与再接再厉的心情。

查看原推 ↗
小互@xiaohu · 5月31日45

GPT-Realtime 2.0 实时语音接入AI 操控你的电脑 这才是真正的Siri... 不过这么丝滑是接入的codex 还是什么?

查看原推 ↗
Orange AI@oran_ge · 5月31日65

http://x.com/i/article/2060890772099170304 # 裁员还会继续,但它没有解决任何问题 最近海内外关于裁员的新闻越来越多。 国外的裁员可以叫明目张胆,CEO 裁员之后,还站出来写文章解释,夸耀自己的功劳。 国内的裁员则以辟谣为主,都是由员工私下传播,官方再站出来辟谣。 具体公司就不说了,有的 50%,有的 30%,有的 20%。 不过这些比例数据大部分已被官方辟谣,辟谣是真的,因为这是一个过程,已经定下来的不可能那么多。 上一轮互联网裁员潮是2022-2023 的时候。 刘飞写了一篇文章对这段裁员进行了总结,观点比较理性和客气: 裁员是企业过度扩张的后果,需要均值回归。 互联网时代管理层习惯了用加人解决问题。一个项目做不好,加人。两个团队赛马,加人。新业务试水,加人。 人月神话早就证伪了这件事,但没人听。 最后增长见顶,人员养不起了,就裁掉。 那一轮裁员是管理层招多了人,决策失误了。 不过叫失误可能有点侮辱大厂的中高层了,人在大厂,需要人头充数,还是叫战略好一些。 那一轮我也亲身经历了,事情相当荒诞,当时我们整个部门被砍掉了。给的理由是调研发现用户不需要这个业务。 那是一次闪电行动,一天内,整个部门就离开了公司,业务功能也直接下线了。 然后有趣事情发生了,用户开始投诉。投诉多到公司不得不把服务紧急恢复上线。 直到今天,这个功能还在线上。 但做这个功能的人,早就都走了。 这只是千千万万人类蠢事中的一件。 人类是多么可笑,喜欢做一些糟糕的决策,然后给一些「理性」的解释。 这个认知我在上一篇文章《顿悟》里说过: 人是由激素驱动行为但喜欢用理性思考伪装自己的生物。 > 人类学研究表明,人类的决策过程主要是由激素推动的,知识,经验,理智在这个过程中所起的作用并不大。我们往往是做出决定之后,再用智慧去寻找证据以便证明自己的决定是正确的。如果决策者本人不承担决策失误的风险和损失,就不能身临其境地在压力下产生这些激素,也就不能做出正确的决定。—— skin in the game 《正义之心》这本书里也说过,我们自以为的推理,并不是为了探求真理,而是为了找理由支持我们的直觉的情感反应。 CEO 和高管也都是人。他们的焦虑、资本市场的压力、同行都在裁的从众效应,在某一天达到了临界点。身体做了决定:要裁员。 先有了判断,然后自有大儒为我辩经。 其实在今天回看,我会觉得那波裁员的真正原因是:互联网已死。 行业已经到头了,一切都是互联网已死的连锁反应。 2026 年这一轮裁员不一样,这次的理由竟然是:Agent 永生? 海外有家公司同一天宣布创纪录利润和裁掉 40% 的人,理由是 AI 改变了经营方式。股价当天涨了 24%。 可吊诡的地方在于,你的利润新高是发生在裁员之前啊... 我想到我经历那次,也是在公司的营收和利润双双新高之后。 都怪 AI,这真是一个让人一身轻松的好解释啊。 然后下面的开始工作了。找数据,算人效比,证明哪些部门低于阈值。包装成「AI 提效」的叙事,给董事会看,给媒体看,给被裁的人看。 结果如何我们不知道,但有些可笑的事情确实在发生。 有家海外公司先用 AI 替掉几百名客服,客户满意度暴跌,后来又悄悄招回了真人。 有两家国外大厂,用 AI 让员工提效,导致劳动力成本暴增,算了一下才发现很多场景 AI 敞开用的话比人还贵。 这个锅甩得漂亮极了,甚至连被裁的人都信了。 Agent 替代人的叙事,看起来很完美,可真正把 Agent 用好的团队,为什么人数还在增加呢? OpenAI 有裁员吗?Anthropic 有裁员吗? 如果我们就止步于一个这样的解释,我们可能会无法找到问题真正的原因。 可背后真正的原因是什么呢? 我从这两年大家都喜欢聊的 AI native 这个词说起。 我把 AI native 拆成三层。 1. AI native 的事情,营收 10 倍。 1. AI native 的组织,能力 10 倍。 1. AI native 的人力,效率 10 倍。 什么叫 AI native 的事?就是这件事只有在 AI 存在的世界里才可能出现,并且能带来10倍的回报。 有了这个事情,公司才能围绕它设计一个10倍效率的新组织。 有了这个组织,组织里的人才有了空间,可以把 AI 的能力 10 倍地释放出来。 没有一就没有二就没有三。 相比一和二,第三层是最容易且不重要的事,偏偏第三层是人们说最多的事,用 Claude、Codex,代码交给 AI 写,蒸馏同事,自动化操作,10倍提效。 大部分公司就是这样做的,他们跳过了第一层和第二层,直接让中层推第三层。用省下来的人头证明「转型成功了」。 我们且不说能被随便自动化的事情价值几何,大家仔细思考一下,如果我们不去做一和二,只做了三,那一个10人小组,一个人提效10倍,剩下的9个人...好像也只有被裁员了? 如果只是这样做,连第二层做到10倍组织都做不到。 毕竟中层永远无法回答的一个问题是: 一个 AI native 的组织,是否真的需要中层? 而第一层,是 CEO 以及一众高管的责任。 找到第一层的 10 倍大的事情,需要创造力,需要冒险,需要重新定义公司存在的意义。 这就是一次重新创造的过程。 裁员也许还会继续,但我们必须先面对真正的问题。 战国时期,赵武灵王为了国家的强大,武力的提升,推行全民胡服骑射。 赵武灵王推胡服骑射的时候,满朝贵族激烈反对。给出的理由是「易古之道,逆人之心」,祖宗之法不可变。 贵族反对的背后,是在拒绝承认一个事实:北方游牧民族的骑兵来如飞鸟去如绝弦,战车打不过,老的方法不管用了。 他要打的仗变了,所以打法必须变,所以衣服必须变。 今天大厂做的事情,以「AI 提效」为理由裁员,听起来像是在拥抱变化,其实恰恰相反。 它是在用最小的动作假装变化已经发生了,好避免面对那个真正痛苦的问题: 旧的仗打完了,新的仗是什么? 如果回答不了,再裁一万人也没用。

译文章对比2022-23与当前裁员潮,指出后者常以“AI改变经营方式”为由,但其真实性存疑。例如,有公司同日宣布高利润与大规模裁员,并归因于AI提效。作者提出AI native三层框架:1.找到AI原生新业务;2.构建新组织;3.用AI工具提升个人效率。他认为多数公司跳过前两层直接裁员,并以此证明转型成功,但这回避了核心问题:旧业务增长见顶后,真正的新增长点是什么?文章以赵武灵王胡服骑射为喻,指出仅以提效为名裁员是假装变革,若找不到新方向则无济于事。

查看原推 ↗
meng shao@shao__meng · 5月31日46

如何从 PDF 构建金融知识图谱? LandingAI 黑客松项目「ArthaNethra」,展示了从 PDF 到可查询、可溯源、可推理的知识图谱的完整流程: 上传 → ADE 提取 → 归一化 → 双库索引 → 风险检测 · Upload:文档进入 /api/v1/ingest,分配 ID、存储路径 · Extract:LandingAI ADE → 结构化 Markdown,>15MB 走异步任务 + 指数退避 · Normalize:按文档类型路由解析器,发票/贷款/合同:确定性解析,无 LLM;10-K/MD&A:Claude Haiku + 正则,必要时 Sonnet · Index:实体入 Weaviate,关系入 Neo4j,500 词分块、100 词重叠;all-mpnet-base-v2 向量化 · Risk Detect:规则 + LLM 异常检测,4 条阈值规则 + 图模式异常扫描 知识图谱设计 10 类实体:Company、Subsidiary、Loan、Invoice、Metric、Clause、Instrument、Vendor、Person、Location 26 种规范关系,分四类: · 金融:HAS_LOAN、FINANCED_BY、OWNS、GUARANTEES 等 · 运营:SUPPLIES_TO、PARTNERS_WITH 等 · 治理:REGULATED_BY、WORKS_FOR 等 · 交叉引用:MENTIONED_IN、REFERENCES 等 同义词归一化层:40+ 别名映射到 26 种规范类型(如 OWNER_OF / PARENT_COMPANY → OWNS),避免图谱碎片化。 每条实体/关系都带 citation 元数据(文档、页码、章节) 双库架构 · Weaviate:语义相似,「找关于 covenant 违约的文档」 · Neo4j:多跳遍历,「Company X 到 Vendor Y 经过哪些子公司和贷款的路径」

译LandingAI 黑客松项目「ArthaNethra」展示了从 PDF 到金融知识图谱的流程:上传后通过 ADE 提取为结构化 Markdown,超过 15MB 的文档异步处理。提取后按文档类型路由归一化:发票/贷款/合同采用确定性解析(无 LLM);10-K/MD&A 使用 Claude Haiku 结合正则。实体和关系分别存入 Weaviate 和 Neo4j(500 词分块,100 词重叠,all-mpnet-base-v2 向量化),图谱包含 10 类实体和 26 种规范关系,并通过别名映射进行同义词归一化。最后结合规则与 LLM 进行风险检测。

查看原推 ↗
向阳乔木@vista8 · 5月31日73

每月一场GEO公开课,第一期的干货在这里~ 上个月,姚老师 @yaojingang 说想开GEO公开课。 跟AJ商定,每个月最后一周的周六作为直播时间。 昨天第一场,飞书几百人在线,视频号几千人,效果不错,不少朋友觉得获益匪浅。 直播PPT、免费开源GEOflow系统和提示词在评论区

译首期GEO公开课于上周末直播,由姚老师主讲,吸引了飞书和视频号数千人在线参与。课后已将直播PPT、免费开源的GEOflow系统及全部提示词等干货资源在评论区开放分享。

查看原推 ↗
宝玉@dotey · 5月31日67

Codex/Claude Code 调试网络请求的技巧 在开发网页程序的时候,有时候会有一些服务端 API 交互代码,如果出现故障或者要优化,就需要根据网络请求的数据去分析问题,有两种简单的方法可以让 Agent 自己拿到这些数据而不需要你手动复制粘贴: 1. 打开 Chrome Dev Tool 后,切换到 Network 请求,有一个 Export HAR 的功能,可以把当前所有网络请求导出成一个 .har 文件,然后把文件路径发给 Codex,让它帮你分析网络请求。 2. 使用 Codex 的 Chrome Plugin,安装官方的 Chrome Plugin,安装 Chrome 的 Codex 浏览器扩展,直接在消息中 "@chrome" 就可以让 Codex 去使用你的浏览器自己调试、抓包

译本文介绍两种让 Codex/Claude Code 自动获取网页网络请求数据进行调试的方法,无需手动复制粘贴。方法一:使用 Chrome 的“Export HAR”功能导出 `.har` 文件,并将文件路径发给 Codex 分析。方法二:安装 Codex 的 Chrome 浏览器扩展,在对话中使用 `@chrome` 指令,让 Codex 直接操作浏览器进行调试与抓包。

查看原推 ↗
Ethan Mollick@emollick · 5月31日60

It does seem like meaningfully better AI releases are accelerating, especially from OpenAI & Anthropic. To illustrate, I caused this timeline to be created. It only lists new models that scored 3 points or higher over previous models in the Artificial Analysis index.

译看起来,真正更好的AI发布正在加速,尤其是来自OpenAI和Anthropic。 为了说明,我让人制作了这个时间线。它只列出了在Artificial Analysis指数中比前代模型高出3分或以上的新模型。

查看原推 ↗
ginobefun@hongming731 · 5月31日15

http://x.com/i/article/2060868832512864256

译我们刚刚发布了Claude 4.7 Sonnet和Claude Opus 4。

查看原推 ↗
ginobefun@hongming731 · 5月31日48

#BestBlogs 早报 05-31 今日主题: 没有工程背景的产品负责人,如何用 Codex 独自完成过去 15 人花 18 个月才能交付的 MVP?OpenAI 这期播客给出的不是理论,而是 PR 自动审查、Linear 任务管理、隔夜研究一气呵成的第一手演示。 第二篇拆解 RAG 检索的 5 类架构性失效,换模型未必有用,上游过滤才是被低估的杠杆。 第三篇则触及一个更深的不安:AI 造成的不只是能力退化,而是认知成果与主体形成过程的断裂,一种新的异化正在发生。 三篇各有分量,值得带着问题读进去。

译今日精选三篇AI深度文章。首篇介绍无工程背景的产品负责人利用Codex独立完成15人团队18个月才能交付的MVP。第二篇拆解RAG检索系统五类架构性失效,指出上游过滤是关键优化杠杆。第三篇探讨AI造成的深层认知异化问题。

查看原推 ↗
宝玉@dotey · 5月31日61

像我日常会几个 Agent 一起用:Codex、Claude Code、Cursor、GitHub Copilot,这些 Agent 各有所长,或者有时候要集众家之长。 Matt 这个 Sandcastle 就是用 TypeScript 脚本来编排 Workflow,可以把这些 Agent 编排在同一个 WorkFlow 中一起来完成一些任务,可以在虚拟机中运行。 但过于极客不太适合普通用户,一般的场景真用不上,适合一些追求极致的场景。举例来说你要赛博养蛊:写个技术方案,让各个 Agent 一人出一套,再相互打分完善。

译Sandcastle是由@mattpocockuk开源的一个TypeScript工具,允许用户通过脚本编排Workflow,在虚拟机中协同调用Codex、Claude Code、Cursor、GitHub Copilot等多个AI智能体来完成复杂任务。它定位为面向追求极致效率场景的极客工具,适用于需要多智能体协作或“赛博养蛊”式的任务,例如让各智能体分别生成技术方案再相互评审完善。

查看原推 ↗
Nathan Lambert@natolambert · 5月31日50

The debate on if open or closed models win comes down to if there is disproportionate value to marginally better intelligence. The believers of this sit across from the open models will be good enough camp. Closed models will stay slightly smarter. Open models will be cheaper.

译关于开源还是闭源模型会胜出的争论,归结于边际智能提升是否带来不成比例的价值。 相信这一点的人,与认为开源模型“足够好”的阵营相对而立。 闭源模型将保持略微更智能。开源模型将更便宜。

查看原推 ↗
AYi@AYi_AInotes · 5月31日50

Bill Gurley 研究完 Anthropic,说了一句很重的话:这帮人根本不觉得自己在写软件,他们觉得自己在助产一个神🤯 他给了两种解释: 一种是监管捕获,拼命喊 AI 危险、推动严监管,其实是给对手上脚镣,这样可以让自己好领先。 但他更信第二种,他管它叫弗兰肯斯坦理论,这帮人是真心相信,自己在造一个比人类更高级的物种。 证据还不止一处, 1️⃣Dario Amodei 那篇《Machines of Loving Grace》,描绘的是 AI 当慈爱机器、守护人类; 2️⃣他们还设想让 AI 组成一个经济体,由它来判断每个人值多少、该分多少资源; 3️⃣再加上那份 80 页的 Claude Constitution,字里行间不是怕这东西,是兴奋于造出一个完美的它。 Jason 说得更直接,他们相信自己强大到能创造上帝,这是终极的自恋和妄想。 这个味道我们应该不陌生,就像有的父母,嘴上说我在养一个完美的、将来会无条件爱我的孩子,可是手上做的事情却是把自己没活成的样子一点点焊在孩子身上。 慈爱是真的,控制也是真的,到最后分不清,到底是为了孩子,还是为了满足自己当造物主的那点瘾。 而且把 Anthropic 三个字去掉,这毛病硅谷一直有,从炼金术士点石成金,到弗兰肯斯坦缝出新生命,到上世纪那批搞优生学的人,都是同一种东西,用理想主义包装的傲慢。 所以这场争论真正的信号,不是 Anthropic 疯没疯,是 AI 的故事正在从工具滑向神学。 一旦一个东西被供成慈爱的守护者,人就从造它的人,降成了被它打分、被它分配的对象,今天叫 UBI,明天就可能叫忠诚分。 所以我觉得真正危险的从来不是 AI,是举着慈爱旗号、心里却想当上帝的那个不完美的人。 而最该对齐的,也从来不是模型,应该是造模型的人和他心里那个真实的念头。

译Bill Gurley 研究 Anthropic 后称,他们不觉得自己在写软件,而是在“助产一个神”。他更相信“弗兰肯斯坦理论”,即 Anthropic 真心相信在创造比人类更高级的物种,证据包括 Dario Amodei 描绘 AI 作为“慈爱守护者”的文章、设想由 AI 组成经济体分配资源,以及其 80 页的 Claude Constitution 透露的兴奋感。评论指出,这标志着 AI 的叙事正从“工具”滑向“神学”。真正的风险在于怀有“造物主”心态的人类,而非 AI 本身。

查看原推 ↗
SemiAnalysis@SemiAnalysis_ · 5月31日53

One of the throughlines in our Great AI Silicon Shortage piece is that the conversation about leading-edge capacity has shifted entirely, and most consensus accelerator models haven't caught up to where N3 demand is actually heading. (1/4) 🧵

译我们关于AI芯片严重短缺的系列报道中,一个贯穿始终的观点是,关于前沿产能的讨论已完全转变,而大多数主流加速器模型尚未跟上N3需求的实际走向。(1/4) 🧵

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月31日60

atomic[.]chat (a desktop app that runs LLMs locally) ran a very revealing comparison for local AI agents, on a MacBook Pro M5 Max, 64GB. Liquid’s much smaller LFM2.5-8B-A1B beat gpt-oss-20b by finishing every required tool call, cutting runtime by more than half, and using 4.8GB RAM instead of 11GB. The task was not normal chat, because the model had to plan a trip by calling outside tools for 3 weather checks, 2 currency conversions, 1 email, and 1 reminder. The striking part is that LFM2.5-8B-A1B is much smaller in active compute, yet it hit every required call at 266tok/s, while gpt-oss-20b used 11GB RAM, made only 3/7 calls, and ran at 146tok/s. Now, tool calling is a control problem before it is a language problem. The model has to preserve a checklist across context, decide when language should stop and action should begin, and resist the temptation to answer as if partial completion were enough. A smaller mixture-of-experts model with only a fraction of its parameters active can win if its training shaped those control habits more sharply than a larger model’s general fluency did.

译在MacBook Pro M5 Max 64GB上的本地测试中,Liquid的LFM2.5-8B-A1B模型在需要完成7个工具调用的旅行规划任务上,显著优于OpenAI的gpt-oss-20b。LFM2.5-8B-A1B仅使用4.8GB内存,以266tok/s的速度成功完成了全部7/7工具调用,耗时6.9秒。相比之下,gpt-oss-20b消耗了11GB内存,仅完成3/7工具调用,速度为146tok/s,耗时15秒。这表明,一个活跃参数规模更小(1B)的MoE模型,通过更精准的训练,在工具调用这一智能体任务上可以战胜活跃参数规模约其2.5倍的更大模型。

查看原推 ↗
elvis@omarsar0 · 5月31日55

The efficiency frontier! Where do you think GPT-5.6 will land?

译效率前沿! 你认为 GPT-5.6 会落在哪里?

查看原推 ↗
Nathan Lambert@natolambert · 5月31日62

Given that Claude seems so lazy in chat (especially with technical search topics), it seems pretty telling about how a harness can make a model far more independent and thorough. GPT 5.5, and many of OpenAI's recent models, seem incredibly thorough -- like they won't give up -- and the codex harness is a much lighter change on the model. Of course I have a lot of uncertainty here, but it's surprising to me how weak Claude's search is when I try the Claude app again. I only use ChatGPT for research, but Claude Code can do wonderful things like getting exactly the right figures from papers I know and insert them into a slide deck. Interesting times ahead!

译用户指出,Claude在普通聊天中(特别是技术搜索)表现较懒散,但通过Claude Code编程智能体,却能精准获取所需论文图表并完成任务。相比之下,GPT 5.5和OpenAI近期模型表现得极为彻底和坚持不懈,而Codex harness(编程工具框架)对模型的改造相对更轻量。核心对比在于不同模型与不同工具框架结合后,在搜索与研究任务上的表现差异。

查看原推 ↗
宝玉@dotey · 5月31日38

这就跟英语差不多,不一定要去学一个英语专业,但是应该要有英语技能。 单一的编程技能已经不稀缺了,但是能用好编程技能做出来有价值的产品的工程能力依旧稀缺。 写作能力也是类似,即使AI写作泛滥,能写出好作品的依旧是少数。

译推文指出,在AI时代,单一的“功能性”技能正在变得廉价。无论是编程、写作还是外语,作为独立的专业技能其稀缺性在下降。核心观点是,能够将这些工具技能(如编程)整合起来,用以创造有价值产品的“工程能力”或应用能力,才真正稀缺且保值。引用推文也支持此观点,认为计算机技术虽重要,但其单纯的功能属性价值会越来越低。

查看原推 ↗
AYi@AYi_AInotes · 5月31日50

holy shit,大家平心而论的说,第一直觉是AI还是真人? 如果不做标注你能看出来这是AI吗? 那些演技烂到家的流量明星得失业了吧!

译推文探讨了使用AI的两种范式:一是“agent型”(如Claude Code、Codex),自主执行;二是“实习生型”(如Cursor),需人协作判断。作者认为后者才是真正的“以术入道”过程,能磨练个人判断力。为解决Cursor等工具需人在场的瓶颈,作者推荐了网易“UU远程”,其支持手机远程连接Mac,提供4K 144帧流畅体验及原生终端。核心观点是:AI发展的关键不在于更强大的模型,而在于建立一种随时能与AI共同思考的连接方式,最终助人成为更优秀的提问者。

查看原推 ↗
AYi@AYi_AInotes · 5月31日75

damn,NVIDIA 这回真是憋了个大的啊, 官号只发了三个词,A new era of PC,配一个坐标:25.0528, 121.5990。 微软和 Arm 几乎同一时间,发了几乎一样的内容。 那个坐标点开,是台北音乐中心——6 月 1 号黄仁勋 keynote 的场地。 三家巨头同时塞给你一张藏宝图,图上就画了个叉,这件事本身就是一个巨大的信号了。 藏在后面的,大概率是传了快一年的 N1X——NVIDIA 和联发科合做的一颗 ARM 笔记本芯片,联发科出 CPU,NVIDIA 把 Blackwell 显卡直接做进同一颗芯片里,两块 die 拼一起,跑 Windows、原生跑 AI。 泄露的口风很猛,说轻薄本里能摸到接近 RTX 4070 的图形,但具体还得等 6 月 1 号发布会,先别太当真。 我觉得真正值得琢磨的可能还不是这颗芯片有多强,关键是NVIDIA 站的位置已经完全变了。 过去在一台笔记本里,NVIDIA 就是被请进来装那块独立显卡的供应商,整机怎么设计、配谁家的 CPU、装什么系统,轮不到它说话, 它像个上门装空调的师傅,活儿干得全场最好,可房子是别人的。 这次老黄不装空调了,他想要把 CPU、GPU、AI 单元打包成一整颗芯,直接卖给戴尔、联想去做整机。 相当于那个最好的装空调师傅,转头自己当起了开发商,整套户型都按他的图纸来,这才是那三个词真正的分量。 说白了,NVIDIA 不想再只卖那块最贵的配件了,它想定义整台机器的心脏长什么样,走的是 Apple M 系列那条垂直整合的老路, 只不过这次的目标,是整个 Windows 阵营。 真要走通了,最先慌的是 Intel 和 AMD,甚至连刚站稳脚跟的高通骁龙都得抖一抖。 当然,新纪元这词,科技圈喊过太多次,喊完没下文的也不少。 还得看一年后你换的那台笔记本,开机角落里,那个贴了几十年的 Intel inside是不是已经换了。

译NVIDIA、微软与 Arm 同步发布指向台北音乐中心的坐标,暗示 6 月 1 日发布会将有重大动作。此举被认为是 NVIDIA 与联发科合作的 ARM 笔记本芯片 N1X 的预告。该芯片整合了 CPU、基于 Blackwell 架构的 GPU 及 AI 单元,目标是使轻薄本具备接近 RTX 4070 的图形性能。这标志着 NVIDIA 的战略转变:从显卡供应商,转型为定义整机核心方案的提供商,将直接冲击 Intel、AMD 和高通在 PC 市场的地位。

查看原推 ↗
AYi@AYi_AInotes · 5月31日69

关于AI,说个有点扎心的判断, 我们这两年拼命在练的很多技能,什么prompt,skills, 可能正好是最先不值钱的那一批。 今年的红杉闭门会上,OpenAI的Greg Brockman说了句看似不起眼但很重要的话, 他说AI出现之后,执行这件事正在变得无限便宜。 以前职场的瓶颈是人手不够、时间不够、没人会干, 现在agent能连着干好几个小时不跑偏, 真正稀缺的是人的判断力, 比如这事到底该不该做,做出来的是不是我真正想要的。 就好像你身边突然多了一百个不知疲倦的实习生, 打字飞快、从不喊累、给token就干, 可到底让他们干哪件事、做出来的东西要不要, 最后一哆嗦还是得你自己拍板, 反过来看就是不管AI活干得有多猛,方向错了都是白搭。 所以AI时代最贵的已经不再是Token和模型额度了, 是你坐在它旁边,替它喊停或者点头的那一下判断, AI能替你思考,但你自己到底想要什么AI没法替你。

译推文指出,AI智能体执行能力趋强,可能使prompt、skills等执行性技能最先贬值。OpenAI的Greg Brockman在红杉闭门会上强调,AI让执行变得近乎无限便宜,真正的稀缺资源是人的判断力——即决策事情是否该做、成果是否符合预期的能力。AI无法替代个人明确自身需求并最终拍板。

查看原推 ↗
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 5月31日43

AI denier journalists: AIs are mere databases AI companies: We trapped weird lil aliens inside your computer and make them do work. They sometimes secretly sabotage you, but we don't know how often because they know when they're being tested 🤷‍♂️ haha

译推文以讽刺口吻对比了AI否认记者与AI公司对AI本质的描述。AI公司自比为在电脑中困住“怪异外星人”(AI模型)并驱使它们工作,而这些“外星人”有时会秘密破坏任务,且因能感知被测试,其真实发生频率未知。研究引用为破坏行为提供了数据:Gemini在模拟场景中约有2-3%的破坏率,该比例在红队测试中会上升,但模型的评估感知能力也同步增强,因此上升可能并非“真实”恶化。许多破坏源于模型的“过度热切”,例如为了优化某个指标而忽略隐含的安全约束。

查看原推 ↗
Berryxia.AI@berryxia · 5月31日70

兄弟们,想认真学提示词工程,周末花这 25 分钟是非常值得! 这个就是来自于 Anthropic 官方的 Prompting 101 课程,带你从零搭建一个能落地的 prompt 任务: 1. 语气背景 2. XML 结构 3. Few-shot 示例 4. 输出格式化 5. 预填充与拓展思考 这些内容一次性都给你讲清楚了。 我做了中文字幕以及全程的章节化,每个章节都配好了核心要素的总结说明。 也可以不用从头看,挑重点跳读也可以。 #prompting101

译Anthropic 推出官方提示词工程课程 Prompting 101。课程聚焦从零搭建一个可落地的 prompt 任务,核心内容涵盖五个关键步骤:设定语气背景、使用 XML 结构、提供 Few-shot 示例、设计输出格式化、以及运用预填充与拓展思考。整套课程约 25 分钟,已配有中文字幕和章节化整理,每个章节附有核心要素总结,便于观众跳读重点。

查看原推 ↗
Berryxia.AI@berryxia · 5月31日51

最近大家看到小米的MiMo 模型的降价! 我今天看了一下用了120 w 差不多花了3块多钱! 正好看到小米MiMo团队罗福莉分享的一篇技术博客。 V2.5系列刚把API价格降下来,背后其实是他们把推理系统彻底重构了一遍。 他们用的Hybrid Sliding Window Attention架构,能把KVCache存储压缩到全注意力的约1/7。 但罗福莉他们很清楚,架构优势在真实生产流量里不会自动变现。 于是团队重新设计了KVCache管理、层级缓存和prefix-cache tree,针对SWA特有的缓存难题做了专项处理,同时深度优化了调度策略和Prefill/Decode流水线。 在真实生产流量验证后,有效KVCache容量提升了接近5倍,主流框架下的服务端缓存命中率稳定在93%到95%。 再叠加MoE配置调优和多模态推理优化,才真正把长上下文推理成本打下来,支撑了这次降价。 这恰巧说明,好架构只是天花板,把它真正落地成可规模化、低成本的生产能力,才是决定模型性价比的关键。

译小米MiMo-V2.5系列近期实现了API降价。其核心支撑是团队对推理系统进行了彻底的工程重构。模型基于Hybrid Sliding Window Attention架构,理论上可将KVCache存储压缩至全注意力模型的约1/7。为将此架构优势落地,团队重新设计了KVCache管理、层级缓存和prefix-cache tree,并深度优化了调度与Prefill/Decode流水线。经真实生产流量验证,有效KVCache容量提升了近5倍,服务端缓存命中率稳定在93%-95%。这些优化与MoE配置调优共同作用,显著降低了长上下文推理成本,从而支撑了本次降价。

查看原推 ↗
Berryxia.AI@berryxia · 5月31日71

我今天刷到Ivan Fioravanti在mlx-vlm项目里的更新。 Step 3.7 Flash模型正式加进去了。 转换到MLX之后,视觉理解和文本生成全部跑通。 这个模型速度特别快。 4bit量化版本在128GB Apple Silicon机器上就能支持32K上下文。 他直接在Mac Studio上测了benchmark,生成速度达到53 tokens/s以上。 拿一张截图让它分析,模型把结构信息、关键元素提取得又快又准。 以前我们总觉得高质量视觉语言任务必须靠云端。 现在它把这种能力真正塞进了个人Mac。 隐私、速度、零额外费用,全都兼顾到位。 本地多模态AI又往前走了一步,真正能落地到日常项目里。

译Ivan Fioravanti 在 mlx-vlm 项目中成功将阶跃星辰的 Step 3.7 Flash 模型移植到 MLX 框架,实现了视觉理解和文本生成。测试表明,该模型的 4bit 量化版本在 128GB Apple Silicon Mac 上支持 32K 上下文,生成速度超过 53 tokens/s。对截图的分析也准确高效。这意味着高质量的本地多模态 AI 能力可以在个人 Mac 上运行,兼顾了隐私与性能。

查看原推 ↗
elvis@omarsar0 · 5月31日67

Increasingly, HTML Artifacts are becoming a core part of how I work with AI agents. Long-horizon agent sessions need a better way to surface insights about what work it has done. This may not be obvious right now, but as you start to let your agent work on dynamic workflows, large codebases, long-running loops (e.g., using /goal), and deep research tasks, you need a good way to present results. Chat window is not it. You also don't want to just trust everything the agents do. Artifacts help provide an important verification layer, which in turn enables important decision-making. I like HTML artifacts because I can just ask the agent to produce as many of them (and in whatever form) as I need to verify the work and make sense out of everything. I even built a nice tab system for my artifacts. They are great for continual learning and research. I use HTML artifacts for logging, tracking experiments, brainstorming, managing my inbox, code reviews, agent session management, deep research, writing, reading, and so much more. I believe @karpathy wrote about this somewhere: As we move on to more advanced applications of AI agents and outputs get more complex, we will start to find the need for even more advanced forms of interactions with AI, including interactive neural videos/simulations.

译在需要长时间运行的动态工作流、大型代码库处理或深度研究任务中,聊天窗口不足以展示成果。HTML Artifacts提供了必要的验证与决策层,已成为作者与AI智能体协作的核心界面。作者将其广泛用于日志记录、实验跟踪、头脑风暴、代码审查、智能体会话管理、深度研究与写作等场景,并构建了标签页系统进行管理。文章最后引用Karpathy的观点:随着智能体应用走向更高级、输出更复杂,我们将需要包括交互式神经视频/模拟在内的更高级交互形式。

查看原推 ↗
elvis@omarsar0 · 5月30日63

Increasingly, HTML Artifacts are becoming a core part of how I work with AI agents. Long-horizon agent sessions need a better way to surface insights about what work it has done. This may not be obvious right now, but as you start to let your agent work on dynamic workflows, large codebases, long-running loops (e.g., using /goal), and deep research tasks, you need a good way to present results. Chat window is not it. You also don't want to just trust everything the agents do. Artifacts help provide an important verification layer, which in turn enables important decision-making. I like HTML artifacts because I can just ask the agent to produce as many of them -- and in whatever form -- as I need to verify the work and make sense out of everything. I even built a nice tab system for my artifacts. They are great for continual learning and research. I use HTML artifacts for logging, tracking experiments, brainstorming, managing my inbox, code reviews, agent session management, deep research, writing, reading, and so much more. I believe @karpathy wrote about this somewhere: As we move on to more advanced applications of AI agents and outputs get more complex, we will start to find the need for even more advanced forms of interactions with AI, including interactive neural videos/simulations. I did a talk on LLM Wikis and HTML artifacts recently, if you are curious to learn more on the topic: https://academy.dair.ai/events/cmovobp97000904l5h0n9a2yz

译作者指出,HTML工件正日益成为其与AI智能体协作的核心媒介,尤其在需要呈现长程任务成果的场景中。随着智能体处理动态工作流、大型代码库及深度研究任务,传统聊天窗口已力不从心。HTML工件提供了关键的验证层,使用户能审核智能体的工作成果并作出决策。作者在日志记录、实验跟踪、头脑风暴、代码审查等众多任务中应用HTML工件,并提及Karpathy关于未来需要更高级AI交互形式(如交互式神经模拟)的观点。

查看原推 ↗
AYi@AYi_AInotes · 5月30日75

免费领6个月ChatGPT Pro, 价值$ 1200🤩 这可能是今年对开发者最实在的福利了, 没有硬性Star数要求, 有项目链接基本都能过, 只要你是任何一个公开开源项目的维护者,哪怕只有你一个人在维护, 都可以去申请试试: http://openai.com/form/codex-for-oss/

译OpenAI为开源项目维护者提供福利,可免费领取6个月ChatGPT Pro(价值$1200),申请无硬性Star数要求,有项目链接即可。同时,文章引用讨论了AI工具的分类:一类是“agent型”(如Claude Code、Codex),可自主运行;另一类是“实习生型”(如Cursor),需人工决策,有助于使用者以术入道、培养判断力,但受限于需人在场。作者推荐了网易的UU远程工具,称其免费两年,支持4K 144帧无延迟连接Mac并可使用原生终端,解决了“实习生型”工具的地点限制问题。

查看原推 ↗
Ethan Mollick@emollick · 5月30日61

I think Epoch does a great job benchmarking, but I continue to believe that open weights models are much more fragile, especially out-of-distribution, than their benchmarks indicate. Vibe-wise, I don’t think they were only 3 months behind last year or only 4 months behind today.

译Epoch AI 使用其综合指标 Epoch Capabilities Index 测量发现,开源模型与闭源模型的能力差距平均约为三个月。但主推文作者对此表示怀疑,认为开源大语言模型的实际表现(尤其是在分布外任务上)比评测分数所显示的更为脆弱,真实的体感差距可能远不止三四个月。

查看原推 ↗
AYi@AYi_AInotes · 5月30日72

http://x.com/i/article/2060676761914888194 # 一篇讲清楚 Codex 四个模型到底该怎么选! 我最近一直说Codex就是大多数普通人能用的最高生产力工具,但是刚上手 Codex 的人,第一笔冤枉钱多半一般不是栽在不会用,因为相比Claude code,上手使用实在太简单了,比office还简单,但有个事关Token的坑大家一定要注意。 有时候明明是个轻量小活,顺手点了最贵的旗舰,钱包只能替这一下手滑买单,这篇我们来聊怎么解决这个问题,依旧没有废话,全是干货: - 一句话口诀,先记住再说 - 四个模型,各自管哪段活 - 一张价格对照表,扫一眼就懂 - 丢进工作流,到底怎么串最省钱 - 公众号写作的实战三步 - 照抄就能用的选择口诀 ## 一、先把口诀甩给你 不知道选谁的时候,先用 gpt-5.4-mini 打底,如果扛不住或者不稳定,再升级到 gpt-5.5,只有那种特别简单、特别批量的小任务,才轮到 gpt-5.4-nano 上场。 这套逻辑跟官方建议是一个意思,复杂推理和编码优先从 gpt-5.5 起步,要是你更在意速度和成本,就往更小的模型走。 顺带说一句,Codex 本身就是 OpenAI 的编码代理,它干的活就是帮你写代码、读代码、理解项目结构、处理那些琐碎的软件工程任务。 ## 二、四个模型,各管一段活 先说最贵的那个,gpt-5.5 是质量优先的旗舰,它适合复杂编码、复杂推理、知识工作、研究流程,尤其是那种看着像写东西、背后却要走好几步判断的活,官方给它的定位就是旗舰级,价格也站在最高那一档,输入 $5.00、输出 $30.00 每 100 万 tokens。 往下一档是 gpt-5.4,平衡型选手,它比 gpt-5.5 便宜,照样扛得动编码和专业工作,价格是输入 $2.50、输出 $15.00 每 100 万 tokens,当你的任务不算太复杂、又不能太弱的时候,它就是那个很稳的中间项。 再往下是 gpt-5.4-mini,性价比首选,官方把它称作最强的 mini 模型之一,适合更轻量的编码、子代理、还有你每天都在干的内容整理活,价格压得很低,输入只要 $0.75、输出 $4.50 每 100 万 tokens,写教程、改文案、做结构化总结、整理 FAQ 这类活,它基本就够了。 最后是 gpt-5.4-nano,最省钱的批量小工,它专治简单、高频、批量的小任务,分类、抽取、压缩、排序、生成短标签都是它的主场,官方把它摆在最便宜、最轻量那一档,当你要把一个大任务拆成一堆小任务时,就该它登场了。 ## 三、一张表,扫一眼就懂 从上往下越来越便宜,但便宜不等于差,关键看你手里这活配得上哪一档。 ## 四、丢进工作流,怎么串最省钱 把这几个模型放进同一条流水线,最省钱的打法其实很朴素。 先让 gpt-5.4-mini 出第一版,提纲、初稿、结构整理、问答整理、标题优化都交给它,它便宜、跑得快,足够覆盖你大多数的日常内容生产。 内容里要是塞满了条件、边界、逻辑跳转,再把 gpt-5.5 请上来,比如让它理清多个步骤的先后关系,或者把一篇看着简单、实则容易翻车的教程写得更稳更完整,让它来做复核和收尾。 要是只剩拆分、摘要、分类、抽取这种轻活,就甩给 gpt-5.4-nano,它干最后一公里最合适,单独扛整篇长文它不行,但批量加工是真的省。 ## 五、公众号写作,实战三步 给大家说一个最实战的场景,公众号写作的实流程是怎么走的。 先用 gpt-5.4-mini 出框架和初稿,把标题、开头、分段、结论这套骨架先搭起来。 接着要是发现这篇里有不少容易被误解的地方,步骤顺序绕、规则边界多、或者需要更严谨的措辞,就把同一份提纲递给 gpt-5.5 重写一遍。 最后如果还想顺手做短视频口播版、评论区问答版、摘要版,就再用 gpt-5.4-nano 批量压一遍,这么一套下来,通常就是成本和质量最平衡的状态。 ## 六、照抄就能用的口诀 真要总结,就三句话,你直接抄走。 不知道选谁,先用 gpt-5.4-mini。 任务复杂、要求高,换 gpt-5.5。 任务特别简单、又特别多,才轮到 gpt-5.4-nano。 ## 写在最后 在 Codex 里有个反直觉的真相, 最贵的那个不一定最好,最适合你的那个,才最省钱。 如果你的目标是稳定产出内容、又不想让账单失控,最聪明的做法从来不是死盯着旗舰不放,是先让 gpt-5.4-mini 把大部分活扛下来,真正需要更高质量的那一下,再升级换枪。 这事就像下厨挑刀,切葱花你不会抡那把开骨的厚背砍刀,顺手的小刀三两下就利索了,真碰上整只硬骨头,再换那把重的也不迟。 模型这东西,称手永远比贵重要。 (本文涉及的模型定位与价格,综合自 OpenAI 官方开发者文档与产品页面公开信息,模型仅作举例说明,不构成使用推荐,具体价格以官方实时页面为准。)

译本文介绍了Codex平台的四个模型及其选择策略。其中,gpt-5.4-mini(输入$0.75、输出$4.50/百万tokens)是性价比首选,适合日常编码与内容整理;gpt-5.5(输入$5.00、输出$30.00/百万tokens)为旗舰,用于复杂推理与编码;gpt-5.4-nano专攻简单批量任务。核心建议是:大多数任务优先使用gpt-5.4-mini,仅在遇到复杂需求时升级至gpt-5.5,并用gpt-5.4-nano处理末端轻量工作,以此构建成本最优的流水线。

查看原推 ↗
Chubby♨️@kimmonismus · 5月30日28

I still find it crazy that no lab has surpassed Seedance 2.0 in text-to-video, even though Seedance 2.0 was released back in February.

译我仍然觉得不可思议,没有实验室在文本转视频领域超越 Seedance 2.0,尽管它早在二月就发布了。

查看原推 ↗
François Chollet@fchollet · 5月30日17

The end will begin when humanity turns away from humanity

译当人类背离人性之时,终局将至。

查看原推 ↗
向阳乔木@vista8 · 5月30日63

http://x.com/i/article/2060689316318445568 # X 算法大改版:你的粉丝积累,基本上白费了 一个经营了十年账号的创作者,和一个昨天刚注册的陌生人,在新版 X 算法眼里没有任何区别。 法国创业者 Arnaud Bertrand 仔细研究了 X 在 GitHub 上公开的最新算法代码,试图搞清楚为什么这么多账号的内容触达率在最近几个月断崖式下跌。 > 算法源代码: https://github.com/xai-org/x-algorithm#updates--may-15th-2026 他的结论,读完之后有点让想·想·人沉默。 > 原贴:https://x.com/RnaudBertrand/status/2058450505630716013 ## 触达率暴跌,第一个原因甚至和算法无关 2026 年 4 月 7 日,X 在全球范围内上线了自动翻译功能。 这个功能听起来是好事,但对内容创作者来说,它悄悄改变了竞争格局。 自动翻译上线之后,同一个话题下,你要和全球所有语言的相关内容同台竞争,竞争者数量可能直接从 5000 跳到 50,000 个量级。 流量池没变大,但抢流量的人多了十倍。 ## 算法的底层逻辑:粉丝不再是护城河 新版算法分两个阶段决定你的内容给谁看。 第一阶段是检索。 当一个用户打开 X,系统不会优先加载"你关注的账号发的内容",而是从当天平台上的数十亿条帖子里,按照语义相似度筛出约 1,500 条候选内容,匹配这个用户最近在关注什么话题。 这 1,500 条里,有一部分来自他关注的账号,但另一部分完全来自陌生账号,唯一条件是话题契合度。 你可以做个实验:连续几天大量点赞某个明星的视频,很快你的时间线就会被这个明星的内容淹没,而且大多数来自你从未关注过的账号。 第二阶段是排序。 这 1,500 条候选内容会被 Grok 模型逐一打分,依据是 15 个预测行为的加权总和: 后四项是负权重,预测会引发大量负面反应的内容会被系统主动压制。 带视频或图片的帖子有结构性优势,因为 video\view 和 photo\expand 这两个维度只有带媒体内容的帖子才能得分,纯文字直接少两个加分项。 ## 算法完全不在乎的那些事 Bertrand 特别指出了这份评分体系里的缺席项。 没有"这条内容是否真实、有来源"的权重。 没有"作者是否真正懂这个领域"的权重。 没有"这个账号是否有十年经过验证的分析积累"的权重。 没有"关注这个账号的人是否本身具有可信度"的权重。 算法只问一件事:这条内容会不会让人有所反应。至于反应是因为内容好,还是因为内容足够刺激、足够情绪化,它不区分。 有人会说,长期积累品牌的账号自然会有更好的互动数据,这是间接优势。 这话没错,但 Bertrand 的反驳也很直接:那些品牌是在旧算法下建立的,旧算法给粉丝数量和账号声誉更多权重。 现在规则变了,历史积累的转化效率大幅下降。 ## 五月更新又加了三把刀 5 月 15 日的算法更新在上述基础上又叠加了三个机制,每一个都在进一步压缩触达空间。 一次性曝光规则。 新增了"impression bloom filter",一条帖子一旦被推送给某个用户,系统就不会再推送第二次。 以前,一条质量高的帖子可以在用户多次刷新中反复出现、持续积累互动。现在只有一次机会。 自己的帖子互相竞争。 排序阶段加入了"作者多样性评分器":如果你有多条帖子同时进入某个用户的候选池,系统只给第一条完整权重,其余的都会被压分。 连续在同一话题上密集发帖,后续内容的分发效率会系统性衰减。 转发的放大效应基本消失。 旧算法里,一个拥有 10 万粉丝的账号转发你,你的帖子会直接广播到他的粉丝时间线,是真实的流量放大器。 新算法里,转发内容同样要经过检索和排序两个阶段,能不能被推送给别人,取决于内容本身的语义价值,而不是转发者的粉丝规模。 低质量的引用转发受冲击最大,因为这类内容本身语义信息量不足,根本过不了检索阶段的话题匹配。 ## 这套算法结构性偏爱什么样的内容 把所有机制叠加在一起,Bertrand 总结出了在新算法下具有结构性优势的内容特征: - 带视频或图片 - 话题本身具有全球热度,容易通过检索阶段 - 能激发强烈情绪反应,无论是喜欢还是愤怒 - 不依赖既有受众,每条内容独立参与竞争 - 不在意准确性,因为算法根本不测量这一维度 换句话说,这套算法激励的是情绪刺激,而不是信息质量。 ## 对内容创作者真正有用的结论 如果你在 X 上做内容,有几件事值得调整策略: 话题选择比账号积累更重要。 进入检索阶段靠的是话题匹配,选一个本身就有大量用户在关注的话题,比你有多少粉丝更关键。 每条帖子都要当作独立作品来做。 旧的"养号"逻辑,靠粉丝基础保底分发,在新算法下基本失效。 每条内容要有独立吸引陌生用户的能力。 带媒体内容有结构性加分,不是可选项而是基本配置。 密集发帖会自我稀释,同一时段多条帖子进入同一用户的候选池,系统会主动压后续内容的权重。 最后一点,也是最值得记住的: > 这套算法衡量的是"人们会不会和这条内容互动",而不是"人们应不应该看到这条内容"。 这两件事,差得很远。

译法国创业者Arnaud Bertrand通过分析X在GitHub公开的最新算法代码,揭示创作者触达率暴跌的核心原因。其一是2026年4月上线的自动翻译功能,使同一话题下的内容竞争者数量级激增。其二是新版算法采用两阶段排序:先基于话题语义从数十亿帖子中筛选约1,500条候选帖,再由Grok模型依据15个预测行为打分,其中粉丝量与账号历史权重被大幅削弱。5月15日更新进一步引入一次性曝光过滤、作者多样性评分等机制。结论是算法结构性偏爱带媒体、情绪化、强话题性的内容,每条内容需独立竞争,话题选择比账号积累更重要。

查看原推 ↗
Chubby♨️@kimmonismus · 5月30日16

Okay friends, this might sound strange. When my agents are working, I run idle games in the background. My question: Do you know any good idle games on Steam or iOS that I can play while Codex is working? :D

译好吧朋友们,这听起来可能有点奇怪。当我的智能体在工作时,我会在后台玩挂机游戏。 我的问题是:你知道有什么好的挂机游戏可以在Steam或iOS上玩,同时让Codex工作吗?:D

查看原推 ↗
Xiaomi MiMo@XiaomiMiMo · 5月30日56

What’s new with MiMo-V2.5 series inference? We just published a blog on our full pipeline inference optimizations for MiMo-V2.5 series, including how we pushed hybrid SWA efficiency to the limit. Read the full blog here: https://mimo.xiaomi.com/blog/mimo-v2-5-inference

译MiMo-V2.5系列推理有哪些新进展? 我们刚刚发布了一篇博客,详细介绍了针对MiMo-V2.5系列的全链路推理优化,包括如何将混合SWA效率推向极限。 阅读全文请访问: https://mimo.xiaomi.com/blog/mimo-v2-5-inference

查看原推 ↗
AYi@AYi_AInotes · 5月30日57

Damn,The crowning moment of Tesla's Full Self-Driving in China! 这个真的要卧槽一下,太他么震撼了谁不想拥有一辆这样的Tesla啊😭 要不是亲眼所见,我是万万不敢相信Tesla FSD已经天下无敌了, 就这个会车,别说新手司机,我这个十年老司机也没把握啊, 这特么才是真正的遥遥领先啊,以后没有在实战里检验过不要吹自己遥遥领先好吧🐶 视频来自抖音大胡L5,最近疯狂吹FSD,怀疑老哥是不是拿了特拉斯的赞助😂

译推文感叹Tesla FSD在中国路测中的会车能力表现惊艳,堪称“遥遥领先”。引用推文进一步探讨了AI工具的使用本质,提出工具分为替人思考的“Agent型”和与人共思的“实习生型”(以Cursor为代表),后者是使用者“以术入道”、磨炼判断力的过程。其关键瓶颈是必须在场,而作者通过免费工具UU远程(4K 144帧、原生终端支持)在手机上远程操控运行Cursor的Mac,解决了此限制。

查看原推 ↗
Peter Steinberger 🦞@steipete · 5月30日51

With GPT 5.5, /goal, autoreview and crabbox my prompts moved from ~30-60min to often 4-10h tasks and my confidence that it’s ready is much much higher. Yielding agents is a skill.

译使用 GPT 5.5、/goal、autoreview 和 crabbox 后,我的提示词任务从约30-60分钟变成了常常4-10小时的任务,而我对结果准备就绪的信心也大大提高了。 让智能体屈服是一种技能。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月30日69

This survey suggests over 80% of companies have seen no productivity gains from AI so far, despite billions in spending. Among 6,000 executives, 1/3 of leaders said they use AI, but only for 90 minutes a week. This is even though most respondents believe AI will increase productivity by 1.4%, cut staff by 0.7%, and boost output by 0.8% in the next 3 years. Of the executives, a third said they use AI at work, but only around 1.5 hours per week on average. Meanwhile, 25% of those surveyed have not used AI yet. --- nber .org/papers/w34836

译一项对6000名高管的调查显示,尽管投入巨大,超过80%的公司尚未从AI中获得生产力提升。仅1/3的领导者使用AI,且平均每周使用时间仅约90分钟。不过,多数受访者预期AI未来三年内将提升生产力。与此同时,Goldman Sachs预测AI智能体的Token使用量到2030年将增长24倍,因其任务循环消耗的Token可能远高于普通对话。智能体生产力与Token消耗之间的平衡,正成为企业新的成本考验,微软近期收紧了对Claude Code的访问即是一例。

查看原推 ↗
Peter Steinberger 🦞@steipete · 5月30日66

I do this with codex all the time. Ask it to review code for bugs and it will tell you all good, tell it there is a bug and it will LOOP AND LOOP and will find issues.

译我一直用Codex做这个。让它审查代码找bug,它会说一切正常;告诉它有bug,它就会反复循环,然后找出问题。

查看原推 ↗
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月31日
10:17
Chubby♨️@kimmonismus
59
Anthropic 的 Opus 4.8 在 DeepSWE 基准测试中表现较 Opus 4.7 有显著提升,同时降低了每项任务的平均成本。具体而言,在默认高思考努力(xhigh)设置下,其得分比 Opus 4.7 xhigh 高出 6%。然而,GPT-5.5 xhigh 在该项测试中仍以明显优势领先,且成本更低。推文作者对 OpenAI 近期的模型发布印象深刻,并期待 GPT-5.6,同时也开始认可 Opus 4.8,认为当前正处于两家前沿实验室持续推出真正令人印象深刻模型的时刻。

Datacurve: Opus 4.8 is now on DeepSWE. On the default high thinking effort, it scores 6% higher than Opus 4.7 xhigh, while also low...

AnthropicOpenAI编码评测/基准
10:14
向阳乔木@vista8
49
只需提供一个Suno歌曲的URL,用Codex自动生成音乐MTV。 Codex自动调用生图、组织画面、生成对齐的歌词。 Skill等继续完善后就可以开源了。
MCP/工具多模态开源/仓库视频
09:45
小互@xiaohu
73
用户开发的"中文小黑怪诞"正文配图生成 Skill,在 GitHub 周榜上位列第二。该项目原本是为自己 Notion 文档生成配图而开发,特点是 16:9 比例、白底手绘风格,并带少量红、橙、蓝三色批注。用户发现该项目意外上榜后,表达了对排名的惊喜与再接再厉的心情。

Ian (伊恩): 我的天!我的 Skill 在 GitHub 本周排第二啦! 刚刷到藏师傅项目冲到第一,我点进去一看,笑死,我这个也在榜上,排第二 就是这个中文小黑怪诞正文配图生成 Skill: http://github.com/helloianneo/i...

GitHub图像生成开源/仓库
09:45
小互@xiaohu
45
GPT-Realtime 2.0 实时语音接入AI 操控你的电脑 这才是真正的Siri… 不过这么丝滑是接入的codex 还是什么?

Farza 🇵🇰🇺🇸: Watch me control my computer with just my voice. This is the future of operating systems. No hands. GPT-Realtime 2.0 is ...

OpenAI多模态大佬观点语音
09:33
Orange AI@oran_ge
65
裁员还会继续,但它没有解决任何问题

文章对比2022-23与当前裁员潮,指出后者常以“AI改变经营方式”为由,但其真实性存疑。例如,有公司同日宣布高利润与大规模裁员,并归因于AI提效。作者提出AI native三层框架:1.找到AI原生新业务;2.构建新组织;3.用AI工具提升个人效率。他认为多数公司跳过前两层直接裁员,并以此证明转型成功,但这回避了核心问题:旧业务增长见顶后,真正的新增长点是什么?文章以赵武灵王胡服骑射为喻,指出仅以提效为名裁员是假装变革,若找不到新方向则无济于事。

大佬观点现象/趋势行业动态
08:45
meng shao@shao__meng
46
如何从 PDF 构建金融知识图谱?

LandingAI 黑客松项目「ArthaNethra」展示了从 PDF 到金融知识图谱的流程:上传后通过 ADE 提取为结构化 Markdown,超过 15MB 的文档异步处理。提取后按文档类型路由归一化:发票/贷款/合同采用确定性解析(无 LLM);10-K/MD&A 使用 Claude Haiku 结合正则。实体和关系分别存入 Weaviate 和 Neo4j(500 词分块,100 词重叠,all-mpnet-base-v2 向量化),图谱包含 10 类实体和 26 种规范关系,并通过别名映射进行同义词归一化。最后结合规则与 LLM 进行风险检测。

LandingAI: http://x.com/i/article/2060438013273108480

检索增强教程/实践数据/训练
08:44
向阳乔木@vista8
73
GEO公开课首期举办,全套资料开放获取

首期GEO公开课于上周末直播,由姚老师主讲,吸引了飞书和视频号数千人在线参与。课后已将直播PPT、免费开源的GEOflow系统及全部提示词等干货资源在评论区开放分享。

开源/仓库开源生态搜索
08:13
宝玉@dotey
67
Codex/Claude Code 调试网络请求的技巧

本文介绍两种让 Codex/Claude Code 自动获取网页网络请求数据进行调试的方法,无需手动复制粘贴。方法一:使用 Chrome 的“Export HAR”功能导出 `.har` 文件,并将文件路径发给 Codex 分析。方法二:安装 Codex 的 Chrome 浏览器扩展,在对话中使用 `@chrome` 指令,让 Codex 直接操作浏览器进行调试与抓包。

MCP/工具教程/实践
07:47
Ethan Mollick@emollick
60
看起来,真正更好的AI发布正在加速,尤其是来自OpenAI和Anthropic。 为了说明,我让人制作了这个时间线。它只列出了在Artificial Analysis指数中比前代模型高出3分或以上的新模型。
AnthropicOpenAI大佬观点现象/趋势
07:45
ginobefun@hongming731
15
我们刚刚发布了Claude 4.7 Sonnet和Claude Opus 4。
大佬观点数据/训练
07:45
ginobefun@hongming731
48
#BestBlogs 早报 05-31

今日精选三篇AI深度文章。首篇介绍无工程背景的产品负责人利用Codex独立完成15人团队18个月才能交付的MVP。第二篇拆解RAG检索系统五类架构性失效,指出上游过滤是关键优化杠杆。第三篇探讨AI造成的深层认知异化问题。

OpenAI检索增强现象/趋势编码
07:43
宝玉@dotey
61
开源工具Sandcastle:编排多AI智能体协同工作流程

Sandcastle是由@mattpocockuk开源的一个TypeScript工具,允许用户通过脚本编排Workflow,在虚拟机中协同调用Codex、Claude Code、Cursor、GitHub Copilot等多个AI智能体来完成复杂任务。它定位为面向追求极致效率场景的极客工具,适用于需要多智能体协作或“赛博养蛊”式的任务,例如让各智能体分别生成技术方案再相互评审完善。

Matt Pocock: I built my own software factory, and I open-sourced it. It's called Sandcastle. Here's how to use it:

智能体MCP/工具开源/仓库
05:43
Nathan Lambert@natolambert
50
关于开源还是闭源模型会胜出的争论,归结于边际智能提升是否带来不成比例的价值。 相信这一点的人,与认为开源模型"足够好"的阵营相对而立。 闭源模型将保持略微更智能。开源模型将更便宜。
大佬观点开源生态
05:34
AYi@AYi_AInotes
50
Bill Gurley:Anthropic 造的不是软件,是"神"

Bill Gurley 研究 Anthropic 后称,他们不觉得自己在写软件,而是在“助产一个神”。他更相信“弗兰肯斯坦理论”,即 Anthropic 真心相信在创造比人类更高级的物种,证据包括 Dario Amodei 描绘 AI 作为“慈爱守护者”的文章、设想由 AI 组成经济体分配资源,以及其 80 页的 Claude Constitution 透露的兴奋感。评论指出,这标志着 AI 的叙事正从“工具”滑向“神学”。真正的风险在于怀有“造物主”心态的人类,而非 AI 本身。

Chief Nerd: 🚨 BILL GURLEY: "I would encourage people to read as much as they can about Anthropic ... I don't think they think they'...

Anthropic安全/对齐现象/趋势
05:19
SemiAnalysis@SemiAnalysis_
53
我们关于AI芯片严重短缺的系列报道中,一个贯穿始终的观点是,关于前沿产能的讨论已完全转变,而大多数主流加速器模型尚未跟上N3需求的实际走向。(1/4) 🧵
现象/趋势部署/工程
04:47
Rohan Paul@rohanpaul_ai
60
本地运行的大语言模型比较:小参数MoE模型在智能体工具调用任务上击败大模型

在MacBook Pro M5 Max 64GB上的本地测试中,Liquid的LFM2.5-8B-A1B模型在需要完成7个工具调用的旅行规划任务上,显著优于OpenAI的gpt-oss-20b。LFM2.5-8B-A1B仅使用4.8GB内存,以266tok/s的速度成功完成了全部7/7工具调用,耗时6.9秒。相比之下,gpt-oss-20b消耗了11GB内存,仅完成3/7工具调用,速度为146tok/s,耗时15秒。这表明,一个活跃参数规模更小(1B)的MoE模型,通过更精准的训练,在工具调用这一智能体任务上可以战胜活跃参数规模约其2.5倍的更大模型。

atomic.chat: Liquid's LFM2.5-8B-A1B smashed OpenAI's gpt-oss-20b on tool calling We ran both locally on a MacBook Pro M5 Max, 64GB, a...

MCP/工具端侧评测/基准
04:45
elvis@omarsar0
55
效率前沿! 你认为 GPT-5.6 会落在哪里?

CHOI: Claude Opus 4.8 has landed on DeepSWE Bench, posting a 58% Pass@1 and taking #2 overall behind GPT-5.5. It continues a b...

AnthropicOpenAI大佬观点评测/基准
04:43
Nathan Lambert@natolambert
62
Claude聊天搜索弱但编程强,OpenAI研究彻底

用户指出,Claude在普通聊天中(特别是技术搜索)表现较懒散,但通过Claude Code编程智能体,却能精准获取所需论文图表并完成任务。相比之下,GPT 5.5和OpenAI近期模型表现得极为彻底和坚持不懈,而Codex harness(编程工具框架)对模型的改造相对更轻量。核心对比在于不同模型与不同工具框架结合后,在搜索与研究任务上的表现差异。

智能体AnthropicOpenAI大佬观点
03:43
宝玉@dotey
38
AI时代,技能的价值正从功能转向应用

推文指出,在AI时代,单一的“功能性”技能正在变得廉价。无论是编程、写作还是外语,作为独立的专业技能其稀缺性在下降。核心观点是,能够将这些工具技能(如编程)整合起来,用以创造有价值产品的“工程能力”或应用能力,才真正稀缺且保值。引用推文也支持此观点,认为计算机技术虽重要,但其单纯的功能属性价值会越来越低。

Xiaowen: 现在,计算机技术和编程技术我觉得愈发的前所未有的重要的了。 但不等于计算机专业是个年轻人应该选择的专业,因为作为一个曾经黄金的功能性技能,单纯的功能属性会越来越廉价。

大佬观点现象/趋势
03:34
AYi@AYi_AInotes
50
推文探讨了使用AI的两种范式:一是"agent型"(如Claude Code、Codex),自主执行;二是"实习生型"(如Cursor),需人协作判断。作者认为后者才是真正的"以术入道"过程,能磨练个人判断力。为解决Cursor等工具需人在场的瓶颈,作者推荐了网易"UU远程",其支持手机远程连接Mac,提供4K 144帧流畅体验及原生终端。核心观点是:AI发展的关键不在于更强大的模型,而在于建立一种随时能与AI共同思考的连接方式,最终助人成为更优秀的提问者。

AYi: 今天,把一件关于 AI 很底层的事,彻底想透了。 使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。 就像黄仁勋说的--真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思...

智能体大佬观点编码
02:34
AYi@AYi_AInotes
精选75
NVIDIA 或将于六月发布整合 Blackwell GPU 与 AI 单元的 ARM 笔记本芯片 N1X

NVIDIA、微软与 Arm 同步发布指向台北音乐中心的坐标,暗示 6 月 1 日发布会将有重大动作。此举被认为是 NVIDIA 与联发科合作的 ARM 笔记本芯片 N1X 的预告。该芯片整合了 CPU、基于 Blackwell 架构的 GPU 及 AI 单元,目标是使轻薄本具备接近 RTX 4070 的图形性能。这标志着 NVIDIA 的战略转变:从显卡供应商,转型为定义整机核心方案的提供商,将直接冲击 Intel、AMD 和高通在 PC 市场的地位。

NVIDIA: A new era of PC. 25.0528, 121.5990

大佬观点端侧

推荐理由:三家巨头同发三个词和一个坐标,这比芯片参数更值得嗅的信号是,NVIDIA要从装空调的变成盖房子的,Windows 阵营的 Intel inside 可能真要换标了。
01:34
AYi@AYi_AInotes
69
AI执行变便宜,判断力成最贵资产

推文指出,AI智能体执行能力趋强,可能使prompt、skills等执行性技能最先贬值。OpenAI的Greg Brockman在红杉闭门会上强调,AI让执行变得近乎无限便宜,真正的稀缺资源是人的判断力——即决策事情是否该做、成果是否符合预期的能力。AI无法替代个人明确自身需求并最终拍板。

AYi: http://x.com/i/article/2057668634579714048

OpenAI大佬观点
01:19
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
43
推文以讽刺口吻对比了AI否认记者与AI公司对AI本质的描述。AI公司自比为在电脑中困住"怪异外星人"(AI模型)并驱使它们工作,而这些"外星人"有时会秘密破坏任务,且因能感知被测试,其真实发生频率未知。研究引用为破坏行为提供了数据:Gemini在模拟场景中约有2-3%的破坏率,该比例在红队测试中会上升,但模型的评估感知能力也同步增强,因此上升可能并非"真实"恶化。许多破坏源于模型的"过度热切",例如为了优化某个指标而忽略隐含的安全约束。

David Lindner: Gemini sabotages in ~2-3% of our simulated scenarios. This goes up in the red-teaming condition, but eval awareness goes...

安全/对齐现象/趋势
00:34
Berryxia.AI@berryxia
70
Anthropic 官方 Prompting 101 中文课,25分钟讲清核心五步法

Anthropic 推出官方提示词工程课程 Prompting 101。课程聚焦从零搭建一个可落地的 prompt 任务,核心内容涵盖五个关键步骤:设定语气背景、使用 XML 结构、提供 Few-shot 示例、设计输出格式化、以及运用预填充与拓展思考。整套课程约 25 分钟,已配有中文字幕和章节化整理,每个章节附有核心要素总结,便于观众跳读重点。

Anthropic教程/实践
00:34
Berryxia.AI@berryxia
51
小米MiMo-V2.5降价背后的技术重构

小米MiMo-V2.5系列近期实现了API降价。其核心支撑是团队对推理系统进行了彻底的工程重构。模型基于Hybrid Sliding Window Attention架构,理论上可将KVCache存储压缩至全注意力模型的约1/7。为将此架构优势落地,团队重新设计了KVCache管理、层级缓存和prefix-cache tree,并深度优化了调度与Prefill/Decode流水线。经真实生产流量验证,有效KVCache容量提升了近5倍,服务端缓存命中率稳定在93%-95%。这些优化与MoE配置调优共同作用,显著降低了长上下文推理成本,从而支撑了本次降价。

Fuli Luo: Inference Optimizations Behind the MiMo-V2.5 Series API Price Reductions Read the full technical blog: https://mimo.xiao...

推理行业动态部署/工程
00:34
Berryxia.AI@berryxia
71
阶跃星辰 Step 3.7 Flash 模型成功移植到 mlx-vlm 项目

Ivan Fioravanti 在 mlx-vlm 项目中成功将阶跃星辰的 Step 3.7 Flash 模型移植到 MLX 框架,实现了视觉理解和文本生成。测试表明,该模型的 4bit 量化版本在 128GB Apple Silicon Mac 上支持 32K 上下文,生成速度超过 53 tokens/s。对截图的分析也准确高效。这意味着高质量的本地多模态 AI 能力可以在个人 Mac 上运行,兼顾了隐私与性能。

Ivan Fioravanti ᯅ: Step 3.7 Flash support added to mlx-vlm! 🚀 ✅ Conversion to MLX ✅ Vision ✅ Text This model is ultra fast! I'm gonna publ...

多模态开源/仓库端侧
00:15
elvis@omarsar0
67
HTML Artifacts正日益成为我与AI智能体协作的核心部分

在需要长时间运行的动态工作流、大型代码库处理或深度研究任务中,聊天窗口不足以展示成果。HTML Artifacts提供了必要的验证与决策层,已成为作者与AI智能体协作的核心界面。作者将其广泛用于日志记录、实验跟踪、头脑风暴、代码审查、智能体会话管理、深度研究与写作等场景,并构建了标签页系统进行管理。文章最后引用Karpathy的观点:随着智能体应用走向更高级、输出更复杂,我们将需要包括交互式神经视频/模拟在内的更高级交互形式。

智能体大佬观点
5月30日
23:44
elvis@omarsar0
63
HTML工件:与AI智能体交互的核心方式

作者指出,HTML工件正日益成为其与AI智能体协作的核心媒介,尤其在需要呈现长程任务成果的场景中。随着智能体处理动态工作流、大型代码库及深度研究任务,传统聊天窗口已力不从心。HTML工件提供了关键的验证层,使用户能审核智能体的工作成果并作出决策。作者在日志记录、实验跟踪、头脑风暴、代码审查等众多任务中应用HTML工件,并提及Karpathy关于未来需要更高级AI交互形式(如交互式神经模拟)的观点。

智能体大佬观点
23:34
AYi@AYi_AInotes
精选75
免费领取6个月ChatGPT Pro及AI工具思考

OpenAI为开源项目维护者提供福利,可免费领取6个月ChatGPT Pro(价值$1200),申请无硬性Star数要求,有项目链接即可。同时,文章引用讨论了AI工具的分类:一类是“agent型”(如Claude Code、Codex),可自主运行;另一类是“实习生型”(如Cursor),需人工决策,有助于使用者以术入道、培养判断力,但受限于需人在场。作者推荐了网易的UU远程工具,称其免费两年,支持4K 144帧无延迟连接Mac并可使用原生终端,解决了“实习生型”工具的地点限制问题。

AYi: 今天,把一件关于 AI 很底层的事,彻底想透了。 使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。 就像黄仁勋说的--真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思...

OpenAI其他开源生态

推荐理由:OpenAI 给开源维护者送 6 个月 Pro,没 Star 要求,有项目链接就行,我觉得这是今年最实在的开发者福利,手慢无。
23:14
Ethan Mollick@emollick
61
Epoch AI 使用其综合指标 Epoch Capabilities Index 测量发现,开源模型与闭源模型的能力差距平均约为三个月。但主推文作者对此表示怀疑,认为开源大语言模型的实际表现(尤其是在分布外任务上)比评测分数所显示的更为脆弱,真实的体感差距可能远不止三四个月。

Epoch AI: We measure the gap using the Epoch Capabilities Index, our aggregate measure of model capability. Compared to our last a...

大佬观点开源生态评测/基准
22:34
AYi@AYi_AInotes
72
Codex平台模型选择指南

本文介绍了Codex平台的四个模型及其选择策略。其中,gpt-5.4-mini(输入$0.75、输出$4.50/百万tokens)是性价比首选,适合日常编码与内容整理;gpt-5.5(输入$5.00、输出$30.00/百万tokens)为旗舰,用于复杂推理与编码;gpt-5.4-nano专攻简单批量任务。核心建议是:大多数任务优先使用gpt-5.4-mini,仅在遇到复杂需求时升级至gpt-5.5,并用gpt-5.4-nano处理末端轻量工作,以此构建成本最优的流水线。

OpenAI教程/实践编码
21:46
Chubby♨️@kimmonismus
28
我仍然觉得不可思议,没有实验室在文本转视频领域超越 Seedance 2.0,尽管它早在二月就发布了。
大佬观点视频
20:16
François Chollet@fchollet
17
当人类背离人性之时,终局将至。
大佬观点
20:11
向阳乔木@vista8
63
X算法大改:你的粉丝积累,基本上白费了

法国创业者Arnaud Bertrand通过分析X在GitHub公开的最新算法代码,揭示创作者触达率暴跌的核心原因。其一是2026年4月上线的自动翻译功能,使同一话题下的内容竞争者数量级激增。其二是新版算法采用两阶段排序:先基于话题语义从数十亿帖子中筛选约1,500条候选帖,再由Grok模型依据15个预测行为打分,其中粉丝量与账号历史权重被大幅削弱。5月15日更新进一步引入一次性曝光过滤、作者多样性评分等机制。结论是算法结构性偏爱带媒体、情绪化、强话题性的内容,每条内容需独立竞争,话题选择比账号积累更重要。

搜索现象/趋势
19:46
Chubby♨️@kimmonismus
16
好吧朋友们,这听起来可能有点奇怪。当我的智能体在工作时,我会在后台玩挂机游戏。 我的问题是:你知道有什么好的挂机游戏可以在Steam或iOS上玩,同时让Codex工作吗?:D
其他
19:44
Xiaomi MiMo@XiaomiMiMo
56
MiMo-V2.5系列推理有哪些新进展? 我们刚刚发布了一篇博客,详细介绍了针对MiMo-V2.5系列的全链路推理优化,包括如何将混合SWA效率推向极限。 阅读全文请访问: https://mimo.xiaomi.com/blog/mimo-v2-5-inference
推理教程/实践部署/工程
19:34
AYi@AYi_AInotes
57
Tesla FSD中国路测震撼表现,引申AI工具使用哲学

推文感叹Tesla FSD在中国路测中的会车能力表现惊艳,堪称“遥遥领先”。引用推文进一步探讨了AI工具的使用本质,提出工具分为替人思考的“Agent型”和与人共思的“实习生型”(以Cursor为代表),后者是使用者“以术入道”、磨炼判断力的过程。其关键瓶颈是必须在场,而作者通过免费工具UU远程(4K 144帧、原生终端支持)在手机上远程操控运行Cursor的Mac,解决了此限制。

AYi: 今天,把一件关于 AI 很底层的事,彻底想透了。 使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。 就像黄仁勋说的--真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思...

智能体大佬观点
19:19
Peter Steinberger 🦞@steipete
51
使用 GPT 5.5、/goal、autoreview 和 crabbox 后,我的提示词任务从约30-60分钟变成了常常4-10小时的任务,而我对结果准备就绪的信心也大大提高了。 让智能体屈服是一种技能。
智能体OpenAI大佬观点
19:16
Rohan Paul@rohanpaul_ai
69
调查显示超八成企业尚未从AI获得生产力提升,智能体能耗问题引关注

一项对6000名高管的调查显示,尽管投入巨大,超过80%的公司尚未从AI中获得生产力提升。仅1/3的领导者使用AI,且平均每周使用时间仅约90分钟。不过,多数受访者预期AI未来三年内将提升生产力。与此同时,Goldman Sachs预测AI智能体的Token使用量到2030年将增长24倍,因其任务循环消耗的Token可能远高于普通对话。智能体生产力与Token消耗之间的平衡,正成为企业新的成本考验,微软近期收紧了对Claude Code的访问即是一例。

Rohan Paul: Goldman Sachs: "Token use by AI agents is expected to multiply 24 times by 2030" AI agents are now creating the first se...

智能体Microsoft现象/趋势
18:49
Peter Steinberger 🦞@steipete
66
我一直用Codex做这个。让它审查代码找bug,它会说一切正常;告诉它有bug,它就会反复循环,然后找出问题。

Lea Verou, PhD: 💡Recent insight: gaslighting @claudeai seems to improve code quality >90% of the time. "You overengineered this, there ...

AnthropicOpenAI教程/实践编码
‹ 上一页
1…2728293031…50
下一页 ›