AIHOT

小互@xiaohu · 7天前26

应该是暗示全新的Siri

OpenBMB@OpenBMB · 7天前54

🚀 The Build Small Hackathon is officially live! Check it out here: 🔗 http://build-small-hackathon-field-guide.hf.space/partners/openbmb We're proud to partner with @HuggingFace and support builders around the world with OpenBMB models. Here are some inspiring use cases built with our models: 🪐 MiniCPM-V 4.6 (image / OCR / multimodal) → Automated financial document analysis https://x.com/OpenBMB/status/2062889699056984281 ⚡ MiniCPM5-1B (lightweight, on-device) → AI Desktop Pet running entirely on your local device https://x.com/OpenBMB/status/2058903454308069670 🌐 MiniCPM-o 4.5 (omni-modal) → Real-time video analysis application https://x.com/OpenBMB/status/2022341243859337613 🎙️ VoxCPM2 (voice / TTS) → Voice cloning application https://x.com/OpenBMB/status/2041169065020936464 🏆 $10,000 OpenBMB Special Prize is available for outstanding projects built with our models. Get creative, try out our models, and see what you can build in this hackathon! We can't wait to see what you create. ✊ #BuildSmall #MiniCPM #OpenSourceAI #HuggingFace

译面壁智能（OpenBMB）与HuggingFace合作举办的Build Small黑客松正式上线，鼓励开发者使用OpenBMB模型构建应用。官方列举四大用例：MiniCPM-V 4.6用于自动化金融文档分析；MiniCPM5-1B轻量端侧模型驱动AI桌面宠物；MiniCPM-o 4.5全模态实时视频分析；VoxCPM2语音克隆。活动设有$10,000 OpenBMB特别奖。

meng shao@shao__meng · 7天前60

X Article 编辑器敢说最难用，没人反对吧？！不支持 Markdown 格式，也不支持 Markdown 导入自动转换，自己的编辑器又太难用，真心佩服这些还能坚持写 X Article 的朋友们，他们一定花了很多时间来调整各种布局和格式，远多于其他平台。让 Codex 做了一个 Skill，把 Markdown 转为 X Article 展示格式，留着自己用，也分享出来，大家用得上可以 Fork 再微调。 md-to-x-article-skill https://github.com/shaom/md-to-x-article-skill

译邵猛批评 X Article 编辑器难用、不支持 Markdown 格式，并用 Codex 创建了一个 Skill「md-to-x-article-skill」，可将 Markdown 自动转换为 X Article 展示格式。该工具已开源在 GitHub（shaom/md-to-x-article-skill），用户可 Fork 后按需微调。

小互@xiaohu · 7天前79

http://x.com/i/article/2063968924019163136 # 一句话，翻译任何视频：我把用了半年的视频翻译工具开源了有人说，现在 AI 自动翻译字幕的工具一大把，你这个还有啥用？确实有不少工具能在线翻译视频，我自己也用了很多。但总觉得翻得不太准、不太好，有时候还冒出一堆错误。另外我经常在推特、视频号上分享海外视频，干脆就顺手做了这么一套——所以它其实还能帮你把海外视频搬运到国内平台，嘿嘿。这套工具我用了半年，来回调了很多次，现在比较成熟了，整理干净开源给大家。装好以后，你只要对它说一句「把这个链接翻译成中文字幕视频」，剩下的它全自动做完：下载、转写、翻译、润色、烧字幕、出文稿，一条龙到底。转写完全在你自己电脑上跑，不花一分钱 API 费。翻译用的就是你已经装好的 AI，顺手就做了。而且不只英文，日语、韩语、法语这些外语视频，一样能转成中文字幕。还有它本质就是几个脚本加一份说明书，没绑死 Claude Code 一家——小龙虾（OpenClaw）、Gemini、Codex 这些 AI 编程工具也都能用，区别只是各家装技能的方式不同。下面手把手带你装上、跑通第一个视频。 ## 这玩意儿到底能干嘛给它一个视频链接（YouTube、Bilibili、抖音都行），或者一个本地视频文件，它会一条龙做完这五步： > 下载 → 转写 → 翻译 → 润色 → 烧字幕，最后顺带出一份文稿拆开说就是： - 把视频下下来（本地文件就直接用） - 提取音频，用 Whisper 转写成带精确时间戳的原文字幕 - 把原文翻译成中文，再润色成符合中文观看习惯的字幕 - 把字幕烧进画面，输出一个带中文字幕的视频 - 顺便再出一份 Markdown 文稿，方便你存档或者改成文章语言不挑。英语、日语、韩语、法语、西班牙语，只要 Whisper 听得懂的，都能转成中文字幕。它会自己识别原视频是什么语言，再翻成中文。中文视频就只做转写出文稿，不绕翻译这一步。字幕有两种可以选。一种是纯中文，画面干净。另一种是中英双语，中文大、英文小，主次分明，适合想顺便练听力的人。你全程不用记任何命令。想要什么就用大白话说，比如「这个要双语字幕」「不要水印」「用快速模式」，它都听得懂。 > 简单说，它把「下载 + 转写 + 翻译 + 配字幕」这条原本要开四五个软件、来回折腾一两个小时的流水线，压缩成了说一句话。 ## 跟现成的翻译工具有啥不一样市面上字幕工具不少，我自己用下来最在意三件事，这套工具就是冲着这三件事做的。第一，本地、免费、能离线。转写用的是 OpenAI 开源的 Whisper 模型，苹果芯片的 Mac 上还会自动调 GPU 加速。整个转写过程在你电脑里完成，不上传、不收费。翻译复用你已经在用的 AI，不用再单独买一个翻译 API。第二，时间戳是真的准。很多工具的字幕会跑在说话人前面，或者半句话挤进下一条，看着难受。这套工具拿到的是精确到每个词什么时候说出口的时间戳，再按「一句话 + 换气停顿」来切，字幕基本说完正好换条。第三，字幕是给人看的，不是机翻直出。它会自动纠正转写听错的专有名词（Claude 经常被听成 cloud，MCP 被听成 NCP），按语义断句，每行不超过十二个字，技术术语保留英文。双语模式下中文大、英文小，同一条里拉开字号，不是两行一样大堆在一起。这些都是我自己做了上百条视频踩出来的细节，全写进规则里了。 ## 效果长这样拿 a16z 刚发的一条访谈试试。受访的是前 OpenAI 首席技术官 Mira Murati，我让工具配了中英双语字幕。她原话里有个比喻： > It's more like a tandem bike where both people are pedaling. 机翻大概会甩给你「串联自行车」这种读着别扭的词。这套工具翻成的是： > 它更像一辆双人自行车，两个人一起踩着踏板。接地气、不绕口。专有名词也拎得清，Thinking Machines 这种公司名直接留英文，不硬翻。你只要发一句「链接 + 翻译这个视频」，它会先问你要纯中文还是中英双语——我平时主要翻成中文，就默认留了这两个选项，实际上翻成任意语言都行。除了带字幕的视频，它还会同时出一份文稿，原文加中文对照。整段读下来是这样： > 它更像是去造这样一种系统：不会自己闷头狂奔、把整个文明甩在身后，而更像一辆双人自行车，两个人一起踩着踏板。上坡的时候，也许更有劲的那个人踩得更用力，但两个人的手都在车把上。不挑语言是这套工具最实在的地方。同一段访谈，中文、日语、韩语、阿拉伯语、法语都能翻成双语字幕——各国译文在上、英文原文统一压一行在下，主次分明，连从右往左写的阿拉伯语也排得整整齐齐：十几分钟的视频没问题一个半小时以上的长视频也能轻松应对 ## 它其实是三个技能打开仓库你会看到三个文件夹，各管一段活，可以单独用，也可以串起来用： - xiaohu-video-md：总指挥。负责下载、转写、调翻译、烧字幕、出文稿 - xiaohu-subtitle-polish：专门管字幕翻译润色。纠错、翻译、断句、对时间轴、做双语 - xiaohu-video-download：纯下载工具。下视频、下音频、下整个播放列表，也能给本地视频烧字幕翻译一个视频的时候，是 xiaohu-video-md 在总调度，翻译那一步它自己会去叫 xiaohu-subtitle-polish。你不用管这些，知道有这么三块就行。 ## 手把手安装这套工具目前是给 Mac 调的，苹果芯片的机器跑得最顺。装法有两种，挑一种就行：嫌麻烦，就把下面那段话整段丢给 AI，让它替你全装完；想搞清楚每一步在干嘛、或者怕中途出岔子，就照着后面的手动三步敲。 ## 偷懒版：把这段话丢给 AI 打开你的 AI 编程工具，Claude Code、Codex、小龙虾（OpenClaw）都行，把下面这段原样复制进去发给它。它会自己判断你是什么系统、装好依赖、拉仓库、跑安装脚本，一条龙搞定，中间该问你的会停下来问： > 帮我安装这个视频翻译工具：https://github.com/xiaohuailabs/xiaohu-video-translate 按下面的顺序来： 1. 先看我的系统：Mac 还是 Windows；Mac 的话是不是苹果芯片（M 系列） 2. 装依赖：yt-dlp、ffmpeg、whisper-cpp（Mac 用 brew install，Windows 走 WSL 或 winget）。转写引擎——苹果芯片装 mlx-whisper，其它机器一律装 faster-whisper 3. git clone 这个仓库，进目录跑 bash install.sh，把三个技能装进我的技能目录 4. 装完找到 xiaohu-video-md 技能里的 config.json（Claude Code 在 ~/.claude/skills/ 下），问我成品想存在哪个文件夹，帮我把 output_dir 改成完整路径 5. 最后检查依赖都装齐了没，告诉我能不能开始用每一步做完简单说一句你干了啥；依赖装失败就停下来问我，别硬往下跑。它替你跑的其实就是下面这三步，只是你不用自己敲。想自己动手、或者中途卡住想排查，就照着手动版来。 ## 第一步：装几个基础工具先确认你装了 Homebrew（Mac 上最常用的软件包管理器，没装的去 brew.sh 按提示装一下）。然后一行命令把三个工具装上： > brew install yt-dlp ffmpeg whisper-cpp > 这三个分别是：yt-dlp 负责下视频，ffmpeg 负责音视频处理和烧字幕，whisper-cpp 是「只下载」子技能在本地转写时用的备用命令，主翻译流程不靠它，真正干转写的是下面这步要装的引擎。再装一个转写引擎。苹果芯片的 Mac 用这个，会走 GPU 加速，最快：（命令里 --break-system-packages 看着吓人，其实只是绕过新版系统的一个安装限制，不动你系统本身，放心敲。） > pip3 install --break-system-packages mlx-whisper 如果不是苹果芯片，就换成通用版本： > pip3 install --break-system-packages faster-whisper ## 第二步：把技能装进 Claude 把仓库拉下来，跑一下自带的安装脚本： > git clone https://github.com/xiaohuailabs/xiaohu-video-translate.git cd xiaohu-video-translate bash install.sh 这个脚本会把三个技能复制到 Claude 的技能目录，自动生成配置文件，还会帮你检查依赖装齐没有。脚本跑到最后会逐项打印 [OK] 或 [缺]，看到 yt-dlp、ffmpeg、转写引擎都是 [OK] 就说明装齐了，哪个显示 [缺] 就按提示补那一个。这里路径以 Claude Code 为例（技能在 ~/.claude/skills/）；你要是用 Codex、小龙虾，把这个目录换成你那家工具的技能目录就行，其余都一样。 ## 第三步：告诉它把成品放哪打开 ~/.claude/skills/xiaohu-video-md/config.json 这个文件，把里面的 output_dir 改成你想存放成品的文件夹路径（要写完整路径，比如 /Users/你的用户名/Documents/视频翻译）。中间的临时文件会进 tmp/，最终的文稿进 data/，烧好的视频默认放在下载文件夹里。 > 转写模型不用手动下。第一次跑的时候，mlx-whisper 会自己从网上把模型拉下来（一点五个 G 左右），下一次就直接用了。装完，重启一下你的 AI 工具，就能用了。 ## Windows 用户看这里上面是 Mac 的装法。Windows 也能跑，但有几处不一样，别照搬。最省事的办法是用 WSL，也就是 Windows 自带的 Linux 子系统。装好以后把下面这几样装上，脚本就能原样跑： > sudo apt install ffmpeg pip3 install yt-dlp faster-whisper 如果不想用 WSL，想直接在 Windows 上装，记住三点： - 转写引擎用 faster-whisper，别装那个苹果芯片专用的版本。脚本检测不到苹果引擎，会自动用它兜底 - 安装脚本得用 Git Bash 跑，或者干脆手动把三个技能文件夹复制到工具的技能目录，再把每个配置模板复制成正式配置 - 字幕字体要换。默认用的是 Mac 的苹方，Windows 上没有这个字体，中文会显示成方块。把命令里的 PingFang SC 换成系统自带的微软雅黑就行直接在 Windows 上装依赖的话，命令是这样： > pip install yt-dlp faster-whisper winget install Gyan.FFmpeg > 字体这条 Linux 上也一样，苹方是苹果独有的，得换成系统里的中文字体。想让非苹果系统也能自动选对字体、开箱即用，我正在做适配，可以去仓库提 issue 催我。 ## 怎么用装好以后就一句话的事。下面这些话你都可以直接说：你说的话它做的事把这个链接翻译成中文字幕视频 + 链接全流程，下载到出成品翻译这个视频，要中英双语字幕 + 链接同上，字幕换成中英双语把这个视频转成文字 + 链接只出 Markdown 文稿，不烧字幕给我本地这个视频加中文字幕 + 文件路径本地文件直接处理下载这个视频 + 链接只下载，不翻译用快速模式转写换更快但精度略低的模型翻译时不要水印关掉水印 ## 几个坑先跟你说在前面都是我自己踩过的，提前知道能少走弯路。 YouTube 有时候下不动，报一串 403 之类的错。这是 YouTube 近一年风控变严了。脚本会自动从你浏览器里读 cookies 重试，一般能过。还不行就挂个代理。烧出来的中文字幕是一个个方块。这是 Mac 字体索引的老问题，脚本默认已经绕开了，正常装完不会遇到。只有你手动改过字体设置、或换了系统里没有的字体才会冒出来，真碰上就把字体换回 PingFang SC（苹方）。第一次用抖音，要先登录一次。跑一下 python3 ~/.claude/skills/xiaohu-video-md/scripts/douyin_login.py，弹出来的浏览器里扫码登录，登录状态只存在你自己电脑上，不会上传到任何地方。开源仓库里我也把我自己的登录信息全删干净了，你拿到的是空的。 ## 拿去用，随便改仓库地址在这： > github.com/xiaohuailabs/xiaohu-video-translate 代码是 MIT 协议，水印、字幕样式、默认字号这些你都可以照自己喜欢改。唯一提醒一句：别把你自己的配置文件和抖音登录信息传到公开仓库上去，仓库里已经默认帮你挡掉了。这套工具是我日常真在用的，不是写来演示的玩具。觉得好用，点个 star，有问题提 issue，我会接着维护。下期我会开源自己的文章 IP 配图技能——用个人 IP 形象给文章生成配图，本文里那些插画就是这么来的。

译小互（@xiaohu）开源视频翻译工具（xiaohu-video-translate），只需说一句“把链接翻译成中文字幕视频”即可全自动完成下载、Whisper本地转写、AI翻译润色、烧字幕、出文稿。转写本地运行，不花API费。支持YouTube、Bilibili、抖音等链接及本地文件，英语、日语、韩语、法语、西班牙语等均可转成中文字幕。字幕精确到词级时间戳，按语义断句，每行不超过12字，双语模式下中文大英文小。提供纯中文与中英双语模式。工具由三个子技能组成，可单独或串联使用，适配Claude Code、Codex、OpenClaw等AI编程工具。已开源，附安装指南。

AYi@AYi_AInotes · 7天前24

剪映的翻译很烂，最近尝试vibe了一个本地视频剪辑应用，本来主要是做视频翻译和字幕的，今天试了下根据文档生成口播视频的功能，跑了一版吉卜力动漫风格的，还不错，再迭代一下，增加动画效果啥的，以后可以拿去做微信视频号了～以下是文档内容，大家可以对照感受下～别侥幸，不要撞在监管的枪口上。 1，周末消息特别多，鱼龙混杂。今天本来想写一个图文版本，但这个标题，估计一定会被404。言简意赅，把观点说清楚就行。 2，周五晚美股暴跌，很多媒体把锅给美联储加息。这个理由是完全错误的：1）美债收益率上行，但还未突破5月19日高点。2）美元指数虽然上行，但远未到3月高点。美元流动性在收紧，但幅度很有限。 3，美股这次暴跌的路径清晰。周四晚上，博通暴跌，市场低开高走。周五开盘之后，低开。在一系列不利消息之下，低开低走。这波暴跌的主要原因是SOXX暴跌。而SOXX暴跌，在博通单日跌没了一个阿里的时候，就已经是前奏。 4，SOXX（NYSE半导体指数ETF），本身对美联储加息不敏感。真正敏感的是创新药这些高度依赖，传统资本开支模式的企业。ai本轮的资本开支来自于一级市场以及谷歌等大厂自身良好的现金流。 5，真正问题，市场对于博通200%的增长都不满意。博通200%增长证明了ai的产业趋势，但单日暴跌，证明了市场的预期太高。你一开始的预期是清华北大不可，最后考个中山大学，当然是不符合预期的。 6，也不是说SOXX真的结束了。SOXX这波拔地而起，上涨快速而迅猛。很多投资者获益颇丰，他们的筹码非常稳固，不会因为下跌10%+就恐慌。我们测算了一下，SOXX再下跌10%，这些筹码才会大面积松动。 7，相对SOXX来说，我们问题更严重。周五市场的下跌，是在没有定价SOXX暴跌的情况下。我们市场因为集中度过高，之前已经通过两根大阴线来调节，周五又下跌4%。 8，除此之外，周末有一个应该广泛关注的消息，但讨论度明显不够。村长针对公募基金的发言：公募基金要坚决遏制赌押赛道、风格漂移、高位发行等顽疾。如果市场顺风顺水，其实都还好。但问题在于，趋势已经不好了。 9，公募基金本质上都是国企。对于他们来说，监管宽松的时候，冲赛道搞风格漂移，那是OK的。一旦监管严格了，那么，他们首先想到的必然是保住饭碗。风格漂移，赚钱了都还好说。但如果亏钱了，那饭碗可能都没了。 10，明天，会有一大波资金出于各种目的来进行避险。有多少资金回流老登，不确定。很多买小登的资金，即使小登不好了，也只会选择空仓。老登多少资金回流，取决于多少资金漂移了。24年夏天的时候，很多科技类公募主题基金，重仓股都是四大行。风格漂移在市场极端的情况下，一定会存在的，并不针对科技。只能说，不要赌周一，不要侥幸，尤其是高位上了杠杆的朋友们。

译剪映翻译效果不佳，作者尝试自建了一个本地视频剪辑应用，主要功能为视频翻译和字幕。近日测试了根据文档自动生成口播视频的功能，并输出了一段吉卜力动漫风格的视频。作者表示后续将迭代增加动画效果，可用于微信视频号内容创作。

OpenCode@opencode · 7天前55

OpenCode Go has crossed 100,000 subscribers now doing 1.5 trillion tokens per day

译OpenCode Go 订阅用户突破 10 万现每日处理 1.5 万亿 tokens

Chubby♨️@kimmonismus · 7天前56

A walking contradiction: On the one hand, Daniela from Anthropic says that AI has hardly replaced any jobs so far, on the other hand, co-founder Olah warns the Pope about the disruptive effect of AI on the labor market and society.

译一个行走的矛盾体：一方面，来自Anthropic的Daniela表示，AI迄今为止几乎没有取代任何工作岗位；另一方面，联合创始人Olah却向教皇警告AI对劳动力市场和社会的破坏性影响。

小互@xiaohu · 7天前45

这个说的的挺对的我最近的一个和很强烈的感受也是人机协作才是未来之前我一直追求完全的自动化导致了不停的和AI扯皮或者总觉得对系统、技能不满意一直在修改它... 结果是你越想优化它它就崩溃，往相反的方向走了我现在删除了所有规则，尝试在关键节点进行人工介入来和AI一起完成，效果会更好而且人的精神也好了，不再经常骂AI是傻逼了...

译小互分享个人经验：此前追求完全自动化，导致不断与AI扯皮、对技能和系统频繁修改，效果反而更差。现在删除所有规则，只在关键节点人工介入，与AI共同完成任务，不仅效果更好，人也轻松许多，不再频繁抱怨AI。

歸藏(guizang.ai)@op7418 · 7天前67

转一下笑林老师关于设计工程师定义，想找类似工作的可以看看

译在字节工作8年的动效设计师笑林（@xiaolinbythesea）分享了设计工程师的五种画像：1) AI Design Engineer——将AI能力转化为可交互产品；2) Product UI Craft Engineer——从Figma写出高质量React原型；3) Design Systems Engineer——建立设计系统与代码基础设施；4) Creative Technologist——负责Canvas/WebGL动效与生成式视觉；5) AI Design Workflow Architect——搭建AI工具协作流程。他所在的豆包手机团队也在招聘侧重Android的设计工程师。

郭明錤｜Ming-Chi Kuo@mingchikuo · 7天前65

WWDC26 不影響 Apple 2H26 股價正向趨勢，但將揭露多頭敘事的續航力 ‒‒ 1. Apple 目前的多頭核心敘事，是一個近乎直覺、沒什麼人反駁的市場共識：「即使 Apple 在 AI 進度上暫時落後，最終仍能後來居上」。 2. 根據最新的供應鏈調查，我認為 Apple 的業績將會好到今年底，而這會進一步強化多頭核心敘事成為：「Apple 沒有 AI 都這麼好，有了 AI 還得了！」 3. 因此，無論 Apple 在 WWDC26 上講什麼，只要這個多頭核心敘事沒有被破壞，Apple 2H26 的股價正向趨勢就不易改變。 4. 上述多頭核心敘事並非沒有破綻，但我認為至少有機會維持到 2026 年底。至於能維持多久，就是這次 WWDC26 真正值得觀察的地方。 5. 這次 WWDC26 的重點，不在於發表會結束後的短線股價反應，而是：同樣使用 Gemini，Apple 能否做出比 Google 更好的 AI 應用、agentic workflow、裝置端與雲端混合體驗。 6. 如果答案是肯定的，將有利於延長 Apple 的多頭核心敘事；如果答案是否定的，意味著「Gemini 決定了 Apple AI 體驗的上限」，則股價雖未必會轉空，但「Apple 終究會後來居上」的多頭核心敘事，將開始被更多人重新檢視。

译郭明錤指出，Apple 當前多頭核心敘事是「AI 雖落後但最終後來居上」。供應鏈調查顯示其業績將好到今年底，進一步強化此敘事。WWDC26 上無論發布什麼，只要該敘事不被破壞，Apple 2H26 股價正向趨勢就不易改變。真正觀察點在於：Apple 能否用 Gemini 做出比 Google 更好的 AI 應用、AI 智能體工作流及設備端+雲端混合體驗。答案肯定則利好敘事延續；否則「Gemini 決定 Apple AI 上限」的質疑將削弱「後來居上」共識。

郭明錤｜Ming-Chi Kuo@mingchikuo · 7天前60

WWDC26 won't change Apple's positive 2H26 share-price trend, but it will test the staying power of the bull narrative ‒‒ 1. Apple's core bull narrative right now is an almost intuitive market consensus that few people push back on: "Even if Apple is temporarily behind on AI, it will ultimately catch up and come out ahead." 2. Based on my latest supply-chain checks, I believe Apple's business momentum will remain strong through year-end, which should further reinforce the narrative into something like: "If Apple is doing this well without AI, just imagine once it has AI." 3. So regardless of what Apple says at WWDC26, as long as this core bull narrative stays intact, Apple's positive 2H26 share-price trend is unlikely to change. 4. That core bull narrative has its weak spots, but I think it has a good chance of holding at least through end-2026. How much longer it can last is what makes WWDC26 genuinely worth watching. 5. The key takeaway from WWDC26 will not be the short-term share-price reaction after the event. It will be whether Apple, using the same Gemini, can deliver better AI applications, agentic workflows, and on-device & cloud hybrid experiences than Google. 6. If the answer is yes, it would help extend Apple's core bull narrative. If the answer is no, it would suggest that Gemini sets the ceiling for Apple's AI experience. The stock may not necessarily turn bearish, but the "Apple will ultimately come out ahead" narrative would start to face growing scrutiny.

译郭明錤指出，苹果核心看涨叙事是“AI暂时落后但最终会迎头赶上”。供应链显示业务势头年底前强劲，强化“无AI已不错，有AI更想象”叙事。故无论WWDC26内容，只要叙事不变，苹果2026下半年股价趋势积极。WWDC26真正看点在于苹果能否用同款Gemini做出比谷歌更好的AI应用、智能体工作流及端云混合体验。若能，叙事延续；若不能，Gemini设定AI上限，“苹果最终领先”将受质疑。

Huawei Cloud@HuaweiCloud1 · 7天前56

At Huawei Cloud INSPIRE 2026, Huawei Cloud introduced a new paradigm of Agentic Infra, alongside a series of Agentic AI products: Agentic Infra unified infrastructure for general & AI workloads, new-generation model training & inference platform, and an enterprise agent platform. Huawei Cloud also announced four dedicated zones on its Industry AI Foundry: Smart Healthcare Zone, Embodied AI Zone, Smart Manufacturing Zone, and Scientific Computing Zone. Learn more: https://tinyurl.com/p5z6f9aa #HuaweiCloud #INSPIRE2026 #AgenticInfra

译华为云在 INSPIRE 2026 上推出 Agentic Infra 新范式，作为统一承载通用与 AI 负载的基础设施。同时发布全新一代模型训练推理平台与企业智能体平台，并宣布在其 Industry AI Foundry 中设立四个专属专区：智慧医疗专区、具身 AI 专区、智能制造专区和科学计算专区。

Chubby♨️@kimmonismus · 7天前43

Interestingly, scientists seem to be increasingly divided into two opposing camps: AI skeptics and AI optimists. 150 mathematicians warn governments not to “believe the hype.” At the same time, Field Medalists like Terrence Tao are impressed by the capabilities of programs like GPT-5.5 Pro, which solve numerous problems. Among my acquaintances who aren't active in the AI community, there's still a lot of skepticism. For them, AI is simply a chatbot. I think a lot more education is needed.

译有趣的是，科学家似乎越来越分为两个对立阵营：AI怀疑论者和AI乐观论者。 150位数学家警告政府不要“相信炒作”。与此同时，像陶哲轩这样的菲尔兹奖得主则对像GPT-5.5 Pro这样能解决无数问题的程序印象深刻。在我的非AI圈熟人当中，仍然有很多怀疑。对他们来说，AI只不过是一个聊天机器人。我认为还需要更多的教育。

Rohan Paul@rohanpaul_ai · 7天前68

A longer context window does not solve the real memory problem in AI work. Kocoro just made AI memory a local Mac feature. It’s an open-source Mac AI agent framework at the engine level. Kocoro works by running a local agent on your Mac that can read your past sessions, files, apps, browser, screen, and terminal, then compress useful facts into memory so it can continue work without you repeating everything. Its security model is mostly local-first control: tool actions need permission, risky commands are blocked or re-asked, actions are audit-logged, secrets are auto-redacted, and memory/session sync is opt-in rather than always uploaded. Its Episodic Memory turns past sessions into selected project facts, decisions, collaborators, deadlines, and habits, so the agent can resume work like a teammate rather than a help desk ticket. Every night it distills your workday into a local knowledge graph — projects, decisions, open tasks. Next morning it picks up exactly where you left off. No context re-pasting. Github links in comments

译Kocoro 是一个引擎级的开源 Mac AI agent 框架。它通过本地 agent 读取用户的过往会话、文件、应用、浏览器、屏幕和终端，将有用事实压缩为记忆，使 agent 无需重复上下文即可继续工作。安全模型以本地优先：工具操作需授权，危险命令被拦截或二次确认，行为可审计，秘密自动脱敏，记忆/同步默认不上传。其“情景记忆”将历史会话转化为项目事实、决策、协作者、截止日期和习惯。每晚自动将工作日蒸馏成本地知识图谱，次日直接恢复进度。

AYi@AYi_AInotes · 7天前52

这是我今年看过最震撼的一组图了，同一个人，同一件白T恤，同一个场景。左边短发严肃，他会签走你所有版税，右边长发大胡子，你会把一辈子的事业交给他， Rick Rubin用两张图，把品牌这件事讲透了，也讲透了为什么90%的AI博主，永远建立不了信任。品牌不是你说你是什么，他是别人看到你的一瞬间，脑子里自动生成的那句话，这就是为什么很多人内容做得不差，就是建立不了信任，他们把全部时间花在说什么上，从来没想过看起来像什么，但如果你的内核已经有了，形象还没跟上，那就是在主动打折，我觉得这个判断对AI内容创作者尤其重要，现在的AI内容池子里，大部分人看起来一模一样，同样的风格、同样的头像质感、同样的又一个AI工具分享者的默认信号，你花几个小时写一篇深度文章，别人划过去的时候先看到你的头像，我们都可以去看一眼你现在的头像、封面、配图风格，问自己一个问题：在别人读一个字之前，这些信号让他脑子里的第一句话是什么，如果那句话跟你写的东西是反的，那说明你的视觉在拆你内容的台。

译推文引用Rick Rubin的两张对比图（同一个人、同件白T恤，短发严肃与长发大胡子），说明品牌不是你说什么，而是别人看到你时自动生成的那句话。AI内容创作者花时间在内容上，但视觉形象（头像、封面、风格）未跟上，导致信任打折。当前AI内容池中大部分人看起来一模一样，视觉信号在拆内容的台。建议创作者检查自己的头像和配图，确保在别人读一个字之前，视觉信号传递的第一句话与内容一致。

Alibaba Cloud@alibaba_cloud · 7天前27

Discover why global enterprises choose Alibaba Cloud E-MapReduce (EMR). #1 in TPC-H & TPC-DS benchmarks, it integrates Hadoop, Spark, StarRocks, and more. In this video: ✅ Flexible deployments (Serverless, ECS, ACK) ✅ AI-Native: Run LLMs via SQL/PySpark ✅ 4x faster Spark, 10x faster StarRocks, lower costs ✅ Enterprise-grade security Elastic, efficient, intelligent big data. 🔗 Learn More: https://int.alibabacloud.com/m/1000414155/

译发现为什么全球企业选择阿里云 E-MapReduce (EMR)。在 TPC-H 和 TPC-DS 基准测试中排名第一，集成 Hadoop、Spark、StarRocks 等。在本视频中： ✅ 灵活部署（Serverless、ECS、ACK） ✅ AI 原生：通过 SQL/PySpark 运行大语言模型 ✅ Spark 快 4 倍，StarRocks 快 10 倍，成本更低 ✅ 企业级安全弹性、高效、智能的大数据。 🔗 了解更多：https://int.alibabacloud.com/m/1000414155/

🚨 AI News | TestingCatalog@testingcatalog · 7天前56

Thanks to Ideogram for sending this ❤️ Ideogram 4.0 was one of the biggest releases last week! Especially for the open source community. Tested it 👀

译感谢 Ideogram 发送了这个 ❤️ Ideogram 4.0 是上周最大的发布之一！尤其对开源社区而言。测试了一下 👀

Alibaba Cloud@alibaba_cloud · 7天前56

AI Agent costs are spiraling? Uber’s budget burn reveals the "Tokenmaxxing" trap. The fix isn’t just better models—it’s Ontology. 🚀 STAROps by Alibaba Cloud redefines AIOps with UModel: 🔍 Structural First: Replaces blind text inference with precise Knowledge Graph queries. 💰 10x Efficiency: Slashes Token usage & tool calls by resolving dependencies instantly. 🛡️ Reliable Ops: Ensures auditability & zero-trust accuracy for enterprise systems. Stop guessing. Start querying. https://int.alibabacloud.com/m/1000414199/ #AIOps #LLM #STAROps #DevOps

译AI Agent成本飙升，Uber预算浪费暴露了“Tokenmaxxing”陷阱。阿里云STAROps推出UModel解决方案，采用结构优先方法，用知识图谱替代盲文本推理，通过即时解析依赖关系大幅减少Token消耗和工具调用，实现10倍效率提升，同时确保企业系统可审计与零信任准确性。

数字生命卡兹克@Khazix0918 · 7天前67

最近几天，微信Agent曝光的消息越来越多了。我简单汇总一下： 6月2日，据外媒，腾讯正在测试一款嵌入微信的AI Agent，用户在微信主界面向右滑动即可唤出Agent对话窗口，通过自然语言下达指令后，Agent可自动调用微信生态内数百万个小程序完成任务，演示场景包括根据口味和价格要求找到一家咖啡馆并完成点单。 6月4日，据媒体消息，微信正在与华为、荣耀、小米、OPPO、vivo等手机厂商合作推出A2A（Agent-to-Agent）助手能力，可通过手机语音助理发起微信的音视频通话，或向好友发送消息。 6月8日，微信官方发布《关于开发者接入微信AI生态的指引》，面向小程序开发者们，开始提供接入微信AI生态的能力，未来，可以让微信的AI，对你的小程序能直接调用。今天这条指引，我觉得最有意思的细节是它提供的自动接入模式。只要你授权，打开按钮，微信就可以选择用他们的方式（可能是GUI Agent）来帮助开发者进行全自动改造，原因是小程序数量数以百万计、由不同开发者维护、界面逻辑千差万别，要求所有人配合改造不现实。而且这事好像也只有微信能干了，因为小程序的代码本身就跑在微信的沙箱里，微信天然有读取和分析的能力。这跟之前所有厂做Agent生态的方法都不一样，微信还是微信，生态太恐怖了。而且小程序的用完即走的理念，也天然的适合Agent调用的。海量的小程序，在一瞬间，直接成为了微信Agent背后最庞大的跟现实世界交互的桥梁。 2017年1月9号小程序的种子，没想到，开花发芽在了更庞大的Agent时代。这些消息组合起来，基本上你就可以拼凑出，一个属于微信Agent的图景了。微信，要成为AI时代真正的那个操作系统。外部连接硬件，把自己变成一个巨大的Agent，供硬件厂商调用。内部连接恐怖的微信生态和数百万小程序，成为渠道分发的王。曾经我聊过现在AI产品的商业模式，目前只有两种，一种还卖注意力，就是ChatGPT广告的路子，一种是卖生产力，就是Claude Code的路子。但是在我的理解里，还有第三种。 Agentic Commerce，代理式交易。就是AI直接替你完成一笔交易，帮你订机票、帮你买东西等等，然后AI从这笔交易里抽一个佣金。要知道，光电商一项，全球一年的GMV大概就是7万亿美金，更别提旅游市场、金融市场等等。而现在，好像，微信Agent的生态，好像天然摸到了Agentic Commerce的雏形。这个局，一旦成了。那就真的是，比当年微信本身。还要大的事。

译近日微信Agent消息密集：6月2日外媒称腾讯正测试嵌入微信的AI Agent，用户右滑唤出窗口，可通过自然语言调用数百万小程序完成点单等任务；6月4日微信与华为等手机厂商合作推出A2A能力，可通过语音助手发起音视频通话；6月8日发布开发者指引，提供自动接入模式，因小程序运行在微信沙箱内，微信可直接读取与分析。这标志着微信Agent正连接硬件生态与内部小程序，触及Agentic Commerce雏形。

Alibaba Cloud@alibaba_cloud · 7天前77

🔥 Launch Special for Qwen3.7-Plus: Get 20% OFF now! ✅ Multimodal Interactive Hybrid Agents ✅ Coding & Productivity Assistants ✅ Vision Agents ✅ Cross-Harness Generalization Don't miss the upgrade. 👇 https://int.alibabacloud.com/m/1000414123/ #Qwen #AI #Multimodal #AlibabaCloud #AgenticAI

译🔥 Qwen3.7-Plus 发布特惠：现在享受八折！ ✅ 多模态交互式智能体 ✅ 编程与生产力助手 ✅ 视觉智能体 ✅ 跨任务泛化不要错过升级机会。👇 https://int.alibabacloud.com/m/1000414123/ #Qwen #AI #Multimodal #AlibabaCloud #AgenticAI

Alibaba Cloud@alibaba_cloud · 7天前66

🚀 AgentScope Java 2.0 released! Solving enterprise AI agent challenges: ✅ Distributed & Stateless: Seamless K8s scaling with session recovery ✅ Multi‑tenant Isolation: Secure data separation via Workspace abstraction ✅ Long‑term Stability: HarnessAgent for context management & fault tolerance ✅ Safe Execution: Granular permissions & Human-in-the-Loop support Build production-ready agents on JVM now! 🛠️ https://int.alibabacloud.com/m/1000414189/ #AgentScope #Java #AIAgents #LLMs #OpenSource

译阿里云发布AgentScope Java 2.0，面向企业级AI智能体开发。新版本主要特性：分布式无状态架构，支持K8s弹性扩缩容与会话恢复；多租户隔离，通过Workspace抽象实现安全数据分离；长期稳定性，HarnessAgent负责上下文管理与容错；安全执行，提供细粒度权限控制和Human-in-the-Loop支持。适用于JVM生产环境。开源地址见推文链接。

X.PIN@thexpin · 7天前58

DeepSeek just took its first bite out of the US enterprise market, hitting #1 on Ramp’s leaderboard for first-time corporate buyers. But it’s still early days. As of April, DeepSeek’s adoption rate is just 0.1%.

译DeepSeek刚刚首次涉足美国企业市场，在Ramp针对首次企业买家的排行榜上登顶。但为时尚早。截至4月，DeepSeek的采用率仅为0.1%。

Chubby♨️@kimmonismus · 7天前17

Best pelican-riding SVG I’ve seen so far. Claude Mythos is a beast - an absolute powerhouse. The hype grows by the day.

译这是我见过最好的骑鹈鹕SVG。Claude Mythos 是个猛兽——绝对的强者。热度的与日俱增。

X.PIN@thexpin · 7天前56

The price of humanoids in China just fell off a cliff! Unitree is facing a massive margin squeeze. Their avg. selling price keeps dropping: 🔹2023: $81.6k 🔹2024: $35.8k 🔹2025 (Q1-Q3): $23k Meanwhile, their unit cost only fell from $10k to $8.5k. Bumi, a fierce competitor in the humanoid market, just launched their cosumer-level robot at $1.4k after subsidies. The robot stands at 3′1″, aimed at education and companionship. Nowadays, core components like servo motors and reducers are mainly domestically manufactured. Robots are borrowing heavily from EV and smartphone supply chains, with batteries and vision sensors all repurposed from mature production lines.

译中国人形机器人价格断崖式下跌。宇树科技（Unitree）均价从2023年$81.6k降至2024年$35.8k，2025年前三季度进一步跌至$23k，而单位成本仅从$10k降至$8.5k，利润空间被急剧压缩。竞争对手Bumi推出消费级人形机器人，补贴后售价仅$1.4k，身高3英尺1英寸，面向教育和陪伴场景。核心部件如伺服电机、减速器已实现国产化，机器人供应链大量借鉴电动汽车和智能手机成熟产线，电池、视觉传感器均从现有产线复用。

AYi@AYi_AInotes · 7天前53

好家伙，赛博女友这么快就来了？！不对，是赛博伴侣，因为是男女两款sku，男款身高183，女款身高168，全系标配88个运动关节，据说动作比真人还自然，支持WiFi联网，但续航时间不是很长，只有2-4个小时，魔幻的是优必选连发布会都没开，直接上线了这款全球首个超仿生机器人，兄弟们注意，是全仿生！搭载养成系情感大模型，本地加密存储记忆，支持多维度外观定制，而且还开启了IP合作，damn！尽管要交¥3000定金，目前已经有2000多人直接盲订了这款赛博伴侣机器人🤖

译优必选直接上线全球首个超仿生机器人“赛博伴侣”，分男女两款：男款身高183cm，女款168cm，全系标配88个运动关节，动作逼真。支持WiFi联网，续航仅2-4小时。搭载养成系情感大模型，本地加密存储记忆，支持多维度外观定制并开启IP合作。虽未召开发布会，已开启盲订，需支付3000元定金，目前超2000人下单。

歸藏(guizang.ai)@op7418 · 7天前64

微信终于要加 AI Agent 能力了？微信发布了《开发者接入微信 AI 生态的指引》这篇文章，引导小程序开发者接入微信 AI 生态，让微信的 AI 控制小程序。感觉这个可能是未来微信 AI 上一个非常重要的功能

译微信发布《开发者接入微信AI生态的指引》，引导小程序开发者接入微信AI生态，使微信AI能够控制小程序。该功能被认为是未来微信AI的重要方向，意味着微信可能正在引入AI Agent能力。

Chubby♨️@kimmonismus · 7天前55

Interestingly, banks are the sector where AI will first cause significant job losses. Banks are openly preparing for AI-driven job cuts, with executives at JPMorgan, Citigroup, Goldman Sachs, and Standard Chartered acknowledging that roles will be eliminated as the technology takes hold. Junior analyst classes are being cut by as much as two-thirds, leaving students struggling to break into finance, even as banks still source most of their AI talent from those same entry-level cohorts. Meanwhile, banks are rolling out targeted AI use cases like Citigroup's wealth-management avatar and Revolut's in-app assistant, though some doubt that all the announced cuts are truly AI-driven rather than cover for prior overhiring.

译银行业正公开为AI驱动的裁员做准备。摩根大通、花旗、高盛、渣打银行高管承认，随着AI技术普及，许多岗位将被淘汰。初级分析师班级规模削减幅度高达三分之二，导致学生难以进入金融行业，尽管银行仍主要从这些初级群体中招募AI人才。与此同时，银行也在推出针对性AI应用，如花旗的财富管理化身和Revolut的APP内助手。不过，有人质疑并非所有宣布的裁员都真正由AI驱动，可能只是掩盖之前的过度招聘。

meng shao@shao__meng · 7天前78

最近看了不少 Design Skill、Taste Skill、Anti-AI-slop design skill 等等，我自己也开源了一个 Brand to DESIGN.md Skill (https://github.com/shaom/brand-to-design-md-skill) 目的都是学习借鉴优秀的设计、积累设计品味，让 Agent 去学习沉淀到 DESIGN.md 再复刻生成新的网站。但是这种复刻看多了，就又从 Anti-AI-slop 而生成了新的「AI Slop」，还是缺少设计精髓，皮毛相仿而已。

译邵猛关注 Design Skill、Taste Skill、Anti-AI-slop design skill，并开源 Brand to DESIGN.md Skill（GitHub: shaom/brand-to-design-md-skill），让 Agent 学习设计品味后复刻网站。但他指出，这种复刻看多了反而从 Anti-AI-slop 衍生新“AI Slop”，缺少设计精髓，仅皮毛相仿。

歸藏(guizang.ai)@op7418 · 7天前53

藏师傅的社交媒体卡片 Skill，即将迎来一个非常重磅的升级。可以帮大家解决小红书 Live Photo 的制作问题，同时会帮你制作动态的带文字排版的 Live Photo 这样你可以在发布一些必须的动态内容的时候，依然以图文的形式发布，而不至于做非常重的视频。

译藏师傅的社交媒体卡片 Skill 即将迎来重大升级，新增对小红书 Live Photo 的支持。该功能可帮助用户制作带文字排版的动态 Live Photo，使发布动态内容时仍能以图文形式呈现，无需制作完整视频。具体细节尚未公布，但用户可期待更便捷的社交媒体内容创作体验。

歸藏(guizang.ai)@op7418 · 7天前55

试了一下，公众号图文卡片也是支持 Live Photo 的。只不过要从 iPhone 上上传，这下爽了呀！

译藏师傅的社交媒体卡片 Skill 即将重磅升级，可制作小红书动态带文字排版的 Live Photo，方便以图文形式发布动态内容。随后实测发现公众号图文卡片同样支持 Live Photo，但需通过 iPhone 上传。

PixVerse@PixVerse_ · 7天前65

Thank you for the thoughtful sharing. Our chat at Berlinale was truly inspiring and rewarding! Looking forward to crossing paths again on more stages and occasions 🎬

译PixVerse 宣布 Creative Partner Program (CPP) 2.0 正式上线，面向 AI 视频创作者。该计划围绕真实创作：发布、测试、教学、故事片及公开推广新想法。核心福利包括：合格帖子每周最高可获得 150,000 credits；每周 $2,500 现金奖池，单个创作者单周最高 $850；对大项目、教程、测试内容和电影节投稿提供特别支持。参与者还可获得更多曝光、项目机会及与 PixVerse 共创的可能。申请可通过官网进行。

小互@xiaohu · 7天前53

微信公布小程序接入微信AI 的方式两种模式自动模式：微信自动分析喝操控你的小程序完成任务开发模式：开发者自助开放相关特性，审核后可让微信AI调用目前微信AI还在内测阶段，还无法体验…

Alibaba Cloud@alibaba_cloud · 7天前44

Ready to build next-gen AI agents and win $70,000+ in total prizes? 🚀 Qwen Cloud Global AI Hackathon is live! Harness frontier models, unlock global exposure, and ship your vision. Check the poster below for milestones. 🔗 Register now: https://click.qwencloud.com/m/20000000281/

译准备好打造下一代 AI 智能体并赢取总计超过 70,000 美元的奖品了吗？🚀 Qwen Cloud 全球 AI 黑客马拉松现已启动！利用前沿模型，获得全球曝光，实现你的愿景。查看下方海报了解里程碑。 🔗 立即注册：https://click.qwencloud.com/m/20000000281/

小互@xiaohu · 7天前57

http://x.com/i/article/2063870567355400192 # Google 发布 Agentic RAG ：搜不全就接着搜的"质检 Agent" 准确率提升 34% Agentic RAG 跨库检索是 Google 给企业问答场景做的一套检索框架，靠多个 AI Agent 分工协作：让系统自己判断"搜到的资料够不够回答这个问题"，不够就带着线索回去接着搜，凑齐了再开口。 - 它针对一个老毛病：传统 RAG 搜一轮就回答，可信息往往分散在不同数据库里，结果要么给半截答案，要么干脆甩一句"没找到"。 - 真正的新东西是一个叫 Sufficient Context Agent 的"质检员"，专门检查信息够不够、到底缺哪一块，再让系统带着具体反馈回去补搜。 - 在 FramesQA 多跳问答测试里，准确率比传统 RAG 最高提升 34%；要从 4 个数据库里挑对地方检索时，仍能答对 90.1%，而且速度几乎没变慢（平均差距 3% 以内）。一位医生在系统里输入：John Doe 做完膝盖手术，出院后用什么药、有什么饮食限制、住院期间有没有出现过敏反应？系统转一圈回来：用药列在这里，低钠饮食列在这里。至于过敏，没找到。麻烦就在这。过敏记录其实在档案里，只是没躺在最显眼的那几份文件里。系统第一遍没翻到，就当它不存在，干脆利落交了一份缺了一块的答案。对医生来说，“没查到过敏”和“没有过敏”是两回事，差这一点可能就是一次用药事故。我们现在多少都在用“能查资料的 AI 助手”，也多半都遇过这种半个答案：问它一个稍微绕点的问题，它信心十足回你一段，看着挺像样，仔细一对，漏了关键一块，或者干脆编了一块。 Google Research 和 Google Cloud 在六月初联合发布了一套新框架，专门治这个毛病，名字叫智能体检索增强生成（Agentic RAG），目前在 Gemini Enterprise Agent Platform 上以公开预览（public preview）开放。它真正的新东西不是“搜得更强”，而是一个听起来很朴素的能力：让系统知道自己没找全。 ## 先说清楚：RAG 是什么，为什么它会一本正经地胡说大语言模型（Gemini、GPT、Claude）有个天生缺陷：知识是训练时“背”下来的，背完就定格了。你问它公司昨天的财报、病人上周的检查结果，它压根不知道。检索增强生成（RAG）就是给模型外挂一个能随时翻阅的资料库。你提问时，系统先去库里搜出相关片段，连同问题一起塞给模型，让它“看着资料回答”。企业查内部文档、客服查产品手册、医院查病例，全靠这套机制。问题出在一个魔鬼细节上：模型答得好不好，全看塞给它的资料够不够。资料齐全，它头头是道；资料缺了一块，它不会停下来说“我手上的材料不够”，而是拿着残缺资料继续编，把缺的那块用想象补上。这就是“幻觉”。更要命的一点后面会讲到：喂资料有时反而让它编得更凶。传统的 RAG 是“一步到位”式的：看一眼问题，去库里捞一把相关文档，丢给模型，完事。应付简单问题没问题，但企业里的问题往往一步查不完。 Google 博客里的例子：你问“Project X 用的服务器是什么配置？”系统找到了 Project X 的文档，可里头只写了一个服务器编号（ID），真正的配置参数存在另一个数据库，得拿这个 ID 再去那边查一次。传统 RAG 不做这第二步——它捞到文档发现没配置，就给你“半个答案”或一句“没找到”，不知道手里那个 ID 是把钥匙，更不知道还有另一扇门要开。信息散落在一座座彼此不通的“数据孤岛”上，传统 RAG 只在第一座岛上找。 ## 把多智能体系统想成一个有分工的研究部门 Google 这套框架的第一层改造，是不再让一个“搜索引擎”单打独斗，而是组一支有分工的研究团队。传统 RAG 像个实习生：给他一个问题，他跑去档案室抓一把看着相关的文件就回来了。而这套多智能体（multi-agent）框架更像一个真正的研究部门，里面好几个角色各司其职： - 编排者（Orchestrator）：部门主管。看一眼问题先做个判断“这不是一步能干完的活”，然后把任务拆开、分派下去。 - 规划智能体（Planner）：制定路线的人。你问一个项目的预算和进度，他会规划“先查财务库，再查项目管理日志”，哪个信息在哪儿、按什么顺序取，由他安排。 - 查询改写智能体（Query Rewriter）：翻译官。把含糊的话改成精确搜索词——你随口一句“Project X 怎么样了”，他拆成“Project X 第三季度状态报告”和“团队的关键阻塞”，机器照这种精确的词去搜，命中率高得多。 - 搜索扇出智能体（Search Fanout）：同时跑腿的人。把改写好的多条查询一次性并行发给多个资料源，把片段都收集回来。 - 综合智能体（Synthesis）：最后执笔的人。材料齐了，由他把所有片段整合成一份干净、准确的答案。到这一步你可能觉得，多请几个人分工干活，也只是把传统 RAG 做得精细了点，市面上别家的“多智能体 RAG”也是这个路数。 Google 这套真正不一样的地方，是下面这个。 ## 核心创新：一个站在流水线尽头的“质检员” 这个新角色叫充分上下文智能体（Sufficient Context Agent），是这套框架和别家最不一样的地方。最直白的比喻：它是站在流水线尽头的质检员。别的环节都在埋头搜资料、攒材料，只有它专管一件事：在答案生成之前，检查手里这堆材料到底够不够回答问题。它和其他多智能体 RAG 的根本区别，Google 用一个词概括：持续性（persistence）——发现信息不够时，它会让系统回去接着搜，直到材料凑齐为止，而不是两种偷懒做法二选一：要么第一次没搜到就硬着头皮瞎编，要么干脆甩一句“我没有足够的信息”。后面这句看着挺诚实，其实常常是另一种失职：信息明明就在库里，只是第一遍没翻到。该接着找的时候放弃，和该停的时候硬编，是同一个病的两种症状——系统不知道自己手里到底缺什么。这位质检员具体查三件事：第一，检查捞回来的资料片段。它去读搜索智能体从库里实际拉出来的文本块，比如医生那例子里“出院小结”和“营养记录”的具体段落，一句句读，判断回答这个问题需要的信息到底在不在这些句子里。第二，对照一份“粗稿”。系统先用现有材料生成一份草稿答案，质检员把三样东西摆一起看：原始问题、这份粗稿、捞回来的资料片段。问题问了三件事（用药、饮食、过敏），材料里只有两件，它立刻标记“上下文不充分”。第三，也是最关键的：缺失分析。质检员不会只甩一句“材料不够”就完事，那等于没说。它会生成具体的原因和反馈，精确指出缺的是哪一块、回去该搜什么。还是医生那例子，它发现过敏记录缺失后，输出不是“信息不全”，而是这样一段： > 已有的：用药清单和低钠饮食说明。缺的：源文件里关于住院期间过敏反应或不良事件的信息。怎么办：回去专门搜“皮疹”或“不良事件”。有了这条精确反馈，查询改写智能体立刻据此造一条新搜索，搜索智能体回头深挖第一遍忽略掉的那些文件，这次找到了过敏记录。质检员再核一遍，确认用药、饮食、过敏三样齐了，才放行。整个流程一共五个阶段：编排 → 搜索 → 充分上下文检查 → 迭代 → 综合。前两步别家也有，真正让它和“瞎猜”或“放弃”分道扬镳的，是中间那个会反复较真的质检员。 ## 整套思路的起点：相关，不等于够用这套思路背后，藏着一个非常出人意料、也非常容易被忽略的判断，它来自 Google 一年前的一篇前作研究。这才是整件事真正的思想源头。过去人们衡量“搜来的资料好不好”，几乎只看一个指标：相不相关。资料跟问题沾边，就算搜得不错。但 Google 这帮研究者说，相关是个错的尺子，真正该问的是另一个问题：这些资料够不够回答问题？相关，和够用，是两码事。看一个例子就懂问题是：404 报错（网页打不开时常见的“页面未找到”）这个编号，据说是以某个实验室里编号为 404 的房间命名的，那个存放着错误信息中央数据库的房间，在哪个著名实验室里？来看两段都“相关”的资料：第一段： 404 报错得名于 CERN（欧洲核子研究中心）的 404 号房间，那房间当年存放着错误信息的中央数据库。第二段： 404 报错表示网页服务器找不到你请求的页面，原因可能有很多：网址打错了、页面被移动或删除了，或者网站临时出了点问题。你看，第二段和这个问题极其相关，确实在讲 404 是什么，任何一个只看“相不相关”的系统都会觉得它是个好结果。但它回答不了那个问题：404 房间到底在哪个实验室？答案（CERN）压根不在这段话里。这就是“相关但不够用”。系统失败，往往不是因为搜来的东西不相关，而是它把“相关”当成了“够用”，拿着一堆沾边但答不了题的资料，就大模大样地开始编答案了。那篇前作还证明了一件挺关键的事：判断“上下文充不充分”，机器是能做到的，而且做得相当准。他们造了个自动评分器（autorater），专门给“问题—资料”这一对打分，准确率至少有 93%。最有意思的是，效果最好的不是什么专门训练过的模型，而是直接拿 Gemini 1.5 Pro 写个提示词去问，连微调都不用。也就是说，“判断自己缺没缺信息”这件事，现成的大模型本来就会，只是过去没人专门让它去做。 ## 最让人意料之外的发现：喂资料反而让它编得更凶还挖出两个让人意外的发现，直接解释了 RAG 为什么这么不靠谱。第一个：顶级大模型普遍“不会认怂”：拿 Gemini、GPT、Claude 这几个最强的模型做测试，结论很一致：它们资料充足时答得非常好，却普遍缺乏“识别资料不够”的能力。该弃权时不弃权，材料明明残缺，照样信心满满给你一个答案。会答题，但不会说“我不知道”。第二个，是全文最出人意料的数字：直觉上，多喂点资料总该答得更准，研究者发现恰恰相反：喂了不充分的资料，模型反而更容易胡说。一个叫 Gemma 的模型，在完全不给资料时答错率是 10.2%，可一旦喂给它不充分的资料，答错率直接飙到 66.1%——翻了六倍多。为什么？研究者的解释是：额外的资料抬高了模型的“自信”。它面前摆着一堆看起来相关的材料，于是更倾向于相信“我手上有料，能答”，更愿意去编一个答案，而不是老老实实承认“我不知道”。资料越多，它越敢编。两个发现合在一起，把问题的本质点透了：RAG 不靠谱，真正的病根不是“搜得不够强”，而是系统不知道自己没找全。它分不清“相关”和“够用”，又天生不会认怂，手里材料一残缺，第一反应不是回去补，而是自信地往下编。 ## 实验：在 824 道刁钻题上，准确率最高提了 34% 光讲道理不够，看 Google 自己跑出来的数据。他们用了一个叫 FramesQA 的评测集，专门挑那种“一步答不出来”的多跳问题，一共 824 道题，配一个装着 2676 份 PDF 文档的资料库。题有多刁钻？看一道样例： > 截至 2024 年 6 月，收视率最高的两个电视剧大结局里，哪一个时长更长，长多少？人来答这道题得分三步：先认出“收视最高的两个大结局”是哪两部剧（《陆军野战医院》和《干杯酒吧》），再分别查到它们的时长，最后算差值。任何一步断了，整道题就废了。传统 RAG 碰上这种题常卡在中间，给一句“反复检索后，我没找到明确时长”。而 Google 这套靠着查询改写和那位质检员，会先搜出是哪两部剧，再发起一次专门针对时长的精确搜索，最后由 Gemini 算出“前者大结局 150 分钟，是两者中更长的，比后者长 52 分钟”。这就是“持续性”的价值：第一遍没查到不是终点，而是再搜一轮的起点。放大到 824 道题的规模上，对比标准 RAG，这套框架在事实性数据集上的准确率最高提升了 34%。这里的“标准 RAG”不是个软柿子：它用的是 Google 自家的 Vertex AI RAG Engine，本身就带了高级检索、大模型解析和重排序。能在这么强的底子上再提 34%，说明这提升是充分性检查加反复补搜实打实挣来的，不是靠垫高弱对手刷出来的。还有一个更能说明问题的设置：跨库检索。研究者故意往资料库里额外混进 3 个不相干的“干扰数据集”，逼着规划智能体必须先判断“这道题该去哪个库取料”，模拟的是真实企业里不同数据库分属不同团队、散落各处的常见局面。结果是：即便要从 4 个库里选对那一个，系统仍然答对了 90.1%，几乎追平了只在单一库里检索的成绩——多了一道“找对库”的难关，准确率几乎没掉。 ## 另一面：有点贵，还有点慢智能体 RAG 更准，是因为派了一支团队反复搜、反复查、反复迭代。每多一个智能体、每多一轮迭代，都是实打实的算力和时间。综合行业经验，相比传统 RAG，它通常要多烧 3 到 10 倍的 token、延迟增加 2 到 5 倍。按每天 1 万次查询估算：传统 RAG，每日成本约 $500，单次响应时间 1 - 2 秒智能体 RAG，每日成本约$1500 - $5000，单次响应时间，8 - 12 秒。 8 - 12 秒，对一个等答案的人已经到了怀疑系统是不是卡死的临界点；成本翻几倍，放到日查询百万次的业务上，就是按月几十万美元的差距。这里有个数字特别要小心。Google 强调：跨库版本比单库版本，延迟只多 3%。听起来很漂亮，多查好几个库几乎不拖慢速度。但这个 3% 是障眼法。它比的是「智能体 RAG 跑单库」和「智能体 RAG 跑跨库」，两边都是智能体 RAG，只是配置不同，差距当然小。真正该问的是另一件事：智能体 RAG 比传统 RAG 慢多少？答案就在上面那张表里，1-2 秒变成 8-12 秒，慢了好几倍。Google 用一个 3% 的小数字，把「比传统方案慢好几倍」这个大事实轻轻绕了过去。另外，那些准确率数字（34%、90.1%）也是 Google 用自家「大模型当裁判」（LLM-as-a-judge）评出来的，是公开预览阶段的产品口径，不是中立第三方复现的结果，看的时候自己打个折。 ## 谁能用、怎么用、还差什么这个功能现在是 Gemini Enterprise Agent Platform 上的公开预览。Gemini Enterprise Agent Platform 是 Google 今年 4 月 22 日在 Cloud Next '26 上推出的平台，本质是 Vertex AI 的升级换代版，主打企业级 AI Agent 的搭建、治理和扩展。入口在 RAG Engine 的 Cross Corpus Retrieval（跨库检索）文档里。值得用的场景： - 多跳问题：答案散在多个数据源里，要查好几步、再做推理才能拼出来； - 模糊查询：用户问得含糊，需要先改写、再澄清才知道到底在问什么； - 高风险领域：法律、医疗、金融，答错的代价极高，慢一点、贵一点完全能接受，换来的是少出一次致命错误。医生查病例那个开场例子，正落在这一类里：宁可多花八秒、多烧几倍 token，也不能漏掉一条过敏记录。不值得用的场景： - FAQ 机器人、单一事实查询：答案就在某一个自包含的资料块里，一步就能捞到； - 速度或成本敏感的场景：用户等不起十秒，或者预算扛不住翻几倍，这时候传统 RAG 更快、更便宜，也更实际。拿一支研究团队去回答一句 FAQ，是杀鸡用牛刀。原文：https://research.google/blog/unlocking-dependable-responses-with-gemini-enterprise-agent-platforms-agentic-rag/

译Google 发布 Agentic RAG 框架，核心新增 Sufficient Context Agent，负责在生成答案前检查检索材料是否充分，若不充分则生成缺失分析并引导系统迭代搜索。在 FramesQA 多跳测试中准确率最高提升 34%，从 4 个数据库检索时正确率达 90.1%，速度仅慢 3% 以内。该设计基于前作发现：Gemini 1.5 Pro 判断“上下文充分性”准确率达 93%，且“相关≠够用”是幻觉关键原因。目前以公开预览在 Gemini Enterprise Agent Platform 开放。

Tencent Hy@TencentHunyuan · 7天前69

Can AI truly edit audio, not just generate it? 🎧 Tencent Hy, in collaboration with SJTU, SII, NTU, TJU, ZODA, PKU, FDU, and other collaborators, introduces MMAE. MMAE--A Massive Multitask Audio Editing Benchmark, is the first comprehensive evaluation benchmark for speech and audio "Banana🍌" Instead of simply requiring the AI to "generate" audio, it demands that the AI understand an existing audio clip and precisely modify it according to natural language instructions—altering what needs to be changed while leaving the rest untouched. Current models show an Exact Match Rate (EMR) below 5%, revealing a major gap in reliable audio editing. MMAE includes: ✅ 2,000 high-fidelity samples from real-world scenarios ✅ 17,741 fine-grained rubric evaluation items ✅ 7 modality settings across sound, music, speech and their mixtures ✅ 6 task complexity from basic modifications to multi-hop reasoning and multi-round editing ✅ 8 operation types across local and global granularities How to use: arXiv: http://arxiv.org/abs/2606.07229 GitHub: https://github.com/ddlBoJack/MMAE HuggingFace: https://huggingface.co/datasets/BoJack/MMAE Demo: https://youtu.be/6At5nTWhlXI

译腾讯混元联合上海交大、南洋理工等机构推出MMAE（Massive Multitask Audio Editing Benchmark），这是首个全面评估AI语音/音频编辑能力的基准。MMAE要求模型理解现有音频并按自然语言指令精确修改，而非简单生成。当前模型在该基准上的精确匹配率（EMR）低于5%，暴露了可靠音频编辑的短板。MMAE包含2000个真实场景高保真样本、17741条细粒度评估项，覆盖声音/音乐/语音及混合共7种模态、6种任务复杂度（基础修改到多跳推理及多轮编辑）、8种操作类型（局部到全局）。论文、代码、数据集和演示已公开。

歸藏(guizang.ai)@op7418 · 7天前62

也是没招了，Notion直接点名 Anthropic Opus 4.7 和 Opus 4.8 模型性能下降的问题。他们也澄清了，说都会存在这种问题，目前性能下降问题已经恢复。但是 Anthropic 这个模型出问题的概率真是比其他两家高非常多。我截了一下这三家的状态页面，Anthropic 甚至连 99% 的可用性都保不住。

译Notion AI 状态页面显示，Anthropic Opus 4.7 和 4.8 模型出现性能下降，导致用户选择这些模型时失败率升高。Notion 已禁用模型选择器中的所有 Anthropic 模型，并将请求路由至其他供应商，大多数用户可继续使用 Notion AI。Anthropic 澄清此类问题普遍存在，目前性能已恢复。但推文作者指出，Anthropic 模型出问题概率远高于其他两家，其状态页面甚至无法保证 99% 可用性。

Deedy@deedydas · 7天前70

This is the best scene in Hell Grind, an entirely AI-made movie, the flashback. Watch it and read this analysis on where we are with AI movies today: time, cost, quality. Overall: Phenomenal technical demo by Higgsfield. Mediocre movie. Good graphics, hints of emotion, but superhero movie level quality in certain scenes at best. Too many cuts. That said, 660x fewer man hours, 50x faster and 36x cheaper than the median US film. Time: The 95 min film took 15 people 14 days. The median US theatrical production takes ~200 people ~2yrs. That’s a 660x improvement in man-hours and 50x in calendar time. Economics: It took $500k, 80% of which was compute. The final footage was cut from ~100hrs of footage generated from text to video / image to video models like Bytedance’s Seedance: a 64:1 “curation” ratio. The median US movie takes ~$18M, with even indie films costing $1-5M. Thats 36x cheaper than median. Quality: Average watch *at best*. Way too many cuts between shots, several characters change accents and have “AI” synthetic voices and characters feel like it’s AI too. Movement, editing and blocking feel artificial too. On the plus side, we’ve more or less solved character consistency, camera angles and realism. The reason the movie wasn’t amazing was more about poor directorial choices than innately unusable video models. Hard to put a number on it but maybe we’re at ~90% on quality that is technically achievable. If Scorsese made an AI movie, I reckon it would be quite good. I know the visceral reaction to anything AI is real and well-studied. But I think it’s folly to fight the inevitability of AI film. It’s too cheap and quick to ignore and almost there on quality. Creators with distribution *will* make AI films and shows and just put them on YouTube. This is the worst quality, slowest and most expensive it will ever be. In the end, good content beats “real” content.

译95分钟AI电影《Hell Grind》由15人14天完成，成本50万美元（80%为算力）。相比中位数美国电影（约200人2年、1800万美元），实现660倍人时、50倍时间、36倍成本改善。影片从约100小时AI生成素材（使用字节跳动Seedance等模型）中按64:1比率剪辑。质量方面，角色一致性、摄像机角度和写实感基本解决，但剪辑过多、角色口音多变、AI合成声音明显，动作和编排生硬——整体平庸，主因是导演选择而非模型限制。作者认为这是AI电影最差、最慢、最贵的时刻，未来创作者将直接投放YouTube。

AYi@AYi_AInotes · 7天前30

卧槽，挖到宝了兄弟们，全网最好的大模型驾驭工程学习网站，完全免费，一分钱都不用花，但是90%的AI工程师估计连这个词都没听过，这个必须收藏学习，冲！链接入口老规矩评论区自取！

译推荐一个完全免费的大模型驾驭工程学习网站，号称全网最好，但90%的AI工程师可能都没听说过。链接位于评论区，建议收藏学习。

小互@xiaohu · 7天前47

微信内置的AI Agent 曝光不过看这个界面多半也是没啥用... 至少加个群聊总结，我都觉得能更好

数字生命卡兹克@Khazix0918 · 7天前64

http://x.com/i/article/2063827681960235009 # 今年高考，我让12个顶级AI一起考了语文和数学，结果有点意外。一年一度的高考季又到了。从上上周开始，就有很多朋友来问我，今年高考还测不测大模型考试了。测，肯定测。但是肯定要跟去年要有一些区别对吧，去年我只测了部分的数学题，今年要是还这么玩，那就太无聊了。所以，我想了想，今年不如整个大一点的活，让所有的顶级AI一起，来全面的考一下语文和数学，这两个，全都考。在所有AI都在发力代码和Agent能力的情况下，究竟谁的语文能力最高，我还是非常好奇的。这次的参赛模型呢，基本市面上主流的大模型我也都拉来了，基本都是大家的旗舰模型。国外基本就是大家熟悉的御三家，Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro。国内这边，我也尽量选了各家现在最能打的。千问3.7 max、文心Ernie 5.1、星火Spark X2、智谱GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3这些都有。让这些大模型，一起做了这两套卷子。而我肯定没有对语文和数学高考题目阅卷的能力，所以这次，我想了想，找身边的朋友们化了下缘，终于，也邀请到了4位有过类似阅卷经历的高中老师们，来跟我们一起整这个活。因为语文会稍微主观一点点，并且我们也不像真的高考一样有一些打分细则，所以我们邀请了3位语文老师来共同阅卷，让他们充分发挥，最后取平均分，这样会公平一点，所以最终是3位语文老师和1位数学老师。但是真的非常非常感谢几位老师，陪我们一直干到了凌晨，每个人几乎都认真批改了十二份的卷子。。。真的，无以为报。。。而卷子的挑选上，虽然也都是选用的全国一卷，这次会稍微有点特殊。因为语文这次比较可惜，等到晚上8点也没有等到完整版的卷子，所以只能最终使用中国考试官方发布的部分试题和参考答案上进行测试，满分大概是100分，最终分数会基于比例，再换算至150分。数学则是完整的真题试卷，就比较简单了。然后呢，为了保证这次AI高考的公平性，我们还是下了不少功夫做平衡的，限制了不少规则： 1. 使用API调用各个模型，都开thinking，不限制最长的token数，所有的工具调用都强行禁止，像什么代码推理、网页搜索什么的都关掉了。 2. 除了讯飞星火、百度，其他10家统一走OpenRouter调用，这样可以保证最公平公正。 3. 模型的输入，语文和数学都采取了通过LaTeX格式纯文本输入的方式。数学本来我们打算是分成多模态和纯文本赛道的，但是真题一出来之后，发现只有一道题，也就是立体几何那道题带图形。但题干其实就完全包含了这个图形的所有信息，没有必要，所以就改成了全部都通过LaTeX格式输入。虽然PDF转LaTeX格式这一步是AI做的，但是让它转了之后，我也同样写了一个LaTeX编译器的脚本，它会在左边放上原本的题目，右边是LaTeX数据编译后的最终题目，方便我和老师们进行核对，在准确性上，我们还是花了一些力气的。然后我们也开发了一个自己的考试脚本，我们只需要把题目丢进去，脚本就会自动调 API，自动让模型作答，自动把客观题判掉，主观题再送到我搭的在线阅卷平台里，让真人老师盲评。考试的Prompt按照下面的设置给模型。客观题只是单纯限制它的格式输出，方便我的脚本对客观题进行打分，不做任何的引导。主观题就直接把裸题给模型丢过去让他作答。以及在数学的填空题上面，也是让它根据数值打分，不是根据格式打分。因为填空题容易出现，在分数或者说有根号的情况下，会有不同的写法，同一个数值会有不同的写法。所以这次在脚本中也是有格外注意这一点。反正作答上我们尽量确保要公平、公平再公平，客观、客观再客观。最后，模型输出的所有的结果，我们又开发了一个阅卷网站，供我们的4位老师们进行阅卷和评分。老师使用自己的名字，登进去之后，看到的每份卷子上面只有一个代号。卷ABCD巴拉巴拉。这样的话，老师并不知道这道卷子是哪一个模型做的答，也会避免一些前置的刻板印象带来一些阅卷上的影响。老师可以随意选择一套卷子开始阅卷，然后里面的打分界面是这样的。直接在里面逐题批改。还可以写上自己的评语。真的，老师们特别辛苦，因为语文的卷子迟迟不出最终版，所以我们最后只能用部分版来考试，几位老师都生生的阅卷到晚上11点以后了。向老师们致敬。最后，在经历了将近12个小时的奋战之后，我们的12位大模型的考试分数，终于出炉了。他们，是这样的。这里我提前叠个甲，这个分数和排名，只是我们基于自己的体系做题出来并且由老师们主观评选出来的，而且只跟语文和数学做题有关，跟大家现在讨论的代码和Agnet能力无关，且可能会展示部分的人类偏好，排名与分数仅供娱乐参考，不代表任何指向。这里面有几个让我挺意外的地方。先看总分，第一名MiMo v2.5 Pro，256.3分。第二名Kimi k2.6，256.29分。差了0.01分。我把语文的评分单独拎出来看了下，这里注意一下，因为语文真题目前全部的还没出来，所以现在用的是部分的题集合成的101分版本，最后折算成150分制的，所以下面你看到的总分其实都是101分制的。要知道我们测评的语文卷子只有一道客观选择题，其他全是主观题，再加上有作文的存在，换算到实际评分上，可能就是某位语文老师在某道主观题上多给了1分的区别。往下看从第三名到第九名，Claude Opus 4.8，一直到GLM 5.1和Gemini 3.1 Pro并列的252.78，7个模型之间的差距仅仅在2分。可以说，至少在这两套高考卷子上的表现，前面这9个顶级的AI大模型模型几乎真的都拉不开差距了，分差极小。看完了总分，再来看看单科的成绩。你会发现，我们的语文状元在3位老师盲测中，由GLM5.1和Gemini 3.1 Pro共同摘夺桂冠，但是在数学上又有点偏科，而且几乎都是兄弟肩并肩，我的脑子里已经出现了中学班上某一个同学的样子了。。。反过来的例子也有，DeepSeek V4 Pro，和MiMo、ERNIE 5.1三家并列数学最高分，但语文又奇低。。。坦率的讲，这其实不太符合我对DeepSeek强世界知识的印象。我把语文的评分单独拎出来看了下，这里注意一下，因为语文真题目前全部的还没出来，所以现在用的是部分的题集合成的101分版本，最后折算成150分制的，所以下面你看到的总分其实都是101分制的发现DeepSeek的作文，属于拉完了。最后一位老师手比较松，虽然打出的分数是49分，但是在他过去的打分中，其实也不算高了。他们的评语其实也都非常的有意思。所以他们一改完卷，我也去认真看了看他们所有的评语。其实三位老师从给分上看，是能看出来他们有各自的偏好，但是在他们的评语有一个共同点。他们很在意高考作文的可评分结构。评语里会高频出现文体不清，文章结构不够清晰，观点不够清晰明确，论证不充分，时代关联不足等等评语。比如这一篇所有模型中得分最高的，由GLM 5.1写的作文，就有两位老师都提出了文章结构不够清晰的毛病。作文原文我也放在这里了，大家可以在评论区评一评。语文大概就是这样，我们再看看数学的得分明细。你会发现几乎所有的模型，其实没啥大的分差。我也从数学老师那里得到了非常积极的反馈，刚改完前面几个大题，他就在很兴奋的跟我说，发现正确率挺高的，基本都是满分。不过唯一一道让大家全军覆没的，就是填空题的最后一题。懂的人可以来说一说这是个什么难度，反正我不太懂= = 还有一个有意思的就是，我在让Opus 4.8跑数学最后一道大题的时候，他莫名其妙的卡死了很多很多轮。。。不太有意思的就是，我忘记它一直在重试，导致我OpenRouter上为数不多的余额全给耗光了。。。不过最后好歹还是搞出来了。以上，大概就是这次AI高考的结果，跟我最开始预期的，还真的是有点区别。我又做了一下各家的位置图，大家可以看看。真的是情理之中，又是预料之外。还挺好玩的。忽然又想起，2023年，我第一次拿高考题去测AI。当时是让ChatGPT去写高考作文。那会儿GPT-4还是最能打的，国产模型甚至都还没有几个。 2024年，国产也开始卷起来了，但还是有很多哭笑不得的翻车。去年2025那次测完，有几个模型的数学水平已经够上一本线了。今年是2026。四年了。也算是见证了那好多好多个模型的浮沉。我们自己也在变，23年的时候，只会写个作文，去年测试，还是人工复制粘贴到十几个大模型的官网里面去测试，不断的roll。今年，写批量脚本，写LaTeX转译，请高考阅卷老师们助阵，又为他们徒手开发了阅卷网站。我当然也可以随手测一下整个活，但是想了想，这几年，在这个选题上，我觉得还是要尽可能的保证客观和公平。因为，这是高考。这两个字，在中国，承载的东西太多也太厚重了。做阅卷网站的时候，我一直在纠结用什么主意象，最后选了凤凰花。六月的凤凰花开得正盛，每年都准时赶在这个节点上，送走一届又一届的人。最后。我想用最近一段对我非常有感触的话来结尾，它来自《燕云十六声》最近更新的青州地图的最后的任务，当一众学子即将毕业之时，文津馆文元林险生对大家说： “你们，自天南地北负笈而来，今日散去，又是去往天南地北，此后山长水远，很多人将不复相见了。此去，必有风霜凛冽之时，愿诸君，乾坤既大，草木尤青，本心择路，笃志前行。各位，一路顺风。

译今年高考，12个国内外旗舰大模型（Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro、千问3.7 max、文心Ernie 5.1、星火Spark X2、智谱GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3）参加语文和数学全国一卷测试。采用API调用、禁止工具、LaTeX纯文本输入，4位高中老师盲评阅卷。总分第一：MiMo v2.5 Pro（256.3分），第二Kimi k2.6（256.29分），仅差0.01分。语文最高：GLM5.1和Gemini 3.1 Pro并列；数学最高：DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。前九名模型总分差距仅2分，数学主观题正确率高，唯填空题最后一题全军覆没。作文评分看重结构清晰度与时代关联。