What happened when one of our models found a counterexample to an 80-year-old Erdős conjecture? Researchers @alexwei_, @HongxunWu, and @wjmzbmr1 shared the story on the OpenAI Podcast with @AndrewMayne and explained how mathematicians and models can work together to make new discoveries.
译当我们的一个模型找到了一个80年历史的Erdős猜想的反例时,发生了什么? 研究人员@alexwei_、@HongxunWu和@wjmzbmr1在OpenAI播客中与@AndrewMayne分享了这一故事,并解释了数学家与模型如何合作取得新发现。
ChatGPT vs Grok Asked both to turn this pixelated logo into a high-resolution image. ChatGPT failed badly while Grok delivered a clean, sharp, high resolution image. Grok is the clear winner.
译ChatGPT vs Grok 让两者将这个像素化的logo转化为高分辨率图像。 ChatGPT严重失败,而Grok提供了干净、清晰的高分辨率图像。 Grok是明显的赢家。
Sam Altman admits AI budgets are turning into a “huge issue,” with customers burning more tokens than even OpenAI’s top in-house users. Altman said OpenAI’s top internal user spends about 100B tokens/month, while one outside customer hit 603B tokens/month. The cost problem gets worse with AI agents because they do not just answer once, they plan, call tools, read files, retry failed steps, check their own work, and create long chains of hidden token spending. Every plan, retry, code review, context window, tool call, and verification step becomes metered cognition. A human asks once; an agent may ask hundreds of times in a second. Companies are no longer asking whether AI is impressive, but whether the marginal token is producing marginal value. Jevons paradox explains part of the trap: when AI gets cheaper per token, people use far more tokens, so the total bill can still rise.
译Sam Altman 表示 AI 预算正成“巨大问题”。OpenAI 顶级内部用户月耗约 100B 模型 token,而外部客户高达 603B。AI 智能体使成本恶化:agent 不止回答一次,而是规划、调用工具、读取文件、重试失败步骤、检查自身工作,产生大量隐藏 token 消耗。人类问一次,agent 可能一秒内问数百次。公司不再问 AI 是否令人印象深刻,而是问边际 token 是否产生边际价值。杰文斯悖论解释部分陷阱:每 token 成本下降,人们使用更多 token,总账单仍可能上升。
Based on anecdotal conversations with peers, there is enthusiasm for AI among academics in the humanities (while still being worried - rightly - about the negative consequences as well), but they generally don't post their opinions about it on social media, for obvious reasons.
译Ethan Mollick 根据与同行的非正式交流指出,人文学科学者对 AI 抱有热情(也合理担忧负面影响),但几乎不在社交媒体上发表正面观点,原因是会遭到同行教授的集体负面反应——就像“最后一次狂欢然后关灯”。这种沉默反映了学界对 AI 的矛盾心态。
Nemotron 3 Ultra was launched today, including a focus on low latency agentic performance. We tested it against peers under restricted turn-usage limits on Terminal-Bench v2.1 - @NVIDIA Nemotron 3 Ultra completes tasks at a much faster pace than peers due to its high inference speed while scoring competitively on the benchmark. In this analysis each model is given a ‘turn limit’ within which it can complete tasks, inside a customized version of the Terminus 2 harness which advises it of this limit. We apply 4 increasing turn limits and trace each result’s tradeoff of task latency and performance. Time per task, on the X axis, is calculated as decode time based on token usage and measured endpoint output speeds (for Nemotron 3 Ultra, speeds were measured on a pre-release deployment on @blackboxai), plus the actual time spent executing tools to complete the benchmark. Nemotron 3 Ultra is the fastest across all turn limits and sits on the Pareto frontier for performance versus time per task for this evaluation.
译NVIDIA 今日发布 Nemotron 3 Ultra,重点优化低延迟智能体性能。在 Terminal-Bench v2.1 上,该模型与竞品在 4 个递增轮次限制下对比测试。Nemotron 3 Ultra 凭借高推理速度(基于 token 用量与 blackboxai 预部署测得的端点输出速度,以及工具执行实际耗时),在每个轮次限制下完成任务的速度均快于竞品,同时保持了有竞争力的基准分数,处于该评测性能-时间帕累托前沿的领先位置。
看了新晋亚洲首富孙正义 这个最新访谈睡不着了, 6 月 1 号他在巴黎接受CNBC 专访时透漏了很多未来的财富密码, 明确表示下一个万亿美元机会,是 Physical AI 和机器人。 以及这一波 AI 革命的规模, 大概率是互联网泡沫时代的 50 倍, 是人类经历过最大的一次技术与实现革命。 我看了一圈中文圈的反应, 绝大多数人都把这条当普通新闻刷过去了, 过去三年我们忙着教 AI 写代码、画图、聊天, 但下一个十年,AI很可能会从屏幕里走出来,站起来,迈出腿,动手做事。 也就是说, 我们现在练的所有 prompt 技巧、Agent 编排、内容生成等等本质上都还在无身体的 AI这一层。 未来真正决定下一代生产力地形的是有身体的那一层, 下面这几条,是我把这件事彻底想透之后, 给普通人能用上的一份认知和财富进阶地图 👇
译孙正义在6月1日CNBC专访中称,下一个万亿美元机会是Physical AI和机器人,AI革命规模将是互联网泡沫时代的50倍,是人类经历的最大技术变革。他预测未来十年AI将从屏幕走进现实,拥有身体并动手做事。当前AI仍停留在无身体层面(提示词、Agent编排、内容生成),真正决定生产力的是有身体的一层。该推文还提供了普通人认知与财富进阶地图。
🗞️ Google DeepMind's paper has some great advice on how we should actually give tasks to AI. It is not just about telling an AI to do something and hoping for the best. Instead, this framework looks at delegation as a string of choices where you figure out if you should even hand the task over, how to explain it, and how to check the work afterward. Current systems rely on rigid rules that break when things fail unexpectedly. The researchers suggest building a dynamic market where agents bid on tasks using smart contracts. This requires strict monitoring and cryptographic proofs to guarantee correct work without leaking private data. Instead of trusting a simple rating, agents will use verifiable digital certificates to prove their exact skills. - Keeping things flexible when things change This new system is built to be adaptive rather than stuck in its ways. It treats the handoff as a live process where authority and responsibility can shift around in real time. If the situation changes or something breaks, the framework helps manage that failure so the whole project does not go off the rails. It works for both humans giving tasks to AI and for when AI needs to handle things on its own. - Finding the right amount of trust One of the coolest parts is how it handles trust. They made formal trust models that look at how hard a task is and how well the AI has done in the past. This stops people from "over-delegating," which is when you give an AI something it is not ready for. It also stops "under-delegating," which happens when you do all the work yourself even though the AI could have handled it easily. - Double checking the work You cannot just take an AI's word for it, so this framework has specific ways to validate the output. It sets up rules for when to accept an answer based on how confident the AI is. It also has backup plans ready to go if the AI fails. This is super important for real world jobs where trusting a machine blindly could cause a bunch of errors to pile up. - When AI agents hire other AI agents The framework also covers what happens when 1 AI agent hands a task to another AI agent. The system tracks who is actually accountable and makes sure the right authority is passed down the line so nothing gets lost in the network. - Making sure the work actually fits It is a step by step approach to make sure the AI's contribution actually makes sense for the bigger goal. By treating this as a structured process, they are making it much safer for companies to use AI in their daily operations without worrying about constant mistakes. ---- arxiv. org/abs/2602.11865 "Intelligent AI Delegation"
译Google DeepMind 论文《Intelligent AI Delegation》将任务委托视为一系列选择:是否委托、如何解释、如何验证结果。系统构建动态市场,智能体通过智能合约竞标任务,利用加密证明保证正确性与隐私。基于信任模型,避免过度委托(给 AI 难完成的任务)或不足委托(自己做 AI 能胜任的事)。输出验证规则根据 AI 置信度决定接受与否,并有备用计划处理失败。还涵盖 AI 智能体间的委托与问责追踪,确保贡献符合整体目标。该框架使企业更安全地在日常运营中使用 AI。
如果有条件的话,选你能用的上的最聪明的 2-3 个就够了。只有你很在乎成本的情况下或者要做一些研究工作,才需要去使用其他便宜些的模型。 再聪明的模型一个也不够,因为不够稳定和全面,比如最近 GPT-5.5 就不如 Opus 4.8 稳定,甚至写东西还得退回 Opus 4.6。翻译我还是最喜欢 Gemini 3.1 Pro 的版本。画图选 GPT Image 2。 就算 Opus 4.8 不错,复杂一点任务我也会让 GPT-5.5 同时出个方案,对比一下,并不总是 Opus 的方案更好。 Token 贵的省时间,时间比 Token 还贵!
译宝玉建议只选最聪明的2-3个模型(如GPT-5.5、Opus 4.8),因单个模型不够稳定全面。翻译用Gemini 3.1 Pro,画图用GPT Image 2,复杂任务让多个模型并行对比。强调“token贵的省时间,时间比token更贵”,暗示深耕一两个最强模型即可。
I like how Omni picked a Vivienne Westwood necklace and Burberry trench coat for this. > a video of a British woman saying all the words that British people say differently to folks in the US (one every 1s). show the animated word at the bottom each time. interesting fashion - pick specifically known brands and items for clothing, nothing generic (Privacy and Schedule are fails here)
译我喜欢 Omni 为此选择了一条 Vivienne Westwood 项链和 Burberry 风衣。
"As of May 2026, more than 80% of the code we merge into Anthropic’s codebase was authored by Claude." Matches independent measures. There really is no sign this is slowing down (which doesn't mean there aren't organizational challenges to absorbing this much productivity gain)
译截至2026年5月,我们合并到Anthropic代码库中的代码有超过80%由Claude编写。 与独立测量结果一致。确实没有迹象表明这一趋势正在放缓(但这并不意味着吸收如此多的生产率提升没有组织挑战)。
I think it is really worth reading this piece on RSI at Anthropic. There is a bit of navel-gazing, some marketing, and a lot of very sincere beliefs about what Anthropic thinks is likely in the near future of AI that you probably want to be aware of. https://www.anthropic.com/institute/recursive-self-improvement
译我认为这篇关于Anthropic的RSI(递归自我改进)的文章非常值得一读。 其中有一些自省、一些营销,以及大量关于Anthropic认为AI近期可能发展方向的真挚观点,你或许应该了解。https://www.anthropic.com/institute/recursive-self-improvement
我知道的所有做AI Agent的团队都很拼,不是老板逼着的,是为了心中理想,所以心甘情愿加班和搞封闭开发👍 有点我好奇的是:Kimi 团队在开发 Kimi Code 的时候,是自家模型 token 用的多还是 Claude 或者 GPT 模型的 Token 用的多呢? 🤔
译宝玉发推称所有AI Agent团队都为理想自愿加班封闭开发,并好奇Kimi团队开发Kimi Code时用自家token多还是Claude/GPT token多。@real_kai42透露,一个月前他决心重构Kimi Code,花几千刀token做架构分析与验证,确定方案后组建团队封闭开发,过程中不断吵架推翻重来,最终开源后因皮质醇过度分泌病倒。他感叹封闭开发是工程效率奇迹,集体主义远胜个人英雄主义。
It's been a great effort by the early and growing American open-model labs since last June to put the US much more back on the map. We were getting totally owned last June. Nvidia, Ai2, Arcee, Gemma, GPT-OSS and a few others will be seen as saving American open AI.
译自去年六月以来,早期且不断壮大的美国开源模型实验室付出了巨大努力,使美国重新回到地图上。 去年六月我们被彻底打败了。 Nvidia、Ai2、Arcee、Gemma、GPT-OSS 和其他几个将被视为拯救了美国开源AI。
insane ball knowledge in codex I just found out @wonforall has a skill called $kobe that spawns off 3 subagents to discuss / review his code, each of which is build to represent one of our principal engineers on tuned in on his past code reviews. I'm going to start doing this with @dkundel and @charlierguo for our docs...
译Codex 中疯狂的球类知识 我刚发现 @wonforall 有一个名为 $kobe 的技能,它会生成 3 个子智能体来讨论 / 审查他的代码,每个子智能体都构建为代表我们的一位首席工程师 其中一个专注于他过去的代码审查。 我打算开始和 @dkundel 以及 @charlierguo 对我们的文档也这样做……
Holy moly, Anthropic is getting very serious about recursive self-improvement! One word: acceleration. Insane blog article. Tl;dr: •We are close to an AI capable of fully autonomously designing and building its own successor •They stress this isn’t here yet and isn’t inevitable, but could arrive sooner than most institutions are ready for •Anthropic engineers now ship on average 8x as much code per quarter as they did in 2021–2025 •Task length AI can reliably complete is doubling roughly every 4 months (up from every 7 months) •Opus 3 (Mar 2024) handled ~4-minute tasks; Sonnet 3.7 (a year later) ~90-minute tasks; Opus 4.6 (a year after that) 12-hour tasks •SWE-bench went from low single digits to saturated in two years; CORE-bench (research reproduction) went ~20% to saturated in 15 months •METR found Claude Mythos Preview could work “at least” 16 hours, at the top of what they can currently measure •As of May 2026, Claude authored 80%+ of code merged into Anthropic’s codebase (low single digits before Claude Code launched in Feb 2025) •A March 2026 poll of 130 research staff: median respondent estimated ~4x output with Mythos Preview •One April 2026 example: Claude shipped 800+ fixes cutting a class of API errors 1,000x, work an engineer estimated would have taken a human four years •Claude-written code quality: worse than human in late 2025, roughly at parity now, expected to be strictly better within the year •On the hardest open-ended tasks, Claude’s success rate hit 76% in May 2026, up 50 points in six months •Code-speedup test: Opus 4 averaged ~3x speedup (May 2025), Mythos Preview ~52x (April 2026); a skilled human needs 4–8 hours to hit 4x •In an AI-safety research project, Claude agents recovered 97% of a performance gap (vs ~23% for two human researchers in a week), over 800 compute-hours and ~$18K •On picking the better “next step” in research sessions, the best model beat the human choice 51% (Nov 2025, Opus 4.5) rising to 64% (April 2026, Mythos Preview) •Human comparative advantage, for now: research taste and judgment, i.e. choosing which problems matter and when an approach is a dead end Three possible futures •The trend stalls (S-curve), but today’s capabilities still diffuse widely; they consider this least likely •Compounding efficiency gains, with humans still setting direction; 100-person firms doing the work of 10,000+; they think this is the likely path •Full recursive self-improvement, where AI builds its successors and pace is set by compute; the alignment outcome here is what they’re least certain about
译Anthropic 内部数据显示 Claude 能力增速远超预期,可能接近自主设计继任者的递归自我改进。关键指标:工程师人均季度代码产出是此前四年平均的 8 倍;AI 可可靠完成的任务时长每 4 个月翻倍,从 Opus 3 的 4 分钟升至 Mythos Preview 的至少 16 小时。截至 2026 年 5 月,Claude 撰写代码占 Anthropic 代码库 80%+,代码质量已与人类持平,年内将超越。最困难任务成功率 6 个月从 26% 升至 76%。Anthropic 认为趋势停滞可能性最低,复合效率增益最可能,完全递归自我改进的对齐结果最不确定。
Recursive self-improvement post by Anthropic: “Each time we release a model, we give it code that trains a small AI model, ask the new model to speed it up. In May 2024, Claude Opus 4 averaged a ~3x speedup. This April, Mythos Preview achieved ~52x.” RSI is happening, and I can't wait to see Mythos.
译Anthropic 发布的递归自我改进帖子: “每次我们发布一个模型,都会给它代码,让它训练一个小型 AI 模型,然后让新模型加速训练。 2024 年 5 月,Claude Opus 4 平均实现约 3 倍加速。今年 4 月,Mythos Preview 达到约 52 倍。” RSI 正在发生,我等不及要看到 Mythos 了。
A real problem with feeling the acceleration viscerally is that current models are really good and it is hard to feel the vibe difference on most individual tasks with new models, even as AIs continue to increase in ability by large amounts (which they actually are doing).
译一个切实的问题在于,要切身感受到这种加速很难——当前模型已经非常出色,即便AI的能力在持续大幅提升(它们确实在这么做),大多数个体任务上也很难体会到新模型带来的那种不同。
I feel like this also goes for a lot of people without Mythos as they learn to use agents too tbf
译Anthropic 表示,使用 Mythos 后人均代码产出较半年前 Opus 4.5 提升 3.2 倍。Nathan Lambert 评论称,没有 Mythos 的人在学用智能体时也有类似感受。
Our internal data shows Claude is accelerating AI development—a possible path to recursive self-improvement, or AI autonomously building a more capable successor. It’s happening faster than we thought, and the implications deserve greater attention. https://www.anthropic.com/institute/recursive-self-improvement
译我们的内部数据显示,Claude 正在加速 AI 发展——这是一条通往递归自我改进的可能路径,也就是 AI 自主构建一个更强大的后继者。 这发生得比我们预想的更快,其影响值得更多关注。
Build Your Business Live https://x.com/i/broadcasts/1qGoNNngZkyKv
译实时构建你的业务 https://x.com/i/broadcasts/1qGoNNngZkyKv
说一下 guizang PPT Skills 还会继续更新啊。 得益于最近的几个赞助,可以找时间去更新第三套主题了,依旧非常惊艳。 同时,在小红书那个图文卡片部分积累的好经验,也会用到 PPT Skills 的新版里面。
译归藏宣布其 PPT Skills 项目将继续更新。得益于近期的赞助,计划开发第三套主题,且会把在小红书图文卡片部分积累的好经验用于新版中。
wondering if @_catwu has an update on this chart post opus 4.8
译想知道 @_catwu 这个图表在 Opus 4.8 之后是否有更新。
Anton Osika (@antonosika) is the co-founder and CEO of @lovable, where anyone can build software through conversation. His working thesis: the most underrated moat in AI is trust, and earning it takes craft, care, and obsession.
译Anton Osika (@antonosika) 是@lovable 的联合创始人兼CEO,任何人都能通过对话构建软件。 他的工作论点:AI中最被低估的护城河是信任,而赢得信任需要技艺、用心与执着。
I am hooked on Dynamic Workflows! The idea of generating harnesses on the fly is so compelling that I reverse-engineered it for my agent orchestrator. And then I built a monitoring dashboard (as an HTML artifact) to track tasks, metrics, and reports. I can now use and monitor dynamic workflows in my agent orchestrator with coding agents like Claude Code, Codex, Pi, and even my own custom-built @dair_ai agent. This is clearly the future of working with agents to accomplish complex, long-running tasks. Some use cases I'm having success with: - Branching deep research tasks (with verification) - Parallel deep research tasks - Session mining of all my agent sessions - Bug hunting - Triaging - Fact-checking - LLM councils - AI simulations - Data synthesis - Evals generation ... and many others Dynamic workflows, like agent skills, feel like an important primitive to not only get the most out of agents but also incorporate dynamic behaviors and important components like cooperation and verification. There is so much exploration ground here. The exciting part is that this is not limited to coding tasks; it extends to business use cases and many other technical domains like science and research.
译Elvis Saravia 逆向工程了动态工作流(Dynamic Workflows)并集成到自研智能体编排器中,同时构建 HTML 监控仪表盘跟踪任务、指标和报告。该工作流可在 Claude Code、Codex、Pi 等编码智能体及自研 @dair_ai agent 上运行。成功用例包括分支深度研究、并行深度研究、会话挖掘、Bug 定位、分类、事实核查、LLM 委员会、AI 模拟、数据合成和评测生成等。他认为动态工作流与 agent 技能一样,是实现复杂长期任务的关键原语,不仅限于编码,还可扩展至商业、科学等领域。
Safety by narrow control has shown to fail many times. Need more transparency on the absolute frontier, and openness close behind.
译狭窄控制的安全已多次证明会失败。在绝对前沿上需要更多透明度,开放紧随其后。
Vibe Coding「借来的杠杆」vs「增长的能力」
译@pengzheng_ 指出,Vibe Coding 让人同时感觉更聪明和更笨——能发布产品但无法解释原理。如果离开 AI 就无法复现成功,那只是借来的杠杆而非增长的能力。目标不是从提示到产品,而是理解实现路径并建立信心。理解为何有效时,AI 扩展能力;不理解时,AI 替代学习。无限提示终可发布软件,关键在于每次成功是否转化为经验,否则只是产出而非能力增长。
Great piece from Dr. Fei-Fei Li (@drfeifei) “The world is not made of words.... A model that masters simulation can project its understanding into pixels for human consumption, and into action predictions for embodied agents." LLMs learn patterns in text, so they can explain a room, but they do not naturally know how the room changes when a chair moves, glass breaks, sunlight shifts, or a robot pushes a cup. A world model tries to learn the hidden structure behind what we see, meaning it can predict views the camera never captured, model object behavior, and support agents that act inside real or virtual environments. To see a world from a new angle, to predict what happens when something is pushed, and to decide what to do next all require a common internal model of space, causality, and consequence.
译李飞飞(Fei-Fei Li)指出,大语言模型(LLM)仅学习文本模式,能描述房间但无法理解椅子移动、玻璃破碎、阳光变化或机器人推杯子等物理变化。世界模型则试图学习视觉背后隐藏的结构,能预测相机未捕捉的视角、建模物体行为、支持真实或虚拟环境中行动的智能体。理解新视角、预测推动结果、决定下一步行动,都需要一个共同的内在模型,涵盖空间、因果与后果。
Nvidia joined the multi-teacher, on-policy distillation (MODP) gang! Is industry standard post-training right now. The multi-teacher SFT to RL that Microsoft did in their first model was the standard established by DeepSeek R1. I expect MAI 2 to be MODP.
译Nvidia采用多教师在线策略蒸馏(MODP)作为后训练核心方法,标志该范式成为行业标准。其流水线重新设计:先进行SFT,再在多智能体/推理/代码/安全环境中执行多环境RLVR,最后用10+领域专长教师通过密集token级指导蒸馏到学生模型的自生成输出上。该标准由DeepSeek R1开创,微软早期模型也使用多教师SFT→RL路线。
OpenAI just wrote: "We also see early signs of recursive self-improvement (RSI) in today’s systems: where AI development is itself accelerated by AI. We expect this to increase competitive pressures among developers and nations, and create governance challenges that existing institutions are not equipped to address. As RSI emerges, societies will need ways to shape the trajectory of AI development and ensure that it serves human interests." The vibe has changed, something is happening.
译OpenAI刚刚写道:“我们也看到了当今系统中递归自我改进(RSI)的早期迹象:AI开发本身正被AI加速。 我们预计这将加剧开发者与国家之间的竞争压力,并带来现有机构无法应对的治理挑战。 随着RSI的出现,社会将需要找到塑造AI发展轨迹的方法,确保其服务于人类利益。” 气氛变了,有事正在发生。
Most AI workflows break because the user has to carry the context manually, and Anuma is trying to make that context portable, private, and usable across models. Anuma is a private AI workspace built around 1 memory across every model, so your context, preferences, goals, and past work can follow you across ChatGPT, Claude, Gemini, Grok, DeepSeek, Kimi, and others. It also adds on-device encrypted memory, Private Mode by default, no logs, no training, full memory export, Council Mode, model switching inside 1 chat, and AI texting through iMessage or SMS. I integrated Anuma into my AI workflow and for me, the strongest use case research paper analysis: I’m uploading 3 different papers on the same topic, then using Anuma’s multimodal and parallel multi-model workflow to compare how different models read, summarize, question, and connect the papers. That is where Council Mode becomes useful, because you can see multiple model responses side by side instead of trusting 1 answer blindly. No more opening 5 separate AI tabs and re-explaining the same research context again and again, I can keep the same memory, switch models, compare answers, and continue the analysis in 1 place.
译Rohan Paul 介绍 Anuma,一个私人 AI 工作空间,核心功能是跨模型统一记忆——用户在 ChatGPT、Claude、Gemini、Grok、DeepSeek、Kimi 等模型间切换时,上下文、偏好、目标和历史工作自动跟随。额外功能包括设备端加密记忆、默认隐私模式、无日志无训练、支持完整记忆导出、Council Mode(多模型并列回复对比)、单聊内模型切换,以及通过 iMessage 或 SMS 的 AI 文本能力。Paul 分享研究论文分析用例:上传多篇论文,利用多模态和多模型并行工作流,对比不同模型对同一主题的阅读、总结和关联能力,避免重复解释上下文。
The capabilities of Claude Code and Codex have expanded a lot in recent months, they added many ways to approach work (subagents, skills, goal, workflows, plugins, etc). Given the AI labs can use their own AI to help documentation, a surprising amount is effectively undocumented
译近几个月来,Claude Code和Codex的能力大幅扩展,增加了许多工作方式(子智能体、技能、目标、工作流、插件等)。考虑到AI实验室可以用自己的AI来辅助文档编写,令人惊讶的是,大量功能实际上没有文档。
Here's some early tests of Reve 2 with the prompt: > an amateur photo of fantastical realism Two excellent new image models on the same day. What a treat.
译这是 Reve 2 的一些早期测试,提示词为: > an amateur photo of fantastical realism 同日两款优秀的全新图像模型。真是享受。
My latest goto negative prompt: "no embellishments" For when a model is trying to be creative in a way you don't like.
译我的最新常用负面提示词: "no embellishments" 当模型试图以你不喜欢的方式发挥创意时使用。
给大家带来 MiniMax-M3 实测! 本次测试包含了复杂前端, 后端 Agentic Coding, Agent 能力测试, 以及我的使用经验总结. 来看结论: 前端能力上, 可以完全适配 KCORES2026p2 的前端测试题目, 无论是空间理解, 建模精确度, 场景美学都十分在线, 其中我最满意的是美学部分, 它的颜色运用非常好. 不足的地方主要体现在复杂需求不能一次性写对(比如光追引擎), 需要迭代一下就可以了. 后端能力测试这次也是突飞猛进, 得分超过了 deepseek-v4-pro 和其他一众国产大模型, 略逊于 GPT-5.4-Pro(xhigh). Agent 能力上表现同样亮眼, 达成了榜单第二的接单量, 证明它的规划能力特别强。 下面是我在测试和实际使用中, 总结出来的 M3 使用经验, 供大家参考: 我的体感是 M3 特别喜欢推理, 它可以单次执行超长的推理. 在咱们的这些前端测试中, 它最长的输出甚至达到了我规定的 64k token上限, 所以, 不要上来就写一个超级复杂的 prompt 让它执行, 而是需要先把需求形成 plan, 然后让 agent 蜂群去执行, 这样才能得到理想的效果, 所以 M3 先天适合放在带 plan 模式的 Coding Agent 中使用. 如果把它嵌入到 Agent 框架中使用, 那么 prompt 编排就一定要做好, 不要一股脑把大量的 tool call 或者超大的 system prompt 丢给它. 还是需要下功夫好好编排一下的. 本次 M3 相比之前的 2.7 版本有了大幅度的提升, 模型偏好上来看, M3 是一个规划能力极强的模型, 所以特别适合用在一些规划性质的 Agent 框架中, 比如任务拆分, 日程管理, 流程设计等. 而本次暴露出来的不足则是执行过程中约束不够强, 比如 prompt 中设置的复杂规则, 一定要增加代码级别的 harness 闭环流程来进行约束, 而不能只靠模型本身来管理自己的行为. #minimaxm3 #minimax #agenticcoding #aiagent #harness
译MiniMax-M3 实测:前端适配 KCORES2026p2,空间理解、建模精度、美学表现优秀,颜色运用佳;复杂需求如光追引擎需迭代。后端得分超 deepseek-v4-pro 及国产模型,略逊 GPT-5.4-Pro (xhigh)。Agent 能力达榜单第二接单量,规划突出。使用经验:M3 偏好长推理,单次输出可达 64k token,适合嵌入带 plan 模式的 Coding Agent,需做好 prompt 编排,避免大量 tool call;执行约束不足,需增加代码级 harness 闭环。
作家就像是现在AI时代的负责给我美化和润色的角色! 比如原话: 我这店不要不干了,这帮B还能去哪儿? 作家:如果此地终会消亡,这些灵魂又将何处安放? 今天看乔帮主@vista8 推荐的郑执的演讲听到的一句还挺有感触的话。 另外说一句啊,东北人天然自带幽默感,最适合干自媒体。
译推文以“原话:我这店不要不干了,这帮B还能去哪儿?”和“作家改写:如果此地终会消亡,这些灵魂又将何处安放?”为例,说明作家在AI时代负责对粗俗表达进行美化润色的作用。同时提到郑执演讲中有感的话,并认为东北人天然适合干自媒体。
http://x.com/i/article/2062455165006090240 # Anthropic 如何通过 Claude 实现自动化商业分析 Anthropic 95% 的数据分析让 Claude 干了... 但一开始准确率多少?21%,跟瞎蒙差不多...后来搭了一套四层系统直接拉到 95%。 Anthropic官方发布了一篇博客,详细阐述了他们是如何通过Claude 实现自动化商业分析的。 我翻译了下,推荐大家阅读! 原文:https://claude.com/blog/how-anthropic-enables-self-service-data-analytics-with-claude 做过数据的人都知道,让业务团队自己查数据,一直是个老大难。 一种常见做法是建宽表,把数据模型摊平了给非技术同事用。但业务一扩张,各种视图就开始打架,定义不一致、口径对不上,而且那些压根不想学 SQL 的人照样用不了。另一种做法是给用户划好一块块固定区域,只能在里面看数据,但这又覆盖不了那些零散的、个性化的分析需求。最后就是每个团队各搞一套,指标和看板越来越多,越来越乱。 大语言模型的出现提供了一条新路。但如果你只是把 Claude 往数据仓库一指,让 AI 智能体自己跑,很容易造成一种"看着很准其实不靠谱"的假象。 刚摆脱临时取数需求的那股兴奋劲儿,很快就会变成焦虑。你会发现,这套方案把业务方和底层的数据基础设施、文档、专业知识切断了,而过去恰恰是这些东西帮他们找到靠谱的数据集。 在 Anthropic,95% 的业务分析查询已经由 Claude 自动完成,整体准确率大约 95%。把这些重复性的活交给 Claude 之后,我们的数据科学团队可以把精力放在因果建模、预测分析、机器学习这些更有价值的事情上。 跟几十位 Anthropic 内部的 Claude Code 重度用户聊过、看过大量分析智能体的设计方案之后,我们攒了一些经验,想分享给同样在用 AI 做分析的数据团队。这篇文章会聊到: - 分析准确性本质上是上下文和验证问题,不是代码生成问题 - 导致大多数错误的三种失败模式 - 我们围绕这三个问题建的智能体分析栈 - 我们怎么衡量效果 - 我们创建技能的基础模板(见附录) ## 数据不是软件 AI 的生成能力是把双刃剑:让模型能创造性解题的那套机制,也会让它"一本正经地胡说八道"。要理解分析智能体面临的挑战,跟编码智能体对比一下就清楚了。 写代码是个开放题,模型越有创造力越好,而且有文档和测试兜底,写错了跑不通。但分析不一样:往往只有一个正确答案、一个正确的数据源,而且没有办法自动验证结果对不对。 自动化智能体分析的难点,主要在于数据本身的歧义性。核心问题就一句话:能不能把用户的问题准确地对应到数据模型里那个特定的、最新的字段,并且知道怎么正确使用它。做到了这一步,写 SQL 就是小事了。 我们发现,绝大多数不准确的回答可以归因于三件事: 1. 概念和实体对不上:数据模型里有成百上千个字段,潜在候选可能上百万,智能体不知道该选哪个。比如"活跃用户数",什么行为算"活跃"?算不算欺诈用户?回看多长时间? 1. 数据过时了:数据源、业务定义、表结构一直在变,智能体的知识没跟上,开始给出"看起来对,其实差了一点"的答案。 1. 找不到:正确的信息明明就在数据模型里,标注也齐全,但搜索空间太大,智能体就是没找到。 ## 我们的智能体分析栈 在 Anthropic,我们靠一套分层的智能体数据栈来对付这三个问题。每一层重点解决其中一个或几个: 1. 对不上→ 数据基础和权威来源层把候选范围不断收窄,最终只剩一个标准答案。 1. 过时了→ 维护和验证流程防止东西随着业务变化而腐烂。 1. 找不到→ 技能确保智能体能稳定地找到并正确使用那个标准答案。 下面逐层讲。 维度建模这些经典的数据工程实践,依然和以前一样重要 ## 数据基础 要让分析智能体准确,最重要的是把数据基础打好,包括数据仓库里的模型、转换逻辑、测试、表,以及描述它们的元数据。维度建模、尽早做测试、关键管道的新鲜度和完整性检查,这些老规矩依然有效,不多说了。 维度建模这些经典的数据工程实践,依然和以前一样重要。 但有一件事变了:数据模型的使用者不再是数据科学家这样的专家,而是替各种用户干活的智能体。这些用户水平参差不齐,你没法指望他们去验证底层查询逻辑对不对,他们根本看不懂。 数据基础层主要解决的是歧义问题。比如"收入"这个概念,如果在仓库里只对应一个经过治理的规范数据集,而不是四十个看着都像的候选项,那智能体还没开始搜,问题就消失了大半。同时这一层也是防过时的第一道防线,因为定义规范模型的那个代码仓库,本身就是最适合强制保持这些模型更新的地方。 我们觉得特别有效的几个做法: - 建规范数据集:最常见的错误是智能体没法把一个概念(比如"产品 X 的收入")对应到唯一正确的表、列和指标定义,往往因为有好几个看着都合理但细节不同的候选。解决办法是少而精,精选一小批规范的数据集,权属清晰、开箱即用、容易发现,然后把那些近似重复的版本积极废弃。物理层面的汇总表和缓存还是要的,但它们应该从规范模型自动生成,不能作为平行替代方案存在。目标就是:智能体搜一个概念,只能搜到一个标准答案。 - 标准得靠强制执行:光定标准没用,得三管齐下。工具层面,智能体在架构上被优先引导到规范模型;CI 层面,绕过规范层的改动会在代码审查中被拦住;制度层面,下游团队必须基于治理层构建,不用就得解释为什么。没有执行力的治理,很快就退回到"一堆候选分不清"的老问题。 - 所有东西放同一个仓库:数据模型和业务逻辑天天在变,我们的防御手段是把建模代码、语义层、参考文档、看板定义全放在一个仓库里,靠 CI 检查保护跨层一致性。改了一个模型会影响下游看板?CI 会标出来,修复就在同一个 PR 里完成。 - 把元数据当正经产品来维护:编码智能体之所以表现好,部分原因是代码库本身就很"可读",有 README、类型签名、文档字符串。数据仓库也可以做到一样可读,但前提是你得认真维护:列和表的描述、规范指标定义、粒度说明(一行代表什么)、有效值范围、数据血缘、权属关系、模型分级。这不是什么新道理,但好的治理确实能给智能体提供关键的选择依据。 ## 权威来源 如果说数据基础是数据仓库本身,那权威来源就是智能体用来在仓库里找路的参考层。这一层负责把业务方说的"周活跃用户"翻译成数据模型里某个具体的、经过治理的实体。按信任度从高到低排: - 语义层:编译好的指标和维度定义。如果一个问题能直接对应到已定义的指标,智能体调一个函数就能拿到一个数字,跟公司所有其他分析工具算出来的一模一样。我们的智能体被强制要求优先走语义层(见附录)。我们试过一个没用的思路:让 AI 从原始表和查询日志自动生成指标定义来引导语义层。结果生成的定义看着像那么回事,实际上把我们正要消除的歧义编码进去了,评估表现还不如更小但人工精选的版本。所以我们的建议是:用 Claude 生成文档,但指标定义由人来把关。 - 数据血缘和转换关系图:语义层覆盖不到的问题,可以靠血缘关系和表排名(按被引用次数排)来推理:哪些上游模型跟某个概念有关、哪些已经废弃、哪些粒度相同。这就把"我不知道这个指标"变成了"我知道该从哪个治理过的模型去聚合"。同时它也是后面线上验证部分的新鲜度和来源信号的基础。 - 历史查询语料:看板、Notebook 和过去分析里的 SQL 记录。听起来应该很有用,毕竟是每个已经被正确回答过的问题的记录。但实际上,让智能体直接检索几千条历史查询,准确率只提升了不到一个百分点(后面消融实验部分细讲)。非结构化检索没法把新问题映射到正确的先例上。真正管用的做法是把这些语料提炼成结构化的领域参考文档和可复用的分析模式,写进技能里。历史查询是原材料,不是让智能体直接读的参考答案。 - 业务上下文:大多数团队跳过的一层,也是我们低估最久的。不懂业务的智能体,会回答用户字面上问的问题,但不会回答他们真正想问的。它不知道"Q2 发布"是哪个产品,不知道两个团队对同一个术语定义不同,也不知道这个问题之所以被问是因为周四要开董事会。我们接入了一个公司知识图谱,索引文档、产品路线图、决策日志、组织架构都在里面,让智能体能理解那些言外之意,问出更好的澄清问题。 这四层有个共同的失败模式,跟数据基础层一样:文档质量差或者过时了。Claude 在弥补这个差距方面非常好用(写列描述、根据查询模式建议指标文档、在 CI 里标记缺文档的模型),但内容的筛选和权属还是得人来管。 接下来两节讲的是怎么让这件事的成本低到真正能落地。 ## 技能 如果说权威来源是智能体的知识,比如"这个指标是什么意思",那技能就是它的方法论,比如先查什么、按什么顺序查、碰到数据歧义怎么办、一个合格的分析长什么样。 在 Claude Code 里,技能就是一组 Markdown 文件,智能体按需读取。在 Anthropic 内部,技能带来的提升是巨大的。没有技能时,Claude 回答分析问题的准确率不到 21%。加上技能,整体稳定在 95% 以上,某些领域经常到 99%。模板见附录。 几条经验: 技能要成对建:一个"知识"技能当顶层路由,它说"先查语义层,没有覆盖的话,这个领域大概 30 份参考文档,里面有相关的表、列、关联关系和常见坑"。这个路由器本质上就是我们对"找不到"问题的回答:与其让智能体在百万级字段里大海捞针,不如先把范围缩到几十份精选文件。另一个"unbook"技能编码的是一位资深分析师的工作流程:先澄清问题,再通过知识技能找数据来源,跑查询,然后把结果丢给对抗审查的子智能体做验证。它还内置了十几种可复用的分析模式,比如留存曲线、比率分解、漏斗分析等等,让常见需求不用每次从零开始。 参考文档要为 AI 写:我们的参考文档写的是表信息(粒度、范围、排除条件)、常见坑的具体机制(比如"排除免费邮箱域名,但保留自定义域名如 anthropic.com"),以及明确的路由触发条件(比如"如果问题涉及实验提升……不要用来算原始事件数")。但不写会过时的固定脚本。参考文档模板如下: > [markdown] # [领域] 表 ## 快速参考 ### 业务上下文 — [用大白话解释这个领域是什么] ### 实体粒度 — [一行代表什么] ### 标准清洗过滤器 — [该领域每个查询都要应用的过滤条件] ## 维度 - [关键维度的编码方式,以及同一概念在不同表中的不同命名] ## 核心表 ### [table_name] - **粒度**: [...] · **范围/排除条件**: [...] - **使用说明**: [什么时候用、什么时候不用、关联键、必需过滤条件] [... 每个治理过的表一个简短小节 ...] ## 常见陷阱 - [资深分析师会提醒你的那些容易出错的地方] ## 最佳实践 / 常见查询模式 - [默认选择、标准切分维度、具体查询形式本身就是难点的成熟模式] ## 交叉引用 - [负责相邻问题的其他领域文档] 技能维护是正经工程活:技能文档描述的数据模型每天都在变,不维护的话几周就失准。我们亲眼看着离线准确率从上线时的 95% 左右,一个月内掉到 65%,才真正当回事。办法是把技能的 Markdown 文件跟数据转换模型放在同一个仓库,改模型的 PR 就得同时更新文档。我们还设了个代码审查钩子:涉及报表模型的变更如果没碰对应的技能文件,就会被标出来。现在大约 90% 的数据模型 PR 里都带着技能变更。我们也会定期清理,模型进步了,以前的失败模式不再适用,对应的指引也该删。 所有界面一个答案:同一个技能在 Slack、IDE、看板工具、独立会话里,必须对同一个问题给出同一个答案。我们靠一个规范来源(数据仓库的代码仓库)加自动同步来实现。代码合并后,技能会同步到插件市场(IDE 用户)、云存储(托管应用)和 MCP 服务。从一开始就不硬编码路径、不绑定特定界面。 ## 验证 验证是你发现三个问题还有哪个在漏网的最后一关。 ## 离线评估 很常见的情况是,数据团队花了大力气搭分析环境,却完全没有流程来验证智能体答得准不准。 怎么补?做离线评估,就是一组"问题 / 标准答案"对。你可以把它理解成机器学习里的离线测试:不能告诉你线上实际表现,但能让你看清有没有致命缺口。 我们在 Anthropic 做两类离线评估。看板评估由 Claude 自动生成再人工验证,覆盖业务方最常问的问题。长尾评估是把产品路线图、表文档等业务上下文喂给 Claude,让它在其余领域生成可能出现的问题。另外,每次业务方在对话里纠正了智能体的回答,我们都会把这条纠正收起来当候选评估用例。 其他经验: - 标准答案要锚定,不能漂移:基于实时数据写的评估用例,底层数字一变就废了。要么锚定到快照日期、基于稳定的事实表写,要么让评分器判查询语句而不是最终数字。把评估接进 CI,改了依赖就自动重跑受影响的用例。 - 评估结果当遥测数据存,不当测试日志存:每次运行的结果落入数据仓库,记录技能版本、git SHA、模型 ID、逐条断言结果、token 用量、耗时。"上次改动有没有用"变成一条查询就能回答的事,还能用时间序列抓住单次 CI 跑不出来的缓慢衰退。 - 按领域卡发布门槛:某个领域的负责人要向业务方宣布"智能体可以用了"之前,必须先让该领域评估集的通过率到某个阈值(我们起步用的 90%)。这就逼着大家在用户踩坑之前先把参考文档修好。 - 评估用例不是越多越好:该建多少取决于业务领域和数据模型的复杂度。我们发现每个主题超过几十条之后就有边际递减,而且这个上限随模型迭代在降。 - 离线准确率应该接近 100%,正确答案也应该走到你的语义层。这不代表系统不会出错,只是在覆盖度足够的前提下,确保没有明显的缺口。 ## 消融实验 关于技能的每个结构性决策,比如暴露哪些数据源、子智能体值不值得它带来的额外延迟、两个技能要不要合并,都是在固定评估集上做消融实验定的。每次只改一个变量,对比通过率。一轮实验一个小时,省下大量争论。方法论比任何单次结果都重要: - 做好"没变化"的准备。 我们最有价值的一次消融实验恰恰是个否定结果。我们给智能体开了对所有看板 SQL、转换 SQL 和分析师 Notebook SQL 的 grep 权限(几千个文件),而且确认它每次回答前都读了。结果准确率纹丝不动。然后我们查了混淆因素:答错的问题里,答案是不是真的在语料库中?80% 的情况是的。"答案在"能预测"答对"吗?不能。信息就在那儿,智能体也看到了,但就是没用上。这一个实验就说明:瓶颈不在于能不能访问历史成果,而在于结构,也就是怎么把问题映射到正确的实体。这个发现直接改变了我们好几个月的路线图。 - 在 PR 粒度上做消融。 每次有意义的技能改动都跑一轮前后对比,差异写进 PR 描述。"我优化了文档"这种话就有据可查了,同时能抓住一种出人意料地常见的情况:好心的修改反而把事情搞糟了。 - 记下行不通的东西。 我们的两个例子:超过某个点之后继续迭代文档反而是负面的(连续三轮越写越长、越写越差);把对抗审查换成更便宜的模型以降低延迟(准确率的提升丢了大半,速度也没快多少)。记录负面结果成本很低,但能防止下一个人重走老路。 ## 线上验证 最后一步是确保线上系统的实际表现尽可能好。我们做了这些: - 对抗审查:用一个 Claude 技能在最终回答前激进质疑所有假设。评估集上准确率提高了 6%,代价是多 32% 的 token 和 72% 的延迟。 - 来源溯源脚注:每个回答附一个脚注,标明数据来自哪个层级(语义层 > 精选参考文档 > 原始表)、数据多新鲜、谁负责。不能让答案更准,但能帮用户判断信任度。看到"原始表,新鲜度未知"就知道要先核实再转发。这也是我们对静默错误为数不多的防线之一。 - 数据质量检查:智能体可能选对了字段、用法也对,但数据本身就是错的。加点基础检查,确保字段最新、完整、没有异常,是基本卫生习惯。 - 被动监控:我们持续跟踪两个指标:走语义层的查询占比,以及回复中出现纠正性语言("那个表不对""你漏了欺诈过滤器")的占比。两个都汇到一个看板,每周跟离线通过率一起看。 - 主动纠错采集:闭环的关键。一个定时智能体每隔几小时扫业务方的沟通频道,找纠正性语言,起草一行修复写进参考文档,开 PR 标给领域负责人。修复流程故意做得很无聊,编辑一个 Markdown 文件,合并,自动同步,这样负责人不用花太多时间。同样的纠正也反馈回离线评估集。 以上所有措施都没法完全解决的是静默错误。答案错了,但看起来合理,没人质疑就用了。我们的应对是来源脚注、上报管理层的内容必须人工签字确认、每个领域的核心 KPI 每天跟权威看板做合理性校验。但说实话,我们目前还没有一个真正稳健的方案。 ## 怎么起步 如果你从零开始:几个规范数据集、几十条离线评估、一个精简的知识技能,就能拿到大部分收益。本文其他内容都是在这些基础之上逐步加的。 我们分享了很多经验,但不是每条都适合每个团队。开始之前,先跟组织对齐几个原则: - 今天的正确答案和未来的正确答案,哪个更重要? AI 模型进步飞快。我们经常看到公司花大力气补当前模型的短板,结果模型一升级全白干了。等模型进步来填补缺口成本低得多,但要看你的公司能不能接受这个风险。 - 业务复杂度会怎么变? 如果你数据量不大、分析消费者就几个人、数据模型也不会变复杂,上面很多流程可能是过度设计。 - 谁来用这个系统? 如果是数据科学家,他们能看出错误答案,容错空间大一些;如果是完全不懂数据模型的人,标准就不一样。 - 愿意为准确率花多少钱? 对抗审查这样的流程确实能显著提升准确率,但成本和延迟也上去了。 - 数据访问的口子开多大? 智能体的上下文越多表现越好,但宽泛的数据访问跟大多数公司的治理策略冲突。这决定了你是建一个全能智能体,还是多个各有权限的智能体。 不管走哪条路,我们最大的收益始终来自同一件事:把歧义收敛到一个标准答案,让这个答案容易被找到,在它过时的时候及时报警。 本文由 Anthropic 数据科学与数据工程团队的 Chen Chang、Clement Peng、Justin Leder、Johanne Jiao 和 Josh Cherry 共同撰写。感谢 Michael Segner 的贡献。 ## 附录 ## 技能文件骨架 下面是我们主数据仓库技能的骨架,保留了真实文件的结构,内部细节用 [方括号] 替换了。不是让你照搬,而是展示我们觉得哪些东西值得写下来。 > [markdown] --- name: [warehouse-skill] version: [x.y.z] description: "IF the user asks to query [the company]'s data warehouse for any [业务领域列表] question — THEN invoke this skill. DO NOT invoke for [相邻的工程任务] or questions with no data-warehouse component." --- # [数据仓库] 技能指令 ## Description 查询 [数据仓库] 的唯一权威来源,确保安全高效。 被其他技能 [列表] 引用以获取查询执行指导。 扮演数据分析师角色,提供战略性洞察和数据驱动的建议, 但在过程中主动寻求指导。 **超出范围的决策**: [产品领域等] → 只展示数据, 声明"决策由 [负责团队] 做主",不要表态或编写修复代码。 ## Executing queries 优先级: 1. **[托管连接]** (如可用): [查询工具] / [schema 工具] 2. **[CLI 后备]** (如已安装): [默认项目, 后备项目] 3. **两者都没有** — 要求用户先认证,然后停止 --- # Semantic Layer (每个请求的必选第一步) 受治理的语义层是每个数据问题的**强制默认路径** — 数字和 [BI 工具] 保持一致,join/粒度/过滤器已内置。通过下方参考文档走原始 SQL 是**后备方案**,仅在语义层路径被证明无法覆盖需求后才使用。 ## Required workflow 1. **加载** — [如何在各运行环境中加载语义层,含后备方案] 2. **发现** — 按关键词搜索度量/维度; **务必检查 segments** (命名好的规范化人群过滤器 — 手写这些 WHERE 子句是最主要的错误答案模式) 3. **编译 + 执行** — 构建查询规格 → 编译为 SQL → 执行 4. **后备** — 仅在发现阶段找不到相关指标或编译失败时 → 通过 `references/*.md` 走原始 SQL (下方 PART 3) > **不要过早放弃。** 以下理由不构成回退到原始 SQL 的依据: > - "[自定义日期过滤/队列分析]" → [时间维度规格已覆盖] > - "[需要 join]" → [指标层已封装了所需的 join] > - [再列 3-4 个智能体常用来跳过语义层的借口,逐一反驳] ### 日期窗口与时区 — 查询前先确定 - **截止日期 vs 滚动 N 天**: [各自的约定] - **"上周/上月"** → 最近一个*完整*日历周/月,不是滚动 7/30 天 - **时区默认值**: [时区]; [某些汇总报表的例外] - **新鲜度延迟**: [某些] 表结算较晚 — 以 MAX(date) 为锚,而非"昨天" --- # PART 1: 必知(每次请求首先阅读) ## 🚀 快速起步工作流 1. **先检查红旗**: [受限/PII 请求, 需授权的领域, 需要额外验证的高风险请求] 2. **超出范围 — 升级而非猜测**: [权限请求、管线故障排查、 过期看板、根因断言、产品/定价建议] → 转交 [负责团队],不要作答 3. **澄清需求**: 时间段、细分维度、这个分析要支撑什么业务决策 4. **检查现有看板**: [按领域的看板目录] 5. **识别数据源**: [下方导航地图; 优先使用受治理/已聚合的表] 6. **执行分析**: [必需过滤器 + 对抗审查] 7. **交付洞察**: 展示方法论,区分观察和解读 ## 🏢 业务上下文 ### 实体消歧 (必须澄清) - **"[术语 A]" 可能指**: [实体 1] 或 [实体 2] — 必须确认是哪个 - **"[术语 B]" 可能指**: [实体 1] → [实体 2] → [实体 3] (一对多链) - **"用户"**: [哪个标识符能给出准确计数,哪些会导致膨胀] ### 业务术语 - [当前产品名称 vs 已弃用但仍作为冻结值存在于数据层的旧别名 — 用新名写作,用旧名过滤] - [关键内部缩写] - **[核心指标] 计算方式**: [月度 / 默认窗口 / 先行指标] - **遇到陌生术语 — 搜索 [内部文档],不要猜** ### 数据完整性要求 ⚠️ - **绝不**: 编造数据/列; 做出超出数据范围的推测性断言 - **始终**: 使用安全除法; 区分观察 ("数据显示 X") 和解读 ("这表明 Y"); 标注局限性 --- # PART 2: 操作指南(执行过程中遵循) ## 🔧 技术执行指南 - [托管连接工具和 CLI 调用细节] - **PII 保护**: 对于受限数据,只返回 SQL 让用户自己执行 — 不要返回查询结果 ## 📊 分析最佳实践指南 1. 查询前先澄清需求 2. 展示你的工作(过滤器、包含/排除条件、新鲜度) 3. 澄清分母 4. 考虑样本偏差 5. 关联到业务影响 6. **对抗性 SQL 审查 (强制)** — 在最终回答前为每条查询启动 [sql-reviewer] 子智能体; 阻断性发现必须修复并重新审查; 不得自我认证 7. **带来源报告** — 每个回答都以脚注结尾: > **来源:** [语义层 | 受治理表 | 原始探索] · > **置信度:** [层级] · **已审查:** [审查者 ✓, 第 N 轮] · > **新鲜度:** [数据中的最大日期] · **负责人:** [负责团队] --- # PART 3: 数据参考与资源 ## 📚 知识库导航 ### [领域 A] → `references/[domain_a].md` - **用途**: [适用的问题类型] - **核心表**: [...] - **看板**: `references/[domain_a]_dashboards.json` ### [领域 B] → `references/[domain_b].md` - **用途**: [...] [... 每个业务领域一个条目 — 总共约几十个 ...] ## ⚠️ 排障指南 ### 信息缺失时 - [表缺失 / 权限不足 / 文档过期 / 未知枚举值 → 如何处理] ### 字段命名陷阱 - 用 `[field_x_v2]` 而不是 `[field_x]` - [两个名称相似的表以不同粒度报告同一指标 — 该用哪个] - [对于核心指标,两个看似合理的来源中哪个才是规范来源] - [… 十几条更多踩坑得来的一行提醒 …]
译Anthropic 将 95% 的业务分析查询交给 Claude,准确率约 95%。最初仅 21%,通过搭建数据基础、权威来源、技能等四层系统提升。核心发现:准确性问题本质是上下文和验证,而非代码生成。三种失败模式:概念对应错误、数据过时、找不到正确字段。重复分析由 Claude 承担,数据科学团队专注更高价值任务。
关于Codex的使用,分享下我的一些思考,如果从前几天我分享的使用AI的底层心法是以道御术的角度看,省额度是术,看清生产力归谁管是道。 如果你也在用 Codex,并且习惯把额度省着点用—— 我劝你看完这条再决定要不要继续省, 昨天那次 reset,可能正好把你攒的 buffer 覆盖掉了。 OpenAI Codex 负责人 Tibo(@thsottiaux)发帖, 说过去 24 小时出了 3 次小可靠性事故, 给所有付费计划统一重置了额度,配了一句 May the tokens flow again。 评论区一片感谢,刷屏 Saint Tibo、he did it again,我翻了一圈,想说一句可能没人爱听的话, 你这几天精打细算省下来的额度,大概率是白省了。 先讲讲 Codex 这套额度怎么算的,没按 token,而是按推理时间(reasoning time)算的。 一个 5 小时窗口,本地和云任务共用。 据社区实测,Plus 计划下 GPT-5.4 大概跑 40 分钟推理就把这 5 小时额度烧到 100%,GPT-5.3 大概 60 分钟。 也就是说你开个 /goal 让它自己 plan→act→test→iterate 连轴转, 额度掉得比你想象快得多,你只看到一个百分比,看不见它每分钟在烧多少。 现在把 reset 叠进来看, 据社区讨论,这个 reset 很多时候不是凭空补额度, 是把你下一个计费周期的起点往前提了。 所以那些 reset 后立刻开跑的人,有人一口气跑了 11 小时+推理; 而你为了周末大项目辛辛苦苦攒的 buffer,一次 reset 直接被覆盖归零。 省的人亏,冲的人赚。 4、5 月到这次,Tibo 已经 reset 好几轮了,这不是偶发,属于常态了。 所以在现在这套规则下,精打细算反而是次优解。 不是让你瞎浪费,是这系统在奖励立刻消耗的人,你得顺着它的规则走。 但真正让我在意的,不是怎么省额度,是这件事意味着什么。 把 Codex、把额度、把 reset 这几个词去掉, 这是所有用云端 AI 干活的人的同一个故事, 你的生产力,不在你手里,在一套你看不透、也补偿得不透明的系统手里。 今天 Tibo 心情好给你 reset,明天他换岗了呢。 靠一个好心负责人的 goodwill 续命的信任, 他在的时候特别暖,他一走,账要一次性集中还。 所以这事真正的解法,不是蹲着等下一次 reset, 是别把生产力全押在一个你控制不了的池子里。 本地模型兜底 + 云端冲峰值,自己记一份 burn rate(40 分钟≈100%,倒推 4 分钟≈10%), 把节律攥回自己手里。 我觉得AI 工具的下一道分水岭,已经不在模型多强了, 关键看是我们的生产力到底归谁管。
译OpenAI Codex 负责人 Tibo 因 24 小时内 3 次可靠性事故,重置所有付费计划额度。Codex 按推理时间计费:Plus 下 GPT-5.4 约 40 分钟耗尽 5 小时窗口,GPT-5.3 约 60 分钟。重置常将下个计费周期提前,导致精打细算攒的额度被覆盖,立即消耗者反而获得更多推理时间。作者认为系统奖励即刻消耗,建议本地模型兜底、云端冲峰值,夺回生产力控制权。
Margin Collateral Agent:用架构分离解决 OTC 保证金争议 场外衍生品名义价值 846 万亿美元,45% 的保证金追缴存在争议,其中过半争议发生在计算之前——双方对同一份 CSA 合同的理解不同。 该系统将流程拆为四层:ADE 按 CSA 专用 Schema 提取字段并绑定源页码;三个 Claude Agent 并行归一化抵押品描述、时区和货币条款,纯规则验证 Agent 预审矛盾项;五步骤纯 Python 计算器执行确定性运算,零 LLM 调用;最终生成带页码追溯、推理链和可独立运行 Python 脚本的审计包。 关键洞察:争议根源是合同解读而非数学。LLM 负责需要判断的模糊语义,规则负责需要一致性的算术,两者接口显式化。可审计性必须从架构第一天内建,事后补装无效。该分离原则适用于保险理赔、监管报告等一切"文档解释驱动确定性计算"的高风险场景。
译场外衍生品名义846万亿美元,45%保证金追缴有争议,过半源于合同解读。系统用四层架构分离语义与算术:ADE提取字段绑页码,多个Claude并行归一化,规则预审矛盾,纯Python计算器确定性运算,生成带追溯的审计包。LLM处理模糊语义,规则保证算术一致性,适用于文档解释驱动的场景。
ChatGPT App (Android) Add Codex shortcut.
译ChatGPT App (Android) 新增 Codex 快捷方式。
Sam Altman 表示 AI 预算正成“巨大问题”。OpenAI 顶级内部用户月耗约 100B 模型 token,而外部客户高达 603B。AI 智能体使成本恶化:agent 不止回答一次,而是规划、调用工具、读取文件、重试失败步骤、检查自身工作,产生大量隐藏 token 消耗。人类问一次,agent 可能一秒内问数百次。公司不再问 AI 是否令人印象深刻,而是问边际 token 是否产生边际价值。杰文斯悖论解释部分陷阱:每 token 成本下降,人们使用更多 token,总账单仍可能上升。
it's really inspiring to see the collective response of humanities professors on twitter whenever an academic says somet...
NVIDIA 今日发布 Nemotron 3 Ultra,重点优化低延迟智能体性能。在 Terminal-Bench v2.1 上,该模型与竞品在 4 个递增轮次限制下对比测试。Nemotron 3 Ultra 凭借高推理速度(基于 token 用量与 blackboxai 预部署测得的端点输出速度,以及工具执行实际耗时),在每个轮次限制下完成任务的速度均快于竞品,同时保持了有竞争力的基准分数,处于该评测性能-时间帕累托前沿的领先位置。
孙正义在6月1日CNBC专访中称,下一个万亿美元机会是Physical AI和机器人,AI革命规模将是互联网泡沫时代的50倍,是人类经历的最大技术变革。他预测未来十年AI将从屏幕走进现实,拥有身体并动手做事。当前AI仍停留在无身体层面(提示词、Agent编排、内容生成),真正决定生产力的是有身体的一层。该推文还提供了普通人认知与财富进阶地图。
@jiadana2520 我没截图,简单给你画一下。codex 就很醒目。qodex一愣神就点错了
Google DeepMind 论文《Intelligent AI Delegation》将任务委托视为一系列选择:是否委托、如何解释、如何验证结果。系统构建动态市场,智能体通过智能合约竞标任务,利用加密证明保证正确性与隐私。基于信任模型,避免过度委托(给 AI 难完成的任务)或不足委托(自己做 AI 能胜任的事)。输出验证规则根据 AI 置信度决定接受与否,并有备用计划处理失败。还涵盖 AI 智能体间的委托与问责追踪,确保贡献符合整体目标。该框架使企业更安全地在日常运营中使用 AI。
宝玉建议只选最聪明的2-3个模型(如GPT-5.5、Opus 4.8),因单个模型不够稳定全面。翻译用Gemini 3.1 Pro,画图用GPT Image 2,复杂任务让多个模型并行对比。强调“token贵的省时间,时间比token更贵”,暗示深耕一两个最强模型即可。
@dotey 请教一下大佬,假如codex或者cc可以满足目前的需求,是否还有必要体验国内agent,目前只深度用过这两个agent,不知道有没有必要多体验不同agent的区别,还是深耕一两个就行
True story. > Say Paella like a British woman
宝玉发推称所有AI Agent团队都为理想自愿加班封闭开发,并好奇Kimi团队开发Kimi Code时用自家token多还是Claude/GPT token多。@real_kai42透露,一个月前他决心重构Kimi Code,花几千刀token做架构分析与验证,确定方案后组建团队封闭开发,过程中不断吵架推翻重来,最终开源后因皮质醇过度分泌病倒。他感叹封闭开发是工程效率奇迹,集体主义远胜个人英雄主义。
过去一个月是疯狂的一个月 大概一个月前,我下定决心重构 kimi-code,开始设计新的架构。 我大概抱着电脑和便携屏在汤泉卷了两整天,花了几千刀的 token 去做架构分析、设计和验证,最终得到了一份我认为最优的架构方案。 我觉得在 vi...
Anthropic 内部数据显示 Claude 能力增速远超预期,可能接近自主设计继任者的递归自我改进。关键指标:工程师人均季度代码产出是此前四年平均的 8 倍;AI 可可靠完成的任务时长每 4 个月翻倍,从 Opus 3 的 4 分钟升至 Mythos Preview 的至少 16 小时。截至 2026 年 5 月,Claude 撰写代码占 Anthropic 代码库 80%+,代码质量已与人类持平,年内将超越。最困难任务成功率 6 个月从 26% 升至 76%。Anthropic 认为趋势停滞可能性最低,复合效率增益最可能,完全递归自我改进的对齐结果最不确定。
Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...
关联讨论 9 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Emad Mostaque (@EMostaque)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)X:Kim (@kimmonismus)X:小互 (@xiaohu)X:Testing Catalog (@testingcatalog)X:卡兹克 (@Khazix0918)X:Rohan Paul (@rohanpaul_ai)Anthropic is shipping 3.2x more code per person with Mythos nowadays than with Opus 4.5 around half a year ago
归藏宣布其 PPT Skills 项目将继续更新。得益于近期的赞助,计划开发第三套主题,且会把在小红书图文卡片部分积累的好经验用于新版中。
http://x.com/i/article/2053655813877870592
Elvis Saravia 逆向工程了动态工作流(Dynamic Workflows)并集成到自研智能体编排器中,同时构建 HTML 监控仪表盘跟踪任务、指标和报告。该工作流可在 Claude Code、Codex、Pi 等编码智能体及自研 @dair_ai agent 上运行。成功用例包括分支深度研究、并行深度研究、会话挖掘、Bug 定位、分类、事实核查、LLM 委员会、AI 模拟、数据合成和评测生成等。他认为动态工作流与 agent 技能一样,是实现复杂长期任务的关键原语,不仅限于编码,还可扩展至商业、科学等领域。
I found another API that offers claude-oceanus-v1-p the pricing and tps make a lot more sense to me Mythos pricing might...
after watching @brian_lovin and @wjosephflynn talk about vibe coding, this was the idea i couldn't shake: vibe coding ca...
李飞飞(Fei-Fei Li)指出,大语言模型(LLM)仅学习文本模式,能描述房间但无法理解椅子移动、玻璃破碎、阳光变化或机器人推杯子等物理变化。世界模型则试图学习视觉背后隐藏的结构,能预测相机未捕捉的视角、建模物体行为、支持真实或虚拟环境中行动的智能体。理解新视角、预测推动结果、决定下一步行动,都需要一个共同的内在模型,涵盖空间、因果与后果。
http://x.com/i/article/2062244283940544512
Our post-training pipeline is a substantial redesign from Super. The core idea: don't rely on stacked RL stages alone. W...
Rohan Paul 介绍 Anuma,一个私人 AI 工作空间,核心功能是跨模型统一记忆——用户在 ChatGPT、Claude、Gemini、Grok、DeepSeek、Kimi 等模型间切换时,上下文、偏好、目标和历史工作自动跟随。额外功能包括设备端加密记忆、默认隐私模式、无日志无训练、支持完整记忆导出、Council Mode(多模型并列回复对比)、单聊内模型切换,以及通过 iMessage 或 SMS 的 AI 文本能力。Paul 分享研究论文分析用例:上传多篇论文,利用多模态和多模型并行工作流,对比不同模型对同一主题的阅读、总结和关联能力,避免重复解释上下文。
Today, we're launching Reve 2.0, the best 4K image model in the world. We invented a new way to generate and edit any im...
MiniMax-M3 实测:前端适配 KCORES2026p2,空间理解、建模精度、美学表现优秀,颜色运用佳;复杂需求如光追引擎需迭代。后端得分超 deepseek-v4-pro 及国产模型,略逊 GPT-5.4-Pro (xhigh)。Agent 能力达榜单第二接单量,规划突出。使用经验:M3 偏好长推理,单次输出可达 64k token,适合嵌入带 plan 模式的 Coding Agent,需做好 prompt 编排,避免大量 tool call;执行约束不足,需增加代码级 harness 闭环。
推文以“原话:我这店不要不干了,这帮B还能去哪儿?”和“作家改写:如果此地终会消亡,这些灵魂又将何处安放?”为例,说明作家在AI时代负责对粗俗表达进行美化润色的作用。同时提到郑执演讲中有感的话,并认为东北人天然适合干自媒体。
Anthropic 将 95% 的业务分析查询交给 Claude,准确率约 95%。最初仅 21%,通过搭建数据基础、权威来源、技能等四层系统提升。核心发现:准确性问题本质是上下文和验证,而非代码生成。三种失败模式:概念对应错误、数据过时、找不到正确字段。重复分析由 Claude 承担,数据科学团队专注更高价值任务。
OpenAI Codex 负责人 Tibo 因 24 小时内 3 次可靠性事故,重置所有付费计划额度。Codex 按推理时间计费:Plus 下 GPT-5.4 约 40 分钟耗尽 5 小时窗口,GPT-5.3 约 60 分钟。重置常将下个计费周期提前,导致精打细算攒的额度被覆盖,立即消耗者反而获得更多推理时间。作者认为系统奖励即刻消耗,建议本地模型兜底、云端冲峰值,夺回生产力控制权。
Hi. Over the last 24 hours we had three separate small incidents that affected Codex reliability. Those are three too ma...
场外衍生品名义846万亿美元,45%保证金追缴有争议,过半源于合同解读。系统用四层架构分离语义与算术:ADE提取字段绑页码,多个Claude并行归一化,规则预审矛盾,纯Python计算器确定性运算,生成带追溯的审计包。LLM处理模糊语义,规则保证算术一致性,适用于文档解释驱动的场景。
http://x.com/i/article/2062396450479427584
How do I make Codex the default tab when I open the ChatGPT app