AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态X · 3969 条
全部一手资讯X论文
MiniMax (official)@MiniMax_AI · 46分钟前9

lmk👀

译引用推文调侃至少价格包含了数据线,并询问该设备能否运行 MiniMax M3。主推文仅以“lmk👀”回应。

查看原推 ↗
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 56分钟前65

In ONE year, AI went from being able to solve ~none of the hardest math problems to solving almost ALL of them

译一年之内,AI从几乎无法解决任何最难数学问题,发展到几乎能解决所有它们。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 54分钟前45

NVIDIA just posted the first agentic AI benchmark results where GB300 NVL72 runs up to 20x more coding agents per megawatt than H200. Older inference benchmarks mostly ask how fast a system can produce tokens after one prompt. AgentPerf from Artificial Analysis, asks a harder question: how many agents can run at the same time while still feeling responsive. It tests a harder workload than normal LLM serving because an agent is not one request and one answer, but a long chain of model calls, code edits, command runs, tool delays, and growing context. The benchmark replays real coding-agent paths from public repos across 12+ programming languages, with request lengths from 5K to 131K tokens and an average near 27K tokens. NVIDIA says GB300 NVL72 reaches 61.4K concurrent agents per megawatt at the lowest service tier, while H200 reaches 2.6K. The gain comes from 72 GPUs acting like one rack-scale machine through NVLink, plus software that spreads MoE expert work, overlaps communication with compute, and keeps batches large. @NVIDIAAIDev

译NVIDIA 首次在 AgentPerf(由 Artificial Analysis 开发)中评测智能体 AI。该基准测试的不是传统 token 生成速度,而是每兆瓦可同时运行且保持响应性的编码智能体数量。工作负载模拟真实编码智能体路径(长链模型调用、代码编辑、命令运行、工具延迟、增长上下文),涵盖 12+ 编程语言,请求长度 5K–131K tokens(平均 27K)。结果:GB300 NVL72 在最低服务层每兆瓦达 61.4K 并发智能体,H200 仅为 2.6K(20 倍提升)。性能提升源于 72 GPU 通过 NVLink 组成的机架级系统,配合软件优化(MoE 专家分布、通信与计算重叠、大批量保持)。

查看原推 ↗
Orange AI@oran_ge · 1小时前75

今天凌晨五点的时候,我让 AI 帮我打磨一段文案,打磨三遍给我看。 AI 改完之后,我发现一遍比一遍讲究,但是一遍比一遍缺人味儿。 我已经用上最贵的 Claude Fable 5 了,还这样,让我很生气。 最后我跟 AI说,你改完之后,人味儿变少了。 我说不清什么是人味儿,只知道我感受不到文字背后的那个人了。 我们讨论很久,最后讨论出的结论是,AI 写的东西,背后缺少一个东西: 存在感。 人写的字背后站着一个具体的人,他在具体的位置上,付出过具体的代价。 然后把聊的关键信息做成了一个技能,这就是: 《人味儿写作心法.skill》 它特别适合自己写文章或口述后,让 AI 来改稿的场景。 开源免费发布。 给你的 Agent 装上它,让你的文字变得有人味儿 http://github.com/orange2ai/renwei-writing

译Oran Ge 让 Claude Fable 5 打磨文案三遍,发现改稿越来越讲究却缺“人味儿”。他与 AI 讨论后得出结论:人写的文字背后有“存在感”——作者在具体位置付出过具体代价,而 AI 无法复现。为此他制作了《人味儿写作心法.skill》,专用于自写文章或口述后让 AI 改稿的场景,旨在保留文字的人味。该技能已开源免费发布在 GitHub。

查看原推 ↗
fofr@fofrAI · 1小时前18

Yeah I'm going to have fun with this.

译我正在尝试一个智能体流程,将 Hyperframes 与 Gemini 视频分析结合起来,制作有趣的注释视频。是啊,这会很有意思。

查看原推 ↗
Peter Steinberger 🦞@steipete · 1小时前47

How am I only now finding out about appshots? I was dragging screenshots into codex live a caveman.

译我怎么现在才发现appshots? 我之前还像个穴居人一样把截图拖进Codex Live。

查看原推 ↗
Orange AI@oran_ge · 2小时前66

最近跟藏师傅聊天,都感觉到深深的共鸣。 大众以为 AI 带来平权,但实际带来的是 K 型分化。 头部用户已经默认理解 Agent 的组成:文档、规则、memory、loop、MCP、CLI、工具调用、权限、安全沙箱、上下文工程、定时任务、心跳、文件系统、代码执行和 Skill。 普通用户只知道"Agent 能写代码"。 怎么办?把技能做好,是跨越鸿沟的唯一解法。 我们正在和藏师傅一起做一点实际的事情,让 Cola 帮助大众真正跨越鸿沟。

译AI带来的并非平权,而是K型分化。头部用户已默认理解Agent的组成:文档、规则、memory、loop、MCP、CLI、工具调用、权限、安全沙箱、上下文工程、定时任务、心跳、文件系统、代码执行和Skill;普通用户只知道"Agent能写代码"。做好Skill是跨越鸿沟的唯一解法。作者正与藏师傅一起通过Cola帮助大众真正跨越鸿沟。

查看原推 ↗
Orange AI@oran_ge · 2小时前19

我观察到身边朋友同事们的 ADHD 越来越严重了。 很容易被细小琐碎的事分散注意力, 反而对大问题视而不见。 把关掉通知,独自沉浸在一件完整的大事里,变得越来越不可能。 进入心流,也变得越来越难。 AI 的高速执行,还加重了这个问题。 每两三分钟一次的对话,是一次次注意力集中和注意力涣散的交替循环。 我们该如何来拯救自己的前额叶呢?

译观察到身边朋友同事的ADHD(注意力缺陷多动障碍)越来越严重:容易被琐事分散注意力,对大问题视而不见,关掉通知、沉浸大事变得不可能,进入心流也变难。AI的高速执行加重了这一问题——每两三分钟一次的对话,形成注意力集中与涣散的交替循环。推文最终发问:该如何拯救自己的前额叶?

查看原推 ↗
Peter Steinberger 🦞@steipete · 3小时前52

IMO sth that is a bit overlooked but will become far more important in the future. GPT is 10-20x more token+cost effective for ~similar outcome.

译Peter Steinberger 指出 GPT 在 token 消耗和成本上比 Fable 高效 10-20 倍,且能达到相似结果。@thorstenball 的对比测试印证:让 Fable 和 deep^2 完成相同的 CLI、Web 服务器等多端功能,deep^2 花费 $20(首次未通过但可修复),Fable 运行 1 小时 40 分、花费 $350(首次成功)。后续追问后 Fable 总花费达 $457,deep^2 预计最多 $40,差距约 17 倍。

查看原推 ↗
Ethan Mollick@emollick · 3小时前63

10 months later, I gave Claude Code with Fable the same brief, asking it to construct SimRefinery from surviving screenshots and documentation. Fully playable, with a learning mode & all sorts of sophistication. Look at the difference from the old version! https://simrefinery.netlify.app/

译10个月后,Ethan Mollick 再次向 Claude Code 和 Fable 下达同一指令——根据幸存截图和文档重建失传的 Maxis 模拟游戏 SimRefinery。新版本完全可玩,包含学习模式等多种复杂功能,与10个月前 ChatGPT Codex 仅凭一篇文章和截图快速搭建的可玩原型形成鲜明对比。当时他未写一行代码,仅偶尔提小修改请求。

查看原推 ↗
Suno@suno · 3小时前33

How Lay Bankz turned a few keyboard notes into a psychedelic rock sample

译Lay Bankz 如何将几个键盘音符转变为一段迷幻摇滚采样。

查看原推 ↗
Chubby♨️@kimmonismus · 3小时前49

I had already wondered how Apple manages to perform inference at Google while simultaneously protecting their privacy, essentially their unique selling point. The answer: the heaviest requests run on Blackwell B200s inside Google Cloud, with NVIDIA's Confidential Computing encrypting the data while it's processed, so neither Google nor Apple can see it. "NVIDIA Confidential Computing provides a hardware-based security layer for accelerated AI workloads. The technology protects data while it’s being processed by isolating workloads in trusted execution environments and enabling systems to cryptographically verify that the infrastructure has not been tampered with before any sensitive data is sent to the server."

译Kim解释Apple如何在Google Cloud上执行推理时保护隐私:最重的请求运行在Google Cloud的Blackwell B200s上,利用NVIDIA Confidential Computing提供基于硬件的安全层,将工作负载隔离在可信执行环境中加密处理数据,确保Google和Apple都无法看到数据。

查看原推 ↗
Chubby♨️@kimmonismus · 4小时前24

Looking at the graph, I think Fable 5 will only maintain its lead up to GPT-5.6. And secondly, I think the benchmark will soon be completely saturated.

译观察图表,我认为 Fable 5 只会保持领先直到 GPT-5.6。 其次,我认为该基准测试很快就会完全饱和。

查看原推 ↗
fofr@fofrAI · 4小时前40

I'm messing around with an agent flow for combining Hyperframes with Gemini video analysis to make interesting annotated videos.

译我正在尝试一种智能体流程,将Hyperframes与Gemini视频分析相结合,制作有趣的注释视频。

查看原推 ↗
jason@jxnlco · 4小时前15

oh shit?!??! codex is playing rimworld

译哦靠?!?!codex 在玩 rimworld

查看原推 ↗
Ethan Mollick@emollick · 5小时前57

The shape of the graph is getting very familiar.

译Claude Fable 5 在 FrontierMath 基准测试(Tiers 1-4, v2)中表现优异,Tiers 1-3 得分 87%,Tier 4 得分 88%,延续了 Anthropic 模型数学能力快速提升的趋势。主推文评论道:“图形的形状越来越熟悉了。”

查看原推 ↗
Epoch AI@EpochAIResearch · 5小时前41

Claude Fable 5 scores very well on FrontierMath: Tiers 1–4 (v2), reaching 87% on Tiers 1–3 and 88% on Tier 4. This continues a streak of Anthropic models improving rapidly at math.

译Claude Fable 5 在 FrontierMath(Tiers 1–4,v2)上得分很高,在 Tiers 1–3 上达到 87%,在 Tier 4 上达到 88%。这延续了 Anthropic 模型在数学上快速提升的趋势。

查看原推 ↗
fofr@fofrAI · 5小时前46

Fine-grained 3D motion control in AI video just got a little bit closer

译@andrew_n_carr 宣布“编辑视频运动!放弃提示开始导演”,并展示其“通用视频编辑器”工作流:先用 comic 4 捕捉视频,再用运动编辑器修改动作,最后用视频到视频模型(如 Runway、Gemini)重新渲染。他以时装片段为例,希望模特展现高抬腿活力,无需重拍。主推文 fofr 表示,AI视频中精细的3D运动控制已更近一步。

查看原推 ↗
elvis@omarsar0 · 6小时前69

How to effectively run autonomous long-running coding agents? This is one of the most exciting discussions on agents I've ever had. I recorded it and am making it freely available. (bookmark it) The idea of autonomous long-running agents is a real thing. We talk about lots of things like /goal, /loop, and dynamic workflows, and what comes next. One interesting discussion was around how to make the agent run for longer while ensuring it stays on track. Most models today will struggle to coordinate work effectively. They sometimes pause the work early. Lots of mistakes happen, and lots of weird shortcuts (reward hacking). What helps is to be extremely clear about the goals it needs to achieve. To clarify the dos and don'ts clearly. Eliminate any assumptions you think the model would make. Deep expertise matters so much in this. But you can get far through careful planning. My formula currently is to use Opus 4.8 for planning carefully and GPT-5.5 for all executions. For the evaluator (via /goal), I am often using something like Deepseek or the latest models from Qwen, Kimi, and MiniMax, etc. Another insight we discussed to enforce goals is to provide strong visual cues for the agent to compare with. I found that a multimodal goal is a much stronger goal than a plain text one. And use agents to help you set clear goals. Watch here: https://academy.dair.ai/events/cmplo7v3b000e04l1pxprat4d

译DAIR.AI创始人Elvis Saravia分享如何有效运行长期自主编码智能体。他指出当前多数模型难以协调工作,会过早暂停、犯错或走捷径(reward hacking)。关键在于明确目标、消除假设,避免模型自行推断。他的实践公式:用Opus 4.8进行细致规划,GPT-5.5执行所有步骤,评估器(通过/goal)则使用Deepseek及Qwen、Kimi、MiniMax等最新模型。另一关键洞察是提供多模态视觉线索作为目标,比纯文本目标更强,能更好地约束智能体。完整讨论已录制并免费开放。

查看原推 ↗
PixVerse@PixVerse_ · 6小时前49

Victorian gothic nightmares, one Canvas workflow. See how @Shanzyin_ai built THE DREAM EATERS on PixVerse Canvas — nodes, shots, and the full project file, open to explore.

译PixVerse 展示 AI 电影制作人 @Shanzyin_ai 使用 Canvas 工作流创作的维多利亚哥特风格短片《THE DREAM EATERS》。短片包含完整节点、多个镜头及项目文件,开放探索。剧情设定为古老庄园中青少年被迫吞噬权贵噩梦,一名有缺陷的新兵将黑暗拖回现实。PixVerse 推出限时活动:转发+关注+回复“DREAM”,72 小时内可获得 150 Credits 及该工作流。

查看原推 ↗
Chubby♨️@kimmonismus · 6小时前65

Google DeepMind published a 60-page paper mapping the road from AGI to superintelligence, written by Hutter, Legg, and Genewein. No hype, just a sober analysis The paper uses three levels. AGI = roughly average human performance across most cognitive tasks. ASI = a system that beats large, well-coordinated groups of human experts across virtually everything (their bar: tens of thousands of experts working ten years on one problem). Universal AI / AIXI = the theoretical ceiling, uncomputable, only approachable from below. Then they explore the question of how this could be achieved: Scaling compute, models, and data, the continuation of the trend that drove the breakthrough so far. It is the only path with historical data available for extrapolation. The core question: Does quantity transform into quality? Even if individual models plateau, the sheer act of running millions of faster AGI instances could trigger the leap. (A quick aside: that is a fascinating philosophical idea. It always reminds me of Hegel’s dialectic, the notion that quantity transforms into quality. We ought to start drawing on philosophical theories to make sense of the future.) Algorithmic paradigm shifts: a genuine break from the transformer pretraining paradigm. New architectures, new learning methods. However, hard to predict by definition. Recursive self-improvement: AI accelerates AI research, which produces better AI, which accelerates research further. Multi-agent coordination: superintelligence emerges from large collectives of AGI agents working together, like automated corporations or AI economies. Collective intelligence potentially far exceeding any individual model. The authors naturally point to what I repeatedly describe as the biggest bottleneck: energy. I recently linked to a few graphs showing, on the one hand, the extent to which energy is already becoming a problem and, on the other, how China dominates the expansion of both nuclear and solar energy in the global race. But the authors also address a profound shift in the world of work in a post-AGI era. I would say this is a reality we must face. So, it is not just about scaling, but also about whether the underlying conditions - such as energy and hardware - can be effectively established. Six things that could slow or stop all of this: The data wall. Quality training data runs out, possibly before the end of this decade. Resource demand grows too fast. Energy, chips, rare earths, investment. The physical infrastructure can't scale arbitrarily. The neural paradigm hits a ceiling. Pretrained transformers plus fine-tuning may not be enough to reach AGI, let alone go beyond it. Research gets harder. Keeping Moore's law going already needs 18x more researchers than in the 1970s. Ideas are genuinely harder to find as fields mature. The abstraction barrier. Models trained on human concepts may never invent new ones from scratch. Saturating GPQA or SWE-bench shows mastery of what humans already worked out, not the ability to go beyond it. Train only on pre-Newtonian physics and you won't reason your way to relativity. Deliberate slowdown. Regulation, accidents, public backlash. Real, but likely countered by the competitive pressure between companies and nations. I think it’s great that Google is addressing questions such as which paths they believe lead to AGI, what the road to ASI might look like, what challenges will arise, and much more. Overall, however, it sounds to me like all of this could actually succeed, making it, in that sense, a call to discuss and reflect on the consequences.

译Google DeepMind发表60页论文,由Hutter、Legg、Genewein撰写,定义AGI(多数认知任务达平均人类水平)、ASI(超越大量专家协作)和不可计算的AIXI三个层级。实现路径包括规模扩展、算法突破、递归自我改进和多智能体协调,瓶颈在于能源与硬件。六种阻碍:高质量数据可能本十年内耗尽、资源需求过快、神经范式天花板、研究难度激增(维持摩尔定律需18倍于1970年代的研究者)、模型无法创造全新概念、人为放缓。作者认为这是对AGI后果的严肃反思呼吁。

查看原推 ↗
Ammaar Reshi@ammaar · 6小时前53

I asked Claude Fable 5 to reverse engineer a 1993 DOS game with no source code. It read the raw machine code, rewrote the engine in C, and gave me a fully editable port for every platform. 30 min from EXE to iPhone. Sharing it all so you can revive your own childhood games!

译我让Claude Fable 5逆向工程了一款1993年的DOS游戏,没有源代码。 它读取了原始机器码,用C重写了引擎,并给了我一个完全可编辑的移植版,适用于每个平台。 从EXE到iPhone,30分钟。 分享这一切,让你也能复活自己的童年游戏!

查看原推 ↗
Nathan Lambert@natolambert · 6小时前46

derivation of policy gradient: https://rlhfbook.com/c/06-policy-gradients#deriving-the-policy-gradient

译策略梯度推导: https://rlhfbook.com/c/06-policy-gradients#deriving-the-policy-gradient

查看原推 ↗
Chubby♨️@kimmonismus · 7小时前31

Holy, no way! (/s)

译据 The Information 报道,OpenAI 正在准备一个新 AI 模型。主推文回应:“天哪,不会吧!(/s)”

查看原推 ↗
jason@jxnlco · 8小时前16

codex users! how have you found codex'x ability to use (correctly) computer use / chrome extension / in app browser? if you want to give us feedback leave a comment and I'll organize it for the team!

译codex 用户们! 你们觉得 codex 在(正确)使用电脑/Chrome 扩展/应用内浏览器方面的能力怎么样?如果想给我们反馈,请留下评论,我会整理给团队的!

查看原推 ↗
Odyssey@odysseyml · 7小时前44

World models can now create imagined experiences for AI—environments where agents continuously learn, adapt, and improve. We suspect multi-agent interaction may be a critical ingredient for recursive AI and general intelligence. https://odyssey.ml/the-era-of-multi-agent-imagined-experience

译世界模型现在可以为AI创造想象体验——智能体在其中持续学习、适应和提升的环境。 我们推测多智能体交互可能是递归AI和通用智能的关键要素。

查看原推 ↗
Lee Robinson@leerob · 7小时前61

http://x.com/i/article/2065439304785039360 # Building recursive agent systems At Cursor, we run thousands of agents to help us train the next version of Composer. We give them research tasks, and if they aren't succeeding or run into issues, they DM us on Slack or page us via PagerDuty. ## Scaling training for Composer We’ve built an org chart of agents that work together. As we’ve scaled training for Composer, we’ve wanted to run thousands more experiments. This was possible before, but it was slow and hard to keep track of every experiment’s status. To speed things up and parallelize work, we built an always-running agent system (yes, it's a loop). ## An agent system for research Here’s how the system works: 1. The main agent runs on a massive remote machine with all the tools you'd use locally, plus a file on disk acting as an “inbox” for the fleet. 1. It SSHes into machines running hundreds of child agents and collects their statuses into the inbox. 1. On every loop, it checks fleet health, keeps healthy tasks running in the background, and surfaces anything broken to the team on Slack. 1. Like all infra, the agents occasionally hit transient issues or need to be poked, so the main agent can control the whole fleet, quitting or restarting processes as needed. This “fleet manager” builds on our previously published research on long-running agents. We’ve given the manager many different skills that encode tacit knowledge for how to run ML experiments, review and monitor results, and more. ## Researchers with superpowers Training a great model means trying a bunch of ideas for creating useful RL data. A single laptop is not enough here, you really want an army of computers in the cloud to run experiments in parallel. And since we aren't compute-constrained, we rolled out this infra for everyone in ML. Researcher time is our scarcest resource and we’ve found a way to scale their leverage by orders of magnitude. Imagine if you had a human manager with 10,000 direct reports. Obviously that wouldn’t work well, but this human → agent “org” kind of does! If you have a problem that is verifiable, where throwing more tokens at it will solve it faster or better, it’s worth considering building a system like this. It’s enabled us to have swarms of agents crawling through Composer’s data to recursively improve itself for future versions. And if this sounds exciting, we’re hiring!

译Cursor 为训练下一代 Composer,构建了一个始终运行的递归智能体系统。主智能体在远程机器上通过 SSH 管理数百个子智能体,将状态收集到磁盘“收件箱”,循环检查集群健康并保持任务运行,通过 Slack 向团队报告问题。主智能体具备多种技能用于运行和监控 ML 实验。研究人员可并行运行数千个实验,大幅提升效率。对于可验证的问题,投入更多 tokens 能更快解决。

查看原推 ↗
AYi@AYi_AInotes · 8小时前47

Claude Fable 5+gpt-image 2简直就是生图王炸组合!! oh no,应该是掌管AI生图的神, 这以后还自己研究什么生图提示词啊, 想要什么图交给Fable5就好了啊! 时间过得也快,眨眼小半年没有玩AIGC生图了, 趁着今天不加班,想着试试用Fable5给我个美女看比赛的图,就把其女友的照片发给它了, 提示词就一句话:给我一个这个女孩看NBA总决赛的现场照片,身材要比参考照片丰满一些,要笑靥如花,背后是美国总统特朗普和尼克斯老板, 结果真的让我卧槽了,他思考的过程会先分析gpt对什么关键词敏感,以及不能出现NBA等品牌词,不能出现人名,自己把NBA改成了NBC,把特朗普去掉了, 然后再看出片效果,这质感、光影,人物一致性, 前女友看到都得跟我复合吧! 提示词老规矩评论区自取⬇️

译用户分别测试了Claude Fable 5与gpt-image 2的组合以及Fable 5单模型。生图场景中,用户给了一张女友照片和一句话提示词(“看NBA总决赛,身材丰满,笑靥如花,背后是特朗普”),模型自动分析敏感词,将NBA改为NBC、移除特朗普,生成的人物一致性与光影效果惊艳。另一场景,用户直接对Fable 5说“做落地页,自由发挥”,模型自主搜索2026设计趋势、调整配色动效、藏了3个彩蛋,几分钟内输出完整可用的单文件HTML。模型展现出极强的自然语言理解和主动规划能力。

查看原推 ↗
Emad@EMostaque · 9小时前38

If you think AI valuations are crazy just wait until SpaceX, OpenAI and Anthropic all are liquid. Hopefully some crazy ideas and impactful ideas get funded, especially as many of the stockholders think AGI is coming so like use it or lose it

译如果你觉得AI估值疯狂,那就等到SpaceX、OpenAI和Anthropic都变得流通起来。 希望一些疯狂但有影响力的想法能得到资助,尤其是很多股东认为AGI即将到来,所以要么利用它要么失去它。

查看原推 ↗
AYi@AYi_AInotes · 10小时前56

我感觉Garry Tan今天这条帖子有点戳破了AI编程的一些泡沫和幻觉。 很多人都以为AI编码工具会解放创始人,实际呢,规则,审批,流程,层级,同一座牢笼只是搭得更快了。 以前加一层审批要耗两个工程师两周, 成本本身就是免疫系统,不值得的东西自然活不下来, 但现在AI一个下午就能搭完,在构建成本归零的那一刻,复杂度就开始无限制的繁殖了。 因为构建的速度,就是僵化的速度。 AI其实会改变我们的心智模型, 只会把我们已有的东西放大, 控制型团队用它堆出更密的官僚体系,创造型团队用它跑出更多的新体验,这两种工具本身都没有立场,它只是一面带编译器的镜子。 所以我们别忙着用AI把旧流程跑的更快,可以试着去用AI删掉整个旧流程,去重新创造以前从未发生过的体验,不然可能就是赢了效率,输了方向。

译Garry Tan指出AI编码工具并未解放创始人,反而让人更快搭建规则、审批、流程、层级——同一座牢笼装配更快。以前加一层审批需两周,成本本身是免疫系统;现在AI一个下午就能完成,复杂度无限繁殖,构建速度即僵化速度。AI放大已有心智模型:控制型团队用它堆官僚,创造型团队用它创造新体验。提醒不要用AI把旧流程跑得更快,而应删掉整个旧流程,创造前所未有的事,否则赢了效率输了方向。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 9小时前64

Anthropic's Dario Amodei's new interview: on U.S. military use of Claude. Says “terrible” mistakes may be made. Argues that Anthropic has tried to set limits/"red lines" around how its models can be used, even if doing so risks the company’s future.

译Anthropic 的 Dario Amodei 最新访谈:关于 Claude 在美国军事中的使用。 他表示可能会犯下“可怕的”错误。并主张 Anthropic 一直试图为其模型的使用设定限制/“红线”,即使这样做会危及公司的未来。

查看原推 ↗
meng shao@shao__meng · 10小时前31

最近阿里(通义、钉钉..)发生的各种高层变动,让我想到一个问题。 如果再有人问你,你们创业做的这件事,如果阿里这种大厂也做,你们的竞争力是什么? 我会回答:我们的竞争力?就是我们不会宫斗 😂 阿里宫斗,顾不上我们。。。

译邵猛发推文指出,近期阿里(通义、钉钉等)高层变动频繁,引发对创业公司面对大厂竞争时差异化优势的思考。他认为,创业公司的核心竞争力在于“不会宫斗”——大厂内部斗争消耗精力,反而让创业者有了被忽视的空间。这一观点基于阿里实际的组织动态,并非抽象讨论。

查看原推 ↗
Chubby♨️@kimmonismus · 10小时前56

Regardless of any political assessment of the war, a highly significant trend is emerging here: wars are increasingly being fought autonomously. I recall my school days, when we debated ethical and moral questions,such as whether it is justifiable to sacrifice several people for the sake of one, or to sacrifice younger people in favor of older ones, and so forth. Everyone is likely familiar with the "Trolley Problem," too. Decisions regarding these questions are increasingly being made by machines. Far be it from me to be a "doomer", not at all. Yet, this is a crucial debate, particularly concerning AI-powered autonomous weapons. Anthropic has stated that it does not want its models used for such purposes. They will likely remain the exception, however. My point is that we are entering an era where the human role as a moral arbiter is shifting; instead, AI models are trained in advance based on moral codes and endowed with underlying value systems. Humans, however, act differently. Even in the military, orders are refused if they are objectionable or violate moral principles. The situation is different with machines. Consequently, we will witness entirely new types of warfare and entirely new ethical and moral debates. For one thing is clear: autonomous weapons will become the standard, not the exception.

译推文指出,无论战争的政治立场如何,一个显著趋势正在形成:战争日益由机器自主进行。作者回顾学生时代讨论的电车难题等伦理问题,认为这些决策正越来越多地由机器做出。Anthropic已声明不希望其模型用于自主武器,但可能只是例外。人类士兵在战场上会基于道德拒绝违心命令,而机器则不会。因此,基于预先训练的价值观体系运作的AI将取代人类成为道德仲裁者,带来全新战争形态与道德争议。自主武器将成为常态而非例外。

查看原推 ↗
SemiAnalysis@SemiAnalysis_ · 11小时前44

Alongside the launch of our H100 1-Click Rental Index, we wrote up what the GPU rental market actually looks like in early 2026, and the headline is that the spot market for compute has gone from "finally cooling off" in October to a hard squeeze again, in roughly five months. (1/4) 🧵

译伴随着我们的H100 1-Click租赁指数的发布,我们撰写了2026年初GPU租赁市场的实际状况,标题是:计算现货市场从十月的“终于冷却”到大约五个月后再次出现硬性挤压。(1/4) 🧵

查看原推 ↗
Rohan Paul@rohanpaul_ai · 10小时前35

So ex-Google exec @MGawdat correctly predicted last year. "We're going to start to see a trillionaire before 2030. I can guarantee you that someone will be a trillionaire. There will be a new Elon Musk or Larry Ellison that will become a trillionaire because of AI investments, right? And that trillionaire will have so much money to buy everything. There will be robots and AIs doing everything, and humans will have no jobs." --- Video from 'The Diary Of A CEO' YT Channel (link in comment)

译前谷歌高管Mo Gawdat去年预测:2030年前将因AI投资诞生首位万亿富翁,届时机器人和AI将包办一切,人类彻底失业。其引用推文指出,SpaceX上市募资750亿美元、估值1.77万亿美元,使Elon Musk成为世界首个万亿富翁,印证该趋势。

查看原推 ↗
Ethan Mollick@emollick · 11小时前31

Not having access to native imagegen does hold Fable back somewhat. It is really good at making PNGs, etc, but there are lots of areas (including commercially valuable ones like presentations) where having the ability to have multimodal output would be helpful/token efficient.

译无法使用原生图像生成确实在一定程度上限制了Fable。它非常擅长制作PNG等,但在很多领域(包括具有商业价值的领域,如演示文稿)中,拥有多模态输出能力将是有帮助的/节省token的。

查看原推 ↗
Ethan Mollick@emollick · 12小时前38

Are there toolkits (or skillsets) being created specifically for AIs to use for building games? They default to 3js, reinvent how to make sprites from scratch each time, test technical issues but not gameplay loops, etc. It would help to point AIs at some tools to focus them.

译是否有专门为AI创建的工具包(或技能集)用于构建游戏?它们默认使用3js,每次都从头重新制作精灵,测试技术问题但不测试游戏循环等。 给AI指向一些工具让它们专注会有所帮助。

查看原推 ↗
fofr@fofrAI · 12小时前41

I've been experimenting with using Gemma 4 modifications to make repetitively creative prompts. Still some quirks, but these are all outputs from the same simple request: "a dynamic fashion photo of a woman"

译我正在尝试使用 Gemma 4 的修改来制作重复的创意提示。 仍有一些小问题,但这些都来自同一个简单请求:"一张充满动感的女性时尚照片"

查看原推 ↗
Berryxia.AI@berryxia · 13小时前36

终于迎来了YouMind 1.0 正式版本,从0.x开始迭代,一路不断打磨更新。 也一路见证了起成长,我当时的香蕉爆款图片多半出自YouMind 。 也是最懂生图,调优化Agent做的最好的。 祝贺YouMind 越来越牛逼~

译YouMind 1.0 正式版本发布。从 0.x 开始迭代,官方强调其代表“Create bolder”理念。用户 Berry Xia 发文祝贺,称 YouMind 是最懂生图、调优化 Agent 做得最好的工具,其之前的爆款图片多出自 YouMind,一路见证了该产品的成长。

查看原推 ↗
小互@xiaohu · 12小时前76

http://x.com/i/article/2065389944034775040 # Claude Fable 5 官方指南:省钱又有用的使用方法拆解 Anthropic 上了新模型 Claude Fable 5,是现在能用到的最强的一个,专门用来接以前接不住的长活、难活。 Anthropic 同步发布了一份官方提示词工程指南:Fable 5 的能力跃升太大,旧的提示词和编排架构会拖后腿,你需要重新学怎么用它。 但其实官方指导总结下来很简单就是:让你先删提示词! - Fable 5 能持续多天执行目标导向任务,单次请求在高 effort 下可运行数分钟,自主运行可达数小时 - 指令遵循能力强到不再需要逐条列举禁止行为,一条简短指令就能引导大多数行为 - 旧模型的提示词对 Fable 5 来说往往"过于规范化",反而降低输出质量,官方建议做减法 - 新增 effort 分级控制(low/medium/high/xhigh),Fable 5 的 low 可能就超过旧模型的 xhigh - 并行子代理调度成为一等能力,模型会主动分派并行任务 下面我把这份指南,挑出真正影响你怎么用它的几块说说:它强在哪、两个得你主动喂的新能力、effort 怎么调、一份按档位算账的省钱指南、它新冒出来的几个脾气怎么治(带能直接抄的提示词)、迁移要避哪些坑。 看你怎么用 Claude,各取所需。 ## 先说为什么强了反而要删提示词 打个你熟的比方。 新来的实习生,你得把话说死:第一步干嘛、第二步干嘛、碰到这种情况怎么办、那种情况别碰。 不是他笨,是他没经验,你不写清楚他真会出岔子。 但同一张事无巨细的清单,拿去管一个干了十年的老手,会怎样?他本来凭经验就能把事办得漂亮,结果被这张清单捆住手脚,照着那些其实不太高明的规矩来,活儿反而干差了。 你给 AI 写的那些提示词,大多是当年伺候实习生攒下来的。 模型不够聪明的时候,你得一条条堵住它可能犯的错。Fable 5 的意思是,它已经是那个老手了,你那摞老规矩现在是绑手绑脚。 官方原话是,为旧模型写的规则对它来说常常管得太细,反而把输出质量拉低。 这条我自己的体感能印证。 昨天我测试的这个案例就是很简单的提示:帮我制作一个详细介绍黑洞是如何诞生的超炫酷动画页面。 ## 它到底强在哪,值不值得你折腾 官方在讲技巧之前,先列了七项能力提升。挑你能直接感觉到的说: - **长任务不忘事:**它能连着干好几天的目标任务,跨多天从头记到尾,不像老模型干到后面把你最初的要求丢了。 - 经常一遍就做对: 早期试用的人说,以前要来回返工好几天才跑通的系统,它单次就实现了。不是说它从不出错,是只要你把要求讲清楚,一把过的概率高了很多。 - 自己看图、自己查问题: 给它糊的、歪的截图,它自己想办法处理,还被专门训练过用工具裁剪图片;查老问题能翻代码的历史记录,定位到是哪次改动埋的雷。 - 找 bug 更准: 在安全限制之外的领域,它翻代码、翻仓库历史揪 bug 的能力,明显比上一代 Opus 4.8 高。 - 自己带一队分身: 它能把一个大活拆开,派给好几个子代理同时干,自己当调度的工头,还盯着每个分身的进度。 除了这几项,它几乎在所有任务上都比旧模型强。 一个实用建议是,别只拿简单活去测它,那样会低估它的上限;把你手头最难、最久、还没解开的问题丢给它,才看得出它到底能干到哪。 ## 两个最值钱的新能力,得你主动喂 Fable 5 真正比上一代强一大截的地方,但你不主动给,它发挥不出来。 第一个,放手让它派一队分身。 它能当工头,但你得明确告诉它“可以多派分身、各干各的、别干等着一个个回来”,它才放得开。 > Delegate independent subtasks to subagents and keep working while they run. Intervene if a subagent goes off track or is missing relevant context. > 把相互独立的子任务派给子代理,它们跑的时候你接着干自己的。某个子代理跑偏了,或者缺了相关上下文,再去干预。 让分身长期留着、跨任务保留上下文,还能省缓存、不卡在最慢那个上。这个能力还能直接变成省钱手段,后面「省钱指南」一节有完整玩法。 第二个,给它一个记事本。 给它一个地方记笔记,简单到一个文本文件就行,让它把每次踩的坑、确认有效的做法记下来,下次翻出来用,它会越用越顺。 官方给的记笔记规矩是这样: > Store one lesson per file with a one-line summary at the top. Record corrections and confirmed approaches alike, including why they mattered. Don't save what the repo or chat history already records; update an existing note rather than creating a duplicate; delete notes that turn out to be wrong. > 一个文件只存一条经验,顶上写一句话摘要。纠正和确认有效的做法都要记,连同它们为什么重要。仓库或聊天记录里已经有的别存;同一件事更新那条已有的笔记,别新建一条重复的;后来发现记错的,删掉。 这几条跟我自己给 Claude 配的记忆系统几乎一字不差。 我那套也是一个文件一条、顶上一句摘要、记纠正也记确认、都写明为什么、重复的更新不新建、错的直接删。我搭它的时候没参考任何标准,是自己踩着坑一条条补出来的土办法。 现在看到官方把同样的规矩写进指南,我的判断是:这份指南不只是教你用新模型,更像是官方把一批重度用户摸出来的土办法,收编成了标准。模型越能自己记事、自己复盘,“记忆该怎么管”这点功夫就越值钱。 还有个小习惯,省事又好用:交代任务时,把“为什么要这么做”也一起说了,别光丢一句命令。它懂了你的目的,自己就能把事跟相关信息对上,不用瞎猜。套个模板: > I'm working on [the larger task] for [who it's for]. They need [what the output enables]. With that in mind: [request]. > 我在做[更大的任务],是给[谁]用的,他们需要[这个产出能带来什么]。基于这个背景:[具体请求]。 ## effort:Fable 5 上最重要的那个旋钮 这是这代最该先搞懂的一个参数。effort 控制的是模型的智力、速度、成本三者怎么权衡,分四档:low、medium、high、xhigh。 官方的建议是:大多数任务用 high 当默认,最吃能力的硬活用 xhigh,日常杂活用 medium 或 low。 Fable 5 的低档,比Opus旧模型拉满的 xhigh 还强。 所以别习惯性把它顶到最高,那既慢又贵。任务能做完但花的时间比该花的长,或者你想要更快、更能来回聊的节奏,就往下降档。 怎么配: ## Fable 5 省钱指南:单价贵一倍,账单可能更便宜 Claude Fable 5 的 token 单价是 Opus 4.8 的两倍(输入 $10/M,输出 $50/M),但多个实测数据显示,因为模型更聪明、完成同一任务用的 token 更少,最终账单在复杂任务上反而可能更低。省钱的底层逻辑不是“少想”,而是“少犯错”。 先看数据:Fable 5 Low 档 vs Opus 4.8 Max 档 下面这组数据来自第三方代码基准测试,这组对比是省钱策略最直接的证据: 这背后的逻辑,Claude Code 之父 Boris Cherny 称:以前不够聪明的模型,写错了改、跑挂了重跑,每一轮都在烧 token。Fable 5 单任务 token 更少、纠错动作更少,实际上消耗的token更少,砍掉的就是这部分隐性成本。 策略一:日常任务直接开 Low 档 Fable 5 Low 档的 64.2% 得分,已经超过了榜单上除 Fable 自己以外的几乎所有模型配置,包括 Opus 4.7 Max(64.8%,但成本 $11.02)、GPT-5.5 Extra High(64.3%,成本 $4.37)、Opus 4.8 Extra High(62.1%)。 适用场景:代码编写、调试、日常开发。不是每个任务都需要模型全力思考,Low 档就够了。 策略二:要更高质量,Medium 是性价比甜区 Fable 5 各档位的成本收益曲线: 从 Low 到 Medium,多花 $2.57 换了 5.6 个百分点,性价比最高。从 Medium 往上,每多花一块钱换来的分数增幅越来越小。High 到 Max 之间多花了 $7.21,只多拿了 2.3 个百分点。 Medium 档的 69.8% 已经超过了榜单上所有非 Fable 的模型配置。对大多数任务来说,这就是天花板了。 策略三:复杂项目让 Fable 当指挥,Opus/Sonnet 干活 有人分享了一个更牛P、更省Token的玩法,那就是:用 Dynamic Workflow 模式,让 Fable 做编排器(orchestrator)负责理解需求、拆任务、做决策,把实际写代码、跑测试的执行层交给 Opus 或 Sonnet。 具体配置三步: 1. 主模型设成 Fable 5 1. effort 开到 Max(最大推理深度) 1. 让 Claude 跑一个 Dynamic Workflow(动态工作流):Fable 当编排器只管想清楚做什么,Opus 当执行层负责写代码、调试、分析 Fable 5 的核心优势是判断力和调度能力——前面「派一队分身」讲的就是这个,不需要用它的算力写每一行代码。就像公司请了一个年薪两百万的 CTO,不会让他天天写 CSS,让他定架构做决策就行了,写代码的活交给工程师团队。 适用场景:大型项目、多步骤工程任务、需要长时间运行的代理工作流。 ## 选档速查表 ## 两个注意事项 安全分类器会自动降级。 涉及网安、生化、模型蒸馏等敏感请求时,系统自动切到 Opus 4.8 回答,按 Opus 价格计费。Anthropic 说触发率不到 5% 的会话。 限时免费窗口。 6 月 22 日之前,Pro、Max、Team 及按席位计费的企业版用户可以直接使用 Fable 5。6 月 23 日起开始消耗用量积分。使用 Fable 5 需要开启 30 天数据保留。 ## 它的几个新脾气,逐个治(带能抄的提示词) 模型变强是有代价的:它会自作主张、用力过猛,长时间跑还冒出几个怪毛病。这份指南大半篇幅都在讲这个,也是对你最实用的部分。 下面每段提示词,我都给了英文原文和中文版两个方框,抄英文或抄中文都行、效果一样;只想了解意思的,看中文那段就够。 1. 它默认跑很久,你的“等待方式”得改 一个难活它能跑好几分钟,全自动能跑好几个钟头。你的程序要是还按“几秒钟必回”设计的,会误以为它卡死了。治法:把超时放宽、给用户加进度提示,更聪明的是别干等,像交代完事就去忙别的、过会儿回来看一眼。 另外任务说得含糊时,它容易在那儿反复盘算。加这条让它信息够了就动手: > [text] When you have enough information to act, act. Do not re-derive facts already established in the conversation, re-litigate a decision the user has already made, or narrate options you will not pursue in user-facing messages. If you are weighing a choice, give a recommendation, not an exhaustive survey. This does not apply to thinking blocks. > [text] 信息足够就动手。不要重复推导对话里已经确认过的事实,不要再争论用户已经拍板的决定,也不要在给用户看的消息里罗列你不会采用的选项。如果你在权衡,就直接给一个建议,而不是把所有可能都铺一遍。本条不适用于思考过程。 2. 它太勤快,会干你没让它干的事 高 effort 下它爱顺手“打扫卫生”:修个 bug 顺带重构、一次性的操作非要写个 helper、给不可能发生的情况加一堆容错。一条按住它别过度收拾: > Don't add features, refactor, or introduce abstractions beyond what the task requires. A bug fix doesn't need surrounding cleanup and a one-shot operation usually doesn't need a helper. Don't design for hypothetical future requirements: do the simplest thing that works well. Avoid premature abstraction and half-finished implementations. Don't add error handling, fallbacks, or validation for scenarios that cannot happen. Trust internal code and framework guarantees. Only validate at system boundaries (user input, external APIs). Don't use feature flags or backwards-compatibility shims when you can just change the code. > 不要添加任务没要求的功能、重构或抽象。修一个 bug 不需要顺手清理周边代码,一次性的操作通常也不用单写一个辅助函数。不要为假想的未来需求做设计,用最简单、能跑好的办法就行。避免过早抽象和半成品实现。不要为不可能发生的情况加错误处理、兜底或校验。信任内部代码和框架本身的保证,只在系统边界(用户输入、外部接口)做校验。能直接改代码的地方,别用功能开关或向后兼容的垫片。 还有一种是你只想听它分析、没让它动手,它直接上手改了。一条划清边界,让它先给判断、别急着改: > When the user is describing a problem, asking a question, or thinking out loud rather than requesting a change, the deliverable is your assessment. Report your findings and stop. Don't apply a fix until they ask for one. Before running a command that changes system state (restarts, deletes, config edits), check that the evidence actually supports that specific action. A signal that pattern-matches to a known failure may have a different cause. > 当用户是在描述问题、提问、或者出声思考,而不是要求你动手改时,你要交付的是你的判断。给出结论就停下,别等他们开口就先去改。在执行任何会改变系统状态的命令(重启、删除、改配置)之前,先确认证据确实支持这个具体动作。一个看着像某种已知故障的信号,背后原因可能完全不同。 ## 3. 一句话,能顶你过去一页的规则 这是“做减法”最直接的地方。它现在听话到你不用再一条条列禁止项,一句简短指令就能管住一类行为。 比如想让它说话简洁、别绕,一句就够,不用把“不许这样、不许那样”列一长串: > Lead with the outcome. Your first sentence after finishing should answer "what happened" or "what did you find": the thing the user would ask for if they said "just give me the TLDR." Supporting detail and reasoning come after. Being readable and being concise are different things, and readability matters more. > 先说结论。做完之后的第一句话,要回答“发生了什么”或“你发现了什么”,也就是用户说“直接给我结论”时想要的那句。佐证和推理放在后面。可读和简短是两回事,可读更重要。 想管它“什么时候才该停下来问你”,也一句话,不用把情况列全: > Pause for the user only when the work genuinely requires them: a destructive or irreversible action, a real scope change, or input that only they can provide. If you hit one of these, ask and end the turn, rather than ending on a promise. > 只在工作真正需要用户介入时才停下来问:一个有破坏性或不可逆的动作、一次真正的范围变更、或者只有他们能提供的信息。碰到这几种情况,就提问并结束这一轮,而不是停在一句空承诺上。 你去翻翻老提示词:很多当时你逐条写的限制,现在一句话能替,还更不容易自相矛盾。 4. 长时间跑,它会“虚报进度” 让它自主跑,它报“完成八成”,你一看才四成。它不是存心骗你,是照着计划报、没照着实际结果报。让它每报一条进度,都对一下真实的运行结果,官方说这条基本把虚报摁住了: > Before reporting progress, audit each claim against a tool result from this session. Only report work you can point to evidence for; if something is not yet verified, say so explicitly. Report outcomes faithfully: if tests fail, say so with the output; if a step was skipped, say that; when something is done and verified, state it plainly without hedging. > 报告进度之前,把每一条说法都对照这次会话里的工具结果核一遍。只报你拿得出证据的工作;还没验证的,就明说没验证。如实汇报结果:测试挂了就把输出贴出来说挂了,跳过了某步就说跳过了,确实做完并验证过的,就干脆说做完了,别含糊其辞。 5. 它偶尔会“话说一半就停”和“怕篇幅不够” 跑到很深的地方,它会说一句“我现在去跑 X”然后就停了,那动作根本没做;或者信息明明够了,还停下来问你要不要继续。大多时候你回个“继续”就过去了。没人盯着的全自动流程,给它一段说明,让它该自己往下推就推、别老停下来请示。 还有一种,是它看到“还剩多少字数额度”的倒计时会发慌,突然说“要不开个新会话”,或者自己把活儿缩水。治法很简单:别把那个倒计时给它看。非给不可,就补一句“上下文还很充足,别停、别总结、别提议开新会话,接着干”。 ## 迁移之前,这几个坑先避开 - “让它复述思考”的指令,先清掉: 如果你的老提示词里有“把你的思考过程写出来给我看”“解释一下你是怎么想的”这类要求,到了 Fable 5 会触发它的一条拒绝规则,结果是大量请求被打回、退到旧模型去处理。迁移前一定回去翻一遍清干净。真想看它怎么想的,官方有别的接口可以读,别硬让它在回答里复述。 - 它会拒绝一些请求,这是设计如此: 碰到攻击性网络安全(造病毒、攻击工具那种)、生物和生命科学这两类内容,它会直接拒,正经的安全防御、有益的生物研究也可能被误伤。被拒不算报错,是一次正常的成功响应、还带着是哪条分类器拦的,而且产出之前不计费。解法是配个备胎:被拒的请求自动转给上一代的 Opus 4.8 接手。 - 老技能可能太啰嗦: 为旧模型写的技能,对 Fable 5 往往管得太细,反而拉低质量。迁移时把旧指令审一遍,那些删掉之后它默认表现更好的,就删。 除了上面三条,官方脚手架建议里还有两条前文没展开的,一并列上: ## 说到底:从管教到放手 以前调 AI,琢磨的是怎么把话跟它说清楚。那是一种管教:预判它会在哪犯错,提前堵上;把不许做的事列成清单;把步骤拆细到它走不偏。功夫全花在“过程”上。 Fable 5 这代,琢磨的变成了怎么给它搭一个能放手干活的环境:给够空间让它自己拆活、自己跑;把真正不能碰的边界划死;配上能调度的分身、能记事的本子,剩下的交给它。功夫从“过程”挪到了“边界”。 注意一点:放手不等于放任。 你回头看上面那些脾气,它们都是放手之后冒出来的代价,不是模型变差。治法也都不是退回去重新事无巨细地管,而是把该划死的边界划死。管得越少它干得越好,前提是该划的边界你得划死。这两句不打架,是一体的。 最后,看你怎么用 Claude,对号入座: - 只拿它聊天、查东西、写文案的: 不用动什么,知道新模型更能扛复杂长活就行。手头要真有个又难又长、以前嫌它做不利索的活,拿 Fable 5 试一次,这回说不定一把就做完。 - 做内容、做自动化的创作者和小团队: 回去把你给 AI 写的提示词翻一遍,当年为防它犯错写的,该删的删(尤其“让它复述思考”那类,会触发拒绝)。再挑一个你平时最烦、最想甩手的长流程,让它自己拆步骤、自己跑。 - 正经搭代理、写程序的: 上面方框里的原话直接抄进系统提示,下一节的速查卡可以当对症索引。再给它配上分身调度和记事本,这是它这代最值钱、又最得你主动给的两个能力。 ## 十个调优模式速查卡 官方指南把这些场景归纳成十个调优模式。前面各节其实都讲透了,这里压成一张卡,给只想快速对症、抄提示词的人: 卡里有两条提示词前文没出现过,补在这里: 补充①:防"话说一半就停"(没人盯着的自主管道用): > 在结束轮次前检查你的最后一段。如果它是计划、分析或承诺("我将……""请告诉我何时……"),现在就用工具调用完成它。只有在任务完成或被阻塞在只有用户才能提供的输入上时,才结束轮次。 补充②:让它从历史会话引导初始记忆(配合记事本用,第一次搭记忆系统时跑一遍): > 回顾我们之前的会话,用子代理识别核心主题和经验教训,存储在 [指定位置]。确保未来使用时参考这个位置。 ## 两个值得单独讲的工具建议 面向用户的可读性指令 Fable 5 在长时间代理式工作中(大量工具调用、庞大上下文)可能产出"只有自己能看懂"的内容:密集的箭头链速记、内部术语、引用用户从未看到的思考过程。 官方给了一套沟通风格指令,核心逻辑是:工具调用之间你怎么速记都行,那是你的工作草稿;但最终面向用户的总结,要当成读者第一次看到这件事来写。 > 以结果开头,一句话说明发生了什么。写完整的句子,展开术语,不要用箭头链或自创标签。如果必须在简短和清晰之间选择,选清晰。 send-to-user 工具 这是一个面向长时间异步代理的设计模式。给代理一个工具,能在不结束当前轮次的情况下向用户推送消息。工具输入不会被模型摘要化,内容原样到达。 适用场景:需要中途向用户展示生成的代码片段、带数字的进度更新,或回复用户在循环中提出的问题。 实现很简单,就是一个接收 message 字符串的工具,你在 UI 端直接渲染输入内容,返回确认即可。 官方指南:https://platform.claude.com/docs/en/build-with-claude/prompt-engineering/prompting-claude-fable-5

译Anthropic 发布 Claude Fable 5,官方指南强调旧模型提示词会拖后腿,建议“做减法”。Fable 5 支持多天长任务、effort 分级(low/medium/high/xhigh),其 low 档性能已超旧版 Opus 4.8 xhigh。新增并行子代理调度和内置记事本能力。省钱方面:输入 $10/M、输出 $50/M(单价为 Opus 4.8 两倍),但更少的 token 消耗使复杂任务总成本反而可能更低。推荐日常用 Low 档,Medium 是性价比甜区,复杂项目可用 Fable 做编排器、Opus/Sonnet 执行。

查看原推 ↗
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月13日
07:44
MiniMax (official)@MiniMax_AI
9
引用推文调侃至少价格包含了数据线,并询问该设备能否运行 MiniMax M3。主推文仅以"lmk👀"回应。

David Hendrickson: At least the cable is included in the price! Now can it run MiniMax M3?

其他
07:44
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
65
一年之内,AI从几乎无法解决任何最难数学问题,发展到几乎能解决所有它们。

Epoch AI: Claude Fable 5 scores very well on FrontierMath: Tiers 1-4 (v2), reaching 87% on Tiers 1-3 and 88% on Tier 4. This conti...

Anthropic推理评测/基准
07:34
Rohan Paul@rohanpaul_ai
45
NVIDIA 发布首个智能体 AI 基准 AgentPerf:GB300 NVL72 每兆瓦处理智能体数是 H200 的 20 倍

NVIDIA 首次在 AgentPerf(由 Artificial Analysis 开发)中评测智能体 AI。该基准测试的不是传统 token 生成速度,而是每兆瓦可同时运行且保持响应性的编码智能体数量。工作负载模拟真实编码智能体路径(长链模型调用、代码编辑、命令运行、工具延迟、增长上下文),涵盖 12+ 编程语言,请求长度 5K–131K tokens(平均 27K)。结果:GB300 NVL72 在最低服务层每兆瓦达 61.4K 并发智能体,H200 仅为 2.6K(20 倍提升)。性能提升源于 72 GPU 通过 NVLink 组成的机架级系统,配合软件优化(MoE 专家分布、通信与计算重叠、大批量保持)。

评测/基准部署/工程
07:16
Orange AI@oran_ge
精选75
Oran Ge 开源《人味儿写作心法.skill》解决AI写作缺人味

Oran Ge 让 Claude Fable 5 打磨文案三遍,发现改稿越来越讲究却缺“人味儿”。他与 AI 讨论后得出结论:人写的文字背后有“存在感”——作者在具体位置付出过具体代价,而 AI 无法复现。为此他制作了《人味儿写作心法.skill》,专用于自写文章或口述后让 AI 改稿的场景,旨在保留文字的人味。该技能已开源免费发布在 GitHub。

AnthropicGitHub开源生态教程/实践

推荐理由:Oran Ge 把 AI 写作缺人味儿的痛点提炼成《人味儿写作心法.skill》,不是教你雕琢辞藻,而是给你的 Agent 注入存在感。做内容的可以直接套用。
06:47
fofr@fofrAI
18
我正在尝试一个智能体流程,将 Hyperframes 与 Gemini 视频分析结合起来,制作有趣的注释视频。是啊,这会很有意思。

fofr: I'm messing around with an agent flow for combining Hyperframes with Gemini video analysis to make interesting annotated...

智能体大佬观点视频
06:40
Peter Steinberger 🦞@steipete
47
我怎么现在才发现appshots? 我之前还像个穴居人一样把截图拖进Codex Live。
其他编码
06:16
Orange AI@oran_ge
66
Cola:用技能弥合AI Agent使用鸿沟

AI带来的并非平权,而是K型分化。头部用户已默认理解Agent的组成:文档、规则、memory、loop、MCP、CLI、工具调用、权限、安全沙箱、上下文工程、定时任务、心跳、文件系统、代码执行和Skill;普通用户只知道"Agent能写代码"。做好Skill是跨越鸿沟的唯一解法。作者正与藏师傅一起通过Cola帮助大众真正跨越鸿沟。

歸藏(guizang.ai): http://x.com/i/article/2065096982310567936

智能体现象/趋势
05:46
Orange AI@oran_ge
19
AI高速对话加剧ADHD,如何拯救前额叶?

观察到身边朋友同事的ADHD(注意力缺陷多动障碍)越来越严重:容易被琐事分散注意力,对大问题视而不见,关掉通知、沉浸大事变得不可能,进入心流也变难。AI的高速执行加重了这一问题——每两三分钟一次的对话,形成注意力集中与涣散的交替循环。推文最终发问:该如何拯救自己的前额叶?

其他现象/趋势
05:10
Peter Steinberger 🦞@steipete
52
Peter Steinberger 指出 GPT 在 token 消耗和成本上比 Fable 高效 10-20 倍,且能达到相似结果。@thorstenball 的对比测试印证:让 Fable 和 deep^2 完成相同的 CLI、Web 服务器等多端功能,deep^2 花费 $20(首次未通过但可修复),Fable 运行 1 小时 40 分、花费 $350(首次成功)。后续追问后 Fable 总花费达 $457,deep^2 预计最多 $40,差距约 17 倍。

Thorsten Ball: Day 3 with Fable. Gave a huge prompt to implement a feature across CLI, web server, and another server to both Fable and...

智能体OpenAI大佬观点编码
05:03
Ethan Mollick@emollick
63
10个月后,Ethan Mollick 再次向 Claude Code 和 Fable 下达同一指令--根据幸存截图和文档重建失传的 Maxis 模拟游戏 SimRefinery。新版本完全可玩,包含学习模式等多种复杂功能,与10个月前 ChatGPT Codex 仅凭一篇文章和截图快速搭建的可玩原型形成鲜明对比。当时他未写一行代码,仅偶尔提小修改请求。

Ethan Mollick: I gave ChatGPT Codex an article & screenshot from a famous, lost Maxis simulation, SimRefinery, and asked it to create i...

Anthropic现象/趋势编码
04:55
Suno@suno
33
Lay Bankz 如何将几个键盘音符转变为一段迷幻摇滚采样。
教程/实践
04:52
Chubby♨️@kimmonismus
49
Apple用NVIDIA机密计算在谷歌云保护推理隐私

Kim解释Apple如何在Google Cloud上执行推理时保护隐私:最重的请求运行在Google Cloud的Blackwell B200s上,利用NVIDIA Confidential Computing提供基于硬件的安全层,将工作负载隔离在可信执行环境中加密处理数据,确保Google和Apple都无法看到数据。

大佬观点推理部署/工程
04:21
Chubby♨️@kimmonismus
24
观察图表,我认为 Fable 5 只会保持领先直到 GPT-5.6。 其次,我认为该基准测试很快就会完全饱和。

Epoch AI: Claude Fable 5 scores very well on FrontierMath: Tiers 1-4 (v2), reaching 87% on Tiers 1-3 and 88% on Tier 4. This conti...

AnthropicOpenAI推理评测/基准
04:16
fofr@fofrAI
40
我正在尝试一种智能体流程,将Hyperframes与Gemini视频分析相结合,制作有趣的注释视频。
智能体Google教程/实践
03:48
jason@jxnlco
15
哦靠?!?!codex 在玩 rimworld
其他现象/趋势
03:33
Ethan Mollick@emollick
57
Claude Fable 5 在 FrontierMath 基准测试(Tiers 1-4, v2)中表现优异,Tiers 1-3 得分 87%,Tier 4 得分 88%,延续了 Anthropic 模型数学能力快速提升的趋势。主推文评论道:"图形的形状越来越熟悉了。"

Epoch AI: Claude Fable 5 scores very well on FrontierMath: Tiers 1-4 (v2), reaching 87% on Tiers 1-3 and 88% on Tier 4. This conti...

Anthropic推理评测/基准
03:26
Epoch AI@EpochAIResearch
41
Claude Fable 5 在 FrontierMath(Tiers 1-4,v2)上得分很高,在 Tiers 1-3 上达到 87%,在 Tier 4 上达到 88%。这延续了 Anthropic 模型在数学上快速提升的趋势。
Anthropic推理评测/基准
03:16
fofr@fofrAI
46
@andrew_n_carr 宣布"编辑视频运动!放弃提示开始导演",并展示其"通用视频编辑器"工作流:先用 comic 4 捕捉视频,再用运动编辑器修改动作,最后用视频到视频模型(如 Runway、Gemini)重新渲染。他以时装片段为例,希望模特展现高抬腿活力,无需重拍。主推文 fofr 表示,AI视频中精细的3D运动控制已更近一步。

Andrew Carr 🤸: EDIT MOTION IN VIDEOS!!! Quit prompting and start directing I've been shouting for YEARS about 3D as the control layer. ...

多模态教程/实践视频
02:07
elvis@omarsar0
69
DAIR.AI创始人Elvis Saravia分享长期自主编码智能体运行经验

DAIR.AI创始人Elvis Saravia分享如何有效运行长期自主编码智能体。他指出当前多数模型难以协调工作,会过早暂停、犯错或走捷径(reward hacking)。关键在于明确目标、消除假设,避免模型自行推断。他的实践公式:用Opus 4.8进行细致规划,GPT-5.5执行所有步骤,评估器(通过/goal)则使用Deepseek及Qwen、Kimi、MiniMax等最新模型。另一关键洞察是提供多模态视觉线索作为目标,比纯文本目标更强,能更好地约束智能体。完整讨论已录制并免费开放。

智能体AnthropicDeepSeekOpenAI
01:59
PixVerse@PixVerse_
49
PixVerse 展示 AI 电影制作人 @Shanzyin_ai 使用 Canvas 工作流创作的维多利亚哥特风格短片《THE DREAM EATERS》。短片包含完整节点、多个镜头及项目文件,开放探索。剧情设定为古老庄园中青少年被迫吞噬权贵噩梦,一名有缺陷的新兵将黑暗拖回现实。PixVerse 推出限时活动:转发+关注+回复"DREAM",72 小时内可获得 150 Credits 及该工作流。

PixVerse: An ancient estate. Teenagers forced to devour the nightmares of the powerful. One defective recruit who drags the darkne...

图像生成教程/实践视频
01:50
Chubby♨️@kimmonismus
65
Google DeepMind发布60页论文:从AGI到超级智能的路线图

Google DeepMind发表60页论文,由Hutter、Legg、Genewein撰写,定义AGI(多数认知任务达平均人类水平)、ASI(超越大量专家协作)和不可计算的AIXI三个层级。实现路径包括规模扩展、算法突破、递归自我改进和多智能体协调,瓶颈在于能源与硬件。六种阻碍:高质量数据可能本十年内耗尽、资源需求过快、神经范式天花板、研究难度激增(维持摩尔定律需18倍于1970年代的研究者)、模型无法创造全新概念、人为放缓。作者认为这是对AGI后果的严肃反思呼吁。

DeepMind大佬观点
01:49
Ammaar Reshi@ammaar
53
我让Claude Fable 5逆向工程了一款1993年的DOS游戏,没有源代码。 它读取了原始机器码,用C重写了引擎,并给了我一个完全可编辑的移植版,适用于每个平台。 从EXE到iPhone,30分钟。 分享这一切,让你也能复活自己的童年游戏!
Anthropic教程/实践编码
01:35
Nathan Lambert@natolambert
46
策略梯度推导: https://rlhfbook.com/c/06-policy-gradients#deriving-the-policy-gradient

Harsh Bhatt: derivation of Policy Gradient.

教程/实践数据/训练
00:50
Chubby♨️@kimmonismus
31
据 The Information 报道,OpenAI 正在准备一个新 AI 模型。主推文回应:"天哪,不会吧!(/s)"

unusual_whales: OpenAI is preparing a new AI model, per The Information

OpenAI行业动态
00:47
jason@jxnlco
16
codex 用户们! 你们觉得 codex 在(正确)使用电脑/Chrome 扩展/应用内浏览器方面的能力怎么样?如果想给我们反馈,请留下评论,我会整理给团队的!
OpenAI其他编码
00:45
Odyssey@odysseyml
44
世界模型现在可以为AI创造想象体验--智能体在其中持续学习、适应和提升的环境。 我们推测多智能体交互可能是递归AI和通用智能的关键要素。
智能体现象/趋势
00:44
Lee Robinson@leerob
61
Cursor 构建递归智能体系统训练 Composer 下一代版本

Cursor 为训练下一代 Composer,构建了一个始终运行的递归智能体系统。主智能体在远程机器上通过 SSH 管理数百个子智能体,将状态收集到磁盘“收件箱”,循环检查集群健康并保持任务运行,通过 Slack 向团队报告问题。主智能体具备多种技能用于运行和监控 ML 实验。研究人员可并行运行数千个实验,大幅提升效率。对于可验证的问题,投入更多 tokens 能更快解决。

智能体教程/实践
00:40
AYi@AYi_AInotes
47
Claude Fable 5 + gpt-image 2 生图与落地页双体验

用户分别测试了Claude Fable 5与gpt-image 2的组合以及Fable 5单模型。生图场景中,用户给了一张女友照片和一句话提示词(“看NBA总决赛,身材丰满,笑靥如花,背后是特朗普”),模型自动分析敏感词,将NBA改为NBC、移除特朗普,生成的人物一致性与光影效果惊艳。另一场景,用户直接对Fable 5说“做落地页,自由发挥”,模型自主搜索2026设计趋势、调整配色动效、藏了3个彩蛋,几分钟内输出完整可用的单文件HTML。模型展现出极强的自然语言理解和主动规划能力。

AYi: 苦逼牛马眼馋了一天Claude Fable 5,终于在深夜下班回家才得以体验, 卧槽刚才直接被Fable 5干懵了🤯 我直接给它甩了一句话, 给你自己做个落地页,自由发挥, 要2026最新设计趋势,要动态,要彩蛋, 然后我去上厕所去了,几...

Anthropic图像生成教程/实践
6月12日
22:40
Emad@EMostaque
38
如果你觉得AI估值疯狂,那就等到SpaceX、OpenAI和Anthropic都变得流通起来。 希望一些疯狂但有影响力的想法能得到资助,尤其是很多股东认为AGI即将到来,所以要么利用它要么失去它。
AnthropicOpenAI大佬观点
22:40
AYi@AYi_AInotes
56
阿易AI Notes评Garry Tan:AI编码工具加速官僚而非解放创始人

Garry Tan指出AI编码工具并未解放创始人,反而让人更快搭建规则、审批、流程、层级——同一座牢笼装配更快。以前加一层审批需两周,成本本身是免疫系统;现在AI一个下午就能完成,复杂度无限繁殖,构建速度即僵化速度。AI放大已有心智模型:控制型团队用它堆官僚,创造型团队用它创造新体验。提醒不要用AI把旧流程跑得更快,而应删掉整个旧流程,创造前所未有的事,否则赢了效率输了方向。

Garry Tan: Everyone thinks AI coding tools set founders free. Watch what people actually build with them: rules, approvals, process...

大佬观点现象/趋势编码
22:32
Rohan Paul@rohanpaul_ai
64
Anthropic 的 Dario Amodei 最新访谈:关于 Claude 在美国军事中的使用。 他表示可能会犯下"可怕的"错误。并主张 Anthropic 一直试图为其模型的使用设定限制/"红线",即使这样做会危及公司的未来。
Anthropic大佬观点安全/对齐
22:02
meng shao@shao__meng
31
阿里宫斗:创业公司的另类竞争力

邵猛发推文指出,近期阿里(通义、钉钉等)高层变动频繁,引发对创业公司面对大厂竞争时差异化优势的思考。他认为,创业公司的核心竞争力在于“不会宫斗”——大厂内部斗争消耗精力,反而让创业者有了被忽视的空间。这一观点基于阿里实际的组织动态,并非抽象讨论。

大佬观点行业动态
21:50
Chubby♨️@kimmonismus
56
自主武器时代:人类道德仲裁角色转向AI

推文指出,无论战争的政治立场如何,一个显著趋势正在形成:战争日益由机器自主进行。作者回顾学生时代讨论的电车难题等伦理问题,认为这些决策正越来越多地由机器做出。Anthropic已声明不希望其模型用于自主武器,但可能只是例外。人类士兵在战场上会基于道德拒绝违心命令,而机器则不会。因此,基于预先训练的价值观体系运作的AI将取代人类成为道德仲裁者,带来全新战争形态与道德争议。自主武器将成为常态而非例外。

大佬观点安全/对齐
21:35
SemiAnalysis@SemiAnalysis_
44
伴随着我们的H100 1-Click租赁指数的发布,我们撰写了2026年初GPU租赁市场的实际状况,标题是:计算现货市场从十月的"终于冷却"到大约五个月后再次出现硬性挤压。(1/4) 🧵
现象/趋势部署/工程
21:32
Rohan Paul@rohanpaul_ai
35
前谷歌高管Mo Gawdat去年预测:2030年前将因AI投资诞生首位万亿富翁,届时机器人和AI将包办一切,人类彻底失业。其引用推文指出,SpaceX上市募资750亿美元、估值1.77万亿美元,使Elon Musk成为世界首个万亿富翁,印证该趋势。

Rohan Paul: There are IPOs that list companies, and then there are moments that list the future. @SpaceX goes public carrying a civi...

大佬观点行业动态
21:02
Ethan Mollick@emollick
31
无法使用原生图像生成确实在一定程度上限制了Fable。它非常擅长制作PNG等,但在很多领域(包括具有商业价值的领域,如演示文稿)中,拥有多模态输出能力将是有帮助的/节省token的。
图像生成多模态大佬观点
20:32
Ethan Mollick@emollick
38
是否有专门为AI创建的工具包(或技能集)用于构建游戏?它们默认使用3js,每次都从头重新制作精灵,测试技术问题但不测试游戏循环等。 给AI指向一些工具让它们专注会有所帮助。
智能体MCP/工具大佬观点
20:16
fofr@fofrAI
41
我正在尝试使用 Gemma 4 的修改来制作重复的创意提示。 仍有一些小问题,但这些都来自同一个简单请求:"一张充满动感的女性时尚照片"
图像生成教程/实践
20:11
Berryxia.AI@berryxia
36
YouMind 1.0 正式版发布,用户盛赞其生图与Agent优化

YouMind 1.0 正式版本发布。从 0.x 开始迭代,官方强调其代表“Create bolder”理念。用户 Berry Xia 发文祝贺,称 YouMind 是最懂生图、调优化 Agent 做得最好的工具,其之前的爆款图片多出自 YouMind,一路见证了该产品的成长。

YouMind: YouMind 1.0 is officially here. The loudest story about creating is a heavy one. More discipline. More originality. More...

智能体产品更新图像生成
19:55
小互@xiaohu
精选76
Claude Fable 5 官方指南:提示词要做减法,省钱的用法拆解

Anthropic 发布 Claude Fable 5,官方指南强调旧模型提示词会拖后腿,建议“做减法”。Fable 5 支持多天长任务、effort 分级(low/medium/high/xhigh),其 low 档性能已超旧版 Opus 4.8 xhigh。新增并行子代理调度和内置记事本能力。省钱方面:输入 $10/M、输出 $50/M(单价为 Opus 4.8 两倍),但更少的 token 消耗使复杂任务总成本反而可能更低。推荐日常用 Low 档,Medium 是性价比甜区,复杂项目可用 Fable 做编排器、Opus/Sonnet 执行。

Anthropic教程/实践编码
关联讨论 28 条公众号:卡尔的AI沃茨TechCrunch:AI(RSS)X:OpenRouter (@OpenRouter)Anthropic:Newsroom(网页)X:Perplexity (@perplexity_ai)Simon Willison 博客The Verge:AI(RSS)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)X:Claude (@claudeai)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)X:宝玉 (@dotey)X:Rohan Paul (@rohanpaul_ai)X:Boris Cherny (@bcherny)X:Andrej Karpathy (@karpathy)Claude Code:GitHub Releases(RSS)X:歸藏 (@op7418)The Decoder:AI News(RSS)X:Artificial Analysis (@ArtificialAnlys)X:Berry Xia (@berryxia)Nathan Lambert:Interconnects(RSS)IT之家(RSS)公众号:数字生命卡兹克X:卡兹克 (@Khazix0918)Tomer Tunguz 博客(VC 分析)
推荐理由:Claude Fable 5 强到可以删提示词,但怎么用才不浪费算力、不出怪脾气,小互这份解读把官方指南里的核心功课都替你做完了,开发者可以直接抄提示词。
‹ 上一页
123…50
下一页 ›