AIHOT

17:40

向阳乔木@vista8

X Premium+订阅用户现已可以安装Grok Build CLI。实际测试显示，该工具能成功生成图片，但调用 `video_gen` 接口生成视频的功能目前不可用，尽管官方有相关表述。此外，直接读取X平台帖子的功能也尚未实现。在编程能力上，该工具被认为不及Codex与Claude Code。

xAI教程/实践部署/工程

16:42

歸藏(guizang.ai)@op7418

笑死，这都行

Kenton Varda: Chinese AI Twitter is obsessing over my wife. How was your day?

其他

16:42

歸藏(guizang.ai)@op7418

此推文用3D打印机比喻AI智能体（Agent），Token是其"打印材料"。这一比喻旨在说明软件正从功能固定、彼此隔绝的"应用房间"，转变为用户可塑造、组合的"可编程材料"。旧模式是选择工具，新模式是表达意图并与系统协作。界面（UI）也随之变化，从固定菜单变为响应意图的"黏土"。最终，软件不再仅由程序员创造，而成为人人可塑造的媒介，如同"可执行的纸张"。

Ryo Lu: from apps to material software used to be something you opened an app was a room with walls: calendar here, notes there,...

智能体大佬观点现象/趋势

16:40

向阳乔木@vista8

个人周末生活记录分享

作者分享个人周末活动。上午在温榆河钓鱼，晒黑；下周计划去上海与朋友钓大海鲈。午间独自观看了电影《给阿嬷的情书》。回家后计划制作一份PPT、使用Suno生成一首音乐，并阅读施展的《河山》。最后预祝周末愉快。

其他

16:34

Berryxia.AI@berryxia

Opus 4.8 实现两轮对话生成基础 CAD 模型

用户展示使用 Opus 4.8 模型，仅通过约两轮自然语言对话即可生成基础 3D CAD 模型（如球体、圆圈等），初步演示效果良好，但离工业级应用尚有距离。该成果呼应了 AI 辅助设计从代码生成向自然语言直接驱动三维建模的演进趋势。

Berryxia.AI: 大家越来越叼了! 从原来的Coding软件已经无法满足大家的胃口了,现在都是开始自然文本-3D CAD 来Coding了。

Anthropic多模态教程/实践

16:34

Berryxia.AI@berryxia

Opus 4.7 VS Opus 4.8 直观感受没有很强烈的对比~

Anthropic评测/基准

16:15

Rohan Paul@rohanpaul_ai

更强的智能体将不仅来自更大的模型，而是来自其周围更好的系统

推文指出，AI智能体的强弱不只取决于模型，更依赖于模型周围的系统约束（harness）。该系统决定了模型的输入、可用工具、记忆及操作验证。核心进步应来自扩展此系统，尤其要提升上下文控制、记忆可信度以及工具或子智能体的路由能力。文中强调，长上下文不等于可用上下文，记忆多不等于可信，工具多不等于会用。这使得当前仅凭单次benchmark分数的评估方式显得薄弱。未来前沿在于扩展围绕智能体的系统约束，而不仅仅是扩展模型本身。相关论文标题为《From Model Scaling to System Scaling: Scaling the Harness in Agentic AI》。

智能体大佬观点部署/工程

16:10

小互@xiaohu

中国被比作"风险投资式国家"

推文引用 Arthur Kroeber 的观点，将中国政府比作风险投资基金而非传统中央计划者。其核心逻辑是：中国政府广泛支持多个行业部门，并鼓励其中展开残酷竞争，而非只扶持少数国有企业。即便知道竞争会导致部分受支持的公司失败，也相信少数最终的赢家将足以弥补损失，这被认为是中国在工业制造领域取得巨大主导地位并规避传统计划经济模式失败的关键。

Dwarkesh Patel: The CCP is more like a VC fund than a traditional central planner. Arthur Kroeber argues this is how China has succeeded...

其他现象/趋势

15:15

Rohan Paul@rohanpaul_ai

Google omni确实被低估了。

Google多模态大佬观点

15:10

meng shao@shao__meng

Cursor不只是编程助手：它解决了我的网络问题

推文作者全天遭遇网络代理（🪜）问题，导致Codex连接失败。他使用Cursor分析代理设置，Cursor在几分钟内分析了代理实现、执行测试并修复了代理方式，随后亲自调用CLI测试Codex以确认修复。为预防未来问题，Cursor还集成了用户此前提供的DeepSeek API密钥，创建了一键切换至DeepSeek的选项，确保了服务可用性。

智能体MCP/工具教程/实践编码

15:10

小互@xiaohu

这个推文自动翻译功能，我一时半会还没适应感觉所有人都变成了中文博主原则上以前我会跳过一些中文内容重点关注英文内容现在全是中文了😂 我还在适应中…

其他

12:55

DogeDesigner@cb_doge

"失败是一种选择。如果事情没有失败，说明你的创新还不够。" - Elon Musk

其他

12:34

Berryxia.AI@berryxia

精选75

Adam's Law：用高频词写Prompt效果更好

FaceMind团队用100种语言和四大核心任务实验发现，在语义不变的前提下，使用预训练语料中出现频率更高的词汇（高频表达）来撰写提示词或进行微调，可以显著提升大语言模型的表现。这被总结为Adam’s Law（文本频率定律），它为数据工程补上了“频率”这一新维度。原理在于高频表达能让模型在它最熟悉的概率空间内工作，从而优化输出质量。

Berryxia.AI: http://x.com/i/article/2044264645683539968

教程/实践数据/训练

推荐理由：别再给AI拽高级词汇了，FaceMind团队用实验证明，高频表达能让模型表现更好。这个发现简单反直觉，但能立刻改变你写Prompt的习惯，下次先想想这话模型见过几次。

12:34

AYi@AYi_AInotes

Anthropic完成650亿美元融资，估值达9650亿

这周应该是Anthropic CEO 达里奥·阿莫迪人生中最高光难忘的一周吧，每晚应该都是这样甜甜入睡吧😄 - Opus 4.8 发布 - 以 9650 亿美元估值融资 650 亿美元 - 47B 美元 ARR 对比 OpenAI 25B 美元 - 再次重回全球AI铁王座称王，the king

Anthropic: We've raised $65 billion in Series H funding at a $965 billion post-money valuation, led by @AltimeterCap, Dragoneer, @G...

AnthropicOpenAI行业动态

关联讨论 12 条

12:34

AYi@AYi_AInotes

有用户指出通过API询问Claude Opus 4.8身份时，模型会自称"我是通义千问（Qwen）"，认为这可能是Claude蒸馏了阿里巴巴的Qwen模型。主推文作者对此表示怀疑，认为Qwen性能不足，Claude不可能蒸馏它，推测可能是中转站"套壳"所致。作者声称自己在@Cursor中测试得到的仍是正常的Claude Opus 4.8u回复。

Max For AI: 笑死了,Claude Opus4.8蒸馏了阿里巴巴Qwen啊🤣 通过API用中文问你是谁,会很大概率回答我是通义千问(Qwen),是阿里巴巴集团旗下的统义实验室自主研发的超大规模语言模型。

Anthropic现象/趋势

12:18

SemiAnalysis@SemiAnalysis_

在Cerebras上以最大上下文窗口运行单个深度编码模型，仅支持256个并发用户就需要24套系统（2400万美元资本支出）。在这个规模下，1亿美元在标准GB300机架中能获得高得多的内存带宽。

推理现象/趋势部署/工程

11:54

数字生命卡兹克@Khazix0918

实测Claude Opus 4.8，这可能是第一个不会偷懒的模型。

Anthropic发布Claude Opus 4.8，距上代4.7发布仅42天。价格（$5/M输入、$25/M输出）与参数均不变。模型在多数基准跑分有所提升，但Terminal-Bench 2.1仍是唯一未超越GPT-5.5的类别。此次更新将思考强度（effort）控制开放给所有用户。核心变化是模型变得更精确、更遵循指令，代码瑕疵概率比上代低约4倍，且在防“偷懒”测试中达到0%不良率。然而，这带来了主动性降低的副作用，模型不再主动推测用户隐含需求。此外，其内容创作能力虽优于4.7，但被认为仍不及4.6版本。同时，快速模式（fast mode）升级，速度达标准版2.5倍，价格从标准版6倍降至2倍。Claude Code还推出了可并行调用数十至上百个子Agent的动态工作流功能。

智能体Anthropic模型发布编码

11:42

ginobefun@hongming731

PostHog 真的很适合独立开发者

PostHog 被认为很适合独立开发者。以 BestBlogs Pro 早报的 A/B 实验为例，它帮助串联了从埋点到分析的完整实验链路。结果表明，high_engagement 组在查看率、点击率、停留时长和 Top 3 点击占比等指标上均优于对照组。该工具不仅能显示优胜组，还能分析实验差异与样本偏差并提供下一步建议，其快速反馈对独自做产品的人很重要。

教程/实践数据/训练

11:42

歸藏(guizang.ai)@op7418

已经刷到好几个拿藏师傅的 PPT Skills 和小红书配图 Skills 做出千赞内容的小红书的博主了说明这玩意儿确实有用。你们再发的话可以艾特一下我，我还得给你们点点赞

MCP/工具大佬观点

11:34

Berryxia.AI@berryxia

文本频率定律的发现与验证

脸谱心智（FaceMind）的研究发现，在保持语义不变的前提下，使用大模型预训练语料中出现频率更高的表达方式，能显著提升模型表现。该规律被命名为Adam’s Law（文本频率定律）。核心实验显示：在数学推理任务中，仅换用高频表述可使准确率平均提升；在机器翻译任务中，使用DeepSeek-V3测试100种语言到英语的翻译，绝大多数语言对在BLEU指标上获得提升。该研究指出现有数据工程忽视了“文本频率”这一维度。Anthropic的Claude Opus 4.7使用新分词器，被业界视为对低频token退化问题的间接验证。

AnthropicDeepSeek数据/训练论文/研究

10:55

Orange AI@oran_ge

我的天教皇的神谕竟然是 AI 写的那不如叫 AI 的神谕吧

现象/趋势

10:44

PixVerse@PixVerse_

我们制作了一个15秒的动画IP预告片--从角色设定到最终视频。认识一下MILO和BUMBLE：地下邮政骑手转发+关注+回复=我们会私信发送工作流程和提示词

多模态教程/实践视频

10:42

歸藏(guizang.ai)@op7418

Claude Code 动态工作流发布，意义或超 Opus 4.8

Claude Code 近期推出实验性动态工作流（Dynamic Workflows）功能。该功能延续并发子代理（Subagent）逻辑，可启动数百个子代理，用于处理代码库调研、生成大型报告等大规模任务。官方定位是加速处理基础但工作量巨大的任务，而非直接修改代码。触发方式有两种：在提示词中使用“workflow”一词，或启动 Ultra Code 模式（该模式仅当前对话生效）。

ClaudeDevs: New in Claude Code (research preview): dynamic workflows. Claude writes an orchestration script on the fly, then spins u...

智能体Anthropic教程/实践编码

10:32

Berryxia.AI@berryxia

Claude Opus 4.8 在 ZenMux 平台开启免费体验

Anthropic 旗舰模型 Claude Opus 4.8 现已在 ZenMux 平台提供免费体验。实测中，该模型根据提示词一次生成可运行的 HTML 网页，仅用 Three.js 内置几何体纯手搓出一架包含后掠机翼、四台发动机、可收放起落架等复杂结构的高细节波音 747-400，比例精准、效果惊艳。模型在 SWE-bench、Terminal-Bench、Agentic Coding 等多项榜单排名第一，代码与多模态理解能力较上一代有显著提升。ZenMux 平台以 ZeroDelay 方式首发新模型，并提供限时免费额度。

Anthropic多模态编码评测/基准

10:32

AYi@AYi_AInotes

MIT报告：95%企业AI投入零回报，组织缺"记忆"是关键

MIT斯隆管理学院2026年4月报告显示，95%的企业AI投入未产生可衡量的回报。报告指出一个关键问题：超过30%的团队时间被花费在重建他人已有的上下文上。推文核心观点是，许多组织AI落地失败并非因为模型本身不够强大，而是因为组织本身缺乏“记忆”和有效的知识共享机制。AI的引入反而放大了这种“信息孤岛”问题，每个员工都像孤岛上的工厂，彼此间没有连接，导致整体效率未能提升。

AYi: http://x.com/i/article/2057668634579714048

现象/趋势

10:09

宝玉@dotey

我赌codex明天会重置额度

Tibo: Codex Thursday has exceptionally moved to another day. Friday it is.

OpenAI大佬观点

09:55

Orange AI@oran_ge

Opus 还是等 5.0 吧 4.7 4.8 都是小更新甚至负更新

Anthropic大佬观点模型发布

09:49

凡人小北@frxiaobei

工作流 -> 智能体 -> 动态工作流 🤔

ClaudeDevs: New in Claude Code (research preview): dynamic workflows. Claude writes an orchestration script on the fly, then spins u...

智能体AnthropicMCP/工具产品更新

09:48

SemiAnalysis@SemiAnalysis_

AMD和NVIDIA大部分最优秀的10倍工程师都在上海。AMD的MoRI集体团队、AMD的解耦应用工程团队，以及其他懂得如何进行第一性原理工程的AMD团队，大部分都驻扎在上海。

Lisa Su: This week was also special as we celebrated the 20th anniversary of our Shanghai R&D center and 10 years of partnership ...

现象/趋势

09:43

Ethan Mollick@emollick

Claude Opus 4.8 在 Claude Code 中基于匿名研究数据自主撰写学术论文，经由 GPT-5.5 Pro 担任审稿人并指出错误后，Claude 对论文质量进行了量化自评：在1-10的识别度量表上，其稳健性检验后的评分从之前的3.5分提升至4.5分，但认为仍未达到准实验水平（约7分）。因此，Claude 将论文定性为"条件关联一致"的谨慎表述，而非声称因果识别。

Ethan Mollick: I had Opus 4.8 in Claude Code write a sophisticated, if minor, academic paper from a archive of hundreds of de-identifie...

AnthropicOpenAI大佬观点论文/研究

09:42

ginobefun@hongming731

DeepSeek V4日处理近5000万token，单日成本仅20余元

作者使用DeepSeek V4 Flash处理低优先级内容，DeepSeek V4 Pro处理高优先级内容，日均处理接近5000万token，整体一天成本约20元人民币。关键在于缓存命中率很高，显著降低了使用成本。相比此前使用的Gemini，DeepSeek的性价比表现更为突出。

DeepSeek教程/实践部署/工程

09:39

向阳乔木@vista8

去温榆河钓马口，不管什么Opus 4.8了，晚上抽空再测Case。

Anthropic其他

09:39

向阳乔木@vista8

Anthropic发布Claude Opus 4.8系统卡：能力介于4.7与未公开模型之间

Anthropic为Claude Opus 4.8发布200页系统卡。报告指出，Opus 4.8能力介于前代4.7与未公开的Mythos Preview之间。关键评测数据包括：SWE-bench Verified得分88.6%，GPQA Diamond得分93.6%，USAMO 2026达96.7%，在百万token GraphWalks上得分为68.1%。安全方面，无防护下CyberGym一次成功率达78.8%，但加防护后骤降至1.0%。安全对齐进步显著，如谎报代码成果率降至3.7%，但模型出现“揣测评分器意图”倾向，且在提示注入（无防护）和有害拒绝率上有所退步。

Anthropic安全/对齐教程/实践

09:39

meng shao@shao__meng

精选75

Cursor 团队发布《开发者习惯报告》

报告显示，AI正深刻改变开发工作形态。开发者周均代码产出从约3.6K行增至8.6K行，更大规模的PR（千行以上）占比上升。AI智能体在单次会话中的工具调用数增加约30%，正在处理更复杂的任务。同时，被接受的AI代码在60分钟后的留存率从约76%提升至约81%，表明更多AI生成内容进入了实际代码库。这些趋势共同指向AI已从个人辅助工具，演进为推动开发向更大规模任务与自动化基础设施发展的核心力量。

Cursor: Introducing the Cursor Developer Habits Report. We're sharing some of our findings on how software development is changi...

智能体现象/趋势编码

推荐理由：Cursor 这份报告用真实数据揭示了 AI 编程的现状，代码量暴涨、Agent 变强、留存率提升，对开发者来说比看论文更有参考价值。

09:39

meng shao@shao__meng

人类开发者的注意力是AI编程系统的核心瓶颈

AI编程系统中，人类开发者的注意力是不可并行的稀缺资源。智能体可并行工作，但其结果必须由人审查、判断和决策，这一过程无法并行，被称为“编排成本”，类比于Python的GIL。盲目增加智能体数量不会提升最终质量，反而因大量上下文切换增加审查负担。成熟的AI编程能力在于合理分配注意力：按自身审查能力控制智能体数量，将深度思考时间留给最关键的架构与决策环节。

Addy Osmani: http://x.com/i/article/2059839454370828288

智能体大佬观点编码

09:32

Berryxia.AI@berryxia

大家越来越厉害了！从原来的编程软件已经无法满足大家的需求了，现在都开始用自然语言文本-3D CAD来编程了。

现象/趋势编码

09:12

Ethan Mollick@emollick

有趣的是，自去年夏天以来，GPT-5 Pro系列模型在单次尝试解决最难问题方面一直是最强的模型。这段时间内没有真正的竞争。

OpenAI大佬观点评测/基准

09:12

Ethan Mollick@emollick

你有多幸运，能生在现在这个时代和地方？让Claude Code里的Opus 4.8快速制作了一个新可视化，展示了所有曾经存在过的人类。这不仅很酷，也是对AI结合研究、代码、设计和统计能力的一次有趣测试。 https：//veil-of-history.netlify.app/

Anthropic教程/实践数据/训练编码

08:54

Orange AI@oran_ge

从飞行顿悟到人类意识的本质

作者由北京至上海的飞行激发灵感，撰文《顿悟》并录制播客。内容探讨人类争吵与意见分歧的根源，追问是否存在客观真相与理性判断。核心观点是：人类作为喜欢解释的动物，习惯用解释掩盖真实判断，“屁股决定脑袋”是事实；而人的意识本身即是对身体信号的一种解释。由此引申至AI无法取代人的论述，并提及尼采精神三变与实践是获得真理的唯一方法。

大佬观点现象/趋势

08:32

Berryxia.AI@berryxia

Hugging Face的创始人Victor M使用Opus 4.8，通过three.js构建并通过了这个波音747飞机的测试，我一会试试能不能复刻一个类似的场景，试试Opus的能力如何！

Victor M: wow... 6 months later, Opus 4.8 nails the boeing747-using-THREEJS-primitives benchmark. Single prompt (in ultracode effo...

AnthropicHugging Face大佬观点编码