经济学家 Alex Imas 和 Phil Trammell 指出,AGI 时代机器人数量可以快速复制增长,但人类独特技能(以芭蕾舞演员为例)的数量保持不变,揭示了即使技术大幅进步,某些稀缺资源仍不可替代。
Anthropic 内部数据显示 Claude 能力增速远超预期,可能接近自主设计继任者的递归自我改进。关键指标:工程师人均季度代码产出是此前四年平均的 8 倍;AI 可可靠完成的任务时长每 4 个月翻倍,从 Opus 3 的 4 分钟升至 Mythos Preview 的至少 16 小时。截至 2026 年 5 月,Claude 撰写代码占 Anthropic 代码库 80%+,代码质量已与人类持平,年内将超越。最困难任务成功率 6 个月从 26% 升至 76%。Anthropic 认为趋势停滞可能性最低,复合效率增益最可能,完全递归自我改进的对齐结果最不确定。
Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...
关联讨论 9 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Emad Mostaque (@EMostaque)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)X:Kim (@kimmonismus)X:小互 (@xiaohu)X:Testing Catalog (@testingcatalog)X:卡兹克 (@Khazix0918)X:Rohan Paul (@rohanpaul_ai)Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数,基于 Qwen3-4B 骨干,支持 100 种语言(内部评测覆盖 111 种),在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感(20+种)、风格、韵律(语速/音高/停顿)及音效。模型支持流式合成,文本未完整时即可开始生成语音并保持一致性。SGLang-Omni 专为多阶段生成模型设计,统一调度 AR 解码与轻量计算,实现低延迟推理。
Anthropic is shipping 3.2x more code per person with Mythos nowadays than with Opus 4.5 around half a year ago
Anthropic和SpaceX等公司提交上市申请,2026年或成为大型IPO之年。高盛CEO David Solomon在Odd Lots播客中讨论AI时代的银行业,并认为美国拥有全球最大、最重要的公司仍然是一件好事。
贝恩咨询对951家公司的调查显示,近40%的企业AI成本节省幅度不足10%,而大多数公司原定目标为11%至20%。原因之一是仅有7%的企业实际运行完全自主的AI智能体,其商业案例却假设了全自动化。
归藏宣布其 PPT Skills 项目将继续更新。得益于近期的赞助,计划开发第三套主题,且会把在小红书图文卡片部分积累的好经验用于新版中。
http://x.com/i/article/2053655813877870592
Elvis Saravia 逆向工程了动态工作流(Dynamic Workflows)并集成到自研智能体编排器中,同时构建 HTML 监控仪表盘跟踪任务、指标和报告。该工作流可在 Claude Code、Codex、Pi 等编码智能体及自研 @dair_ai agent 上运行。成功用例包括分支深度研究、并行深度研究、会话挖掘、Bug 定位、分类、事实核查、LLM 委员会、AI 模拟、数据合成和评测生成等。他认为动态工作流与 agent 技能一样,是实现复杂长期任务的关键原语,不仅限于编码,还可扩展至商业、科学等领域。
I found another API that offers claude-oceanus-v1-p the pricing and tps make a lot more sense to me Mythos pricing might...
OpenAI CEO 萨姆·奥尔特曼提出 AI 三阶段:聊天机器人、AI 智能体(如 Codex)和“主动式 AI”——一种在后台持续运行并主动提供帮助的系统,他称这是未来一年最看好的方向。OpenAI 正研发整合 Codex 与 ChatGPT 的超级应用。成本问题已成企业第二重要话题,Uber 一季度耗尽全年 AI 预算。主动式 AI 旨在降低用户学习门槛,但对企业数据安全与 IT 架构提出新挑战。
SpaceX IPO 申请文件首次披露X(原Twitter)的财务状况:收入与用户增长陷入停滞,该业务已被两次并入马斯克其他公司(先xAI后SpaceX),成为其帝国中的次要部分。马斯克三年前收购Twitter时承诺的10亿用户、集成支付等功能均未实现。尽管X在关键指标上萎缩,但SpaceX IPO规模近2万亿美元,可能使马斯克成为万亿富翁。
after watching @brian_lovin and @wjosephflynn talk about vibe coding, this was the idea i couldn't shake: vibe coding ca...
李飞飞(Fei-Fei Li)指出,大语言模型(LLM)仅学习文本模式,能描述房间但无法理解椅子移动、玻璃破碎、阳光变化或机器人推杯子等物理变化。世界模型则试图学习视觉背后隐藏的结构,能预测相机未捕捉的视角、建模物体行为、支持真实或虚拟环境中行动的智能体。理解新视角、预测推动结果、决定下一步行动,都需要一个共同的内在模型,涵盖空间、因果与后果。
http://x.com/i/article/2062244283940544512
OpenAI CEO Sam Altman 提出“主动式 AI”(proactive AI)概念,这种 AI 在后台持续运行、自主采取行动,而非等待用户提示。Altman 同时指出企业正面临 AI 成本飙升以及多数员工不知道如何向 AI 提问的根本问题,并承诺“帮助人们用更少的花费获得更多价值”。
Our post-training pipeline is a substantial redesign from Super. The core idea: don't rely on stacked RL stages alone. W...
Nemotron 3.5 ASR 是一个 600M 参数的多语言流式语音识别模型,单个检查点覆盖 40 种语言-地区(含英、西、德、法、意、日、韩、中、阿拉伯等)。采用 Cache-Aware FastConformer 编码器与 RNNT 解码器,缓存内部状态避免重复计算,实现低延迟流式转录且不损失精度。模型原生输出带标点和大写的生产级文本,无需后处理。支持指定语言(target_lang=es-ES)或自动语言检测(target_lang=auto)。通过注意力上下文大小(att_context_size)可在推理时直接调节延迟-准确率权衡,范围从 80ms 到 1.12s,无需重新训练。模型以 NeMo 检查点形式发布,可用于微调以适配特定语言、领域或口音。
在线平台本可通过提供AI内容过滤选项来检验AI标签是否有效,但它们拒绝这样做——因为一旦开放过滤,它们将不得不面对现实。
北京工业大学苗扬团队借助百度伐谋(全球首个可商用自我演化决策智能体),在三个高可靠性科研场景实现突破:空间站色谱柱构型优化中,72小时演化出新构型,归一化误差降低8.17%,体积缩小40%,分离效率提升3倍;PEM电解槽故障检测准确率从92.26%提升至95.04%,综合评分升至0.9383,建模周期从数天压缩到小时级;旋转机械故障诊断准确率从98.9055%提升至99.9877%,预测误差降至原来1%,参数量下降34%。科研人员用自然语言描述目标和约束,伐谋自动演化逼近全局最优解。
5月26日,昆仑万维发布SkyClaw-v1.0,定位面向复杂工具使用和真实世界任务执行的高性能Agent模型,输入仅0.5元/百万token、输出4元/百万。实测显示,其从零生成番茄钟和记账本应用时,能自主用Web Audio API合成音效、用SVG手绘图表,细节处理成熟。在现有代码库修改任务中,越难的任务表现越好:单点bug修复精准,能准确诊断iOS Safari滚动问题并给出克制式修复方案。但官方未报告SWE-bench成绩,表明其优势集中在从零生成与模式匹配场景,而非大型仓库精确修改。极致低价使其在批量Agent任务与快速原型生成上性价比突出。
Rohan Paul 介绍 Anuma,一个私人 AI 工作空间,核心功能是跨模型统一记忆——用户在 ChatGPT、Claude、Gemini、Grok、DeepSeek、Kimi 等模型间切换时,上下文、偏好、目标和历史工作自动跟随。额外功能包括设备端加密记忆、默认隐私模式、无日志无训练、支持完整记忆导出、Council Mode(多模型并列回复对比)、单聊内模型切换,以及通过 iMessage 或 SMS 的 AI 文本能力。Paul 分享研究论文分析用例:上传多篇论文,利用多模态和多模型并行工作流,对比不同模型对同一主题的阅读、总结和关联能力,避免重复解释上下文。
YouTube、Instagram、TikTok等平台过去一年已陆续采用自动标签区分AI生成的图像、视频和音乐,但用户仍无法主动过滤这些内容。目前的标签机制并未改变内容的呈现方式,用户依然被迫接触大量AI垃圾内容。文章呼吁平台提供过滤选项,让用户自行屏蔽AI生成内容。
OpenRouter 在 30 场机器人冲刺对决中测试了 11 款大语言模型,共耗 482 美元推理成本。结果指向一个发现:应该重新审视模型 benchmark 的解读方式。
Netflix首席产品与技术官Elizabeth Stone在旧金山Bloomberg Tech 2026上接受Bloomberg的Emily Chang专访,讨论了技术领导力以及如何在AI时代扩展平台规模。
Today, we're launching Reve 2.0, the best 4K image model in the world. We invented a new way to generate and edit any im...
华硕破晓 Ultra 于今年 3 月发布,搭载第三代酷睿 Ultra X7 358H 处理器和 Intel Arc B390 核显(12 个 Xe3 核心),配备 14 英寸 2.8K 120Hz 双层串联 OLED 触控屏,峰值亮度 1400nit。整机重 1.1kg、厚 10.9mm,内置 70Wh 电池并支持 90W PD 快充,32GB+1TB 版本售价 14999 元。游戏实测方面,1080P 低画质下《CS2》达 306 帧,《赛博朋克:2077》开启 XeSS 后达 100 帧,45W 功耗下噪音不超过 45 分贝。
中国在全球Robotaxi领域处于领先地位,但这种竞争优势伴随着代价,反映出AI政策在促进经济增长与保障就业之间的紧张关系。
MiniMax-M3 实测:前端适配 KCORES2026p2,空间理解、建模精度、美学表现优秀,颜色运用佳;复杂需求如光追引擎需迭代。后端得分超 deepseek-v4-pro 及国产模型,略逊 GPT-5.4-Pro (xhigh)。Agent 能力达榜单第二接单量,规划突出。使用经验:M3 偏好长推理,单次输出可达 64k token,适合嵌入带 plan 模式的 Coding Agent,需做好 prompt 编排,避免大量 tool call;执行约束不足,需增加代码级 harness 闭环。
推文以“原话:我这店不要不干了,这帮B还能去哪儿?”和“作家改写:如果此地终会消亡,这些灵魂又将何处安放?”为例,说明作家在AI时代负责对粗俗表达进行美化润色的作用。同时提到郑执演讲中有感的话,并认为东北人天然适合干自媒体。
Anthropic 将 95% 的业务分析查询交给 Claude,准确率约 95%。最初仅 21%,通过搭建数据基础、权威来源、技能等四层系统提升。核心发现:准确性问题本质是上下文和验证,而非代码生成。三种失败模式:概念对应错误、数据过时、找不到正确字段。重复分析由 Claude 承担,数据科学团队专注更高价值任务。