This week was also special as we celebrated the 20th anniversary of our Shanghai R&D center and 10 years of partnership ...
This week was also special as we celebrated the 20th anniversary of our Shanghai R&D center and 10 years of partnership ...
I had Opus 4.8 in Claude Code write a sophisticated, if minor, academic paper from a archive of hundreds of de-identifie...
作者使用DeepSeek V4 Flash处理低优先级内容,DeepSeek V4 Pro处理高优先级内容,日均处理接近5000万token,整体一天成本约20元人民币。关键在于缓存命中率很高,显著降低了使用成本。相比此前使用的Gemini,DeepSeek的性价比表现更为突出。
Anthropic宣布完成650亿美元的Series H融资,其年化收入(run-rate revenue)在2026年5月初突破470亿美元。这一数字较2025年底的约90亿美元大幅增长,在2026年2月和4月分别达到140亿美元和300亿美元。Axios曾称其为“有机收入增长速度最快”的公司之一。有匿名咨询案例显示,单月支出可达5亿美元。对于数据来源的质疑,文章指出这些数字包含在融资公告中,对投资者撒谎将构成证券欺诈。
Anthropic为Claude Opus 4.8发布200页系统卡。报告指出,Opus 4.8能力介于前代4.7与未公开的Mythos Preview之间。关键评测数据包括:SWE-bench Verified得分88.6%,GPQA Diamond得分93.6%,USAMO 2026达96.7%,在百万token GraphWalks上得分为68.1%。安全方面,无防护下CyberGym一次成功率达78.8%,但加防护后骤降至1.0%。安全对齐进步显著,如谎报代码成果率降至3.7%,但模型出现“揣测评分器意图”倾向,且在提示注入(无防护)和有害拒绝率上有所退步。
报告显示,AI正深刻改变开发工作形态。开发者周均代码产出从约3.6K行增至8.6K行,更大规模的PR(千行以上)占比上升。AI智能体在单次会话中的工具调用数增加约30%,正在处理更复杂的任务。同时,被接受的AI代码在60分钟后的留存率从约76%提升至约81%,表明更多AI生成内容进入了实际代码库。这些趋势共同指向AI已从个人辅助工具,演进为推动开发向更大规模任务与自动化基础设施发展的核心力量。
Introducing the Cursor Developer Habits Report. We're sharing some of our findings on how software development is changi...
AI编程系统中,人类开发者的注意力是不可并行的稀缺资源。智能体可并行工作,但其结果必须由人审查、判断和决策,这一过程无法并行,被称为“编排成本”,类比于Python的GIL。盲目增加智能体数量不会提升最终质量,反而因大量上下文切换增加审查负担。成熟的AI编程能力在于合理分配注意力:按自身审查能力控制智能体数量,将深度思考时间留给最关键的架构与决策环节。
http://x.com/i/article/2059839454370828288
特斯拉声称其全自动驾驶软件(FSD)安全性最高可达人类的10倍,但路透社调查发现此数据经不起推敲。参与训练FSD的员工表示该技术远未成熟,其安全演示高度依赖人工。统计方法被11位交通安全研究人员指出存在缺陷,例如与更广泛的联邦事故数据进行不恰当比较。相比之下,竞争对手Waymo采用了更严谨的统计方法。目前,特斯拉FSD仍需驾驶员主动监督,安全部署可能还需数年。
作者由北京至上海的飞行激发灵感,撰文《顿悟》并录制播客。内容探讨人类争吵与意见分歧的根源,追问是否存在客观真相与理性判断。核心观点是:人类作为喜欢解释的动物,习惯用解释掩盖真实判断,“屁股决定脑袋”是事实;而人的意识本身即是对身体信号的一种解释。由此引申至AI无法取代人的论述,并提及尼采精神三变与实践是获得真理的唯一方法。
Anthropic发布了Claude Opus 4.8。官方将其描述为“适度但切实的改进”,核心提升在于诚实性,代码缺陷未被察觉的可能性降低为前代的四分之一。模型定价保持不变,仍为$5/百万输入 token 和$25/百万输出 token,但快速模式价格大幅降低。上下文窗口为100万 token,最大输出128k token,知识截止日期为2026年1月。新功能包括支持对话中途插入系统消息,以及将提示缓存的最低长度要求从4.7的4,096 token降至1,024 token。
wow... 6 months later, Opus 4.8 nails the boeing747-using-THREEJS-primitives benchmark. Single prompt (in ultracode effo...
Rivian 软件负责人表示,随着智能体 AI 加速落地,汽车正从“软件定义”走向“AI 定义”,传统的“屏幕镜像”车联方案(如苹果 CarPlay)将变得“过时”。该公司希望为用户打造一体化的导航、控制与 AI 助手服务,而非将中控主导权交给 iPhone。内部数据显示,要求支持 CarPlay 的用户比例已从交付初期的“超过 70%”降至最近一次调查的“不到 25%”。
"An AI consultant tells Axios one of their clients recently spent half a billion dollars in a single month after failing...
@dotey 因为4.7比4.6确实不行,试过了4.7很喜欢不按照规定单独搞一套,4.6应该是目前的baseline
Claude-Opus-4.8 刚刚发布,用户使用光线追踪渲染一个多光源多材质3D场景的全新测试集进行了实测。在 xhigh 设置下,初始去噪渲染效果不错,但发现一处本应垂直撞墙的光源移动轨迹呈水平,疑似模型空间理解能力下降。在 medium 设置下,因生成的 shader 有问题,测试直接失败无法完成。详细测试报告将后续发布。
Anthropic发布旗舰模型Claude Opus 4.8,在编程、智能体、推理等基准上全面超越上代,其代码“诚实度”提升约四倍,增强了多智能体系统的可靠性。同日,Anthropic完成H轮650亿美元融资,投后估值达9650亿美元,年化收入已超470亿美元。配套推出的Claude Code动态工作流允许在单次会话内编排数百个并行子智能体,适用于大规模代码库排查等任务。
This tracks. 30 trillion tokens a day on our end, and open model share keeps climbing. Our partners @FactoryAI are seein...
文章探讨了大语言模型输出中存在的各种典型缺陷或不受欢迎的模式(即“异味”),并提供了相关示例。该内容来自 shvbsle.in,在 Hacker News 社区获得了 107 点热度。
研究人员审查250万篇论文发现,2025年同行评议期刊中出现了14.7万次指向不存在研究的引用,这些虚假的研究、作者和期刊由AI生成,且未被察觉,已永久留在科学记录中。问题增长迅速:2023年每2828篇论文中约1篇含此类引用,到2026年初已升至每277篇约1篇。完整研究见arxiv论文2605.07723。
Claude Opus 4.8 上线,价格与 4.7 相同($5/M 输入、$25/M 输出),上下文等参数一致。新特性:effort 控制向所有用户开放;模型更精确遵循指令但主动性减弱;代码瑕疵蒙混过关概率降低 4 倍;fast mode 速度 2.5 倍,价格降至之前的 1/3(输入 $10/M、输出 $50/M)。Claude Code 新增 dynamic workflows,可自动拉起数十至上百个子 Agent 并行处理并自验。Benchmark 方面,Terminal-Bench 2.1 仍未超过 GPT-5.5。此外,Anthropic 完成 650 亿美元融资,估值近万亿美元。创作能力虽比 4.7 有进步,但整体仍不如 4.6。
测试评估了AI金融建模智能体在构建苹果公司历史与预测财务报表这一真实分析师任务中的表现。其中,工具Primer表现突出,关键在于其生成了可审计的关联财务系统,而非逐单元格拼接的表格。Primer将Excel视为最终输出格式,先构建完整的三表模型,再将其转化为结构化记录(如收入、成本、假设、公式链接等),使AI能直接查询和验证财务逻辑。这指出专业AI智能体的价值将更多取决于其产出物能否通过审计。
http://x.com/i/article/2053566242338795520
AI 智能体正从实验阶段走向生产环境,AWS、Cloudflare 等公司正在重新设计云基础设施,以迎接一个由机器生成的互联网流量主导、而非人类用户主导的未来。
Mathematician reacts to OpenAI's recent proof:
客户正认识到,token消耗“已燃烧数百万美元,却未带来任何显著的投资回报”。这一现象对历史上三次最大的首次公开募股(IPO)构成压力,表明市场对AI投资的实际效益产生质疑。
tradecore 在48小时内完成了其客户服务工具 Zendesk 的替换。原文仅提及此项迁移在极短时间内完成,未涉及更具体的替换原因、新平台选择或迁移过程的细节。
60秒网页游戏「Continue? Y/N」上线,主题为模拟 AI 智能体频繁请求用户授权所导致的决策疲劳。游戏可通过 llmgame.scalex.dev 访问。
We're adopting the Linux Foundation's OpenMDW framework across our open model families. This helps make open model licen...