OpenAI宣布停止使用SWE-bench Verified基准评估前沿编码能力。该基准基于GitHub历史问题构建,其任务分布已无法准确反映当前AI编码助手需解决的实际问题类型。随着模型性能提升,基准测试集趋于饱和,区分度下降,现有模型表现已接近人类水平。因此,团队将转向更具挑战性和现实复杂度的新评估方法。
OpenAI宣布停止使用SWE-bench Verified基准评估前沿编码能力。该基准基于GitHub历史问题构建,其任务分布已无法准确反映当前AI编码助手需解决的实际问题类型。随着模型性能提升,基准测试集趋于饱和,区分度下降,现有模型表现已接近人类水平。因此,团队将转向更具挑战性和现实复杂度的新评估方法。
OpenAI 指出,为 GPT-5.5 沿用旧提示词会阻碍模型性能,开发者应摒弃过往模式,从零开始、最小化设计提示词以建立全新基准。角色定义重新成为框架的前沿核心,此前它曾被部分开发者视为不必要,现在则被强调为优化交互的关键。这一调整旨在帮助开发者更有效地利用 GPT-5.5 的先进能力,提升应用效果。
关联讨论 3 条The Decoder:AI News(RSS)X:宝玉 (@dotey)X:邵猛 (@shao__meng)一项新基准测试让GPT-5.4和Claude Opus 4.6等顶级模型处理初级投资银行家的日常任务。评审结果显示,没有任何一个AI输出被评定为可直接交付客户,其内容存在不精确或完全错误的问题。尽管如此,超过半数的银行家表示,他们会将AI输出作为工作的起点。
一项针对美国主要AI助手用户收入的调查显示,Claude的用户群体收入显著更高。其周活跃用户中,年收入超过15万美元的高收入者占比高达41%,远高于ChatGPT(28%)、Google Gemini(24%)和Microsoft Copilot(20%)。而在年收入低于5万美元的用户中,Claude的占比最低,仅为11%。这些数据表明,Claude在美国市场成功吸引了更为富裕的用户,其用户收入结构与竞争对手形成了鲜明对比。
查尔姆斯理工大学和沃尔沃集团的研究人员在一篇新论文中指出,认为AI智能体将取代程序员的主流观点并不准确。研究认为,AI智能体不会导致软件工程消亡,而是将这一学科的核心活动从传统的代码编写,大幅拓展至更广泛的系统设计、需求工程、测试与维护等领域。这意味着软件工程师的角色将发生演变,其工作范畴将远远超出单纯的编程。
关联讨论 1 条IT之家(RSS)一名业余数学爱好者借助ChatGPT成功解决了一个存在60年的埃尔德什难题,这一突破在Hacker News上获得108点热议。该问题长期悬而未决,此次解决展示了人工智能工具在辅助数学研究中的潜力,突显了AI如何赋能非专业研究者推动科学进展。
可灵AI推出4K实战评测,展示以“一杯奶茶钱”的低成本制作4K分辨率时尚大片的流程与效果,验证AI视频工具在影视级创作中的性价比与可行性。
文章《知识工作的幻象》批判了现代知识工作日益沦为一种“拟像”的现象。大量工作偏离创造真实价值的核心,转而追求流程合规、指标可视化和内部沟通等形式。工作者将超过40%的时间耗费在制作报告、更新看板和参加会议等“表演性”任务上,而非实质性产出。这不仅降低了工作效率与创新潜力,还加剧了职业倦怠,最终使工作本身异化为一场空洞的仪式。
Momenta CEO曹旭东在北京车展期间指出,智能驾驶行业规模效应与先发优势极强,软件边际成本为零,规模能同时推动成本下降与体验提升。他判断行业格局将快速收敛,最终中国市场上仅会有2至3家、全球范围内仅会有3至4家供应商胜出。目前,Momenta已与全球多家主流车企合作,累计定点车型超200款,交付量产车型70余款,解决方案搭载车辆突破80万台,并已出海至10个国家。上汽大众全新SUV ID. ERA 9X将全球首发搭载其按L4级标准打造的R7强化学习世界模型。
人工智能行业正面临日益增长的公众反感与信任危机。多项调查显示,公众对AI的负面情绪显著上升,例如皮尤研究中心数据表明多数美国成年人对此技术感到担忧。行业内部报告也承认,用户对AI产品的热情正在消退,实际使用率和满意度低于预期。这种情绪导致部分AI应用下载量下降,并促使科技公司调整策略,更强调“负责任AI”和透明度以挽回公众信任。
编程辅助工具能帮助开发者重启那些曾被搁置或放弃的软件项目。通过自动生成代码、提供重构建议和解释复杂逻辑,这些工具显著降低了继续开发旧项目的心理与技术门槛。实践表明,开发者利用此类工具可在数小时内恢复对陈旧代码库的理解,并实现新功能。这改变了“必须独立完成所有代码”的传统观念,强调以工具为杠杆提升生产力,让半成品项目有机会真正完成并产生价值。
文章对在Firefox浏览器上运行的Mythos进行了快速体验评估,并对其市场热度提出质疑。Mythos作为一款备受关注的新应用或平台,此次在Firefox上的运行表现是评测重点。文中提及了实际体验中的具体变化或性能指标,但未详细列出核心数据。最终观点指向Mythos可能被过度炒作,其实际体验并未完全达到市场宣传的预期水平。
用户@scottjla依据“鹈鹕骑自行车”测试框架,向ChatGPT Images 2.0模型提交了一个复杂提示,要求生成“马骑宇航员、宇航员骑鹈鹕、鹈鹕骑自行车”且保持平衡的混乱图像。模型生成的画面虽包含了这些核心元素,却自行添加了一个写有“WHY ARE YOU LIKE THIS”的路牌,以及披萨、罐头和牛仔帽等未在提示中要求的物件。这一案例揭示了当前文生图模型在理解与执行复杂指令时,可能自主引入带有超现实或评论性质的额外细节,反映了其创意逻辑与指令遵循之间的微妙偏差。
OpenAI 的 Romain Huet 确认,公司将不会发布独立的 GPT-5.5-Codex 模型。自 GPT-5.4 起,Codex 已与主模型统一为一个单一系统,不再有独立的代码生成模型线。GPT-5.5 在此基础上更进一步,在智能体编码、计算机使用以及任何在计算机上执行的任务方面都取得了显著的能力提升。
关联讨论 22 条X:Greg Brockman (@gdb)The Decoder:AI News(RSS)X:Testing Catalog (@testingcatalog)X:swyx (@swyx)X:Vista (@vista8)X:宝玉 (@dotey)X:Rohan Paul (@rohanpaul_ai)X:Sam Altman (@sama)X:Tibo (@thsottiaux)OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)Ethan Mollick:One Useful Thing(RSS)X:歸藏 (@op7418)X:OpenAI (@OpenAI)X:Satya Nadella (@satyanadella)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:Kim (@kimmonismus)X:Eric Mitchell (@ericmitchellai)X:ChatGPT (@ChatGPTapp)X:Berry Xia (@berryxia)IT之家(RSS)美联储的一项新研究显示,自 ChatGPT 发布以来,美国程序员岗位的增长速度已近乎减半。生成式 AI 显著改变了程序员等专业群体的日常工作,这种影响现已体现在就业数据上。研究指出,程序员是受生成式 AI 影响最深的职业群体之一,其就业增长放缓是这一技术变革的直接反映。
关联讨论 1 条IT之家(RSS)一篇来自个人博客的文章《我还能属于科技圈吗?》在Hacker News上获得102点热度,反映了科技从业者对行业快速变化的普遍焦虑。文章核心探讨了在人工智能等技术浪潮冲击下,个体开发者产生的职业倦怠与身份认同危机。作者通过个人经历,质疑在技术迭代日益加速的背景下,传统技能与职业路径是否依然有效,并引发了对科技圈包容性与可持续性的思考。
一个GitHub项目演示了将IBM Quantum量子计算后端替换为Linux系统的伪随机数生成器/dev/urandom。实验表明,使用经典随机源替代后,在特定量子线路模拟任务中仍能产生与量子后端相似的输出结果,其保真度达到约0.5。该项目以讽刺手法质疑当前某些量子计算演示的实际效用,暗示其可能并未展现出超越经典随机过程的明显优势。
可灵AI 4K实战评测中,DiDi_OK在皮肤、毛发、瞳孔等细节上敢于给出特写,细节表现突出,展现出色影像能力。
OpenAI 针对新发布的 GPT-5.5 API 模型发布了详细的提示指南。核心建议包括:在处理多步骤任务时,应在调用工具前先向用户发送简短的状态更新,以提升交互体验。官方强调 GPT-5.5 应被视为一个需要重新调优的新模型系列,而非 GPT-5.2 或 GPT-5.4 的直接替代品,建议从零开始构建提示,而非沿用旧有提示。开发者可通过 `openai-docs` 技能使用 `$openai-docs migrate this project to gpt-5.5` 命令来辅助代码迁移,官方升级指南中还包含了轻量的提示词改写建议。
关联讨论 2 条X:宝玉 (@dotey)X:邵猛 (@shao__meng)基于AI专家卡帕西讲座的交互式图解指南已发布,详细解析大型语言模型(LLMs)的工作原理。该指南以动态可视化形式呈现,简化了LLMs的架构、训练和推理过程等复杂概念,提升学习可访问性。在Hacker News社区获得103个赞,显示其受关注程度。用户可通过在线链接直接体验这一教育工具,深入了解LLMs内部机制。
OpenRouter Agent SDK 提供 create-agent-tui 和 create-headless-agent 两种技能,可在几分钟内脚手架搭建个性化编码智能体。前者附带终端 UI,后者为无头模式,适用于脚本与管道自动化场景。
关联讨论 1 条OpenRouter:Announcements(RSS)OpenRouter Agent SDK 推出 `create-agent-tui` 和 `create-headless-agent` 两类技能(skills),用于快速搭建(scaffold)个性化编码智能体。前者提供终端 UI(terminal UI),后者为无头模式(headless),适用于脚本和流水线(scripts and pipelines)。
关联讨论 1 条OpenRouter:Announcements(RSS)Perplexity首席执行官阿拉温德·斯里尼瓦斯表示,AI不会颠覆iPhone,反而会随着AI能力增强,进一步强化iPhone作为用户“数字护照”的地位。他指出,苹果凭借其独有的生态系统、芯片与硬件优势,以及用户信任,构建了坚固的护城河。即使Siri改进缓慢,iPhone仍能持续成功,因为它整合了银行卡、通行证、健康记录、FaceTime、iCloud照片等众多核心生活功能。
Anthropic 公司 Claude Code 产品负责人 Cat Wu 指出,AI 领域的激烈竞争导致各大公司以前所未有的速度发布新功能,功能领域也高度重叠,这使用户产生了焦虑和错失恐惧症,感觉必须每日关注更新才能跟上节奏。她透露,仅今年前三个月 Anthropic 就推出了超过 45 项新功能。然而,快速发布也引发了问题,例如近期用户抱怨 Claude Code 回应质量下降,公司否认故意降质并已发现三个潜在问题。Cat Wu 希望未来能打造更“减压”的产品,帮助用户轻松学习,而非在快速迭代中疲于追赶。
英特尔副总裁罗伯特·霍尔洛克表示,英特尔与AMD在PC游戏性能上的差距主要源于软件优化不足,而非硬件缺陷。他指出,关闭能效核(E核)对游戏性能的影响微乎其微,仅约1%。部分游戏和引擎因未针对混合架构优化,导致核心调度出错,可能损失10%-30%的性能。他强调,若软件优化到位,英特尔CPU的游戏性能有望接近或超越AMD Ryzen X3D系列。
Simon Willison 发布了一个名为 Millisecond Converter 的在线工具,专门用于将 LLM 报告的提示持续时间从毫秒自动转换为更易读的秒和分钟单位。该工具解决了用户需要手动进行时间单位换算的不便,可通过特定网址直接访问,并被归类为实用工具类别。
本期邮件通讯内容包含:4只骑自行车的鹈鹕、1只骑电动滑板车的负鼠、最多5只携带火腿无线电并隐藏在人群中的浣熊。此外还收录了5篇博客文章、8个链接、3条引用,并发布了《智能体工程模式指南》的新章节。所有内容已同步推送至订阅者邮箱。
cURL开发者Daniel Stenberg警示,AI生成的漏洞报告已从“垃圾信息”演变为“高质量混乱”。2026年报告提交频率激增至2025年的2倍,平均间隔跌破25小时,导致维护者工作量指数级增长。尽管报告质量提升,真实漏洞确认比例反弹至约16%,但高频提交仍使维护者不堪重负。同时,AI工具也缩短了攻击者的漏洞挖掘时间,可能在修复前被利用,加剧了安全风险。
Anthropic确认,过去两个月用户关于Claude代码质量下降的投诉确实源于真实问题。根本原因并非模型本身,而是其运行框架中的三个独立故障。其中一个关键故障是:3月26日的一项更改本应在会话闲置一小时后清除Claude的旧思考以降低延迟,但一个错误导致此清除操作在后续每个回合都重复发生,致使Claude显得健忘且重复。这些框架层面的故障复杂且直接影响用户体验,尤其对需要长期会话的代理系统构建者有重要参考意义。该公司已发布详细的事后分析报告。
关联讨论 1 条X:小互 (@xiaohu)Perplexity首席执行官阿拉温德·斯里尼瓦斯指出,AI发展不会颠覆iPhone,反而会提升其作为“数字护照”的重要性。AI系统依赖上下文信息提供精准服务,而iPhone存储着支付、身份、健康等核心个人数据,这些数据价值随AI能力增强而提升,构成了苹果的关键壁垒。同时,AI运算正向终端转移,利用Apple Silicon硬件实现本地运行,这不仅能降低延迟,也更符合苹果的隐私保护模型,避免敏感数据外泄。
马斯克在特斯拉财报会上表示,从长期看,除全新Roadster外,特斯拉全系产品都将转向自动驾驶。这意味着公司战略重心已几乎完全押注于自动驾驶,而Roadster的角色则转变为专为想亲自驾驶的用户保留的“光环车型”。然而,该车型自2017年亮相后屡次延期,最新股东文件显示其生产设施“待定”、处于“设计开发阶段”,距离真正投产仍需多年。
华为在乾崑技术大会上发布面向自动驾驶的乾崑智驾ADS 5系统,奕境汽车首款旗舰SUV奕境X9及全新红旗H9将搭载该系统。苹果iPhone 18 Pro Max金属机模曝光。全国范围启动一体化电视推广,电视机将内置机顶盒功能。爱奇艺回应剧集暂停页广告争议,称已下架相关广告并加强审核。淘宝天猫上线售后AI假图识别模型,以应对利用AI生成虚假凭证的恶意退款行为。此外,日本福岛核电站2号机组测得“极高”水平核辐射,蔡磊透露部分渐冻症药物已进入临床试验。
LlamaIndex开源项目LiteParse现已推出网页版,用户可直接在浏览器中上传PDF并提取文本,所有处理均在本地完成,无需上传服务器。该工具基于PDF.js和Tesseract.js,采用空间文本解析技术,能智能识别多列布局等复杂格式,并支持OCR和非OCR两种模式。作者在原Node.js CLI工具基础上,借助Claude AI辅助开发,成功将其迁移至浏览器环境。示例显示,一个86页的PDF文件可被快速解析,输出文本及包含位置、字体等元数据的JSON结果。
尽管GPT-5.5的官方API尚未发布,但作者利用OpenAI为OpenClaw等工具开放的订阅集成机制,通过反向工程开源Codex CLI,开发了一个LLM插件。该插件允许付费订阅用户通过Codex后端API调用GPT-5.5模型。文章以生成“骑自行车的鹈鹕”SVG图像为例,展示了其使用效果,并指出高推理强度设置能显著提升输出质量,但耗时更长。目前,OpenAI表示正与合作伙伴制定API大规模服务的安全要求。
关联讨论 22 条IT之家(RSS)X:Testing Catalog (@testingcatalog)X:swyx (@swyx)X:Greg Brockman (@gdb)The Decoder:AI News(RSS)X:Vista (@vista8)X:宝玉 (@dotey)X:Rohan Paul (@rohanpaul_ai)X:Sam Altman (@sama)X:Tibo (@thsottiaux)OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)Ethan Mollick:One Useful Thing(RSS)X:歸藏 (@op7418)X:OpenAI (@OpenAI)X:Satya Nadella (@satyanadella)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:Kim (@kimmonismus)X:Eric Mitchell (@ericmitchellai)X:ChatGPT (@ChatGPTapp)X:Berry Xia (@berryxia)开发者 Simon Willison 发布了 llm-openai-via-codex 工具的 0.1a0 版本。该工具能够劫持用户的 Codex CLI 凭证,转而通过 LLM 工具来调用 OpenAI API。这一功能在其关于 GPT-5.5 的博客文章中有所描述。发布版本标签包括 openai、llm 和 codex-cli。
该内容探索了10个实用的ChatGPT Codex用例,旨在自动化任务、创建交付物,并将真实的输入转化为跨工具、文件和工作流的输出。
本文介绍在 Chrome 扩展中集成 Transformers.js 库的具体方法,涵盖从环境配置、模型加载到前后端通信的关键步骤。通过示例代码演示了如何利用该库在扩展中实现本地机器学习推理,同时处理扩展权限限制与安全策略。文中还对比了 Web Worker 与 Service Worker 两种部署方案,并提供了性能优化建议,帮助开发者在浏览器扩展环境中高效运行 Transformer 模型。
Anthropic 确认并解决了过去一个月影响 Claude Code、Claude Agent SDK 和 Claude Cowork 的三个问题,所有问题已于 4 月 20 日修复。具体包括:3月4日将 Claude Code 的默认推理强度从“高”改为“中”,导致用户感知智能下降,已于4月7日回滚;3月26日一项缓存优化存在缺陷,导致会话恢复后模型“健忘”和重复,4月10日修复;4月16日一项旨在减少冗余的系统提示指令意外损害了代码质量,4月20日撤销。这些问题影响了 Sonnet 4.6 和 Opus 4.6/4.7 模型,但 API 未受影响。公司已重置所有订阅用户的使用限额,并承诺改进流程以防止类似问题。
关联讨论 1 条X:小互 (@xiaohu)Cursor 团队针对用户全天依赖应用、崩溃影响严重的问题,聚焦内存不足导致的崩溃。通过为多进程架构设计细粒度监控系统,实时追踪版本发布后的崩溃指标。采用双重调试策略:自上而下关联功能与崩溃数据,监控大消息负载;自下而上通过崩溃观察服务、堆快照等定位根本原因。自2月底以来,全版本会话OOM率下降80%,自3月1日起请求OOM率下降73%。具体措施包括处理大文件加载和修复资源泄漏,以应对突发与渐进性内存耗尽。