Wasmer 借助 Codex(基于 GPT-5.5)构建了一个用于边缘计算的 Node.js 运行时,将开发速度提升 10 到 20 倍,交付周期从数月缩短至数周。
Wasmer 借助 Codex(基于 GPT-5.5)构建了一个用于边缘计算的 Node.js 运行时,将开发速度提升 10 到 20 倍,交付周期从数月缩短至数周。
Claude Code v2.1.162 发布,主要包含 Bug 修复和体验优化。`claude agents --json` 新增 `waitingFor` 字段,`/effort` 命令确认级别持久化,远程控制固定底部显示,`/ide` 菜单中 Windsurf 更名为 Devin Desktop。修复了配置文件只读导致启动黑屏、Windows 权限规则不匹配、LSP 的 `workspaceSymbol` 无结果、API 400 错误、MCP 超时低于 1000ms 被截断等十余项问题。
关联讨论 2 条Claude Code:GitHub Releases(RSS)X:Claude Devs (@ClaudeDevs)GPT-Rosalind 在生命科学研究领域推出新功能,增强了生物推理、药物化学专业知识、基因组学分析以及实验工作流处理能力。
关联讨论 3 条OpenAI:官网动态(RSS · 排除企业/客户案例)X:Sam Altman (@sama)X:OpenAI (@OpenAI)Cursor Enterprise 正式推出 Organizations 结构,允许企业在统一面板中管理多个团队。每个团队可独立设置预算、安全策略、模型访问和功能控制。新增 Groups 作为跨团队或团队内的轻量级用户集合,用于分段管理模型访问、花销上限和智能体权限,不同设置取最宽松权限生效。管理员可创建沙箱团队预先测试新功能,再向全公司推送;也可按部门划分模型访问和预算。组织级仪表盘汇总所有团队的 token 用量与花费,支持按团队、用户等维度筛选。身份提供商和 SCIM 目录在组织层面一次配置,成员自动同步。该功能现已全面开放给所有 Enterprise 客户。
Google Research 在 GitHub 开源了其水文建模框架,这是一个基于 PyTorch 的 Python 包,采用与 Flood Hub 河段洪水预报相同的模型架构和训练数据。该框架允许研究者和预报员训练 AI 洪水预报模型、添加新模型与数据,并已与捷克水文气象研究所(CHMI)等合作测试。开放模型架构和训练管线旨在让各国气象水文部门在保留数据完全控制权的同时,整合基于 AI 的洪水预报。
Anthropic 增长营销负责人 Austin Lau 介绍了非技术知识工作者使用 Claude Cowork 的最佳实践。Claude Cowork 是面向文档、电子表格等多步骤任务的 AI 助手,用户无需编程技能,将其指向文件夹或连接已有应用即可委托任务。与用于快速问答和头脑风暴的 Chat 以及面向开发者的 Claude Code 不同,Claude Cowork 适用于需要产出交付物、涉及多个文件或应用、可重复执行的场景。Lau 给出了判断任务是否适合的五项检查清单,并预告将于6月4日分享具体营销用例。
关联讨论 1 条Claude:Blog(网页)Anthropic 分享了内部使用 Claude Code 的 Skills(技能)功能的经验。Skills 是指令、脚本和资源的文件夹,智能体可发现并调用它们以提升准确性和效率。Anthropic 内部已有数百个活跃使用的技能,它们可归为九类,包括库和 API 参考、产品验证、数据获取与分析、业务流程与团队自动化、代码脚手架与模板、代码质量与审查等。最佳技能专注于单一类别,涵盖过多功能会混淆智能体。团队发现,投入时间优化验证类技能对 Claude 输出质量的提升最显著。
关联讨论 4 条Claude:Blog(网页)X:小北 (@frxiaobei)X:Claude Devs (@ClaudeDevs)Hacker News 热门(buzzing.cc 中文翻译)Anthropic 使用 Claude 自动化了 95% 的业务分析查询,整体准确率约 95%。其关键在于构建智能体分析栈(agentic analytics stack),通过数据基础层、维护验证流程和技能(skills)分别解决概念-实体歧义、数据过时和检索失败三大错误来源。相比编码场景,数据分析的难点在于将用户问题映射到正确的数据实体,而执行 SQL 反而是简单的。Anthropic 的数据科学团队因此得以专注于因果建模、预测和机器学习等战略工作。
关联讨论 1 条X:Claude Devs (@ClaudeDevs)OpenAI 公布其 AI 公共政策议程,涵盖安全、青少年保护、劳动力转型和全球标准四大领域,旨在确保 AI 技术造福全社会。
OpenAI 发布了一份针对美国前沿 AI 治理的蓝图,提出建立联邦层面的框架,以保障安全性、韧性和国家安全。该蓝图聚焦于前沿 AI 的民主治理,强调通过政府监管与行业协作来应对潜在风险。
关联讨论 1 条OpenAI:官网动态(RSS · 排除企业/客户案例)Google DeepMind 的 Gemma 4 12B 模型可在 16GB RAM 的普通笔记本上运行,支持本地数据处理与视觉洞察生成。macOS 用户可通过 Google AI Edge Gallery 执行动态 Python 代码与可视化,通过 Google AI Edge Eloquent 实现完全离线的语音听写和文本编辑。另外,LiteRT-LM CLI 新增 serve 命令,可创建行业兼容的本地端点,驱动完全本地的 AI 工具和智能体。
关联讨论 4 条The Decoder:AI News(RSS)X:Google AI for Developers (@googleaidevs)Hacker News 热门(buzzing.cc 中文翻译)X:Jeff Dean (@JeffDean)Gemma 4 12B 是一款密集多模态模型,专为消费级设备上的高性能本地 AI 执行而设计。其采用新颖的无编码器架构,绕过传统视觉和音频编码器,将多模态数据直接输入大语言模型主干。
关联讨论 4 条The Decoder:AI News(RSS)X:Google AI for Developers (@googleaidevs)Hacker News 热门(buzzing.cc 中文翻译)X:Jeff Dean (@JeffDean)Reachy Mini 对话应用现在可通过 MCP 协议添加远程工具。执行 `reachy-mini-conversation-app tool-spaces add` 命令即可从 Hugging Face Spaces 安装远程工具(如搜索、天气),并自动启用至当前 profile 的 tools.txt 中。内置工具(头部动作、跳舞、表情、摄像头等)仍为本地 Python 代码,远程工具则通过 MCP 端点调用。profiles 通过 tools.txt 控制哪些工具可用,不在文件中的工具模型无法调用。用户也可编写自定义本地工具。远程工具适合无状态能力,便于发布、共享和迭代,无需修改应用本身。支持 install、list、remove 等子命令。
4月发布的DharmaOCR(结构化OCR模型)在巴西葡萄牙语文档提取任务中,使用直接偏好优化(DPO)作为监督微调(SFT)后的第二训练阶段。SFT无法直接惩罚文本退化(重复循环),而DPO以模型自身失败输出(退化循环)作为负样本进行偏好训练,使所有测试模型族的文本退化率平均降低59.4%,最高达87.6%(如Nanonets-OCR2-3B从1.61%降至0.20%)。传统DPO多用于聊天对齐,该工作将其扩展至客观的OCR任务,证明DPO可针对性修复特定失败模式。
微软在模型发布卡中首次加入平均token使用量指标。其模型在SWE-Bench Verified上达71.6分,仅消耗约Claude Haiku 4.5三分之一的token。Artificial Analysis的Intelligence Index显示GPT 5.5与Claude Opus 4.8得分相近(约60分),但Opus 4.8运行成本高出40%($4,685 vs $3,357)。Uber因四个月内AI预算超支而限制员工使用;Salesforce花费$3亿购买Anthropic tokens并冻结工程招聘。模型公司如今需同时在性能和成本两个维度竞争。
Google Search 和 Google Shopping 中的 AI 工具帮助用户在二手和复古购物中发现好物。
Anthropic 扩展 Claude Partner Network,推出 Services Track 分级体系和 Partner Hub 门户。Services Track 设 Select、Preferred、Global Premier 三级,按认证人数、投产客户数及客户推荐信量化评定。Partner Hub 提供每日更新仪表盘和公开目录,方便合作伙伴查看进展、客户寻找供应商。该网络三月启动以来已有超 4 万家公司申请,逾 1 万顾问获认证;Accenture 训练 3 万人,Cognizant 部署约 35 万员工,Deloitte 惠及 47 万人,KPMG 覆盖 27.6 万,Infosys 构建行业智能体,PwC 先在美推广再扩至全球。
Kimi Work Beta版随Kimi最新Mac和Windows客户端推出,是基于Kimi Code的通用型本地Agent。它内置Kimi WebBridge浏览器操作方案,支持安装和使用Skill、运行定时任务,并能根据任务复杂度自主创建最多300个子Agent的团队。开发中使用的Kimi K2.6模型支持13小时连续编码、4000余次工具调用,累计产出超5万行有效代码,其中92%由AI自主生成。用户可用自然语言描述目标,Kimi Work即可拆解任务、并行执行、调用工具、操作浏览器,交付文档、表格、PPT等工作产物。
关联讨论 2 条X:Kimi.ai (@Kimi_Moonshot)X:Berry Xia (@berryxia)近日,昆仑万维董事长兼CEO方汉在2026年香港科创主题研讨会上指出,中国AI的底层逻辑是智力与能源,中国具备明显优势,全球最好的开源大模型DeepSeek已能在多个垂直领域与美国产品竞争。公司2026年第一季度营收25.70亿元,同比增长45.69%;海外收入24.87亿元,同比增长49.29%;短剧及AI短剧平台月流水超4800万美元,ARR超5.7亿美元。方汉认为香港可扮演数据合规“沙盒”与学术交流桥梁角色,并呼吁长期资本重视AI应用层,称生成式AI将内容制作成本压低至几万分之一,传统渠道将被重做,订阅制将被免费模式取代。
豆包计划推出面向专业人群的豆包专业版,涵盖软件开发、数据分析、专业设计、流程自动化、金融分析、科学研究等服务。日常使用的搜索问答、写作生图、语音和视频对话等免费功能保持不变,专业版也将在一定额度内免费。目前专业版仍在测试阶段,正式上线时会通过官方渠道发布完整信息。近期有大量营销号集中发布不实信息,称豆包将通过降低基础功能体验来推动用户购买会员,豆包明确否认该说法。
浙江人形机器人创新中心与百度智能云合作,推动人形机器人产业落地。浙江人形推出国内首个全尺寸双足人形机器人NAVIAI-I2(41个自由度,亚毫米级操作精度)及面向超精密装配的NAVIAI-WA1;“领航者2号”在2025国际人形机器人技能大赛获商用场景冠军,单次抓取平均12秒、准确率100%。百度智能云通过百舸平台提供GPU算力调度与模型训推加速,并搭建Real2Sim2Real仿真通道,支持数据标注。已实现与杰克科技签约2000台订单、联合方太发布机器人总厨,以及康养场景喂饭喂水陪护服务验证。
Anthropic分析了2025年3月至2026年3月间因恶意网络活动被封禁的832个账号,映射至MITRE ATT&CK框架。67.3%的账号使用AI编写恶意软件,6.5%用于横向移动。攻击者中高风险比例从上半年的33%升至下半年的56%。AI使用从初始访问转向后期活动,账户发现增长8.9%,AI辅助钓鱼下降8.6%。攻击者技能与使用技术数量无显著关联(最低技能者平均16种,最高约20种),所用平台也与风险等级不相关。更高风险攻击者将AI集中于操作密集型技术,并构建允许模型自动链式执行攻击步骤的脚手架。MITRE ATT&CK框架未收录AI自主编排攻击链等行为。
关联讨论 1 条X:Anthropic (@AnthropicAI)Anthropic 分析 2025 年 3 月至 2026 年 3 月间 832 个被封禁的恶意账户,映射至 MITRE ATT&CK 框架。67.3% 使用 AI 编写恶意软件,6.5% 用于横向移动。六个月间中高风险攻击者占比从 33% 升至 56%。AI 用于账户发现增长 8.9%,AI 辅助钓鱼下降 8.6%。传统基于技术数量或平台(Claude Code、API、聊天界面)的威胁评估失效,而 MITRE ATT&CK 框架尚未收录此类智能体编排行为。
关联讨论 1 条X:Anthropic (@AnthropicAI)面壁智能CEO李大海近日在中吉媒体合作论坛上指出,中亚可成为数字丝绸之路智能枢纽,需提供低成本、可落地、可信赖的AI能力。公司自研MiniCPM系列大模型累计下载突破3000万次,已在汽车、智能手机等领域落地。面壁智能曾参与老挝国家大模型建设,打造的老挝语翻译模型在专业评测中超越GPT-4o,并训练融入本土文化的大模型,设计低成本多模型联合推理方案。李大海提出AI应成为普惠基础设施,合作需从概念转向实体落地。面壁智能已跑通“主权大模型”全链路技术路径,形成可全球复用的智能底座。
千问今日向第三方Agent、Skill全面开放。瑞幸咖啡、肯德基、东方航空已首批提供Skill服务,用户可体验到店自取等。企业未来可在千问APP中接入Skill并运营自有品牌Agent,自定义人设与服务边界,以对话形式提供服务。Agent具备记忆与主动规划能力,可在特定场景主动提供服务,如行程提醒、权益到期、复购推荐。东航Agent可理解出行计划后智能推荐行程方案,瑞幸Agent能主动建议提前下单。千问希望与各行业共建Agent服务生态。
火山引擎 Seedance 2.0 提出 AI 视频创作新范式 Vibe Creating,核心是让创作者放下技术负担,用故事表达代替复杂 Prompt 参数。该范式强调用富有画面感的语言描述场景、情绪和叙事,模型自行理解意图并完成景别、光影、节奏的诠释,避免过度规定镜头调度。适用于文学作品可视化、影视预演等场景,并配套发布《Vibe Creating 实践手册》及可执行的 Prompt Skill,从创意到高质量提示词一步到位。
Claude Code v2.1.161 发布了多项功能改进与问题修复。功能方面,现在可将 OTEL_RESOURCE_ATTRIBUTES 的值作为指标数据点的标签,支持按团队或代码库等维度查看使用情况;`claude agents` 命令在分发任务时会显示“已完成/总数”;`/mcp` 改进了连接器列表的展示;并行工具调用时,单个 Bash 命令的失败不再取消同批次的其他调用;全屏模式在 Linux 上优化了剪贴板支持。本次更新还修复了包括管理策略阻止第三方会话、后台子智能体输出损坏以及终端渲染性能在内的多个问题。
关联讨论 4 条Claude:Blog(网页)X:Thariq (@trq212)X:Claude Devs (@ClaudeDevs)X:邵猛 (@shao__meng)Claude Code 新增动态工作流功能,允许模型在运行时即兴创建和协调多智能体框架来处理复杂任务。该功能通过执行特定的 JavaScript 文件来生成和协调拥有独立上下文窗口的子代理,可解决单一上下文窗口中长时间执行任务可能出现的智能惰性等问题。工作流适用于研究、安全分析、代码审查等场景,通常消耗更多 token,更适合高价值复杂任务,其最佳实践仍在发展中。
关联讨论 4 条Claude:Blog(网页)X:Thariq (@trq212)X:Claude Devs (@ClaudeDevs)X:邵猛 (@shao__meng)Gary Marcus在其个人专栏中分享了一个真实的瞬间,以此反映了他对于人工智能实现稳定、可靠(即“理智”)发展的思考与期许。
在微软 Build 2026 大会上,GitHub 发布了新的工具和更新,并将 Copilot 应用定位为“智能体原生的桌面体验”。其核心目标是让 AI 智能体能够以用户已经习惯的方式进行工作。
关联讨论 2 条The Verge:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)在Code w/ Claude SF 2026活动上,Claude Code工程团队分享了将智能体编程设为默认工作方式后带来的流程与结构变革。核心变化包括:规划转向即时(JIT)模式,强调快速原型与反馈;上下文收集变为“先问Claude”;代码审查中Claude处理风格与测试,人工专注于法律、安全等专业判断。新范式下,工程瓶颈从编写代码转向验证、审查与安全维护。
关联讨论 2 条X:Ethan Mollick (@emollick)X:邵猛 (@shao__meng)根据OpenRouter平台数据,自2025年以来,开放模型使用量显著增长。最新数据显示,开放权重模型产生了69.1%的token使用量,闭源模型为30.9%。新模型的发布会吸引开发者测试,推动token使用量达到新的平台期。开放模型市场内部竞争激烈,领导地位频繁更迭,如DeepSeek的早期优势在2025年末至2026年初被MiniMax与Kimi模型取代,随后MiMo、Qwen、腾讯Hy3、阿里巴巴及Arcee等模型的发布再次改变了份额格局。尽管开放模型目前仍只占推理总量的一小部分,但激烈的竞争与增长表明,开发者正越来越愿意将生产流量路由至开放模型。
知名人工智能批评者Gary Marcus在其关于可信赖AI的专栏中,探讨了人工智能发展面临的根本性挑战。文章开篇即指向问题的核心,指出相关数学理论的局限性与人类心理的复杂性,是导致AI系统最终可能出现问题的根源。
OpenAI 的 Codex 新增了插件、站点和注释等功能。这些新功能旨在帮助分析师、营销人员、设计师、投资者等各类团队,利用 AI 完成更多工作。Codex 进一步拓展其作为 AI 编码工具的应用场景,以支持更广泛的角色、集成更多工具并优化现有工作流。
关联讨论 1 条OpenAI:官网动态(RSS · 排除企业/客户案例)美国保险公司Travelers与OpenAI合作,构建了一款AI驱动的Claim Assistant。该工具旨在引导客户完成理赔流程,并提供全天候支持,以在业务高峰期扩展运营规模。
Nathan Lambert 离开 Allen Institute for AI (Ai2),回顾了他在该机构最后一周的工作,特别是参与 Olmo 模型的开发,并强调了个人成长和产生广泛持久影响的机会。
OpenAI呼吁通过设立专门的AI安全研究所,在全球范围内采取行动,以保障青少年在使用AI时的安全,并创造更多发展机遇。
Holo3.1 是基于 Qwen 模型家族的计算机使用智能体系列,旨在提升在桌面、网页和移动环境中的鲁棒性。新模型提供 0.8B、4B、9B 和 35B-A3B 四种尺寸,并首次发布量化检查点,包括 FP8、Q4 GGUF 和 NVFP4,以优化本地推理。在 AndroidWorld 基准测试中,35B-A3B 模型得分从 67% 提升至 79.3%。在 DGX Spark 上,NVFP4 量化相比 BF16 实现 1.74 倍 token 吞吐量提升,并将平均步骤时间从 6.8 秒缩短至 3.3 秒。模型支持函数调用协议,可在第三方智能体框架中部署。
Anthropic正将其Project Glasswing计划扩展至约150个新组织,此前首批约50个合作伙伴。新伙伴分布于十五个多国家,覆盖电力、水务、医疗、通信和硬件等关键基础设施行业。这些合作伙伴的共同点在于,其代码库若遭成功攻击,后果可能极其严重,影响或超1亿人。项目旨在利用Claude Mythos Preview等前沿模型扫描漏洞并协助修复,以应对AI驱动的网络安全挑战。同时,Anthropic推出了基于Claude Opus 4.8等公开模型的Claude Security产品,用于扫描代码并建议补丁。
关联讨论 6 条Anthropic:Newsroom(网页)The Decoder:AI News(RSS)X:Anthropic (@AnthropicAI)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)Anthropic:Research(发表成果 · 网页)可灵AI NEXTGEN高校AIGC创作大赛评审委员会正式官宣,评委包括清华大学双聘教授沈阳、浙江传媒学院教授陈奕、中国美术学院教授杜海滨、中国传媒大学主任丛芳君,以及可灵AI超级创作者汗青、陈升亮。作品征集时间为3月16日至6月7日,获奖名单将于6月18日公示。目前征稿进入最后5天冲刺阶段,优秀获奖作品有机会在首尔电影中心及釜山国际电影节期间展映。