RLVR(强化学习与验证)在科学理论验证中可能表现出不成比例的缺陷。科学理论的验证循环周期长达数十年甚至数个世纪,且当前被视为更优的理论实际上常会做出更差的预测。这一矛盾揭示了基于短期反馈的强化学习范式与科学探索长期性、复杂性之间的根本冲突,凸显了现有AI方法在应对科学发现这类超长反馈周期任务时存在的结构性局限。
近期访谈揭示了大规模语言模型预训练中的并行化策略与失败案例。关键变化包括从数据并行转向更复杂的模型并行、流水线并行及混合策略,以应对万亿参数模型的内存与计算挑战。具体指标显示,某些失败训练运行因硬件故障或超参数设置不当,导致数百GPU小时损失。成功案例则通过优化通信开销与负载均衡,将训练效率提升约15-30%。这些经验为GPT、Claude、LLaMA等模型的稳定训练提供了重要技术参考。
文章指出将“智能”与“权力”混为一谈是一个根本性错误。如果仅将“智能”定义为“在广泛领域中实现目标的能力”,那么斯大林将成为有史以来最“智能”的人。这一观点揭示了当前对人工智能(如GPT、Claude、LLaMA等)能力的讨论中,可能存在的概念混淆和评估偏差。真正的智能应包含更丰富的维度,而非单纯以目标达成的效力或权力大小来衡量。
本月开源AI模型领域迎来密集发布,包括Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5和GLM-5.1等一系列重要新版本。这些模型均在CAISI的V4评估框架下进行了性能评测。多个团队几乎同期推出旗舰级更新,反映出开源社区当前高速迭代的竞争态势。
OpenAI 与马耳他政府达成合作,将向该国所有公民免费提供 ChatGPT Plus 订阅服务。此次合作旨在扩大人工智能技术的普及范围,并包含面向公民的 AI 技能实践培训,以帮助民众负责任地使用 AI。该计划是国家级大规模推广 ChatGPT Plus 的首例,预计将提升马耳他全民的 AI 素养与应用能力。
新加坡与Google DeepMind达成战略合作,共同将前沿人工智能技术应用于解决该国在医疗健康、教育创新和可持续发展等领域的复杂挑战。双方旨在通过该国家级伙伴关系,推动AI技术在实际场景中的落地,以应对社会性难题,提升国家科技竞争力。
Clare Bryant教授利用Co-Scientist这一工具,针对新兴传染病背后的基因触发因素进行研究,旨在揭示驱动这些疾病出现的分子开关机制。这项工作有望帮助快速识别潜在的新发传染病威胁,为疾病监测与早期预警提供新的技术路径。
Calico Life Sciences 通过 Co-Scientist 平台,将零散的衰老研究发现进行连接与整合,从而生成新的研究线索与方向。该工具旨在加速衰老领域的科学探索,为后续研究提供创新思路。
研究者 Filippo Menolascina 使用 AI 工具 Co-Scientist,旨在寻找新的肝脏疾病治疗方法,并解释现有药物为何仅对部分患者有效。该研究聚焦于加速对疾病机制的理解,以推动更精准的治疗方案开发。
波士顿儿童医院与麻省理工学院的实验室达成合作,共同利用生物学工具包,探索基于RNA的肌萎缩侧索硬化症新疗法。这项跨机构合作旨在为这种神经退行性疾病开发创新治疗路径。
斯坦福大学遗传学家利用Co-Scientist工具,在现有药物中筛选用于治疗慢性肝病和肝纤维化的潜在疗法。这种方法专注于老药新用,旨在加速药物发现过程,为肝纤维化这一难治性疾病提供新的治疗思路。
Codex 能够帮助数据科学团队根据实际工作输入,自动化生成根本原因简报、影响报告、关键绩效指标备忘录、范围分析以及仪表板规格文档。该工具将自然语言描述转化为结构化分析框架,提升了从数据查询到报告生成的工作流效率,使团队能更快速地将业务问题转化为可执行的数据分析方案。
业务运营团队可利用 Codex,将实际工作输入转化为多种关键文档。该工具能够基于真实工作内容,自动生成项目简报、战略更新报告、领导决策包以及进度更新等材料。这一应用展示了 Codex 如何将日常运营数据与沟通需求直接连接,提升文档创建效率与一致性,帮助团队更专注于核心业务决策。
销售团队可利用 Codex 基于实际工作输入,自动生成一系列关键销售文档。具体功能包括创建管道简报、会议准备材料、预测审核、客户计划以及停滞交易诊断。这一应用将日常沟通与数据转化为结构化、可操作的销售支持内容,帮助团队提升效率与决策质量。
WeatherNext AI模型协助气象预报员为社区在飓风Melissa登陆前提供了前所未有的准备时间。该模型通过提升预测准确性与提前量,帮助牙买加等地成功应对了这场历史性的飓风事件,显著增强了灾害预警的时效性。
Databricks宣布在企业智能体工作流中集成GPT-5.5模型。这一决策基于该模型在OfficeQA Pro专业基准测试中取得的突破性性能表现,创造了新的行业标杆。GPT-5.5的引入将提升企业自动化流程的准确性与效率。
Claude Code 发布 v2.1.143 版本,重点增强了插件管理功能,包括强制执行插件依赖关系,并新增了插件市场的预估上下文成本显示。为方便直接编辑工作副本,增加了 `worktree.bgIsolation: "none"` 设置。多项体验得到改进:后台会话唤醒后保留模型与努力级别设置;Windows PowerShell 工具默认绕过执行策略;`claude agents` 命令新增多个参数以配置默认会话。此外,本次更新修复了大量错误,包括修复损坏的 `.credentials.json` 文件导致 CLI 启动卡住、Windows Terminal 中的右键粘贴问题、后台会话错误捕获 IDE 文件引用,以及 macOS 上后台作业读取特定目录文件的权限错误等。
关联讨论 2 条Claude Code:GitHub Releases(RSS)X:Claude Devs (@ClaudeDevs)Google发布了Gemini 3.5模型,该模型专注于提升执行复杂任务的能力。其核心特点是支持“代理式工作流”,即能够像助手一样自主规划并执行一系列多步骤、复杂的操作,旨在将先进的语言理解与实际问题解决能力相结合。
关联讨论 15 条Google Blog:AI(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)IT之家(RSS)X:阶跃星辰 StepFun (@StepFun_ai)X:Gemini (@GeminiApp)X:Google AI for Developers (@googleaidevs)X:Google AI (@GoogleAI)X:Jeff Dean (@JeffDean)X:Artificial Analysis (@ArtificialAnlys)X:Sundar Pichai (@sundarpichai)Hacker News 热门(buzzing.cc 中文翻译)X:Google DeepMind (@GoogleDeepMind)X:Oran Ge (@oran_ge)X:Demis Hassabis (@demishassabis)xAI宣布,用户现可将Grok订阅账户接入Nous Research的开源自改进智能体Hermes Agent。该集成对所有订阅层级开放,允许用户在Hermes环境中直接使用Grok 4.3进行文本对话与高级推理、调用其文本转语音功能生成语音回复,并利用Grok Imagine创建图像与视频。Hermes Agent可持久运行于电脑、沙盒或VPS,具备跨会话长期记忆能力,并能连接WhatsApp、Discord等通讯平台。用户通过安装Hermes Agent并选择Grok提供商即可完成配置。
关联讨论 2 条X:xAI (@xai)X:阿易 AI Notes (@AYi_AInotes)AI推理是当今规模最大、增长最快的技术市场,预计七年内将达到2500亿美元。直接销售或转售推理服务的公司增长迅猛,如Anthropic和谷歌云。在AI时代前的软件公司中,Datadog和Twilio作为“推理的一阶导数”脱颖而出:Datadog的LLM可观测产品数据量近一季增长近两倍,其约20%的AI客户贡献了约80%的年度经常性收入;Twilio则通过AI重构的语音服务吸引客户。当前周期呈现高度集中特点,少数客户能驱动巨大收益。对于非AI原生公司,核心战略在于如何转售推理服务或从其客户的大量采购中获益。
2026年报告显示,法律团队生成式AI使用率已从44%跃升至87%。为应对日益复杂的工作,法律行业正将Claude应用于合同审阅、并购尽调及诉讼准备等核心流程,并通过多款产品组合提升效率:Chat用于即时研究,Claude Cowork处理跨文件协作,Microsoft 365插件集成办公套件,Platform支持定制应用开发。Anthropic同步发布法律行业部署指南,涵盖产品矩阵、12个预设业务领域插件及三阶段实施路线图,并解答数据托管与权限保护等关键问题。
GitHub正在试点一项实验性的通用无障碍智能体。该项目旨在探索如何利用AI技术提升软件的可访问性,通过智能体自动识别并修复代码中的无障碍问题。试点过程中,团队总结了关键经验,包括需要平衡自动化建议与开发者控制权,以及如何有效处理不同编程语境下的多样化无障碍需求。这项实验是GitHub Copilot在AI辅助编程领域的进一步探索,致力于让开发工具更具包容性。
文章以AlphaGo为例,阐述了智能的基本构成要素。AlphaGo至今仍是最清晰、最完整的范例,它融合了三大核心基础:搜索技术、从经验中学习以及自我对弈。这三大要素共同构成了其实现超越人类棋艺的关键路径。
OpenAI 为美国地区的 ChatGPT Pro 用户推出个人理财功能预览版。用户可安全连接个人金融账户,获取基于自身财务状况、目标和优先级生成的 AI 洞察与指导。该体验通过账户关联实现个性化分析,标志着 ChatGPT 正式向个人金融助手领域拓展。
关联讨论 2 条X:ChatGPT (@ChatGPTapp)X:Greg Brockman (@gdb)美国各州和联邦层面已提出约1200项人工智能相关法案,但至今未能形成统一的国家政策框架。这种分散且矛盾的立法状态,可能导致监管冲突、创新受阻,并削弱美国在全球人工智能治理中的竞争力。当前亟需建立跨层级的协调机制,将零散的提案整合为连贯的战略,以平衡技术发展与风险管控。
帕西尼(百亿估值独角兽)与百度智能云达成合作,双方将整合各自在机器人技术与云计算/AI能力上的优势,共同推动具身智能产业从技术研发到规模化落地的进程。
Kimi WebBridge 是一款面向本地 AI Agent 的浏览器插件,使智能体能够直接操控浏览器,执行网页导航、数据提取等任务。
研究团队在NeurIPS 2025上提出ARGenSeg,将图像分割转化为自回归生成过程,逐像素预测分割掩码。该方法利用大规模预训练自回归图像生成模型(如GPT风格视觉模型)的表征与序列建模能力,无需专门架构设计或大量标注数据。实验证明,其在多个标准数据集上性能具有竞争力,展现了生成式基础模型处理判别式视觉任务的潜力。
Sea Limited 首席产品官阐述了公司为何在工程团队中全面部署 Codex,以加速亚洲地区的 AI 原生软件开发。公司正推动开发模式向“智能体化”转变,让 AI 智能体承担从需求分析到代码生成、测试的更多开发任务。这一举措旨在显著提升工程效率,缩短产品迭代周期,并应对亚洲市场对敏捷、智能化软件开发日益增长的需求。
蚂蚁集团推出 ARGenSeg-8B,一种将多模态理解与像素级感知统一的自回归图像生成分割框架。它利用多模态大语言模型(MLLM)输出视觉 token,并通过通用 VQ-VAE 解码为分割掩码,使分割完全依赖 MLLM 的像素级理解。采用 next-scale-prediction 策略并行生成视觉 token,降低推理延迟。在多个分割数据集上超越此前最优方法,推理速度显著提升。论文已被 NeurIPS 2025 接收,模型已发布在 HuggingFace。
可灵AI将参与第79届戛纳电影节电影市场官方论坛,展示三部合作作品:李炜导演的动画电影《疍家风云》、Jon Erwin导演的电视剧集《House of David》、Eekjun Yang导演的院线电影《RAPHAEL》。论坛主题为“从创意构想到影视工业级落地:可灵AI赋能电影创作流程”,于5月18日15:30-17:30(戛纳当地时间)在戛纳影节宫主舞台举行。
普华永道与Anthropic宣布扩大战略联盟,将在全球数十万员工中部署Claude AI工具。双方将联合建立卓越中心,并培训认证3万名专业人员。合作聚焦三大高杠杆领域:智能体技术构建、AI原生交易执行以及企业职能重塑。普华永道已率先成立基于Claude的财务业务组。实际应用显示,Claude在保险承保、网络安全等多个领域能将交付时间缩短最高达70%,例如将保险承保周期从十周压缩至十天。
Ring-2.6-1T 正式开源,这是为真实复杂任务打造的万亿级思考模型,Agent 执行能力全面增强,采用双档推理配置,兼顾效率、成本与能力上限。
生成式AI公司Runway宣布在日本东京设立总部,正式进军日本市场,并计划投入4000万美元初始资金拓展业务。日本已成为Runway增长最快的市场之一,是其全球企业及自助客户的第三大市场。过去一年,日本企业客户数量增长300%,贡献了Runway亚洲总销售额的三分之一。软银、雅马哈等企业已在营销与创意流程中使用其服务。公司此次扩张旨在贴近日本领先的创意、机器人及制造行业客户,并已开始招募日本市场负责人以组建本地团队。
关联讨论 1 条X:Runway (@runwayml)