Lemonade的CISO Jonathan Jaffe探讨了AI智能体时代的安全新挑战。他指出,AI对攻击者和防御者同样强大,但可被利用的漏洞窗口正在缩小,因为AI能更快地生成、审查和修补代码。为此,安全团队正向工程团队转型,例如Lemonade的安全部门均由工程师组成,并构建了包含智能体的内部AI平台。同时,每个智能体(单个终端上可能运行200到10000个)都需要被赋予身份,并在操作点由策略进行更复杂的管控,这超越了当前身份与访问管理系统的能力。
Lemonade的CISO Jonathan Jaffe探讨了AI智能体时代的安全新挑战。他指出,AI对攻击者和防御者同样强大,但可被利用的漏洞窗口正在缩小,因为AI能更快地生成、审查和修补代码。为此,安全团队正向工程团队转型,例如Lemonade的安全部门均由工程师组成,并构建了包含智能体的内部AI平台。同时,每个智能体(单个终端上可能运行200到10000个)都需要被赋予身份,并在操作点由策略进行更复杂的管控,这超越了当前身份与访问管理系统的能力。
OpenAI 发布了“前沿治理框架”,阐述其 AI 安全、安全与风险管理实践如何与欧盟和加州新出台的法规要求对齐。该框架旨在规范其前沿模型的开发与部署流程。
关联讨论 1 条OpenAI:官网动态(RSS · 排除企业/客户案例)Google I/O 2026 发布会上披露了 12 个重要时刻,其中包括 Gemini Omni 和 Gemini 3.5 Flash 等产品的相关消息。
关联讨论 5 条Google Blog:AI(RSS)Google Research:Blog(网页)Google Developers Blog(RSS)X:Google AI for Developers (@googleaidevs)Ars Technica:AI(RSS)LMSYS团队(Intel与SGLang)通过Dynamo和SGLang框架,为视觉语言模型(VLM)启用了异构编码-预填充-解耦(EPD)架构。该方案将视觉编码任务从GPU卸载至CPU(如Intel Xeon 6747P),与GPU协同工作。在Qwen3-VL-8B-Instruct模型的测试中,采用4 CPU + 1 GPU作为编码器、4 GPU作为预填充解码器(能力比R=12)的配置,在ISL/OSL 128/256、1080p 8张图像的负载下,实现了P99 TTFT和请求吞吐量约1.2倍至1.3倍的提升,并将P99 TPOT降低了约1.3倍至30倍。
Google在Kaggle举办的Tunix黑客马拉松,挑战开发者利用TPU和有限算力,将小型基础模型转变为通用推理引擎。获胜团队通过多阶段后训练流程实现了这一目标,该流程结合了监督微调(SFT)与GRPO、SimPO等先进对齐技术。比赛结果表明,社区能够借助开源资源成功训练出高能力的结构化推理模型。
腾讯混元推出 Hy-Memory,一款为 Openclaw 长期协作型 Agent 设计的记忆插件。它采用 6 层记忆框架、System1/System2 双系统及演化链技术,解决 Agent 长期使用中的记忆漂移与碎片化问题。在 LongMemEval 上得分 85.2,在偏好、时序推理、知识更新维度领先;PersonaMem 评测超越所有竞品。相比其他方案,记忆数量降低 70%+,单条信息密度高 45%+,token 消耗降低 35%,写入速度为 Graphiti 的 8 倍,支持本地嵌入式存储,安装仅需一行命令,提供 Lite/Pro/Ultra 三档。
OpenRouter 完成 1.13 亿美元 B 轮融资,由 CapitalG 领投,多家机构跟投,现有投资者 Andreessen Horowitz 和 Menlo Ventures 继续参与。
OpenRouter 宣布获得 1.13 亿美元 B 轮融资,由 CapitalG 领投,NVentures、ServiceNow Ventures 等多家机构参投,现有投资者 Andreessen Horowitz 和 Menlo Ventures 继续跟投。
Anthropic 在米兰开设其欧洲第六家办公室,旨在与意大利企业及开发者社区合作,负责任地构建和扩展 Claude,并参与关于 AI 的对话。本地团队已与多家金融、生命科学、能源及汽车行业的公司展开合作。案例包括与 JAKALA 合作将 Claude 部署至超 3,000 席位,释放约 70% 高级团队时间;Satispay 借此将 18 个月路线图压缩至 7 个月;Bending Spoons 的大部分代码变更已与 Claude Code 共同完成。Anthropic 承诺支持意大利企业、研究及文化,通过安全的 AI 转型促进发展。
Cloudflare构建了名为Town Lake的统一分析平台,并基于此开发了内部AI智能体Skipper。
Mistral AI 发布了 Search Toolkit 的公共预览版。这是一个用于构建 AI 应用生产级搜索管道的可组合框架。该框架旨在解决团队在搭建搜索基础设施时,因数据摄取、检索和评估工具分散而耗费过多工程时间的问题。Search Toolkit 将这三者整合到单一框架与共享接口中,使团队能更专注于提升搜索质量。该工具开源,可部署在云端、本地或边缘环境,并支持企业搜索、RAG 等多种检索场景。
京东自研JoyAI语音大模型LiveTTS具备多语种、情绪解耦、语速解耦、捏声音色及一句话音色克隆(3—10秒语音)五大能力,已接入JoyClaw技能商店。覆盖10余种语言和8种方言,支持同一音色多方言与情绪表达。应用于JoyInside智能终端、JoyAI App万能博士、数字人JoyStreamer(累计服务超7万商家)及AI播客。618期间支撑千万级并发实时交互,为智能客服、数字人直播等场景提供低延迟语音输出。
5月21日,2026世界无人机大会上,美团宣布“城市低空物流航网”正式常态化运营,并发布第四代无人机长程索降版M-Drone 4L Winch、智能接驳机场M-Port 3和无人机云枢M-DaaS 3。M-Drone 4L可在-20℃至50℃、大雨、中雪及6级大风下稳定飞行,覆盖国内97%以上城市场景;M-Port 3占地仅1.4平方米,可极简部署;M-DaaS 3能在100毫秒内对异常状况判断,配合三级安全保障体系,已安全完成超90万单配送。同时启动授权服务商招募,首批签约10家,覆盖浙江、湖南、广西等省份,场景从餐饮外卖拓展至医疗、工业等领域。
2026年,美团数十篇论文被ACL、SIGIR、ICML、KDD等顶会收录,精选32篇分为5大专场进行直播解读。内容涵盖大模型推理、智能体记忆与自进化、代码智能、多模态交互、超高清视频生成、本地生活搜索等方向,既有底层能力突破也有生活服务落地探索。活动自6月11日起陆续直播,可报名参与。
百度搭子DuMate是一款PC端办公AI智能体,能看见用户屏幕、操作软件、处理文件。零门槛安装,不需配置环境;本地优先处理,数据不出设备,复杂任务自动调度上云。支持Word/Excel/PPT输出,内置百度搜索、深度研究等Skills生态。用户下载后可通过邀请码分享好友,双方各得2000积分。
Mistral AI通过收购Emmi AI,强化其在推动AI研究前沿与工业工程解决方案方面的投入。其目标是为航空航天、汽车、半导体和能源等塑造物理世界的核心产业构建基础性物理AI模型,以加速工程开发。此项研究基于一系列已发表的突破性成果,包括:用于模拟超音速湍流的3D机翼CFD数据集、计算流体动力学基础模型的前瞻综述、应用于汽车与航空的AB-UPT模型,以及用于聚变等离子体湍流模拟的GyroSwin模型。此前已开源的UPT(通用物理Transformer)和NeuralDEM等成果也为此研究奠定了基础。
关联讨论 1 条Mistral AI:News(网页)Mistral AI通过整合Emmi AI团队,推出了专注于工业工程的物理AI基础模型。该模型旨在突破传统计算流体动力学(CFD)和有限元分析(FEM)模拟的瓶颈,后者设计周期长、成本高昂且探索的设计空间有限。物理AI能够从几何结构、边界条件或测量数据中直接学习,并在单个GPU上以秒级速度预测完整的物理场。Mistral将其构建为与现有模型及工具链并列的企业级解决方案新基石,以支持ASML、Airbus、Safran及Siemens Energy等合作伙伴在国防、能源转型、可持续航空等领域的硬件加速研发。
关联讨论 1 条Mistral AI:News(网页)Mistral AI 推出 Vibe,一款统一工作与编码的 AI 智能体。其工作模式可处理长期多步骤任务,连接 Google Workspace、Outlook、Slack 等应用,进行研究、分析与调度。代码模式支持从 Web 应用到终端的全流程编码。Vibe 运行为推理、智能体任务和编码优化的旗舰 Mistral 模型,并发布了新的 VS Code 扩展。
关联讨论 2 条Mistral AI:News(网页)X:Mistral AI (@MistralAI)Mistral AI 在 AI Now Summit 2026 上宣布多项进展。其工业 AI 解决方案“Mistral for Industrial Engineering”整合了物理模型与工程知识,正与空客、宝马集团和 ASML 合作,加速工程设计与优化。AI 智能体产品 Vibe 进行了升级,增强了推理和智能体任务能力。此外,公司计划在 2026 年第三季度启用位于 Les Ulis、功率达 10 MW 的新数据中心,专注推理操作以增强算力安全。
关联讨论 2 条Mistral AI:News(网页)X:Mistral AI (@MistralAI)通义实验室推出文生图评测基准Qwen-Image-Bench,由专业艺术家团队开发,将创作能力解构为5大核心支柱、17大场景及56项可量化维度。配套开源自动化评估模型Q-Judger,与资深人类艺术家评估相关性达Spearsman 0.92。评测使用1000条中英文分层Prompt,每条覆盖至少4项考点。结果显示,当前T2I模型在文字准确性、信息可视化、跨语言生成等子领域差距明显,世界知识与逻辑推理能力是跻身第一梯队的分水岭。完整数据集与Q-Judger已开源。
第四届AI on the Lot峰会于5月27日至29日在亚马逊影业基地举办。可灵AI在29日社区日展映20部4K作品,全部由欧洲创作者组织Prompt Club的20位成员创作,探索AI电影边界。同台亮相的还有赛博朋克AI电影《The Patchwright》北美首映、艾美奖编剧Bernie Su的实时互动影片、90分钟AI长片《Hell Grind》及可灵AI参与制作的《The Fracture》。展映于5月29日下午1点在The Culver Theater举行。
AI模型聚合平台OpenRouter宣布完成1.13亿美元B轮融资。本轮融资由CapitalG领投,NVentures、ServiceNow Ventures等多家机构参投,现有投资者Andreessen Horowitz与Menlo Ventures也参与了本轮融资。
关联讨论 2 条X:OpenRouter (@OpenRouter)X:硅基流动 SiliconFlow (@SiliconFlowAI)近日,生数科技入选量子位“2026年度值得关注的AIGC企业”榜单。作为全球率先实现数字世界与物理世界统一的通用世界模型公司,其深耕多模态大模型与世界模型技术。此次入选代表行业对其前沿技术、创新能力与产业落地的认可。生数科技将继续推动AI从“生成内容”迈向“理解世界、预测世界、作用于世界”。
清华大学 THUNLP 实验室、面壁智能、OpenBMB 与 AI9stars 联合研发并开源的智能体操作系统 PilotDeck,以 WorkSpace(工作舱)替代传统对话框,每个工作舱拥有独立文件系统、记忆和技能,实现项目隔离。三大核心能力:记忆白盒化,全链路可见可控,支持一键修改和回滚;智能路由,自动识别任务难度动态分配模型,开启后成本节省近 70%,复杂任务仅用 1/6 成本即可反超顶级模型方案;Always-on 常驻任务,AI 主动发现并持续推进工作。支持端云协同,可调用端侧模型作为子 Agent,自动部署 VoxCPM 等模型完成多语言播客等任务。
Claude Code 发布 v2.1.153 版本。主要新增 `skipLfs` 选项以跳过 Git LFS 下载;优化了 `claude agents` 的自动补全建议和 PR 列显示格式。本次更新修复了大量问题,包括:MCP 服务器的连接与重连、子代理的配置策略与严格模式行为、后台会话的管理与权限提示(如恢复、输入响应、临时文件处理),以及跨 macOS/Windows/VSCode 平台的稳定性。此外,还修复了 Windows 更新回滚、内存占用、会话恢复等多个具体问题。`/model` 命令现在会将选择设为新会话的默认模型。
关联讨论 2 条Claude Code:GitHub Releases(RSS)X:Claude Devs (@ClaudeDevs)一项针对1260名定量社会科学家的调查显示,虽然81%的受访者用过AI聊天机器人,但仅有20%将Claude Code、Codex等编码智能体常规应用于工作。采用率存在显著差异:以男性名字命名的研究者使用率是女性研究者的两倍;顶尖大学研究者可能性高出40%。用户产出更多工作论文和基金申请,但这可能反映早期采用者自身差异。研究者对AI助力撰写可发表论文更乐观,但对重塑整个社会科学领域持保留态度。这是一项初步调查,更深入研究仍在进行中。
思科正与OpenAI合作,利用Codex重新定义企业工程实践。此次合作旨在帮助思科扩展AI原生开发能力、加速其AI Defense安全工作,并实现缺陷修复流程的自动化。
本文分享了使用 Claude Opus 构建威胁模型、发现代码漏洞并进行验证、分类和修复的最佳实践。其核心流程是一个六步循环:威胁建模、沙箱隔离、漏洞发现、验证、分类和修复。作者指出,漏洞发现现在易于并行化,瓶颈已转移到后续的验证与处理阶段。以他们对开源软件的扫描为例,截至2026年5月22日已披露1,596个漏洞,其中97个已修补。指南建议结合代码库文档和专家访谈来构建准确的威胁模型,以降低误报,提升发现的可利用性。
Meta 推出SilverTorch推荐系统架构,统一了用户生成内容的所有检索组件。该架构吞吐量比现有技术高23.7倍,计算成本效率比CPU方案高20.9倍,同时提升了准确性。
Warp使用GPT-5.5和OpenAI模型,以协调编程智能体,旨在统一本地、云端及开源开发工作流。
软件时代正过渡至“智能体框架”时代。AI作为强大但需驯化的“野马”,其智能驯化包含七个核心组成部分:上下文与记忆、工具与行动、编排与循环、状态与持久性、沙箱与计算、可观测性与治理、成本与工作流优化。这些组件共同构成了一个生产级的智能体系统。这一转变将重塑软件竞争格局,模型通用化的未来中,最佳的智能体驾驭者将获胜。
对话模式在文本和语音输入方面进行了改进。语音会话开始时,可访问用户的图像提示、风格参考、侧边栏设置和最近任务。图像提示功能现可从托盘和侧边栏直接使用。在语音提交过程中,托盘中的图像将保持不变,直至用户手动移除。
Anthropic 发布了针对企业部署自主 AI 智能体的安全框架,指出前沿大语言模型正将漏洞利用周期从数月压缩至数小时。部署智能体面临双重风险:基础设施易受 AI 加速攻击,且智能体自身具备自主决策与执行能力。文章提出一个三层零信任架构(基础、高级、优化级)及八阶段实施流程,并概述了提示注入、工具投毒、记忆投毒等特有威胁。
在2026年全球选举临近之际,通过帮助公众获取选举信息、支持网络防御者以及提升人工智能透明度这三方面的努力,来为选举提供保障。
Google Pay 正向"智能体商务"演进,推出了通用商务协议和新的 MCP 服务器,允许 AI 智能体管理集成与分析趋势。Android 平台更新引入了动态回调以支持快速结账,并通过 WebView 将支付功能扩展至社交媒体应用。此外,平台还推出了跨设备生物认证和新的交易信号,旨在帮助商家减少流程摩擦。
Google Research 推出了一种新的隐私分析解决方案。该方案结合了一种新的密码学安全聚合协议与可信执行环境(TEE)的透明性,旨在实现前沿的隐私与安全保证。其核心是基于零信任原则,通过密码学与硬件保护的结合,确保系统仅能获取群体的匿名化聚合洞察。
由Artificial Analysis和IBM推出的ITBench-AA SRE基准测试显示,所有前沿大模型得分均未超过50%。Claude Opus 4.7(自适应推理,最大努力)以47%领先,GPT-5.5(xhigh)和Qwen3.7 Max分别得46%和42%。该测试包含59个需要通过Shell命令调查Kubernetes事件快照并提交根因诊断的智能体任务。关键发现是模型推理轮次差异近3倍,但更长的轨迹并不转化为更高准确率,过度调查的模型会因提交误报而受罚。在成本方面,开源模型Gemma 4 31B(Reasoning)以每任务$0.14的成本获得37%得分,优于成本更高但得分更低的闭源模型。
关联讨论 2 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:通义千问 / Qwen (@Alibaba_Qwen)AI代码审查平台CodeRabbit发现,AI生成的代码常能通过编译与测试,却不符合开发者真实意图,根源在于开发者隐含假设AI理解上下文。为此,团队基于Claude构建了一个智能体编排系统,置于编码请求与智能体之间。该系统在代码生成前协调多个Claude模型进行结构化规划,输出可审查的产品需求文档,使需求显式化。系统每周助力审查超过200万个PR。
Reachy Mini 机器人现可通过 `speech-to-speech` 库实现完全本地化的语音交互,无需依赖云端。该方案采用级联流水线架构,对外提供 Realtime API 兼容的 WebSocket 接口。默认组件包括 Silero VAD 用于语音活动检测、Parakeet-TDT 作为语音转文本模型、通义千问(Qwen3-TTS)作为文本转语音模型。大语言模型推荐使用 llama.cpp 运行 Gemma 4。所有数据均在本地处理,保障了隐私且无 API 费用。