Today we're announcing our @sesame iOS app preview, giving you a first look at our collection of personal agents, a new ...
Today we're announcing our @sesame iOS app preview, giving you a first look at our collection of personal agents, a new ...
http://x.com/i/article/2059284537503285248
Datacurve发布了新编程基准DeepSWE,旨在揭示模型在长期软件工程任务上的真实能力差距。在该基准上,GPT-5.5得分为70%,而GPT-5.4为56%,Claude Opus 4.7为54%,突显了模型间的显著差异。与旧有基准不同,DeepSWE使用原创任务,要求智能体在代码库中自主搜索、理解设计并修改多个文件。其解决方案所需代码量是SWE-bench Pro的5.5倍,输出token约2倍,反映了开发者日常工作中的实际挑战。
Today we're releasing DeepSWE, a new standard for agentic coding benchmarks. On public leaderboards, top models often lo...
Private MCP servers 🤝 OpenAI products Your team can keep MCP servers inside your network while ChatGPT, Codex, and the ...
The wild part of Codex sub-agents isn't that one AI can use Chrome. It's watching a single prompt turn into seven browse...
To simplify our Codex compute fleet management, we will be sunsetting GPT-5.2 and GPT-5.3-Codex in Codex on June 2nd whe...
Repo Prompt 这个工具挺实用的,它可以把你整个Repo的代码拼成一个XML文本,方便你发给像Gemini 2、Claude 3.5、o1 pro这样支持长上下文的模型。 当然你也可以只选择部分文件,目前只支持 Mac https:...
OpenAI 为 ChatGPT 和 Codex 推出 Secure MCP Tunnel 功能,允许它们安全调用部署在企业内网的 MCP 服务器,核心目标是防止数据泄露。其原理是:企业在内网部署 tunnel-client 程序,该程序主动向 OpenAI 建立一条加密的 HTTPS 出站通道。当模型需要调用内部 MCP 服务时,请求通过此隧道安全转发至内网客户端,再由客户端分发给本地服务器,结果沿原路返回。此举补全了 MCP 协议在安全访问私有工具方面的缺口,是 OpenAI 完善企业级应用的关键一步,技术思路类似反向隧道,但作为原生功能与组织权限体系打通。
对话模式在文本和语音输入方面进行了改进。语音会话开始时,可访问用户的图像提示、风格参考、侧边栏设置和最近任务。图像提示功能现可从托盘和侧边栏直接使用。在语音提交过程中,托盘中的图像将保持不变,直至用户手动移除。
Robinhood现允许客户通过MCP协议将Anthropic的Claude等AI智能体连接到独立的投资账户。这些智能体能够自主交易股票。美国金融业监管局(FINRA)已将此类智能体列为新的风险领域,并警告其可能做出不受约束的决策。Robinhood自身也承认该产品并非适合所有客户。
Google Pay 正向"智能体商务"演进,推出了通用商务协议和新的 MCP 服务器,允许 AI 智能体管理集成与分析趋势。Android 平台更新引入了动态回调以支持快速结账,并通过 WebView 将支付功能扩展至社交媒体应用。此外,平台还推出了跨设备生物认证和新的交易信号,旨在帮助商家减少流程摩擦。
NVIDIA 研究人员推出了 Polar,一个无需修改智能体框架即可利用强化学习训练语言智能体的 rollout 框架。Polar 通过在智能体框架与推理服务器之间放置模型 API 代理来捕获 token 级交互并重建可用于训练的轨迹。基于 Qwen3.5-4B 基础模型,使用 GRPO 进行训练后,Polar 将 SWE-Bench Verified pass@1 在 Codex 框架下提升了 22.6 点,在 Claude Code 下提升了 4.8 点,在 Pi 下提升了 6.2 点。该框架已注册为 NeMo Gym 环境并在 ProRL Agent Server 仓库中发布。
OpenAI与Thrive合作开发了一款自我改进的税务AI智能体,已在30多家会计事务所处理约7,000份报税表。该智能体将准备时间缩短约三分之一,吞吐量提升约50%,并达到高达97%的准确率。技术难点在于处理混乱的K-1s、租赁计划等非结构化文件,以及跨文档的数值匹配。系统为每个操作记录完整追踪链,并利用会计师的重复修正作为评估目标,驱动Codex生成可测试的代码修复任务,形成自我改进闭环。
YouTube将上线一套新的AI内容标签系统,旨在使标签位置更显眼:长视频的标签将显示在播放器下方,Shorts的标签将作为叠加层显示。从2026年5月开始,该平台将启动自动检测系统,即使创作者未主动披露,也会对AI生成内容进行标记。该系统对视频的推荐和变现没有影响。
AI公司Trajectory推出了一个持续学习平台,旨在解决AI模型部署后无法从实际使用中改进的核心问题。该平台的核心是“轨迹”概念,它将智能体(Agent)的行为与用户后续的接受、拒绝、编辑、重试或修复反馈结合,形成完整的交互链条。公司可借此对大规模智能体模型进行持续的后训练,以同步提升模型权重、配置和提示词。该平台已与Harvey、Decagon等多家AI公司合作,部分已投入生产。其团队由来自DeepMind、OpenAI、Meta Superintelligence等机构的研究人员组成。项目获得了1500万美元融资,投资方包括Conviction、Bessemer等。
Today, @MichaelElabd, @QuantumArjun, and I are excited to announce Trajectory. We are a research lab and product company...
Introducing the Claude Marketplace, a way for enterprises to simplify their procurement of AI tools. Now in limited prev...
Warp最新版解决AI智能体跨夜运行痛点:用户合上笔记本电脑后,当前智能体会自动无缝切换到云端继续执行任务,上下文完整保留。设置路径为Agents -> Warp Agent -> Cloud Handoff。此前用户需保持电脑开机以维持智能体运行,此次更新将“离线连续执行”设为默认能力,使智能体工作流更接近实用工具,支持离线后云端持续推进项目状态。
You can now close your laptop to automatically send agent conversations to the cloud. Live in the latest version (yes, r...
Robinhood宣布向AI智能体开放其交易平台。交易者可以为AI智能体创建独立账户并注入特定资金,使其能够在市场上买卖股票。该功能旨在自动化投资决策,例如监控特定行业或再平衡投资组合。但Robinhood同时发出重大警告:智能体交易涉及重大风险,包括可能损失全部投资,AI驱动的策略在市场条件下可能表现不佳。
Alook 是一个开源协作平台,用于管理 AI 编码智能体。它将 Claude Code、Codex、OpenCode 等本地 CLI 智能体组织成一个拥有角色、邮箱和任务板的“AI 团队”。其核心理念是将组织轴从“项目”转向“人/角色”,让用户(作为CEO)通过邮件系统异步协调多位智能体(员工),实现跨任务的共享记忆与上下文持久化。平台采用本地优先执行与云端协作的架构,并包含三层记忆系统以积累经验。它作为始终在线的守护进程运行,支持团队自主处理任务。
Run your personal AI company with a team of AI agents! Alook is an open-source collaboration platform for AI coding agen...