AIHOT

Artificial Analysis@ArtificialAnlys

我们很高兴与Harvey合作，即将在Artificial Analysis推出法律智能体基准测试的完整排行榜！

Gabe Pereyra: http://x.com/i/article/2059284537503285248

智能体评测/基准

Rohan Paul@rohanpaul_ai

Datacurve发布了新编程基准DeepSWE，旨在揭示模型在长期软件工程任务上的真实能力差距。在该基准上，GPT-5.5得分为70%，而GPT-5.4为56%，Claude Opus 4.7为54%，突显了模型间的显著差异。与旧有基准不同，DeepSWE使用原创任务，要求智能体在代码库中自主搜索、理解设计并修改多个文件。其解决方案所需代码量是SWE-bench Pro的5.5倍，输出token约2倍，反映了开发者日常工作中的实际挑战。

Serena Ge (Datacurve): Today we're releasing DeepSWE, a new standard for agentic coding benchmarks. On public leaderboards, top models often lo...

编码评测/基准

Hacker News 热门（buzzing.cc 中文翻译）

YouTube将自动标注AI生成的视频

Google产品更新视频

Greg Brockman@gdb

自带MCP服务器：你的团队可以将MCP服务器保留在内部网络中，同时ChatGPT、Codex和Responses API通过仅出站的HTTPS进行连接。 🔗 https：//developers.openai.com/api/docs/guides/secure-mcp-tunnels

OpenAI Developers: Private MCP servers 🤝 OpenAI products Your team can keep MCP servers inside your network while ChatGPT, Codex, and the ...

MCP/工具OpenAI产品更新

Greg Brockman@gdb

Codex子智能体并行操控浏览器：一个提示词同时生成七个浏览器会话并行运行。航班、汽车、Airbnb、徒步、表单、结账页面。虽然仍显粗糙，但未来感十足。

George Pickett: The wild part of Codex sub-agents isn't that one AI can use Chrome. It's watching a single prompt turn into seven browse...

智能体MCP/工具OpenAI产品更新

Chubby♨️@kimmonismus

旧模型正在被淘汰，为新模型腾出空间。我已经能闻到 GPT-5.6 的气息了。

Tibo: To simplify our Codex compute fleet management, we will be sunsetting GPT-5.2 and GPT-5.3-Codex in Codex on June 2nd whe...

OpenAI产品更新编码

Krea@krea_ai

Krea 2 发布派对 - 明天在旧金山举行。 rsvp 👇

产品更新图像生成

宝玉@dotey

开发者RepoPrompt已被OpenAI招募。其同名工具RepoPrompt现转为免费，并即将开源。原付费用户将获得OpenAI Codex的Credits。该工具能将整个代码仓库拼接成单个XML文本，便于发送给Gemini 2、Claude 3.5、o1 pro等支持长上下文的模型进行处理，也支持选择部分文件。目前仅支持Mac平台。

宝玉: Repo Prompt 这个工具挺实用的,它可以把你整个Repo的代码拼成一个XML文本,方便你发给像Gemini 2、Claude 3.5、o1 pro这样支持长上下文的模型。当然你也可以只选择部分文件,目前只支持 Mac https:...

OpenAI产品更新开源/仓库编码

小互@xiaohu

OpenAI 推出 Secure MCP Tunnel 功能

OpenAI 为 ChatGPT 和 Codex 推出 Secure MCP Tunnel 功能，允许它们安全调用部署在企业内网的 MCP 服务器，核心目标是防止数据泄露。其原理是：企业在内网部署 tunnel-client 程序，该程序主动向 OpenAI 建立一条加密的 HTTPS 出站通道。当模型需要调用内部 MCP 服务时，请求通过此隧道安全转发至内网客户端，再由客户端分发给本地服务器，结果沿原路返回。此举补全了 MCP 协议在安全访问私有工具方面的缺口，是 OpenAI 完善企业级应用的关键一步，技术思路类似反向隧道，但作为原生功能与组织权限体系打通。

MCP/工具OpenAI产品更新

Midjourney：Updates（RSS）

精选59

Web 更新

对话模式在文本和语音输入方面进行了改进。语音会话开始时，可访问用户的图像提示、风格参考、侧边栏设置和最近任务。图像提示功能现可从托盘和侧边栏直接使用。在语音提交过程中，托盘中的图像将保持不变，直至用户手动移除。

产品更新语音

推荐理由：Midjourney给语音模式补了一课——现在它能记住你正在用的图片参考和风格设置，语音创作不用反复翻找，用完即走的轻量用户可能无感。

OpenAI Developers@OpenAIDevs

精选70

您的团队可以在内部网络中保留MCP服务器，同时ChatGPT、Codex和Responses API通过仅出站HTTPS进行连接。

MCP/工具OpenAI产品更新安全/对齐

推荐理由：OpenAI 终于给企业级 MCP 接上私有网络了，以前要连 ChatGPT 就得把 MCP 暴露公网，现在通过 outbound 隧道就能安全接入，做内部工具开发的可以开始动起来了。

ClaudeDevs@ClaudeDevs

我们一直在努力让 Claude Code 更具响应性且更可靠。以下是我们在所有方面所做工作的更新：

Anthropic产品更新编码

关联讨论 1 条

OpenCode@opencode

OpenCode x MiMo V2.5 - 限时免费 1M 上下文 • 推理 • 文本 • 图像

产品更新多模态推理编码

关联讨论 1 条

The Decoder：AI News（RSS）

Robinhood允许AI智能体为客户交易股票和进行信用卡消费

Robinhood现允许客户通过MCP协议将Anthropic的Claude等AI智能体连接到独立的投资账户。这些智能体能够自主交易股票。美国金融业监管局（FINRA）已将此类智能体列为新的风险领域，并警告其可能做出不受约束的决策。Robinhood自身也承认该产品并非适合所有客户。

智能体MCP/工具产品更新行业动态

Hao AI Lab@haoailab

精选70

🚀仅需7秒即可生成30秒1080p视频！我们开源了FastVideo Dreamverse：基于单张NVIDIA B200 GPU和LTX-2模型，实现实时视频生成的氛围引导工具。 Repo： https：//github.com/hao-ai-lab/FastVideo/tree/main/apps/dreamverse Blog： https：//haoailab.com/blogs/fastvideo-dreamverse-release/

GitHub开源/仓库视频部署/工程

推荐理由：7秒钟出30秒1080p视频，而且完全开源，视频生成速度被拉到实时边缘，虽然B200不是人人有，但路线值得所有做视频产品的同行研究。

Google Developers Blog（RSS）

精选66

Google Pay 最新更新

Google Pay 正向"智能体商务"演进，推出了通用商务协议和新的 MCP 服务器，允许 AI 智能体管理集成与分析趋势。Android 平台更新引入了动态回调以支持快速结账，并通过 WebView 将支付功能扩展至社交媒体应用。此外，平台还推出了跨设备生物认证和新的交易信号，旨在帮助商家减少流程摩擦。

智能体GoogleMCP/工具产品更新

推荐理由：Google Pay 往 agentic commerce 迈了一大步，新的通用协议和 MCP server 让 AI agent 能直接管支付和分析，做 agent 或支付的开发者都得看看。

MarkTechPost（RSS）

NVIDIA 发布 Polar：一个在 Codex、Claude Code 和 Qwen Code 中实现 GRPO 训练的 Token 级 Rollout 框架

NVIDIA 研究人员推出了 Polar，一个无需修改智能体框架即可利用强化学习训练语言智能体的 rollout 框架。Polar 通过在智能体框架与推理服务器之间放置模型 API 代理来捕获 token 级交互并重建可用于训练的轨迹。基于 Qwen3.5-4B 基础模型，使用 GRPO 进行训练后，Polar 将 SWE-Bench Verified pass@1 在 Codex 框架下提升了 22.6 点，在 Claude Code 下提升了 4.8 点，在 Pi 下提升了 6.2 点。该框架已注册为 NeMo Gym 环境并在 ProRL Agent Server 仓库中发布。

智能体产品更新开源生态

Rohan Paul@rohanpaul_ai

OpenAI与Thrive打造自我改进税务AI智能体，准确率97%

OpenAI与Thrive合作开发了一款自我改进的税务AI智能体，已在30多家会计事务所处理约7,000份报税表。该智能体将准备时间缩短约三分之一，吞吐量提升约50%，并达到高达97%的准确率。技术难点在于处理混乱的K-1s、租赁计划等非结构化文件，以及跨文档的数值匹配。系统为每个操作记录完整追踪链，并利用会计师的重复修正作为评估目标，驱动Codex生成可测试的代码修复任务，形成自我改进闭环。

智能体OpenAI产品更新

The Decoder：AI News（RSS）

YouTube将尝试从本月开始自动标记AI视频

YouTube将上线一套新的AI内容标签系统，旨在使标签位置更显眼：长视频的标签将显示在播放器下方，Shorts的标签将作为叠加层显示。从2026年5月开始，该平台将启动自动检测系统，即使创作者未主动披露，也会对AI生成内容进行标记。该系统对视频的推荐和变现没有影响。

Google产品更新视频

xAI@xai

精选69

在 @kilocode 中使用您的 SuperGrok 或 X Premium+ 订阅。尝试 grok-build-0.1，享受高速和智能体编程智能，可在 Kilo IDE 扩展或 CLI 中使用。 https：//x.ai/news/grok-kilocode

智能体xAI产品更新编码

关联讨论 5 条

推荐理由：xAI 把 grok 的编码模型塞进 Kilo Code，如果你本来就用这两个工具，这次集成能省不少事，但算不上行业震动。

Chubby♨️@kimmonismus

看起来 Codex for Windows 即将推出。

OpenAI产品更新编码

Rohan Paul@rohanpaul_ai

Trajectory推出持续学习平台，获1500万美元融资

AI公司Trajectory推出了一个持续学习平台，旨在解决AI模型部署后无法从实际使用中改进的核心问题。该平台的核心是“轨迹”概念，它将智能体（Agent）的行为与用户后续的接受、拒绝、编辑、重试或修复反馈结合，形成完整的交互链条。公司可借此对大规模智能体模型进行持续的后训练，以同步提升模型权重、配置和提示词。该平台已与Harvey、Decagon等多家AI公司合作，部分已投入生产。其团队由来自DeepMind、OpenAI、Meta Superintelligence等机构的研究人员组成。项目获得了1500万美元融资，投资方包括Conviction、Bessemer等。

Ronak Malde: Today, @MichaelElabd, @QuantumArjun, and I are excited to announce Trajectory. We are a research lab and product company...

智能体产品更新

Perplexity@perplexity_ai

精选68

我们开源了重新构建的Unigram分词器，可将CPU占用降低5-6倍。小型重排序器和嵌入模型在GPU上运行时间仅为个位数毫秒，使得CPU分词成为总延迟的重要组成部分。 http：//github.com/perplexityai/pplx-garden

开源/仓库部署/工程

推荐理由：Perplexity 开源的这个 tokenizer 能把 CPU 利用率砍掉五六倍，做实时推理的团队值得立马试试，对延迟敏感的场景是实打实的优化。

Claude@claudeai

Claude Marketplace 新增成员：@augmentcode、@boltdotnew、@coderabbitai、@hebbia 和 @WeAreLegora。您现有的 Anthropic 消费承诺可用于购买其 Claude 驱动的产品。了解更多：http：//claude.com/platform/marketplace

Claude: Introducing the Claude Marketplace, a way for enterprises to simplify their procurement of AI tools. Now in limited prev...

Anthropic产品更新部署/工程

Google Gemini@GeminiApp

添加文本、视频或最多五张图片作为素材，Gemini Omni可以将它们全部组合成一个连贯的十秒视频。今天就来试试，并在回复中分享你的创作。👇

Google产品更新多模态视频

关联讨论 11 条

Berryxia.AI@berryxia

Warp支持合盖自动切换Agent至云端运行

Warp最新版解决AI智能体跨夜运行痛点：用户合上笔记本电脑后，当前智能体会自动无缝切换到云端继续执行任务，上下文完整保留。设置路径为Agents -> Warp Agent -> Cloud Handoff。此前用户需保持电脑开机以维持智能体运行，此次更新将“离线连续执行”设为默认能力，使智能体工作流更接近实用工具，支持离线后云端持续推进项目状态。

Warp: You can now close your laptop to automatically send agent conversations to the cloud. Live in the latest version (yes, r...

智能体产品更新部署/工程

The Verge：AI（RSS）

Robinhood将允许AI智能体进行股票交易，可能赚取或亏损大量资金

Robinhood宣布向AI智能体开放其交易平台。交易者可以为AI智能体创建独立账户并注入特定资金，使其能够在市场上买卖股票。该功能旨在自动化投资决策，例如监控特定行业或再平衡投资组合。但Robinhood同时发出重大警告：智能体交易涉及重大风险，包括可能损失全部投资，AI驱动的策略在市场条件下可能表现不佳。

智能体产品更新

Alibaba Cloud@alibaba_cloud

精选76

今日在#QwenConference206上发布：阿里云全面开放的AI生态系统。除通义千问外，全球领先的模型现已可直接在Model Studio和http：//qwencloud.com上访问。

产品更新开源生态

关联讨论 2 条

推荐理由：阿里云这个开放生态的战略意义被低估了，直接让国内开发者能在一个平台用上全球顶级模型，模型选型的壁垒在肉眼可见地降低。

meng shao@shao__meng

AI Agent 协作编排层：Alook

Alook 是一个开源协作平台，用于管理 AI 编码智能体。它将 Claude Code、Codex、OpenCode 等本地 CLI 智能体组织成一个拥有角色、邮箱和任务板的“AI 团队”。其核心理念是将组织轴从“项目”转向“人/角色”，让用户（作为CEO）通过邮件系统异步协调多位智能体（员工），实现跨任务的共享记忆与上下文持久化。平台采用本地优先执行与云端协作的架构，并包含三层记忆系统以积累经验。它作为始终在线的守护进程运行，支持团队自主处理任务。

Sumanth: Run your personal AI company with a team of AI agents! Alook is an open-source collaboration platform for AI coding agen...

智能体GitHub产品更新开源生态