Anthropic发布了Claude计算机操作官方指南,核心解决了截图发送至API时因静默压缩导致的点击坐标偏移问题。关键在于客户端预先将截图缩放至1280x720等标准分辨率,并将指令置于截图前发送以提高精度。模型方面,Sonnet 4.6机械点击精度更高,Opus 4.7则支持更高分辨率。安全上必须在隔离环境中运行并设置高风险操作人工确认。Browser Use适合结构化Web任务,Computer Use则适用于桌面应用等非结构化场景。
使用 Claude 进行计算机和浏览器操作的最佳实践
Anthropic 针对 Claude 4.6 系列和 Opus 4.7 发布了 Computer Use 的官方最佳实践指南。如果你正在构建任何需要控制浏览器或桌面的 AI Agent,这篇是目前最权威的第一手资料。
核心问题是一个几乎所有人都踩过却不知道原因的坑。把截图发给 Computer Use API 的时候,API 有内部尺寸上限:Claude 4.6 系列是最长边不超过 1568 像素、总像素不超过 1.15 兆;Opus 4.7 是最长边不超过 2576 像素、总像素不超过 3.75 兆。超过上限之后,API 会在把图片交给模型之前静默压缩,但返回的坐标仍然是按原始分辨率计算的,结果就是点击位置系统性偏移。这个失败是静默的,没有任何报错提示,单纯表现为点击总是差那么一点。
解法直接:在发送截图之前,先在客户端把截图缩放到 1280x720(使用 Opus 4.7 可以从 1080p 起步)。这个分辨率既在两个限制之内,也是模型在训练中大量见过的标准分辨率,实测对现代 Web 界面和传统桌面应用都能良好支持。还有一个容易忽略的细节:macOS 上的截图默认是 2x 分辨率(Retina 屏幕),看起来正常但实际像素数是双倍,同样会触发压缩陷阱。
API 调用格式也有讲究:把文字指令放在截图之前(而不是之后)发送,模型先接收指令再处理图片,点击精度会有明显提升。
在模型选择上,Claude Sonnet 4.6 的机械点击精度更高,在需要大量降分辨率的场景下表现更稳;Opus 4.7 支持更高分辨率预算,点击精度差距大幅收窄,适合需要更多视觉信息量的复杂任务。多 Agent 组合方案可以让推理模型负责规划、让 Sonnet 或 Haiku 负责具体点击操作。
安全架构这部分原则非常清晰:任何 Computer Use 集成都必须运行在专用虚拟机或容器里,绝不能把有价值的主机数据暴露给 Agent 可以访问的范围。高风险操作(表单提交、文件删除、付款确认)应该设置人工确认门控,在 Agent 循环中暂停等待用户确认后再继续。
场景选型上,Browser Use(通过 Playwright 等 API 控制浏览器)适合结构化的 Web 任务,精度高、可靠性强;Computer Use(截图加点击控制整个屏幕)则适合没有结构化 API 可用的桌面应用、遗留系统或跨应用工作流。两种方式并不互斥,复杂任务可以组合使用。