使用Claude进行计算机和浏览器操作的最佳实践

ginobefun@hongming731

2026-05-14 08:22·32天前

AI 摘要

Anthropic发布了Claude计算机操作官方指南，核心解决了截图发送至API时因静默压缩导致的点击坐标偏移问题。关键在于客户端预先将截图缩放至1280x720等标准分辨率，并将指令置于截图前发送以提高精度。模型方面，Sonnet 4.6机械点击精度更高，Opus 4.7则支持更高分辨率。安全上必须在隔离环境中运行并设置高风险操作人工确认。Browser Use适合结构化Web任务，Computer Use则适用于桌面应用等非结构化场景。

使用 Claude 进行计算机和浏览器操作的最佳实践

Anthropic 针对 Claude 4.6 系列和 Opus 4.7 发布了 Computer Use 的官方最佳实践指南。如果你正在构建任何需要控制浏览器或桌面的 AI Agent，这篇是目前最权威的第一手资料。

核心问题是一个几乎所有人都踩过却不知道原因的坑。把截图发给 Computer Use API 的时候，API 有内部尺寸上限：Claude 4.6 系列是最长边不超过 1568 像素、总像素不超过 1.15 兆；Opus 4.7 是最长边不超过 2576 像素、总像素不超过 3.75 兆。超过上限之后，API 会在把图片交给模型之前静默压缩，但返回的坐标仍然是按原始分辨率计算的，结果就是点击位置系统性偏移。这个失败是静默的，没有任何报错提示，单纯表现为点击总是差那么一点。

解法直接：在发送截图之前，先在客户端把截图缩放到 1280x720（使用 Opus 4.7 可以从 1080p 起步）。这个分辨率既在两个限制之内，也是模型在训练中大量见过的标准分辨率，实测对现代 Web 界面和传统桌面应用都能良好支持。还有一个容易忽略的细节：macOS 上的截图默认是 2x 分辨率（Retina 屏幕），看起来正常但实际像素数是双倍，同样会触发压缩陷阱。

API 调用格式也有讲究：把文字指令放在截图之前（而不是之后）发送，模型先接收指令再处理图片，点击精度会有明显提升。

在模型选择上，Claude Sonnet 4.6 的机械点击精度更高，在需要大量降分辨率的场景下表现更稳；Opus 4.7 支持更高分辨率预算，点击精度差距大幅收窄，适合需要更多视觉信息量的复杂任务。多 Agent 组合方案可以让推理模型负责规划、让 Sonnet 或 Haiku 负责具体点击操作。

安全架构这部分原则非常清晰：任何 Computer Use 集成都必须运行在专用虚拟机或容器里，绝不能把有价值的主机数据暴露给 Agent 可以访问的范围。高风险操作（表单提交、文件删除、付款确认）应该设置人工确认门控，在 Agent 循环中暂停等待用户确认后再继续。

场景选型上，Browser Use（通过 Playwright 等 API 控制浏览器）适合结构化的 Web 任务，精度高、可靠性强；Computer Use（截图加点击控制整个屏幕）则适合没有结构化 API 可用的桌面应用、遗留系统或跨应用工作流。两种方式并不互斥，复杂任务可以组合使用。

智能体Anthropic多模态教程/实践