Agentic 时代 AI 选择指南

2026-02-18 09:45·117天前·Ethan Mollick

精选理由

AI 大咖 Ethan Mollick 撰写 Agent 时代实用选型指南

AI 摘要

Agentic 时代 AI 不再只是聊天机器人，而是能自主执行任务的智能体。面对 Claude、GPT、LLaMA 等模型，需根据代理能力、任务类型和生态集成重新评估选择策略。

AI 翻译 · 中文

自从ChatGPT问世以来，我已经写了八份这样的指南，但这一版与以往有很大不同，因为“使用AI”的含义已经发生了巨大变化。直到几个月前，对绝大多数人来说，“使用AI”意味着与一个聊天机器人进行来回对话。但在过去几个月里，将AI用作智能体已经变得切实可行：你可以把任务分配给它们，它们会利用合适的工具去完成。由于这一变化，你在决定使用哪种AI时必须考虑三件事：模型（Models）、应用（Apps）和外壳（Harnesses）。

完全相同的模型——Claude Opus 4.6——在三种不同的应用和外壳中被问到完全相同的问题：“比较ChatGPT、Claude和Gemini”。没有外壳时，信息已经过时；在Claude.ai网站上，我得到的是经过更新的信息和可验证的来源；使用Claude Cowork，我获得的是深度分析以及格式良好的直接对比。

模型是底层的AI大脑，三大主流是GPT-5.2/5.3、Claude Opus 4.6和Gemini 3 Pro（这些公司发布新模型的速度比过去快得多，因此版本号在未来几周内可能会变化）。模型决定了系统的智能程度、推理能力、写作或编码或分析电子表格的能力，以及处理图像或生成图像的能力。模型是评测基准所衡量的东西，也是AI公司竞相改进的对象。当有人说“Claude更擅长写作”或“ChatGPT更擅长数学”时，他们谈论的是模型。

应用是你实际用来与模型对话的产品，它们让模型能够为你完成实际工作。最常见的应用是每个模型对应的网站：chatgpt.com、claude.ai、gemini.google.com（或者手机上对应的应用程序）。此外，这些AI公司还推出了其他应用，包括像OpenAI Codex或Claude Code这样的编程工具，以及像Claude Cowork这样的桌面工具。

套件能让 AI 模型的强大能力完成实际工作，就像马具将马匹的原始力量转化为拉车或犁地的能力。套件是一个让 AI 能够使用工具、执行动作并自主完成多步骤任务的系统。应用程序都附带一个套件。网站上的 Claude 有一个套件，让 Claude 4.6 Opus 能够进行网络搜索和编写代码，同时还包含如何处理各种问题的指令，例如创建电子表格或进行平面设计工作。Claude Code 的套件则更为广泛：它赋予 Claude 4.6 Opus 一台虚拟计算机、一个网页浏览器、一个代码终端，以及将这些功能串联起来的能力，从而实际执行诸如从零开始研究、构建和测试新网站等任务。Manus（近日被 Meta 收购）本质上是一个独立的套件，可以封装多个模型。近期引发重大新闻的 OpenClaw，主要是一个允许你在本地电脑上使用任意 AI 模型的套件。

直到最近，你都不需要了解这些。模型就是产品，应用程序就是网站，套件几乎不存在。你输入，它回应，你再输入。如今，同一个模型在不同的套件中运行，其行为可能截然不同。在聊天窗口中与你对话的 Claude Opus 4.6，与在 Claude Code 内部自主编写和测试软件长达数小时的 Claude Opus 4.6，体验完全不同。回答问题的 GPT-5.2 与浏览网站并为你构建演示文稿的 GPT-5.2 Thinking，体验也完全不同。

这意味着“我应该使用哪个 AI？”这个问题变得更难回答了，因为答案现在取决于你想用它做什么。那么，让我来梳理一下当前格局。当前的模型

顶尖模型在整体能力上已经非常接近，并且总体上比以往“更聪明”，犯的错误也更少。但是，如果你想认真使用高级AI，你至少需要每月支付20美元（尽管世界上有些地区提供更便宜的替代方案）。这20美元能让你获得两样东西：选择使用哪个模型的权利，以及使用更先进的前沿模型和应用的能力。我希望我能告诉你当前可用的免费模型和付费模型一样好，但事实并非如此。免费模型都是针对聊天而非准确性进行优化的，因此它们速度很快，通常聊起来更有趣，但准确性和能力要差得多。很多时候，当有人发布AI做蠢事的例子时，要么是因为他们使用的是免费模型，要么是因为他们没有选择更智能的模型来工作。

三大前沿模型分别是Anthropic的Claude Opus 4.6、Google的Gemini 3.0 Pro和OpenAI的ChatGPT 5.2 Thinking。使用所有这些选项，你都能获得顶级的AI模型，并拥有语音模式、查看图像和文档的能力、执行代码的能力、优秀的移动应用，以及生成图像和视频的能力（不过Claude在这方面有所欠缺）。它们各有不同的个性、优势和劣势，但对大多数人来说，只需选择自己最喜欢的那一个就足够了。目前，这个领域的其他公司无论在模型方面，还是在应用和工具方面，都已经落后了，尽管有些用户可能仍有一些理由选择它们。

这么说可能稍微夸张了一点——对于聊天式随意对话，如果准确性无关紧要，你可以使用较小的模型；否则，请选择高级模型！

当你使用任何 AI 应用（稍后会详细介绍），包括手机应用或网站时，你能做的最重要的一件事就是选对模型，而 AI 公司并没有让这件事变得简单。如果你只是聊聊天，默认模型就够了；但如果你想做真正的工作，它们就不够用了。对于 ChatGPT，无论你使用免费版还是付费版，默认给你的模型都是“ChatGPT 5.2”。问题在于，GPT-5.2 并不是一个模型，而是很多个模型，从非常弱的 GPT-5.2 mini 到非常好的 GPT-5.2 Thinking，再到极其强大的 GPT-5.2 Pro。当你选择 GPT-5.2 时，你实际上得到的是“自动”模式，由 AI 决定使用哪个模型，通常是一个能力较弱的版本。通过付费，你可以自主选择使用哪个模型，而且，更复杂的是，你还可以选择模型在回答时“思考”的深度。对于任何复杂任务，我总是手动选择 GPT-5.2 Thinking Extended（20 美元套餐）或 GPT-5.2 Thinking Heavy（更贵的套餐）。对于需要大量思考的极难问题，你可以选择 GPT-5.2 Pro，这是最强的模型，只有在更高付费层级才能使用。

对于 Gemini，有三个选项：Gemini 3 Flash、Gemini 3 Thinking，以及部分付费套餐的 3 Pro。如果你购买 Ultra 套餐，就可以使用 Gemini Deep Think 来处理极难问题（这完全在另一个菜单里）。处理任何严肃问题时，始终选择 Gemini 3 Pro 或 Thinking。对于 Claude，你需要选择 Opus 4.6（尽管新的 Sonnet 4.6 也很强大，但略逊一筹），并打开“扩展思考”开关。

再说一遍，对大多数人而言，模型之间的差异现在已经足够小，以至于应用和工具框架比模型本身更重要。这就引出了更大的问题。

聊天界面

绝大多数人使用聊天机器人——也就是 ChatGPT、Claude 和 Gemini 的主要网站或移动应用——来访问他们的 AI 模型。事实上，我们可以把聊天机器人称为最重要、最普及的 AI 应用。在过去的几个月里，这些应用已经变得相当不同。

其中一些差异体现在与 AI 捆绑的功能上：

在 Gemini 聊天机器人中（通过点击小小的加号按钮即可访问）：你可以使用 nano banana（当前最佳的 AI 图像创作工具）、Veo 3.1（领先的 AI 视频创作工具）、Guided Learning（在学习时，这有助于让 AI 更像一个导师）以及 Deep Research。

ChatGPT 中集成了更多繁杂的选项，可通过加号按钮访问。你可以创建图像（该图像生成器几乎与 nano banana 一样好，但无法通过聊天机器人访问 Sora 视频创建器）、学习与研究（相当于 Gemini 中的 Guided Learning，但不知为何还有一个独立的测验创建器）、深度研究和购物研究（出奇地好用且常被忽视），以及一系列其他大多数人不常使用的选项，因此我不在此赘述。

Claude 只有深度研究作为内置选项，但你可以通过创建一个项目并选择学习项目来进入学习模式。

所有 AI 模型都允许你连接数据，比如让 AI 读取你的邮件和日历、访问你的文件，或连接到其他应用程序。这可以让 AI 更加有用，但同样，每个 AI 工具都有不同的连接器可供使用。

这些很令人困惑！对于大多数从事实际工作的人来说，最重要的附加功能是深度研究和将 AI 连接到你的内容，但你可能也想尝试其他功能。然而，越来越重要的是 AI 所拥有的工具集。在这方面，OpenAI 和 Anthropic 明显领先于 Google。Claude.ai 和 ChatGPT 都能够编写和执行代码、提供文件、进行广泛研究以及更多操作。Google 的 Gemini 网站能力则逊色得多（尽管其 AI 模型同样出色）。

正如你所见，向 ChatGPT 和 Claude 提出类似问题，它们会生成可用的电子表格和 PowerPoint，并附有可以跟进查看的清晰引用。然而，Gemini 无法生成这两种文档，也不提供引用或研究。不过，我确实预计 Google 很快会在这方面赶上。

关于聊天机器人最后一点说明。GPT-5.2 Pro，加上其附带的工具集，是一个非常智能的模型。正是这个模型刚刚帮助推导出一个新的物理学成果，也是我发现最能胜任复杂统计和分析工作的模型。它只能通过更昂贵的套餐访问。Google Gemini 3 Deep Think 似乎也非常能干，但同样受限于工具集问题。

提示词：“你是一位经济社会学家。我希望你找出一些可以用这些数据验证的新颖假设，进行复杂的实验，并告诉我结果。”然后我将一个大型 Excel 数据集交给它。

其他应用和工具集

聊天机器人网站是大多数人与 AI 交互的地方，但最令人印象深刻的工作却日益不再在那里完成。越来越多其他应用将这些相同的模型包装在更强大的工具集中，而这很重要。

Claude Code、OpenAI Codex 和 Google Antigravity 是其中发展最完善的工具，它们都面向程序员。每个工具都让 AI 模型能够访问你的代码库、终端，以及自行编写、运行和测试代码的能力。你描述你想要构建的内容，AI 就去构建它，在完成或遇到困难时会回来反馈。如果你以编写代码为生，这些工具正在改变你的工作。因为它们拥有最全面的工具集，即使你不编程，它们仍然能完成大量工作。

例如，几年前我开始对如何完全基于纸质材料制作一个大语言模型感兴趣，方法是将原始 GPT-1 的所有内部权重和参数（即 AI 的代码，以 1.17 亿个数字的形式列出）放在一套书中。理论上，只要有足够的时间，你可以用这些数字手工完成 AI 的数学运算。这看起来是个有趣的想法，但显然不值得去做。一周前，我让 Claude Code 替我完成这件事。在大约一个多小时的时间里（主要是 AI 在工作，我提了几个建议），它生成了 80 本排版精美的卷册，包含了 GPT-1 的全部内容，以及一份数学指南。它还想出并为每卷设计了封面，将内部权重可视化。然后它制作了一个非常优雅的网站（包括下面的动画），将其连接到 Stripe 进行支付，连接到 Lulu 进行按需印刷，测试了整个过程，并为我发布了这个网站。我从未接触或查看过任何代码。我让它以成本价提供 20 本书，看看会发生什么——当天就售罄了。所有卷册仍然可以作为免费 PDF 在网站上下载。现在，我可以有一个之前需要大量工作才能实现的小项目想法，而只需付出很少的努力就能让它帮我实现。

不过，这些编程工具集对业余爱好者来说仍有风险，而且显然专注于编程。新的应用和工具集开始关注其他类型的知识工作。

Claude for Excel 和 Powerpoint 是应用内特定工具的例子。

两者都为这些程序提供了非常令人印象深刻的扩展。

尤其是 Claude for Excel，感觉像是处理电子表格方式的一次巨大变革，对于那些以 Excel 为生的人而言，它可能产生与 Claude Code 类似的影响——你可以越来越多地告诉 AI 你想做什么，它就会像一个初级分析师一样执行工作。

因为结果在 Excel 中，所以很容易检查。

谷歌与 Google Sheets 有一些集成（但深度不够），而 OpenAI 并没有真正对等的产品。

Claude Cowork 是真正的新事物，它值得拥有自己的类别。

Anthropic 在 1 月发布了 Cowork，它本质上就是面向非技术工作的 Claude Code。

它在你的桌面上运行，可以直接处理你的本地文件和浏览器。

不过，它比 Claude Code 安全得多，对非技术用户来说危险性也更小（对于那些关心细节的人而言，它在默认拒绝网络连接且内置了强隔离机制的虚拟机中运行）。

你描述一个目标（整理这些费用报告、从这些 PDF 中提取数据到电子表格、起草一个摘要），Claude 就会制定一个计划，将其分解为子任务，并在你的电脑上执行这些任务，而你可以观看（也可以不看）。

它基于与 Claude Code 相同的智能体架构构建，而且其本身很大程度上是由 Claude Code 在大约两周内构建出来的。

OpenAI 和谷歌都没有直接对等的产品，至少本周还没有。

Cowork 仍处于研究预览阶段，这意味着它还很早期，并且会快速消耗你的使用额度，但它清楚地指明了这一切的发展方向：AI 不只是与你谈论你的工作，而是直接替你完成工作。

NotebookLM 让你进行研究报告并收集源文档（左侧），对源文档和材料提问（中间），并将其转化为幻灯片之类的东西（右侧）。

NotebookLM 是谷歌针对另一个问题给出的答案：如何利用 AI 来理解海量信息？你可以让 NotebookLM 自行进行深度研究，也可以加入你自己的论文、YouTube 视频、网站或文件，NotebookLM 会构建一个交互式知识库，你可以对其进行查询、将其转化为幻灯片、思维导图、视频，以及最著名的 AI 生成的播客（两位主播讨论你的材料，你甚至可以在主播说话时打断并提问）。如果你是一名学生、研究人员，或者任何需要经常理解大量文件的人，NotebookLM 都是一个非常有用的工具。

还有 OpenClaw，我也要提一下，尽管它并不完全属于上述任何类别，而且你几乎绝对不应该使用它。OpenClaw 是一个开源 AI 智能体，在一月底走红。它在你的电脑上本地运行，可以连接任何你想要的 AI 模型，你可以像用 WhatsApp 或 iMessage 等标准聊天工具与人聊天一样与它对话。它可以浏览网页、管理你的文件、发送电子邮件以及运行命令。它有点像运行在你机器上的一个 24/7 全天候个人助理。但它也是一个严重的安全隐患：你让一个 AI 广泛访问你的电脑和账户，而没有人确切知道你正将自己暴露在何种危险之中。但它确实预示了未来的方向。

现在该做什么

我知道内容很多。让我来简化一下。

如果你刚刚起步，从三个系统（ChatGPT、Claude 或 Gemini）中选一个，支付 20 美元，然后选择高级模型。我书中的建议仍然有效：让 AI 参与你做的每一件事。开始将它用于实际工作。上传一份你正在实际处理的文档。以 RFP 或 SOP 的形式给 AI 一个非常复杂的任务。进行来回对话，并推动它。仅此一项就比任何指南教会你更多。

如果你已经对聊天机器人比较熟悉，那就试试具体的应用。NotebookLM 免费且易于使用，这使它成为一个不错的起点。如果你想更进一步，Anthropic 提供了最强大的工具包，包括 Claude Code、Claude Cowork（两者都可以通过 Claude Desktop 使用）以及专门的 PowerPoint 和 Excel 插件。试一试。同样，不要当成演示，而是用你实际需要完成的事情来试。观察它做了什么。当它出错时，引导它。你并不是在提示，而是在（正如我上一篇文章所写的）管理。

从聊天机器人到智能体的转变，是自 ChatGPT 推出以来，人们使用 AI 方式上最重要的变化。目前仍处于早期阶段，这些工具还难以理解，并且仍会做出令人困惑的事情。但一个能做事的 AI，本质上比一个只会说话的 AI 更有用，而学习以这种方式使用它，是值得你花时间的。

立即订阅

智能体教程/实践

Ethan Mollick：One Useful Thing（RSS）

精选