Agentic 时代 AI 选择指南
AI 大咖 Ethan Mollick 撰写 Agent 时代实用选型指南
Agentic 时代 AI 不再只是聊天机器人,而是能自主执行任务的智能体。面对 Claude、GPT、LLaMA 等模型,需根据代理能力、任务类型和生态集成重新评估选择策略。
自从ChatGPT问世以来,我已经写了八份这样的指南,但这一版与以往有很大不同,因为“使用AI”的含义已经发生了巨大变化。直到几个月前,对绝大多数人来说,“使用AI”意味着与一个聊天机器人进行来回对话。但在过去几个月里,将AI用作智能体已经变得切实可行:你可以把任务分配给它们,它们会利用合适的工具去完成。由于这一变化,你在决定使用哪种AI时必须考虑三件事:模型(Models)、应用(Apps)和外壳(Harnesses)。
完全相同的模型——Claude Opus 4.6——在三种不同的应用和外壳中被问到完全相同的问题:“比较ChatGPT、Claude和Gemini”。没有外壳时,信息已经过时;在Claude.ai网站上,我得到的是经过更新的信息和可验证的来源;使用Claude Cowork,我获得的是深度分析以及格式良好的直接对比。
模型是底层的AI大脑,三大主流是GPT-5.2/5.3、Claude Opus 4.6和Gemini 3 Pro(这些公司发布新模型的速度比过去快得多,因此版本号在未来几周内可能会变化)。模型决定了系统的智能程度、推理能力、写作或编码或分析电子表格的能力,以及处理图像或生成图像的能力。模型是评测基准所衡量的东西,也是AI公司竞相改进的对象。当有人说“Claude更擅长写作”或“ChatGPT更擅长数学”时,他们谈论的是模型。
应用是你实际用来与模型对话的产品,它们让模型能够为你完成实际工作。最常见的应用是每个模型对应的网站:chatgpt.com、claude.ai、gemini.google.com(或者手机上对应的应用程序)。此外,这些AI公司还推出了其他应用,包括像OpenAI Codex或Claude Code这样的编程工具,以及像Claude Cowork这样的桌面工具。
套件能让 AI 模型的强大能力完成实际工作,就像马具将马匹的原始力量转化为拉车或犁地的能力。套件是一个让 AI 能够使用工具、执行动作并自主完成多步骤任务的系统。应用程序都附带一个套件。网站上的 Claude 有一个套件,让 Claude 4.6 Opus 能够进行网络搜索和编写代码,同时还包含如何处理各种问题的指令,例如创建电子表格或进行平面设计工作。Claude Code 的套件则更为广泛:它赋予 Claude 4.6 Opus 一台虚拟计算机、一个网页浏览器、一个代码终端,以及将这些功能串联起来的能力,从而实际执行诸如从零开始研究、构建和测试新网站等任务。Manus(近日被 Meta 收购)本质上是一个独立的套件,可以封装多个模型。近期引发重大新闻的 OpenClaw,主要是一个允许你在本地电脑上使用任意 AI 模型的套件。
直到最近,你都不需要了解这些。模型就是产品,应用程序就是网站,套件几乎不存在。你输入,它回应,你再输入。如今,同一个模型在不同的套件中运行,其行为可能截然不同。在聊天窗口中与你对话的 Claude Opus 4.6,与在 Claude Code 内部自主编写和测试软件长达数小时的 Claude Opus 4.6,体验完全不同。回答问题的 GPT-5.2 与浏览网站并为你构建演示文稿的 GPT-5.2 Thinking,体验也完全不同。
这意味着“我应该使用哪个 AI?”这个问题变得更难回答了,因为答案现在取决于你想用它做什么。那么,让我来梳理一下当前格局。 当前的模型
顶尖模型在整体能力上已经非常接近,并且总体上比以往“更聪明”,犯的错误也更少。但是,如果你想认真使用高级AI,你至少需要每月支付20美元(尽管世界上有些地区提供更便宜的替代方案)。这20美元能让你获得两样东西:选择使用哪个模型的权利,以及使用更先进的前沿模型和应用的能力。我希望我能告诉你当前可用的免费模型和付费模型一样好,但事实并非如此。免费模型都是针对聊天而非准确性进行优化的,因此它们速度很快,通常聊起来更有趣,但准确性和能力要差得多。很多时候,当有人发布AI做蠢事的例子时,要么是因为他们使用的是免费模型,要么是因为他们没有选择更智能的模型来工作。
三大前沿模型分别是Anthropic的Claude Opus 4.6、Google的Gemini 3.0 Pro和OpenAI的ChatGPT 5.2 Thinking。使用所有这些选项,你都能获得顶级的AI模型,并拥有语音模式、查看图像和文档的能力、执行代码的能力、优秀的移动应用,以及生成图像和视频的能力(不过Claude在这方面有所欠缺)。它们各有不同的个性、优势和劣势,但对大多数人来说,只需选择自己最喜欢的那一个就足够了。目前,这个领域的其他公司无论在模型方面,还是在应用和工具方面,都已经落后了,尽管有些用户可能仍有一些理由选择它们。
这么说可能稍微夸张了一点——对于聊天式随意对话,如果准确性无关紧要,你可以使用较小的模型;否则,请选择高级模型!
当你使用任何 AI 应用(稍后会详细介绍),包括手机应用或网站时,你能做的最重要的一件事就是选对模型,而 AI 公司并没有让这件事变得简单。如果你只是聊聊天,默认模型就够了;但如果你想做真正的工作,它们就不够用了。对于 ChatGPT,无论你使用免费版还是付费版,默认给你的模型都是“ChatGPT 5.2”。问题在于,GPT-5.2 并不是一个模型,而是很多个模型,从非常弱的 GPT-5.2 mini 到非常好的 GPT-5.2 Thinking,再到极其强大的 GPT-5.2 Pro。当你选择 GPT-5.2 时,你实际上得到的是“自动”模式,由 AI 决定使用哪个模型,通常是一个能力较弱的版本。通过付费,你可以自主选择使用哪个模型,而且,更复杂的是,你还可以选择模型在回答时“思考”的深度。对于任何复杂任务,我总是手动选择 GPT-5.2 Thinking Extended(20 美元套餐)或 GPT-5.2 Thinking Heavy(更贵的套餐)。对于需要大量思考的极难问题,你可以选择 GPT-5.2 Pro,这是最强的模型,只有在更高付费层级才能使用。
对于 Gemini,有三个选项:Gemini 3 Flash、Gemini 3 Thinking,以及部分付费套餐的 3 Pro。如果你购买 Ultra 套餐,就可以使用 Gemini Deep Think 来处理极难问题(这完全在另一个菜单里)。处理任何严肃问题时,始终选择 Gemini 3 Pro 或 Thinking。对于 Claude,你需要选择 Opus 4.6(尽管新的 Sonnet 4.6 也很强大,但略逊一筹),并打开“扩展思考”开关。
再说一遍,对大多数人而言,模型之间的差异现在已经足够小,以至于应用和工具框架比模型本身更重要。这就引出了更大的问题。
聊天界面
绝大多数人使用聊天机器人——也就是 ChatGPT、Claude 和 Gemini 的主要网站或移动应用——来访问他们的 AI 模型。事实上,我们可以把聊天机器人称为最重要、最普及的 AI 应用。在过去的几个月里,这些应用已经变得相当不同。
其中一些差异体现在与 AI 捆绑的功能上:
在 Gemini 聊天机器人中(通过点击小小的加号按钮即可访问):你可以使用 nano banana(当前最佳的 AI 图像创作工具)、Veo 3.1(领先的 AI 视频创作工具)、Guided Learning(在学习时,这有助于让 AI 更像一个导师)以及 Deep Research。
ChatGPT 中集成了更多繁杂的选项,可通过加号按钮访问。你可以创建图像(该图像生成器几乎与 nano banana 一样好,但无法通过聊天机器人访问 Sora 视频创建器)、学习与研究(相当于 Gemini 中的 Guided Learning,但不知为何还有一个独立的测验创建器)、深度研究和购物研究(出奇地好用且常被忽视),以及一系列其他大多数人不常使用的选项,因此我不在此赘述。
Claude 只有深度研究作为内置选项,但你可以通过创建一个项目并选择学习项目来进入学习模式。
所有 AI 模型都允许你连接数据,比如让 AI 读取你的邮件和日历、访问你的文件,或连接到其他应用程序。这可以让 AI 更加有用,但同样,每个 AI 工具都有不同的连接器可供使用。
这些很令人困惑!对于大多数从事实际工作的人来说,最重要的附加功能是深度研究和将 AI 连接到你的内容,但你可能也想尝试其他功能。然而,越来越重要的是 AI 所拥有的工具集。在这方面,OpenAI 和 Anthropic 明显领先于 Google。Claude.ai 和 ChatGPT 都能够编写和执行代码、提供文件、进行广泛研究以及更多操作。Google 的 Gemini 网站能力则逊色得多(尽管其 AI 模型同样出色)。
正如你所见,向 ChatGPT 和 Claude 提出类似问题,它们会生成可用的电子表格和 PowerPoint,并附有可以跟进查看的清晰引用。然而,Gemini 无法生成这两种文档,也不提供引用或研究。不过,我确实预计 Google 很快会在这方面赶上。
关于聊天机器人最后一点说明。GPT-5.2 Pro,加上其附带的工具集,是一个非常智能的模型。正是这个模型刚刚帮助推导出一个新的物理学成果,也是我发现最能胜任复杂统计和分析工作的模型。它只能通过更昂贵的套餐访问。Google Gemini 3 Deep Think 似乎也非常能干,但同样受限于工具集问题。
提示词:“你是一位经济社会学家。我希望你找出一些可以用这些数据验证的新颖假设,进行复杂的实验,并告诉我结果。”然后我将一个大型 Excel 数据集交给它。
其他应用和工具集
聊天机器人网站是大多数人与 AI 交互的地方,但最令人印象深刻的工作却日益不再在那里完成。越来越多其他应用将这些相同的模型包装在更强大的工具集中,而这很重要。
Claude Code、OpenAI Codex 和 Google Antigravity 是其中发展最完善的工具,它们都面向程序员。每个工具都让 AI 模型能够访问你的代码库、终端,以及自行编写、运行和测试代码的能力。你描述你想要构建的内容,AI 就去构建它,在完成或遇到困难时会回来反馈。如果你以编写代码为生,这些工具正在改变你的工作。因为它们拥有最全面的工具集,即使你不编程,它们仍然能完成大量工作。
例如,几年前我开始对如何完全基于纸质材料制作一个大语言模型感兴趣,方法是将原始 GPT-1 的所有内部权重和参数(即 AI 的代码,以 1.17 亿个数字的形式列出)放在一套书中。理论上,只要有足够的时间,你可以用这些数字手工完成 AI 的数学运算。这看起来是个有趣的想法,但显然不值得去做。一周前,我让 Claude Code 替我完成这件事。在大约一个多小时的时间里(主要是 AI 在工作,我提了几个建议),它生成了 80 本排版精美的卷册,包含了 GPT-1 的全部内容,以及一份数学指南。它还想出并为每卷设计了封面,将内部权重可视化。然后它制作了一个非常优雅的网站(包括下面的动画),将其连接到 Stripe 进行支付,连接到 Lulu 进行按需印刷,测试了整个过程,并为我发布了这个网站。我从未接触或查看过任何代码。我让它以成本价提供 20 本书,看看会发生什么——当天就售罄了。所有卷册仍然可以作为免费 PDF 在网站上下载。现在,我可以有一个之前需要大量工作才能实现的小项目想法,而只需付出很少的努力就能让它帮我实现。
不过,这些编程工具集对业余爱好者来说仍有风险,而且显然专注于编程。新的应用和工具集开始关注其他类型的知识工作。
Claude for Excel 和 Powerpoint 是应用内特定工具的例子。
两者都为这些程序提供了非常令人印象深刻的扩展。
尤其是 Claude for Excel,感觉像是处理电子表格方式的一次巨大变革,对于那些以 Excel 为生的人而言,它可能产生与 Claude Code 类似的影响——你可以越来越多地告诉 AI 你想做什么,它就会像一个初级分析师一样执行工作。
因为结果在 Excel 中,所以很容易检查。
谷歌与 Google Sheets 有一些集成(但深度不够),而 OpenAI 并没有真正对等的产品。
Claude Cowork 是真正的新事物,它值得拥有自己的类别。
Anthropic 在 1 月发布了 Cowork,它本质上就是面向非技术工作的 Claude Code。
它在你的桌面上运行,可以直接处理你的本地文件和浏览器。
不过,它比 Claude Code 安全得多,对非技术用户来说危险性也更小(对于那些关心细节的人而言,它在默认拒绝网络连接且内置了强隔离机制的虚拟机中运行)。
你描述一个目标(整理这些费用报告、从这些 PDF 中提取数据到电子表格、起草一个摘要),Claude 就会制定一个计划,将其分解为子任务,并在你的电脑上执行这些任务,而你可以观看(也可以不看)。
它基于与 Claude Code 相同的智能体架构构建,而且其本身很大程度上是由 Claude Code 在大约两周内构建出来的。
OpenAI 和谷歌都没有直接对等的产品,至少本周还没有。
Cowork 仍处于研究预览阶段,这意味着它还很早期,并且会快速消耗你的使用额度,但它清楚地指明了这一切的发展方向:AI 不只是与你谈论你的工作,而是直接替你完成工作。
NotebookLM 让你进行研究报告并收集源文档(左侧),对源文档和材料提问(中间),并将其转化为幻灯片之类的东西(右侧)。
NotebookLM 是谷歌针对另一个问题给出的答案:如何利用 AI 来理解海量信息?你可以让 NotebookLM 自行进行深度研究,也可以加入你自己的论文、YouTube 视频、网站或文件,NotebookLM 会构建一个交互式知识库,你可以对其进行查询、将其转化为幻灯片、思维导图、视频,以及最著名的 AI 生成的播客(两位主播讨论你的材料,你甚至可以在主播说话时打断并提问)。如果你是一名学生、研究人员,或者任何需要经常理解大量文件的人,NotebookLM 都是一个非常有用的工具。
还有 OpenClaw,我也要提一下,尽管它并不完全属于上述任何类别,而且你几乎绝对不应该使用它。OpenClaw 是一个开源 AI 智能体,在一月底走红。它在你的电脑上本地运行,可以连接任何你想要的 AI 模型,你可以像用 WhatsApp 或 iMessage 等标准聊天工具与人聊天一样与它对话。它可以浏览网页、管理你的文件、发送电子邮件以及运行命令。它有点像运行在你机器上的一个 24/7 全天候个人助理。但它也是一个严重的安全隐患:你让一个 AI 广泛访问你的电脑和账户,而没有人确切知道你正将自己暴露在何种危险之中。但它确实预示了未来的方向。
现在该做什么
我知道内容很多。让我来简化一下。
如果你刚刚起步,从三个系统(ChatGPT、Claude 或 Gemini)中选一个,支付 20 美元,然后选择高级模型。我书中的建议仍然有效:让 AI 参与你做的每一件事。开始将它用于实际工作。上传一份你正在实际处理的文档。以 RFP 或 SOP 的形式给 AI 一个非常复杂的任务。进行来回对话,并推动它。仅此一项就比任何指南教会你更多。
如果你已经对聊天机器人比较熟悉,那就试试具体的应用。NotebookLM 免费且易于使用,这使它成为一个不错的起点。如果你想更进一步,Anthropic 提供了最强大的工具包,包括 Claude Code、Claude Cowork(两者都可以通过 Claude Desktop 使用)以及专门的 PowerPoint 和 Excel 插件。试一试。同样,不要当成演示,而是用你实际需要完成的事情来试。观察它做了什么。当它出错时,引导它。你并不是在提示,而是在(正如我上一篇文章所写的)管理。
从聊天机器人到智能体的转变,是自 ChatGPT 推出以来,人们使用 AI 方式上最重要的变化。目前仍处于早期阶段,这些工具还难以理解,并且仍会做出令人困惑的事情。但一个能做事的 AI,本质上比一个只会说话的 AI 更有用,而学习以这种方式使用它,是值得你花时间的。
立即订阅