斯坦福大学法学院研究:人工智能的表现优于法学教授
斯坦福法学院自己下场测的,AI在法律考试上超过教授,虽然不是什么新题型,但官方自己出这种结果,对法律科技赛道是个真信号。
斯坦福大学法学院的一项研究表明,人工智能的表现优于法学教授。该发现引发了广泛关注,在Hacker News平台获得了104个Points。
斯坦福法学院教授朱利安·尼亚尔科(Julian Nyarko)牵头的一项突破性研究揭示,法学教授们 overwhelmingly 更倾向于选择人工智能生成的答案,而非同行教员撰写的回答——这一发现可能重塑法律教育的授课方式。
这项名为“法学教授更偏爱AI而非同行答案”的研究,邀请了全美各法学院的16位法学教授参与,检验大语言模型能否成为合同法课程的有效辅导工具。在对近3000次匿名比较进行的盲评中,教授们对AI回答的打分显著高于其他教授撰写的答案,AI在75%的正面对决中胜出。
“这项研究挑战了关于AI在法律教育中作用的重要假设,”尼亚尔科表示,他领导斯坦福法学院前沿技术实验室(LiftLab)的法律创新项目。他与耶鲁、纽约大学、芝加哥大学及其他顶尖院校的同事共同撰写了这篇论文。“我们之所以聚焦法律,正是因为这门学科需要判断力、 nuanced 的推理能力以及应对歧义的能力——而不仅仅是事实回忆。”
这项研究尤其引人注目,因为以往的AI评估主要聚焦于有明确对错答案的学科。相比之下,法律推理需要仔细分析相互矛盾的论点并得出有说服力的结论。
“老实说,我们对结果的幅度感到惊讶,”尼亚尔科补充道。“这些并非只需给出显而易见答案的简单问题。很多问题需要综合复杂材料,将其应用于新情境,并以有助于学生培养自身分析能力的方式解释法律概念。”
参与者生成了40个典型的合同法问题——即学生可能在课后或办公时间提出的问题——撰写了他们自己的答案,然后在不知答案来自AI还是其他参与教授的情况下进行评估。AI系统在本研究中表现出与最佳人类教师相当的水平。
或许最令人瞩目的是:教授们仅3.5%的情况下将AI回答标记为教学上有害,而同行撰写的答案这一比例为12%。
“在大多数接受测试的 AI 领域,都存在正确答案。但在法律领域,往往没有。”耶鲁法学院教授、该研究合著者 Sarath Sanga 表示,“两个对立的论点可能都成立。我们想知道的是,AI 能否达到律师们用来评价彼此论点的潜在专业标准。在这个案例中,答案是肯定的。”
研究团队采取了大量预防措施,以确保研究的有效性。他们校准了 AI 回复的长度和结构,使其与人类答案相匹配;使用了多种评估方法;并请教授们评估这些回复是否会误导或困惑学生。
“我们设计这项研究时力求尽可能严谨,因为其影响极其重大,”Nyarko 解释道,“法学教育的目的是培养未来的律师具备批判性思维、有说服力地进行论证并驾驭伦理复杂性。我们的研究在探索 AI 能否支持这一使命方面迈出了重要步伐。”
该研究的第一作者、Nyarko 在 liftlab 实验室的研究员 Alejandro Salinas 强调了其在教育方面的意义:“我们的研究将注意力转向 AI 辅导能在法律等注重判断的领域为学习带来什么。我们发现,当法学教育者进行评估时,AI 辅导能够提供高质量、按需的支持,对课堂教学形成补充,并可能拓宽获取专家指导的渠道。”
该研究还考察了特定的 AI 模型,包括商业辅导系统和 Google 的 NotebookLM,发现它们表现水平各异。不过,即使上下文限制影响了 AI 的回复,教授们仍经常更偏好它们而非人类撰写的答案。
这些研究发现发布之际,全美法学院正在努力将 AI 工具融入法学教育,同时维持严格的学术标准。一些院校已拥抱 AI 实验,而另一些则对潜在的幻觉、过度依赖以及批判性思维能力被削弱的风险持谨慎态度。
“我们的研究评估了 AI 工具所提供答案的质量。但如何将这些工具付诸实践,以最有效地促进学生学习,仍然是一个悬而未决的问题。因此,我们并不主张全盘采用 AI 辅导,”Nyarko 提醒道,“但我们的数据表明,一概怀疑也同样缺乏依据。讨论应该从‘AI 能否给出准确、高质量的回复’转向‘我们如何负责任地部署它以造福我们的学生’。”
查看论文 SSRN 链接
Liftlab 是法律 AI 领域首批将研究、原型设计与行业实时协作结合起来的学术项目之一。其使命是通过利用 AI 和其他前沿技术,提升私营部门获取高质量法律服务的可及性。为弥合理论与实践的差距,Liftlab 的工作不止于概念化,还包括构建原型,以帮助探索基于 AI 的解决方案的实用性。
斯坦福法学院是世界领先的法律学术与教育机构之一。其校友是法律、政治、商业和高科技领域最具影响力的决策者之一。教职人员在最高法院进行辩论、在国会作证、产出杰出的法律学术成果和实证分析,并经常作为法律与政策专家为全国媒体撰稿。斯坦福法学院建立了一套法律教育模式,提供严谨的跨学科训练、实践经历、全球视野以及对公共服务的关注。