陶哲轩：AI时代的数学方法与人类思考「Rosetta」

07 Apr, 2026

原文链接：arxiv

一、文章概述

核心主旨：本文探讨了人工智能（AI）技术的迅猛发展对人类社会、传统哲学以及知识创造（特别是数学领域）所带来的深远影响。两位作者（分别来自数学与艺术研究领域）提出，AI 是人类历史上用于创造、组织和传播思想的工具的自然进化，但其快速和趋利性的部署引发了严重的伦理、经济和哲学危机（即“浮士德式交易”）。

核心论点与框架：

以数学为“沙盒”：数学因其具有客观的证明标准，成为探索 AI 影响的理想测试场。当前 AI 能生成看似完美但可能存在根本谬误的数学证明，这挑战了数学界传统的“直觉检验（Smell Test）”标准，并推动了“自动形式化”和验证工具的发展。
AI 的成本与效益：AI 的开发和部署消耗大量有限资源，加剧了“数字鸿沟”。作者警告，不能为了少数人的资本利益而牺牲人类的福祉，强调 AI 发展必须秉持“以人为本（human-centered）”和“减少伤害”的原则。
人机接口的未来演进：
- 短期策略：将 AI 视为“香草精（Vanilla extract）”，作为工作流中的轻度调味剂，而非核心替代品。
- 中期策略：采用“红蓝对抗”思维，人类或验证工具作为负责审查的“红队”，限制 AI 在生成结构性内容（“蓝队”）时的绝对权力。
- 长期愿景：呼吁采取“哥白尼式视角”，即人类需要接受我们不再是认知宇宙“唯一绝对中心”的事实，从而在承认 AI 与人类智能存在本质差异的同时，寻求平等的合作与互补。

二、专业术语翻译列表与解读

Faustian Bargain（浮士德式交易）：源自西方古典文学，指为了追求短期的巨大权力、知识或效率，不惜出卖灵魂或牺牲长远的道德与社会利益。文中指人类为了提高效率而草率地将决策权和数据交给 AI。
GOFAI (Good-Old Fashioned AI / 传统老式人工智能)：指基于逻辑规则和符号处理的早期 AI 系统（如国际象棋引擎和自动定理证明器），区别于当前依赖海量数据驱动的机器学习模型。
Diffusion Models（扩散模型）：一种生成式 AI 模型，通过在数据中添加噪声然后再学习去除噪声的过程来生成新的数据（通常用于生成高质量图像）。
The "Smell" Test（“气味”测试 / 直觉检验）：数学界的行话。指经验丰富的数学家在逐行检查逻辑之前，凭借直觉判断一个证明“闻起来”是否对劲、是否具有启发性和洞察力。
Formal Proof Assistants（形式化证明助手）：如 Lean 或 Rocq，这是一种通过计算机精确语言自动验证数学论证逻辑有效性的软件工具。
Autoformalization（自动形式化）：利用 AI 工具将自然语言书写的非正式数学证明，自动转化为计算机可验证的形式化代码的过程。
Blue-team / Red-team（蓝队 / 红队）：借用网络安全术语。文中“蓝队”指负责生成新内容和结构的环节（AI的强项但易出错），“红队”指负责验证、测试和维护内容的环节。
Stochastic Parrots（随机鹦鹉）：对大型语言模型的一种批评性比喻，指它们只是根据概率随机组合词汇，实际上并没有真正理解其背后的含义。
Copernican view/principle（哥白尼式视角 / 原则）：类比哥白尼提出的“日心说”打破了地球是宇宙中心的观点，文中指人类应接受人类智能并非认知领域唯一中心的现实。
Citogenesis（循环引用自生）：一种现象，指 AI 生成的错误或无源信息被人类引用并在网上发布后，又被未来的 AI 作为权威数据抓取和学习，形成一个虚假的循环论证链条。

三、全文翻译

AI时代的数学方法与人类思考

Mathematical methods and human thought in the age of AI

作者：塔尼娅·克劳登 (Tanya Klowden) 与陶哲轩 (Terence Tao)

摘要

人工智能（AI）是人们对一系列广泛的计算机工具的通俗称呼，这些工具旨在执行日益复杂的认知任务，其中许多任务过去完全是人类的专属领域。随着这些工具变得呈指数级地复杂和普及，它们快速发展并融入社会的合理性经常受到质疑，特别是考虑到它们消耗有限的资源，并且对那些它们似乎正在取代的熟练个体的生计构成了生存威胁。在本文中，我们探讨了 AI 对传统哲学问题的快速演变影响，重点关注其在数学中的应用，以及其更广泛使用在现实世界中产生的更普遍后果。我们断言，人工智能是人类历史上为了促进思想的创造、组织和传播而开发的工具的自然进化，并认为确保 AI 的开发和应用始终保持以人为本是至关重要的。着眼于创新解决方案以满足人类需求、提升人类生活质量并扩展人类思考和理解的能力，我们提出了一条将 AI 融入我们最具挑战性和学术严谨性领域的途径，以造福全人类。

1. 引言

人工智能（AI）技术已经渗透到数字生活的每一个角落，其部署速度之快令人惊叹。仅在撰写本文并使用标准工具的过程中，作者就经历了不下三个数字代理“不请自来”地介入到叙述中 ¹。人类正站在一场以史无前例的速度展开的数字工业革命的门槛上。在物理科学领域，AI 的进步已经促成了获得诺贝尔奖的研究 ¹；而在人文学科，人们普遍担忧现代 AI 的生成文本能力可能导致该学科的消亡 ²。语言翻译器为文化交流和国际合作敞开了大门，但随之而来的是深度伪造（deepfakes）和数字垃圾（slop）的泛滥，在我们的数字第三空间中肆意蔓延。AI 迅速从一种新奇事物变成了一项重要资源，并在某些情况下演变为当前的生存威胁 [^3]。

1.1. 我们对人工智能的定义

为了本文的讨论，“AI”指的是广泛的计算机工具，旨在执行日益复杂的认知任务，包括许多过去完全属于人类领域的任务。AI 工具极其多样，从如今数据驱动的机器学习（ML）技术（如可以处理复杂文本的大型语言模型（LLMs），或可以生成图像和其他媒体的扩散模型），到更为传统的老式人工智能（GOFAI）（如自动定理证明器或国际象棋引擎），后者通过应用精确的数学规则来解决特定范围的问题。

1.2. 本文的目的

关于这些工具能做什么或不能做什么的讨论已经不胜枚举；但相比之下，关于为什么这些工具被如此迅速地开发和部署，或者它们如何影响数十亿与之互动的人（在研究、教育、工作、娱乐甚至休息中 [^30]）的讨论却较少。本文的两位作者来自通常被视为两极对立的学术领域：数学和艺术研究。但我们双方都发现，在日常研究的各个迥异领域中融入多种 AI 工具是有益的，并且对于现实世界中使用 AI 所引发的极其棘手但普遍存在的哲学问题，我们找到了令人惊讶的诸多共识。以数学为模型，我们将探讨在日常工作流中融入 AI 的收益、风险、伦理和结果，然后将这些观察扩展到更广泛的现实应用中。尽管这些新的、未必在道德上保持中立的技术存在风险，我们仍然主张，无论是在数学内部还是在其他领域，都应开发、实施和应用 AI 工具：因为它们有潜力从根本上增强我们人类的天赋能力，并且有能力拓展可能性的边界，超越我们人类个体或集体能力极限所能做到的事情。结合我们自己使用这些工具的经验，我们特别审视了人类/AI界面，并就这些技术的发展提出了建议，使其以对人类利大于弊的方式演进，并在未来 AI 发展所承诺的新模式中，珍视人类思想和行动的独特贡献。

1.3. 浮士德式交易 (The Faustian Bargain)

市场竞争的激励机制助长了 AI 技术的疯狂发展步伐，并以极大加速工作流和节约成本的愿景迷住了整个行业。这种竞争的“囚徒困境”迫使许多个人和组织尽可能仓促地实验性采用这些工具，而牺牲了对这种采用所带来的经济、社会或道德成本与收益进行更深思熟虑的评估——或者从更根本上说，牺牲了我们当初为什么要开发此类技术的探讨。因此，我们实际上已经集体与这些技术达成了事实上的“浮士德式交易”，赋予它们越来越多访问我们数据、认知工作流和决策过程的权限，以换取能够以更高效率和更少枯燥劳作完成更广泛任务的承诺。

从理论上讲，技术在道德上是中立的；它可以赋能积极的应用场景，也能赋能消极的应用场景。但正是通过这种赋能，它加剧了现有的道德困境，并制造了新的困境。例如，二战期间在囚犯身上进行的令人发指的医学研究，获得了关于人类耐力极限的挽救生命的数据，这引发了关于使用此类数据开发新医学进展的伦理性的尖锐问题 ³。虽然不如前者那般骇人听闻，但用于训练当前一代 AI 工具的数据和知识产权来源模糊不清，可以说是今天引发了类似的问题 ⁴。

当一项技术发展得足够缓慢时，我们有可能在它被广泛部署之前，对其进行必要的哲学对话和辩论；干细胞研究就是这方面的一个显著例子。然而，现代 AI 技术已经得到了广泛部署，我们已经没有切实可行的方法把“被放出来的精灵装回瓶子里”；具有讽刺意味的是，此时实施严格的监管，将不成比例地扼杀 AI 更积极的应用场景（如加速科学研究），却无法消除该技术中更浪费或更具恶意的用途。从实用主义的角度来看，关于 AI 的讨论现在已经转向如何管理与这些技术的共存：评估 AI 的成本和收益（无论是在学术领域，还是在更广泛的社会中），并确定最佳实践和框架，以尽可能积极的方式使用 AI，同时阻止那些滥用这些工具并降低我们认知成果可靠性和价值的（许多）方式。

2. 历史对比：这次有所不同吗？

2.1. 过去自动化技术的整合

自动化当然不是一种新现象。过去的许多技术也使得将以前分配给人类的任务自动化的能力成为可能，从而消除或大大减少了对某些类型人类工作的需求，同时在某些情况下创造或增加了对其他类型工作的需求。例如，在科学界内部，曾发生过“相变”，人们因新工具（如互联网、用于科学计算的计算机，甚至不起眼的排版语言 LaTeX）的明显优势而广泛且迅速地转向它们。但这些过去的技术主要影响的是职业的次要方面，例如结果的交流和传播，而不是这些结果的创造。并且，虽然这些工具所自动化的任务需要专门的培训和专业知识来执行，但它们通常不需要理解一个职业更具哲学意味的方面，例如知识、美、意义或道德的本质 ⁵。当然，这类技术仍可能引发关于哲学主题的讨论——例如，关于一件原创艺术品是否具有任何机械复制品都无法恰当捕捉的内在审美或创造性特征，或者关于工业革命引起的劳动力流失的道德和伦理影响——但它们并不被认为会挑战作为这些讨论基础的根本哲学假设。例如，印刷机的发明彻底改变了信息和思想的交流，但它并没有显著改变人们对一个思想或一条信息本身是什么的理解；这些内容的原始生成仍然是由人类的刻意行为完成的。

2.2. 现代 AI

但是现代 AI 能够将创造过程的很大一部分自动化，使得批量生成智力产品（如艺术品、数学证明或科学/哲学理论）成为可能，而所需的人类监督远少于以往 ²。这在此类产品的外在形式与用于创造这些产品的价值观和思维过程之间，造成了前所未有的脱钩。例如，一个扩散模型现在可以创造出一幅美学上令人愉悦的风景画，这幅画并没有受到物理世界中任何特定地点的直接启发，尽管数不清的真实风景图像（以及许多与风景完全无关的图像）肯定被用来训练该模型的输出；因此，图像带来的审美反应变得与其美学的原始来源相脱钩。

这无论如何都不是新的哲学领域。塞尔（Searle）的“中文房间（Chinese room）”思想实验⁶ 关于一个被编程为用中文交流的机械设备是否真正理解这门语言的探讨，可以追溯到 1980 年。“AI 效应”也在这一时期被认识到；例如，在能够通过机械探索博弈树而“无意识地”击败国际象棋大师的国际象棋引擎出现之前，在国际象棋中表现出色被认为是衡量智力的好标准。然而在此之后，用于智力测试的“国际象棋测试”基本被抛弃。著名的“图灵测试”（判断 AI 是否能以一种与人类无法区分的方式交谈）类似地也被现代 LLM 有效地通过了（例如，见 ⁷），从而使其放弃了作为人工智能“黄金标准”的昔日地位。关于更近期的讨论，见 ⁸。

就目前而言，我们仍然可以指出“基本”理解的标志，例如连贯地解释和捍卫导致新艺术品、数学证明或其他智力产品的创造过程的能力（或缺乏这种能力），这仍是区分人类与 AI 生成内容的有效测试标准。但如果未来几代 AI 也能以某种方式令人信服地通过这些测试，我们是否必须再次重新定义智力、理解和创造力到底是什么？诸如数学和人文学科等领域的定义、价值观和目标是否需要重新评估？我们又该赋予这些日益复杂的 AI 工具什么地位——它们将是助手、合著者，甚至是拥有自身权利的独立创作者？如果是这样，我们应该如何对待它们生产的内容，以及产生这些内容的智力过程？

3. 数学作为 AI 使用的沙盒

关于 AI 的此类更广泛的哲学问题极其复杂且多面，我们当然不奢望对其中任何一个问题有决定性的解决方案；而且这个领域的变革速度极快，以至于我们做出的任何断言都有被惊人的新技术进步所超越的风险。然而，我们可以提供一些来自数学界的视角，这既包括纯数学推理的领域，也包括现代数学分析在人文学科中新兴的应用。我们将数学视为探索诸如 AI 跨科学（及整个社会）影响等广泛问题的合适“沙盒”，因为它具有更古老和更高级的基础，并且就其本质而言，非常适合探索各种与现实相悖的假设性抽象场景。我们希望从将 AI 融入（或不融入）数学中学到的经验教训，能够为理解 AI 将如何与科学和整个社会互动提供更广阔的视角。

前沿的 AI 模型现在能够解决越来越复杂的数学问题，其证明可以独立验证，而无需直接模仿人类数学家解决问题的实践（例如先测试特殊情况，然后从这些例子中进行推广），尽管其训练数据中会包含以这种传统方式生成的证明。因此，数学家们将越来越频繁地遇到一种情况：证明定理的能力与发现和理解此类证明所需的推理过程相脱钩。这助推了现代数学中业已存在的去中心化趋势；在一个范围极其广泛的应用都需要高级数学的世界里，由一个中央权威机构规定数学正统实践的“布尔巴基时代（Bourbaki era）”⁹ 已经过去几十年了 ³。

在当前的技术状态下，最复杂的 AI 工具仍然表现出明显且常常令人匪夷所思的弱点；它们能在某些任务中取得惊人且超人的表现，同时又在另一些任务中表现出令人捧腹的基本误解和错误。数学也不例外。AI 生成的数学可以在表面上显得完美无缺——这是意料之中的，因为这些模型被设计成产生尽可能在视觉上接近正确的人类生成证明的输出——同时却会犯下根本性的错误（例如，断言所有奇数都是素数），而这种错误在一个人类数学家受训的早期阶段就会被纠正掉，这种错误通常会使整个论证变得毫无意义、无法挽救。同时，这种主要关注生成看起来不错的输出，而不是关注传统上用于创造这些输出的基本认知过程的“自上而下”的方法，可能出奇地有效；同一个经常犯低级数学错误的 AI，也能神秘地以优于人类专家的准确性得出复杂数学问题的正确答案，甚至提供一个奇怪但在技术上能够正确证明答案有效的推导过程。

人们目前正在投入巨大努力，尽可能减少或消除 AI 的这些弱点；通常不是通过直接增强 AI 对任何给定智力任务的内在“理解”，而是通过将此类 AI 工具置于独立测试、训练和验证的严格环境中，以降低数字级别的错误发生率。完全自主的 AI 目前仍然无法解决深奥的数学猜想，但在不久的将来，此类 AI 工具非常有可能在这类探索中极大地协助人类数学家，即使我们仍会犹豫是否将这种协助描述为真正智能思想的表达。尽管如此，对待像数学这样智力要求极高的学科，这种机械且容易出错的方法却能（或即将）生成那么多传统的学科质量标志，这一事实表明，我们必须重新评估我们对于智力或创造力到底是什么以及如何衡量它们的模型。

4. AI 与数学真理的本质

4.1. 数学与证明标准

数学 ¹⁰ 在确立客观证明标准方面有着悠久的传统，从欧几里得开始，并在二十世纪初数学建立起稳定且（在经验上）安全的基础时得到了完善。人们已经注意到（例如，见 ¹¹），对这些基础几乎普遍的接受，赋予了现代数学一种罕见而宝贵的能力，即能够在领域内就任何给定的论点或断言的有效性达成共识。因为（在原则上）人们可以坚持要求这些论证被极其详细地阐述出来，以便每个单独的步骤都可以被检查为对标准公理和数学逻辑推理规则的正确应用。一个典型的例子是纳尔逊（Nelson）¹² 在 2011 年声称皮亚诺公理在逻辑上不一致；这是一个非常偏离数学主流的说法，然而人们可以通过指出其论证中的一个细微缺陷来解决这个问题，纳尔逊欣然接受了这一点并撤回了该主张。

然而在实践中，人类数学家的论证却往往达不到完美严密证明的理想状态；文献中出现小错误和大错误是很常见的，其中一些通过正式的勘误表或修订版得到纠正，而另一些则被忽视，或作为该子领域“民间传说（folklore）”的一部分被非正式地流传。在启发式层面上似乎合理的论证常常只需极少的检查就被接受，而那些违背传统智慧的令人惊讶的断言则会遭到强烈的怀疑，即使这些论证在逐行阅读后最终被证明是正确的。

4.2. 气味测试 (The Smell Test)

时至今日，这种事态依然令人基本满意；遵循良好启发法和直觉的人类数学家倾向于产生基本上正确的令人信服的证明，大部分错误是可以修复的。相反，缺乏这种直觉的数学家倾向于产生包含足够多表面问题的证明，以至于人们在仔细检查之前就可以有理有据地对其中的内容产生怀疑。非正式地讲，人类生成的数学论证往往带有 ⁵ 一种“气味（smell）”，有经验的数学家（也许是下意识地）利用这种气味来获得他们对该论证信服度的初步印象，这远在他们能够检查该论证的各个步骤之前。例如，Aaronson ¹³ 的博文“判断声称的数学突破存在错误的十个迹象”列出了一些表现出这种“坏气味”的论证的常见例子，人们在定位到所提议的论证中的特定逻辑缺陷之前就能很容易地察觉到。而且并非所有错误都是同样灾难性的；有些错误甚至可能具有一些有益的价值，例如在能够完全验证之前揭示了一种很有希望的方法 [^16]。

正如 Thurston ¹⁴ 所指出的¹⁵，一种良好“气味”的组成部分，是该论证提供了理解或洞察力的感觉；它不仅仅展示了一组特定的假设能够在逻辑上推导出一个给定的结论，而且还提供了一个因果叙述，说明这种推导为何成为可能，论证的哪些部分承担了“重任”，哪些部分与以前的文献相比是新颖或令人惊讶的，哪些是常规的技术考量。对数学文本的此类解释和印象通常没有被捕获在严格数学的官方框架内，例如一阶逻辑或集合论；但它们对于允许阅读该论证的人类数学家得出更广泛的教训，即人们如何期望该论证推广到其他设置，或与文献中的其他方法相互作用，是至关重要的。这种叙述结构也有助于增强对论证稳健性的信心；计算中一个位置放错的符号可能会使冗长的数学论证失效，但如果该证明有一个清晰的策略，根据以前文献中成功的类比，说明如何系统地隔离和解决论证中的关键困难，那么论证中的局部错误就更有可能被修复，同时依然忠实于原始证明的精神。

4.3. 形式化能否成为救星？

有几个发展趋势可能会迫使数学界重新评估这种半形式化的证明标准。其中之一具有技术性质：随着数学变得成熟并变得更加复杂（并且越来越依赖计算机辅助），论证变得越来越长、越来越复杂，某些领域的前沿论文通常超过一百页，使得人类审稿人的逐行验证变得越来越繁重。在实践中，这意味着这种仔细的检查并不总是被执行的，除了最引人注目和最重要的结果外，这导致人们越来越（过度）依赖前面提到的“气味”感来评估数学论证的可靠性。

通过技术手段解决（或至少改善）此类问题似乎是可能的，特别是通过更广泛地部署形式化证明助手（如 Lean 或 Rocq），如果数学论证以某种精确的计算机语言编写，它们就可以自动检查其有效性¹⁶。这种形式化目前仍然过于繁琐，无法系统地部署（将传统上非正式编写的证明转换为这种形式语言通常需要比最初编写该证明多花五到十倍的时间），但目前正在进行重大努力以使该过程变得更快和对用户更友好，例如通过集成 AI 工具来实现部分（或甚至可能完全）的“自动形式化” ¹⁷。

4.4. 形式化验证的局限性

但是，即使解决了此类技术问题，并且数学证明通常都带有正式的正确性验证，也会出现几个新问题，特别是在不久的将来，越来越复杂的论证可能部分或完全由 AI 工具生成。首先，形式验证只能证明形式化论证建立了一个形式化数学陈述，但不能排除形式化陈述与原始意图陈述之间转换时出现的错误。例如，费马大定理断言，对于任何大于 $2$ 的自然数 $n$ ，方程 $a^{n} + b^{n} = c^{n}$ 没有自然数解 $a, b, c$ ；但在这种非正式描述中隐含了一个约定，即自然数从 $1$ 开始而不是从 $0$ 开始。受命解决此问题的 AI 可能会错误地假设 $a, b, c$ 允许为零，并据此产生一个（形式上经过认证的）证明，证明费马大定理是错误的！因此，虽然形式化原则上可以显着减少对非正式数学文本进行仔细人类审查的需求，但它并不能完全消除这种审查的需求 ¹⁸。

其次，即使在高级数学的纯粹抽象环境中，也只有一部分给定的论证可以用适合形式化的演绎逻辑类型来表述。虽然演绎证明仍然是大多数数学工作的关键核心，但在该核心周围存在着启发式、经验或元数学推理的“半影（penumbra）”，它提供了关于为什么论证有效、是否可以扩展到其他上下文、探讨这些问题的动机是什么，以及人们如何从更基本的原则重建该论证的宝贵信息。人类撰写的证明，就其性质而言，往往会在写作过程中有机地提供这种“半影”（特别是如果作者善于阐述的话）；但是，一个专门针对形式正确性标准进行训练而牺牲了所有其他考量的 AI，可能会产生一种“无气味（odorless）”的证明。这种证明表面上类似于写得很好的人类证明，甚至可能通过形式化验证测试，但却让人感到一种奇怪的不满足——虽然它在字面上实现了建立给定数学主张的明确目标，但对于该主张所属的更广泛数学领域，却未能提供人们所期望的深刻洞察。在一个所有媒体输出都被 AI 打磨得闪闪发光的世界里，包括排版精美且带有明确 GPT 生成解释的数学证明，如果我们抛弃那个更脏、更混乱的手写（或至少是人类手工输入）文本的世界，是否意味着我们失去了某种东西？

4.5. 对早期挑战的适应

数学界已经适应了其证明标准面临过的早期技术挑战。大型计算机辅助证明，例如四色定理的证明 ¹⁹ 或开普勒猜想的证明 ²⁰，最初非常有争议，因为手工完全检查是不切实际的。但随着时间的推移，为这些类型的论证确立了建立信心的新标准，例如提供可复制的代码，将论证中的计算部分隔离在与论文的更具概念性的方面分开的特定、清晰陈述的引理中，并提供额外的相关数据和“校验和（checksums）”以检查计算机生成的计算是否与各种“健全性检查”相符。实际上，这些发展将数学中的证明标准推向了自然科学的方向，在自然科学中，理论论证和经验实验（当被适当地设计、执行和报告时）都是科学真理的可接受来源。

4.6. AI 辅助数学的演进

随着大量 AI 辅助或 AI 生成数学的出现，类似的演变也会发生 ²¹。产生经验证的演绎证明的负担可能越来越多地落在计算机而不是人类身上，证明将越来越多地被重构 ²²，以便过去需要精心安排以供人类验证的繁琐计算，将越来越多地外包给软件工具。例如，数学中那些臭名昭著的短语，如“证明留给读者”或“通过标准论证，我们有……”，将被调用 LLM（大型语言模型）所取代，该模型能够产生既可读又可被计算机验证的针对此类主张的证明。随着自动形式化技术的进步，探索给定论证如何随着数学基础的特定选择而变化也将变得明显更加容易，从而允许在讨论数学结果的同时，对其元数学 ²³ 层面进行严格的讨论和探索。

与此同时，未来的人类数学家可能会更加关注数学推理中“更软”的方面，例如启发式方法、追求某个结果或为其选择证明策略的动机、支持（或反对）该结果的实验证据 ¹¹，或导致发现可行论证的试错过程。这些方面不像演绎证明那样容易自动验证和测量，因此不太容易 ¹² 应用强化学习等机器学习策略。可以想象，专业数学家可能会越来越多地采用 ¹³ 其他学科（例如理论和实验科学，甚至人文学科）的论证模式，以其他类型的推理来支撑其核心演绎论证，例如对实验数据进行统计分析，或在已证实的数学结果和非严谨哲学原则双重指导下进行推测性理论建构。从历史上看 ²⁴，数学家一直不愿意偏离严格演绎证明的“黄金标准”太远，部分原因是，当人们不再遵守这样的标准时，往往会产生许多低质量数学的明显例子 ²⁵。但是，在未来可以自动且高度可信地生成和验证证明的时代，我们可能有更多机会安全地探索这些更广泛的数学推理和讨论模式。

这些新技术也可能对数学的长期目标产生重大的负面影响。在教育层面，我们已经看到许多学生几乎立刻求助于现代 AI 工具来完成布置的功课，以实现针对给定问题产生可验证答案的直接目标，代价却是未能发展更具持续性的数学技能和直觉。同样在研究层面，数据驱动数学的“第四范式”²⁶ 可能会如此成功，以至于排挤掉了传统的经验证据、理论推理和计算数值范式（其中第二种是目前纯数学的主要范式），同时也排挤了人类数学家 ²⁷ 从视觉、动觉和其他感官直觉，或从我们对物理、经济、生物学定律等的熟悉中获得的巨大价值。即使假设形式化方法得到完全可信的实现，在数学研究领域不加批判地拥抱 AI 辅助可能会导致一种不希望看到的结果，即大量 ²⁸ 主要由 AI 生成的论文泛滥，这些论文包含在技术上正确且较新的结果，但不为更广泛的数学叙事做出贡献，并且不能为作者或读者建立直觉。此类低质量工作产生的负面印象可能会导致人们对即使是最谨慎、最负责任的 AI 数学辅助应用产生抵触情绪（污名化），这反过来可能抑制此类技术的潜在积极效益，例如上述以更广泛、更全面的方式探索数学的能力。

4.7. 将哲学问题应用于现实世界中的 AI 使用

任何作为其他研究基础参考的内容都承担着额外的责任，数学也不例外。我们可以正式证明任何 AI 生成的数学论证的有效性；但有效性只是价值的一个组成部分，在向现实世界展示 AI 驱动的研究时，细致的价值判断是必要的。在潜在的大量平凡和非平凡发现中，研究人员发现哪些元素特别有趣并且值得在研究领域内外分享，以及该材料如何向更广泛的受众呈现，目前在人类研究人员之间尚未标准化。在如何分配优先权和荣誉方面也存在不确定性。AI 辅助研究还带来了新的伦理和法律影响，以及关于 AI 生成内容（包括证明）知识产权方面尚未得到解答的问题。

什么原则应指导研究人员决定一种 AI 模型或另一种 AI 模型的适用性和最佳应用？或者 AI 是否是一个好的选择？在学术领域，假设大多数走上学术研究道路的人这样做是出于让世界变得更美好并做出有意义贡献的愿望，这并非不合理。数学家会优先考虑对数学最有利的使用场景。各个领域的研究人员通常不仅会优先考虑那些有益于自己领域的使用，而且会优先考虑那些具有跨学科优势的使用。并且可以假定，大多数将 AI 用于研究目的的人会优先考虑那些有益于人类的使用，而不是那些有害于人类的使用。因此，重要的是在 AI 发展领域内，必须强调谁正在从这些工具中受益以及正在发生什么好处，以帮助人们了解如何负责任地尽可能优化结果。

4.8. 知识产权与责任

仅知识产权和责任（或者可能是问责制）问题本身就是一个雷区，需要仔细讨论。当 AI 被应用于一个问题时，谁该为错误负责？谁为得出的洞察力获得荣誉？这些可能不是同一个主体，也可能不是界限明确的主体。到目前为止，大型语言模型（LLM）所积累的大部分训练数据，都（被其开发者）以属于“合理使用（Fair Use）”原则为由进行了辩护。在美国，“合理使用”的适用性具有一定的灵活性，取决于（其中包括）IP 使用的目的 ²⁹。作为一个思想实验，我们可以考虑是否“利益越大意味着合理使用的范围越大”³⁰。如果目的是从迫在眉睫的末日中拯救世界，声称使用所有记录在案的知识属于合理使用，这合理吗？如果它是在把世界从一个更遥远的生存威胁（例如气候变化）中拯救出来，如此广泛的应用是否仍然适用？如果是“仅仅”终结所有疾病呢？或者仅仅是根除癌症呢？由于所有这些都被假定为 AI 的有益应用，那么允许 AI 使用所有记录的信息以使这些奇迹成为可能，这是否合理？

除了对“合理使用”进行极其广泛的解释这种有问题的论点外，迫切需要制定明确的荣誉分配和引用标准及协议。AI 用例不仅会利用研究人员的数据，还会利用 AI 之前受训时获取的信息、决定 AI 使用哪些信息进行训练的选择（由软件工程师和设计师做出，他们可能与初级研究人员没有互动），当然，还有 AI 本身的贡献。传统的学术引用系统是否足以在一个可能拥有成百上千个“隐藏”贡献者的情况下分配适当的荣誉？还是简单地引用 AI 模型本身就足够了？未公开使用 AI 来完成研究论文的很大一部分写作工作激起了特别强烈的反应，许多学者认为这种做法无异于剽窃；具有讽刺意味的是，这导致一些从其工具中受益的研究人员更加掩盖他们的使用情况。很明显，关于 AI 的披露和使用，需要制定新的专业标准和实践 ³¹。

AI 还濒临创造潜在广泛的循环引用（circular citation loops），这一过程在 2001 年被兰道尔·门罗（Randall Munroe）幽默地称为“引文自生（citogenesis）”¹⁹。例如，继最近 AI“深度研究”工具 ³² 在揭示隐藏在晦涩文献中的开放问题解决方案方面取得成功后，本文第二作者协助在一个数学开放问题网站 ³³ 上发起了一项工作，系统地使用这些工具来报告关于这些问题的已知文献，或指出文献的缺失。虽然这为该网站增加了真正的价值，但我们也发现深度研究工具将这些报告作为其搜索的权威来源。这就产生了意想不到的后果：在该网站上总结这些搜索结果，反而干扰了后续使用这些工具来发掘关于这些问题的真正新文献的工作！因此，即使没有恶意意图，这些工具日益增长的威力也要求对被引用信息的来源进行更彻底的审查。

5. AI 的成本与收益

5.1. 经济和社会影响：谁是受益者？

鉴于 AI 对个人的影响已经如此之大，以及其快速的发展步伐，人们很容易看到一条路径，即 AI 会扩大规模从而成为一种威胁全人类物种生存的威胁。在向前迈出的任何步骤中，开发者和其他有影响力的人士都需要仔细考虑谁从这些进步中受益，谁受到伤害。我们建议，任何进一步的发展都应优先考虑全人类的利益，并且 AI 应用程序应保持对人类（个人或集体）有直接用途。

对于每一个单独的用例，都应进行评估以明确谁是预期的受益者。这种特定的 AI 模型或模型的实施将使整个社会受益，还是只为少数人带来切实利益（如节约成本）？AI 工具的威力和复杂性如此之大，以数百万人的代价换取少数个人的极端经济利益，这在道德成本上是让人无法容忍和不能接受的。我们必须促进这样一种 AI 的实施：它保护并珍视人类的人性，而不是将其商品化。

我们不需要走得很远就能找到将资本置于人类福祉之上的灾难性后果。十九世纪初自称为“卢德分子（Luddites）”的诺丁汉纺织工人经常被定性为武断的反技术和反进步者，他们暴力反对自动化使他们失去工作并用低技能和低工资的工人取代他们。在一个以高失业率和通货膨胀猖獗为特征的严酷经济环境中，对他们工作的直接威胁对他们的生计构成了生存威胁。虽然我们回顾工业革命的自动化时认为它对社会普遍有益，但这些收益是伴随着真实的、可衡量的人类成本而来的。

如今，与卢德分子时代不同，我们已经看到熟练工人不是被低薪人类劳动力取代，而是被 AI 取代。入门级工作在历史上一直是新兴一代劳动者走向经济和社会繁荣的道路。当它们简单地消失时，机会也随之消失。当人类发现自己直接对立于那些本有望改善他们生活质量的工具时，绝望和怨恨会积聚成愤怒和愤慨。

正如所有新兴技术都会对全人类产生一些好处一样，它们也会带来真实的人类成本。对于像 AI 这样一种具有彻底颠覆性的技术，必须在地方层面和全球层面对人类成本进行量化，并与收益进行仔细权衡。我们用于这种评估的指标仍然模糊且不明确。我们是否继续像过去那样关注金钱的得失？我们是否应该考虑资源获取的增加与资源流失之间的平衡？我们是否考虑生活质量和幸福感等更无形的收益，如果考虑，我们如何将这些无形收益与更定量的收益进行比较？

不幸的是，目前的商业环境正在寻求一种“奇迹武器（Wunderwaffe）”，这种武器正被优化以追求力量和尽可能广泛的影响，希望它能够超越任何潜在的问题。但是，如果为了少数人的利益而未能考虑到我们新兴技术的人类成本，这对全人类将是极大的伤害。此外，在目前这种不考虑 AI 是否为最终用户提供任何有意义利益的情况下，就几乎在社会的各个领域同步实施 AI 的环境，只会疏远并挫败各行各业的人。我们已经看到，在未经同意的情况下将技术强加于个人的自然反应——他们感到失去了控制，他们的第一直觉是拒绝所有 AI 技术，即使冒着把“婴儿（为他们的生活带来可量化利益的 AI 应用）”和“洗澡水”一起倒掉的风险。如果我们能够把我们的技术首先集中在量化地改善大多数或所有人的生活上，我们就不太可能走向自我毁灭，而如果我们仅仅将这些技术聚焦于机械劳动力、数字劳动力和人类劳动力的商品化，危险就会大得多。

5.2. 清点 AI 的成本

除了直接的人类成本外，如果不考察其他更不透明、更隐蔽的成本，就不可能进行任何合乎道德的 AI 实施。开发和建立有效的 AI 基础设施最大、最直接可见的成本在于这样一个现实：与 1970 年代的计算革命不同，这些技术不能作为一种业余爱好或家庭作坊式的产业来开发——不存在一个装满计算机零件的车库能让史蒂夫·乔布斯那样的单个创新思想家用来建立一个帝国。所建立的 AI 模型需要对硬件、服务器、人才和预训练进行大规模投资，在此之后你才可能得到一个能运作的 AI，更不用说是一个能盈利的 AI。

对于 AI 开发所需规模的一个更好的比较，是 19 世纪下半叶在美国建立的横贯大陆的铁路网络。铁路公司在第一列火车能够快速可靠地将货物从爱荷华州运送到旧金山（从而释放出这些公司所押注的经济回报）之前，必须开发和制造庞大的机车车队，并规划和铺设数千英里的铁轨。

用于基于 AI 的技术的前期巨额支出促使开发者追逐利润驱动的资本主义模式，创造了一个新的技术精英阶层，他们掌控着巨额投资资本和管理债务，同时通过战略演习来夺取和持有有限的资源（在土地、能源、水、熟练劳动力等方面），就像 19 世纪镀金时代的“强盗贵族”所做的那样。与那个时代一样，这些投资的规模导致了整个发达世界在经济稳定性、获取这些技术的机会以及整体生活质量方面的大规模不平等。

我们的社会已经开始认识到大规模 AI 需求带来的巨大环境成本。高昂的能源和水资源消耗给生活在这些 AI 模型所需的庞大设施阴影下的人们带来了严重的日常挑战。有人提出可信的建议（例如，见 ³⁴），应用 AI 生成的解决方案可以用来减轻或消除两个世纪以来人类使用技术造成的沉重气候成本。而且随着基础设施的建立以及计算效率得到更高效利用，操作这些工具的边际成本可能会随着时间的推移而下降。然而，到目前为止，所有正在运行的大型 AI 模型都没有提供出一种甚至能抵消自身资源消耗和废弃物排放的解决方案。

此外，值得注意的是，现代 AI 工具并不通过在物理世界中的体现，或理解我们现实物理定律的不可变性质来追求或直觉“真理”；相反，这些模型严重依赖人类生成的数据（往往没有归属），以及大量的人类反馈来迭代改进自己。如果无法显着降低对人类智力劳动的依赖，模型的构建就存在将 AI 生成的信息污染我们集体信息库的严重风险。在“AI 崩溃（AI collapse）”³⁵ 成为一个严重问题之前，AI 能够被用来在一个领域中生成“新信息”的数量是有一个明确限度的。如果没有足够数量的真实内容，AI 就会脱离现实，陷入一种与现实世界脱节的思维模式中，从而极大阻碍在人类/AI 界面上的有意义互动。数学因为其具有形式验证过程，可能比其他领域对 AI 污染具有更高的容忍度；但正如我们所看到的，它并非对这种危险完全免疫。

5.3. 数字鸿沟 (The Digital Divide)

进一步需要考虑的一个重大社会成本是 AI 技术加剧现有不平等或创造新不平等的潜力。原则上，所有人都有能力利用他们天生的智力天赋（当然假设有足够的教育和支持性环境）；但前沿 AI 模型的应用趋势已经表明，大规模的 AI 工具可能只提供给资金充足或人脉广泛的研究小组，或者只提供给那些最愿意交出个人数据并对使用此类模型的任何伦理担忧视而不见的个人。这就造成了在拥有 AI 者和不拥有 AI 者之间一个根本的“数字鸿沟”。

当 AI 具备从根本上提升研究表现的能力时，优先考虑公平访问至关重要。然而，在当前的 AI 领域，出现了第二层更微妙的数字鸿沟。当占据主导地位的 AI 模型被资本化、私有化并为了有限的资源（投资和受依赖的用户群）而竞争时，它们被（也许是无意地）激励去开发“尖峰（spiky）”能力以保持相互间的竞争优势，而不是在不同领域提供一致且均衡的性能。由于机构谈判和市场限制，个人被迫锁定在某一个模型而放弃其他模型，我们必须考虑到某个模型在特定研究领域将带来超越另一个模型的有意义优势的风险，这即使在能可靠且容易获取 AI 资源的子群体内部也会造成分裂。

另一方面，AI 模型在科学和人文学科研究中的许多好处，并不一定需要最先进的模型。较小的“本地模型”，以及非 LLM 技术（如证明助手），证明其有能力比必须通过大型数据中心处理所有人类知识总和的模型更快、更有效地返回有意义的结果。从现有较大模型中提取较小模型具有巨大的潜力，这样既能利用最先进的 AI 能力，又能通过精心针对特定研究兴趣领域的小型、用户自定义训练库来实现。也许一个由用户社区维护的、多样化的且目标更明确的小型模型阵列，可以作为目前极其庞大和昂贵模型的有竞争力的替代方案出现。增加对这类社区项目的支持，可能有助于缓解访问不平等的问题。

虽然这些较小规模的项目中有许多可以切实地通过较小规模的公共和私人机构开发和运行，但行业从业者和政策制定者已经呼吁采取监管行动来创造和保护人们平等获取 AI 技术的机会 ³⁶。作为该努力的一部分，投资开发面向公众的跨国（或国家级）高级 AI 研究联盟以及开发一个大型的、由公共资金资助且公众可访问的 AI 资源（或模型）³⁷，将带来巨大的好处，可以轻而易举地为那些可能被目前主导该领域的私人企业化模型抛在后面的个人和团体提供 AI 获取途径。

5.4. 减少伤害

在航空早期，飞机旅行是一项极其不安全的技术，发生过无数可怕的事故。如今，它已成为长途旅行中最安全可靠的交通方式。正如 AI 在短期内有潜力导致灾难性后果一样，为了让它遵循类似的发展轨迹（希望造成致命事故更少），将需要采取果断行动来减少伤害。必须制定最佳实践³⁸，并设计培训和监管，以加强最负责任的技术用途，同时阻止或禁止隐蔽或有害的用途。

这是一根难以穿过去的针。一方面，一位谨慎负责地使用 AI 辅助的个人，在短期内可能会被那些使用更快捷但不可靠的 AI 实践来加速工作的肆无忌惮的竞争对手所超越。同时，这类个人可能会因为敢于接受将这项技术纳入其职业工作流程的可能性，而遭到那些不信任 AI 的同行的嘲弄、谴责和排斥。当前对允许 AI 技术不受限制发展的主要是放任自流的方法，这似乎不能保证这种细致入微、负责任的采用方法能够胜出。

有一些先例可以借鉴指导。在二十一世纪初，维基百科（Wikipedia）的快速发展最初对教育系统造成了一些干扰，因为许多学生开始盲目地将这个在线资源中的文本逐字纳入他们的作业中，许多教师的反应是禁止使用该百科资源。当时对维基百科不可靠性和潜在偏见的批评司空见惯。然而，随着网站的成熟，以及学术界对其优缺点的熟悉，关于如何将这种资源纳入教育和研究中形成了一个粗略的共识。如今，鼓励或至少是宽容学生和研究人员一样，将维基百科作为关于给定主题的探究起点；并且，不是直接使用其文本，而是敦促学生跟进该网站提供的二手来源，或者通过独立的信息来源进行核对。今天，维基百科在学术界被广泛接受为一种有用的资源。

我们能在 AI 方面达到类似的负责任接受程度吗？我们对此持谨慎乐观态度；但这将需要持续的努力和明确的哲学指导。例如，我们认为将 AI 工具开发为造福所有人（或至少是大多数人），而不是少数特权阶层，这是一种道德和伦理上的必然要求；它必须为实际的人类需求创造解决方案，并尽可能提升人类的生活和体验质量；而且这些工具的真实或潜在危害必须被认识到、对照其益处进行评估，并尽可能得到缓解。我们不需要过度愤世嫉俗就能认识到，在实践中这其中的许多目标可能无法实现；但是对我们希望这些工具能够契合的价值体系进行辩论，是使实现这些目标成为可能的第一步。

随着在这些价值观上（希望）找到了一些共识，配合上述减轻 AI 最坏影响的行动，我们的注意力必须转向最大的摩擦来源——AI 与人类之间的接口。为了超越一种令人不安和不稳定的休战状态，我们需要开发方法，使个人能够以一种感到满足和振奋而不是苛刻和压迫的方式将 AI 工具融入到日常生活中。随着 AI 持续发展和演变，人类在 AI 的用途、互动，以及最终与 AI 的关系上，也需要随之演进——从方便的工具走向起辅助作用的伙伴，再到随时准备合作的协作者。

6. 人类 / AI 接口

6.1. 短期视角：AI 作为智力生产的“香草精”

我们应该如何概念化人类与 AI 工具之间的接口？在当下这一时刻，将这些技术主要视为好奇的对象仍然是有道理的，许多用户也不确定如何合理地应用它们。

我们建议通过一个烹饪学的类比来指导当前的过渡期：香草精（vanilla extract），一种大多数甜点配方中常见的配料，以其几乎让所有人觉得迷人的香味而闻名。如果单独摄入，香草精通常被认为是极其难以下咽的，但加入少量则被广泛认为可以改善和提升菜肴的其他风味，甚至在无法将它与其他风味区分开来的时候也是如此。虽然人们很容易得出结论认为香草精越多越好，但大多数使用过它的人都明白，存在某个上限，超过这个上限它就会完全毁掉这道菜 ³⁹。我们大多数人对那个上限到底是多少没有清晰的概念，所以发现最明智的做法就是让它只作为极其微量的添加物。

类似地，人们可以将当前的 AI 使用视为认知工作流程的一个可选附加物：适度进行实验是有趣的——通过 AI 语言模型跑一遍人类撰写的文本以获取语法和措辞建议，或者把一个要点列表交给 AI 让它组织成一个建议性的结构。这些轻微的点缀，就像少许香草精一样，会增强和丰富作品的特色而不会喧宾夺主。然而，如果在此类工作流程中将 AI 内容用作核心组件，则不会产生理想、有效或有价值的结果。基于这种理念（并在适当引用 AI 使用的情况下），眼下就没有迫切需要去重新思考关于人类在数学、科学或创意艺术等智力追求中角色的根本假设。

6.2. 中期视角：AI 作为“红队”

然而，随着这些工具能力增强并被更广泛地采用，人们“选择退出（opt out）”这些技术的能力将会减弱。即使一个人个人选择主动避免使用 AI 辅助，但与该个人互动的同事、学生和专业机构将越来越多地把 AI 融入到他们自己的工作中。当前存在一种严重的担忧，即学术话语的整个领域可能会被大量低质量的 AI 生成内容所淹没。在短期内，可以通过严格的编辑政策来禁止大多数形式的 AI 生成内容以应对这一问题；但随着这些工具变得更加普遍，个性化 AI 代理网络变得更加平常，一种更细致入微的方法将变得必不可少。

至少在中期阶段，我们仍然有可能而且有必要制定规则和指导方针，以识别 AI 更负责任的用途并阻止不负责任的使用，而无需根本改变各自领域的人文性质——简而言之，就是将 AI 辅助视为人类中心工作的工具或初级合伙人，而不是替代品。在这种情况下，区分 ²¹ 生成新内容和结构的“蓝队（blue team）”任务，与验证、测试或维护该内容的“红队（red team）”任务可能会很有用。在“红队”能力中利用 AI 审查人类生成的内容以寻找错误或提出改进建议相对安全；但由于当前和近期工具存在随机的不可靠性且缺乏与现实的根基（groundedness），将它们信任于超出“红队”（可以由人类或更自动化的验证工具如形式化证明助手组成）验证能力之上的任何“蓝队”结构生成能力是不安全的。在这一理念下，重点在于管理 AI 使用的潜在风险，同时仍然捕捉它的许多潜在好处，而不是从根本上重新思考该领域的本质。

6.3. 长期视角：哲学上的退却是不可避免的吗？

但是假设我们展望一个更遥远的未来，那时 AI 工具当前的弱点得到了令人满意的解决，其能力在所有实践维度上都达到或超过 ²² 专家人类水平，从而使得前面提到的“风险管理理念”显得过时。到那时，我们将如何应对这些由这种先进技术的变革性带来的复杂的哲学问题呢？

一种选择是直接退却到不再追究这些问题的纯技术框架中。在数学中，我们有“形式主义者（formalist）”的观点，其唯一目标是根据精确的规则操作数学符号。在科学中，“闭嘴，算就是了（shut up and calculate）”的务实哲学立场扮演着类似的角色；而在创意艺术中，人们可以作为工匠（artisan）而不是艺术家（artist）工作，创造出满足外部客户提供参数的作品，而不对产品的价值做出任何评判。在所有这些情况下，只要满足了任务的技术规范，就不需要区分人类生成的作品或 AI 生成的作品。

但是，尽管技术确实是每个学科的重要组成部分，它却不能涵盖数学、科学和艺术在实践中是如何进行的全部经验，也未能对此类实际问题提供多少指导，比如如何激励下一代学生，或追求什么方向的好奇心驱动的研究。因此，人们可以转而退却到一个完全不同的立场：赋予人类智力或人类创造力一种不可言传的特殊地位，从根本层面上永久地将任何行使人类特征或天赋的活动与该活动的任何人工复制品区分开来，无论后者在技术层面上能够多么准确地复制或超越前者。在这个框架中，人工智能将永远属于“没有真正的苏格兰人（No True Scotsman）”论点：缺乏真正的“灵魂”或“理解力”。由于长期熟悉我们自己的物种，我们习惯于人类不可靠、能力“参差不齐”，有时通过随机词汇联想和死记硬背侥幸成功完成任务；但当 AI 工具表现出类似行为时，人们可能会倾向于更加严厉地评判它们，例如将这种失败归咎于它们作为“随机鹦鹉（stochastic parrots）”的内在本质。但也许这种立场只是在否认一个令人不安的真相：即我们自诩的某些人类能力实际上在性质上并没有比我们现在设计来模仿它们的 AI 算法复杂多少。并且随着 AI 表现的不断进步，这种“人类沙文主义（human-chauvinistic）”的观点有退化为越来越站不住脚的“填补缝隙的上帝（god of the gaps）”哲学的风险——在这种哲学中，一份不断缩短的品质清单被吹捧为 AI 至今仍无法复制的不可或缺的人类成就标志。

第三种选择——特别受到这些技术的一些狂热爱好者青睐——是认为人类的所有认知能力都将很快被它们的 AI 对应物完全取代，使得关于人类贡献在数学、科学和艺术中价值与担忧的哲学讨论变得越来越没有意义。在这种立场的极端版本中，行使人类心智本身被视为一种不受欢迎和枯燥乏味的活动，应该尽快用自动化取而代之，以腾出时间和精神空间去进行更休闲或享乐的追求。显然，如果实施这种哲学将带来许多风险，例如人类能力的退化，以至于我们的物种集体将无法监控、控制甚至无法理解我们托付文明的日益强大的 AI 的行为 ⁴⁰。

然而，在这些作为“稻草人”的极端立场之间，似乎有一些哲学上的中间地带，可以为人类与 AI 代理之间的新兴合作与互补共存范式提供有用的视角。在国际象棋领域可以看到这方面的一个先例，国际象棋曾被视为纯人类智力典型的表现形式。人类特级大师能够击败国际象棋引擎已经过去了几十年了。尽管如此，国际象棋仍然是一项受欢迎且蓬勃发展的人类活动，国际象棋棋手将引擎融入到他们的训练中，使用它们重温旧的国际象棋理论并探索新的理论，探究原本无敌的 AI 棋手的漏洞和弱点，或创造性地引入涉及不同级别 AI 辅助的新形式比赛。关于国际象棋比赛究竟是什么，以及下棋的价值何在等哲学问题，继续具有探讨的价值；而目前被接受的答案并不像上面概述的三个极端立场中的任何一个。

6.4. 哥白尼式视角

一种可能是拥抱认知领域类似于天文学中哥白尼革命的观点。在古代，占据主导地位的宇宙学模型（在将宇宙视为机械机制的程度上）本质上是“地心说”，在这个模型中，地球作为静止的宇宙中心拥有特权的本体论地位，在性质上根本区别于上方天堂或下方冥界。然而，天文学和物理学的多项进步打破了这种观点，在几个世纪中相继证明了地球实际上是绕其轴线运动并绕太阳运行的，而太阳本身也绕着我们星系的中心运行，而我们的星系反过来又是缺乏任何空间中心概念的膨胀宇宙的一部分。事实上，采用一种完全相反的哲学观点变得极其富有成果，这种观点现在被称为哥白尼原则：即地球只是宇宙中无数行星之一，没有得到基本自然法则的任何优待。

乍一看，这种观点感觉非常威胁到人类对我们母星的情感依恋，但归根结底，宇宙对地球的不感兴趣与我们自己对地球的强烈投入之间并没有根本的矛盾；我们仍然可以非常有理由地将地球特有的问题置于其他行星的问题之上，同时又接受其他行星存在，并对它们自己的居民具有同等的重要性。在其他科学的历史发展中也可以看到类似的革命，例如达尔文革命废黜了人类在其他不断进化的物种中的独特地位，或废黜了欧几里得几何学作为数学中综合的先验真理来源的特权地位。

直到最近，我们的物种类似地接受了一种知识版本的地心说模型，其中人类智力站在认知宇宙的中心，因此赋予了它一种特殊的哲学地位。但现在我们正在发现（或创造）在许多方面与我们相媲美，同时在许多方面又截然不同的其他智力“行星”。不是否认这些行星的存在或重要性，也不是争论这些行星中哪一个配得上做“中心”，而是可以接受：人类智能和人工智能都存在于相同的本体论类别中，尽管有许多独特的差异和互补性。虽然我们的兴趣和依恋在很大程度上仍将与人类智力领域联系在一起，但可以探索它与其他形式智力的关系——这既是为了更有效地实现各种实际目标的现实目的，也是为了更多哲学层面的原因，例如获得对以前难以达到的对人类认知的外部视角。

7. 结论

将 AI 技术无序、混乱和广泛地释放到世界上，已经以既令人担忧又具有益处的方式极大地改变了社会、智力和经济领域。毫无疑问，无论是通过监管、市场压力，还是通过某种尚未明确的力量，人类都需要某种集体努力；目前我们肯定还没有达到一个不可逆的转折点（即我们尚能从这些新技术带来的高昂经济和社会成本中解脱出来）。将 AI 融入数学领域的方法，也同样迅速地展示了 AI 能够为学术研究、科学进步和整个人类带来的充满希望的好处。数学研究很大程度上具有客观和可验证的性质，这提供了一个独特的机会来试验这些新技术，并研究由此产生的影响，而且是以一种不会对个人或更广泛的社会构成伦理或生存风险的方式进行。从 AI 在数学中的应用中，我们能够探索更广泛全球 AI 使用所引发的紧迫的哲学和道德问题。进一步来说，我们可以推断出减轻 AI/人类接口紧张关系的潜在途径，并提出新的合作型 AI/人类思维范式，这种范式尊重每种模态给“隐喻的餐桌”带来的独特和有价值的品质。虽然我们永远无法将精灵收回瓶子里，但我们乐观地认为，随着我们的理解和行动迅速推进，我们依然能够拨开迷雾，望向一个光明（尽管有些不确定）的未来。

7.1. 致谢

我们感谢 Silvia de Toffoli 提供的有用评论和参考资料。

参考文献

J. Jumper, R. Evans, A. Pritzel, 等 (2021-08) 利用 AlphaFold 进行高精度蛋白质结构预测。《自然》 596 (7873), 583–589页。外部链接：ISSN 1476-4687, 文档被引用：§1。↩
S. Marche (2022-12) 大学论文已死。被引用：§1。↩
F. Swain 如果可以拯救生命，使用纳粹研究是对的吗？。注：https://www.bbc.com/future/article/20190723-the-ethics-of-using-nazi-science 被引用：§1.3。↩
A. Tarkowski (2024-06) 开源与 AI 的民主化。见《人工智能与全球治理的挑战：关于实现负责任 AI 的九篇论文》, A. Krasodomski (编辑), 30–36页。外部链接：文档, ISBN 978 1 78413 608 6 被引用：§1.3。↩
J. Chun 和 K. Elkins (2023-10) 人工智能危机：面向以人为本 AI 的新数字人文学科课程。《国际人文与艺术计算杂志》 17 (2), 147–167页。外部链接：ISSN 1753-8548, 文档被引用：§2.1。↩
J. R. Searle (1980-09) 心智、大脑与程序。《行为与脑科学》 3 (3), 417–424页。外部链接：ISSN 1469-1825, 0140-525X, 文档被引用：§2.2。↩
Q. Mei, Y. Xie, W. Yuan, 和 M. O. Jackson (2024-02) 判断 AI 聊天机器人在行为上是否类似于人类的图灵测试。《美国国家科学院院刊》 121 (9), e2313925121。外部链接：文档被引用：§2.2。[^30]: E. Oh, W. Kearns, M. Laine, G. Demiris, 和 H. J. Thompson (2022-01) 对使用人工智能的消费者睡眠技术的看法和经验。《Sensors》 22 (10), 3621。外部链接：ISSN 1424-8220, 文档被引用：§1.2。↩
H. Chen, S. R. Grimm, O. Russakovsky, 和 T. Lombrozo () 机器理解。注：未发表预印本。被引用：§2.2。↩
M. Mashaal (2006) 布尔巴基：一个数学家的秘密社团。美国数学会，罗德岛普罗维登斯。外部链接：ISBN 978-0-8218-3967-6 被引用：§3。↩
(1981) 数学经验。波士顿：Birkhäuser出版社。外部链接：ISBN 978-3-7643-3018-7 被引用：脚注 4。↩
R. Wagner (2022-12) 数学共识：一个研究计划。《Axiomathes》 32 (3), 1185–1204页。外部链接：ISSN 1572-8390, 文档被引用：§4.1。↩
J. Baez 算术的不一致性。注：https://golem.ph.utexas.edu/category/2011/09/the_inconsistency_of_arithmeti.html 被引用：§4.1。↩
S. Aaronson (2008-01) 判定声称的数学突破有误的十个迹象。被引用：§4.2。↩
W. P. Thurston (2006) 论数学中的证明与进展。见《18篇关于数学本质的非传统文章》, R. Hersh (编辑), 37–55页。外部链接：文档, ISBN 978-0-387-29831-3 被引用：§4.2, 脚注 14。↩
T. Tao (2007) 什么是好的数学？。《美国数学会公报》 44 (4), 623–634页。外部链接：ISSN 0273-0979, 1088-9485,文档被引用：脚注 6。↩
S. de Toffoli 和 F. Tanswell (2025) 数学中的技术转向。《布莱克威尔数学哲学指南》。被引用：§4.3。[^16]: S. DeDeo (2024-07) AlephZero 与数学经验。《美国数学会公报》 61 (3), 375–386页。外部链接：ISSN 0273-0979, 1088-9485,文档被引用：§4.2, 脚注 8。↩
Y. Wu, A. Q. Jiang, W. Li, 等 (2022-12) 使用大型语言模型进行自动形式化。《神经信息处理系统进展》 35, 32353–32368页。被引用：§4.3。↩
F. Tanswell (2025-06) 数学可以被黑客攻击吗？基础设施、人工智能与……。艾萨克·牛顿数学科学研究所。被引用：脚注 7。↩
K. I. Appel 和 W. Haken (1989) 每个平面地图都可以四着色。第 98 卷，美国数学会。外部链接：ISBN 978-0-8218-5103-6 被引用：§4.5。↩
T. C. Hales (2005) 开普勒猜想的证明。《数学年刊》 162 (3), 1065–1185页。外部链接：20159940, ISSN 0003-486X 被引用：§4.5。↩
A. Venkatesh (2024-02) 关于自动化和数学研究的一些想法。《美国数学会公报》 61 (2), 203–210页。外部链接：ISSN 0273-0979, 1088-9485, 文档被引用：脚注 8。↩
H. Macbeth (2024-05) 形式数学中的算法与抽象。arXiv。外部链接：2405.04699, 文档被引用：脚注 9。↩
J. Stillwell (2018) 逆向数学：从内部证明。普林斯顿大学出版社，新泽西州普林斯顿。外部链接：ISBN 978-0-691-17717-5 被引用：脚注 10。↩
A. Jaffe 和 F. Quinn (1993) “理论数学”：走向数学与理论物理的文化综合。《美国数学会公报》 29 (1), 1–13页。外部链接：ISSN 0273-0979, 1088-9485, 文档被引用：脚注 14。↩
M. Kim 思考与解释。注：MathOverflow (版本: 2024-01-05) 外部链接：https://mathoverflow.net/q/38694 被引用：脚注 15。↩
T. Hey (2012) 第四范式——数据密集型科学发现。见《电子科学与信息管理》，S. Kurbanoğlu 等 (编辑), 第 317 卷, 1–1页。外部链接：文档被引用：§4.6。↩
(2024-05) AI 达到解决国际数学奥林匹克问题的银牌标准。注：https://deepmind.google/blog/ai-solves-imo-problems-at-silver-medal-level/ 被引用：脚注 16。[^3]: D. Anguiano 和 L. Beckett (2023-10) 好莱坞编剧如何战胜 AI——以及这为何重要。《卫报》。外部链接：ISSN 0261-3077 被引用：§1。↩
C. J. Rittberg (2023-04) 数学中合理的认知排斥。《Philosophia Mathematica》 31 (3), 330–359页。外部链接：ISSN 1744-6406, 文档, 链接被引用：脚注 17。↩
版权与合理使用 | 法律顾问办公室。注：https://ogc.harvard.edu/pages/copyright-and-fair-use 被引用：§4.8。↩
A. Weir (2022) 第 11 章。见《挽救计划》(Project Hail Mary)，企鹅图书，191–194页。外部链接：ISBN 978-1-5291-5746-8 被引用：§4.8。↩
在论文中整合 AI 等的最佳实践。注：https://ai-math.zulipchat.com/ 被引用：脚注 18。↩
S. Bubeck, C. Coester, R. Eldan, T. Gowers 等 (2025-11) 使用 GPT-5 进行早期科学加速实验。arXiv。外部链接：2511.16072,文档被引用：§4.8。↩
T. F. Bloom Erdős 问题。注：https://www.erdosproblems.com/ 被引用：§4.8。↩
J. Cowls, A. Tsamados, M. Taddeo, 和 L. Floridi (2023-02) AI 策略：利用人工智能应对气候变化——机遇、挑战与建议。《AI & SOCIETY》 38 (1), 283–307页。外部链接：ISSN 1435-5655, 文档被引用：§5.2。↩
I. Shumailov, Z. Shumaylov, Y. Zhao, N. Papernot, R. Anderson, 和 Y. Gal (2024-07) 当使用递归生成的数据训练时 AI 模型崩溃。《自然》 631 (8022), 755–759页。外部链接：ISSN 1476-4687, 文档被引用：§5.2。↩
L. Green 和 T. Tao (编辑) (2024-06) 提升研究：利用人工智能应对全球挑战 | PCAST。技术报告总统科学与技术顾问委员会。被引用：§5.3。↩
E. Jones (2024-06) AI 领域的“欧洲核子研究中心（CERN）”——一个国际 AI 研究组织可能解决什么问题？见《人工智能与全球治理的挑战：关于实现负责任 AI 的九篇论文》, A. Krasodomski (编辑), 10–17页。外部链接：文档, ISBN 978 1 78413 608 6 被引用：§5.3。↩
M. Mantegna (2024-06) AI 生成未来的伦理框架。见《人工智能与全球治理的挑战：关于实现负责任 AI 的九篇论文》, A. Krasodomski (编辑), 47–57页。外部链接：文档, ISBN 978 1 78413 608 6 被引用：§5.4。↩
(2023-02) 香草精。注：https://knowyourmeme.com/memes/vanilla-extract 被引用：脚注 20。↩
(2008) 机器人总动员 (WALL-E)。华特迪士尼家庭娱乐公司。被引用：脚注 23。↩