「Andrej Karpathy」2025年 LLM 年度回顾

21 Dec, 2025

2025 LLM Year in Review

2025年是大型语言模型（LLM）发展强劲且充满变数的一年。以下是我个人认为值得注意且略感惊讶的“范式转变”清单——这些变化在概念上极大地改变了现有格局并引起了我的关注。

1. 基于可验证奖励的强化学习 (RLVR)

在2025年初，所有实验室的 LLM 生产技术栈看起来大概是这样的：

预训练 (Pretraining) (GPT-2/3, 约2020年)
监督微调 (Supervised Finetuning) (InstructGPT, 约2022年) 以及
基于人类反馈的强化学习 (RLHF) (约2022年)

这在一段时间内是训练生产级 LLM 的稳定且经过验证的配方。到了2025年，基于可验证奖励的强化学习（Reinforcement Learning from Verifiable Rewards, RLVR） 实际上成为了加入这一组合的新主要阶段。通过在许多环境（例如数学/代码谜题）中针对自动可验证的奖励训练 LLM，这些模型自发地发展出了在人类看来像是“推理”的策略——它们学会了将问题分解为中间计算步骤，并学会了许多用于反复推敲以解决问题的策略（参考 DeepSeek R1 论文中的例子）。这些策略在以前的范式中很难实现，因为对于 LLM 来说，最佳的推理轨迹和纠错路径是什么样并不清晰——它必须通过针对奖励的优化来找到适合自己的方法。

与 SFT 和 RLHF 阶段（这两个阶段相对较薄/较短，计算上属于轻微的微调）不同，RLVR 涉及针对客观（不可投机取巧的）奖励函数进行训练，这允许进行更长时间的优化。事实证明，运行 RLVR 提供了极高的“能力/美元”性价比，这吞噬了原本打算用于预训练的算力。因此，2025年的大部分能力进步都是由 LLM 实验室消化这一新阶段的潜力所定义的，总体上我们看到了体量相似的 LLM，但进行了更长时间的 RL 运行。作为这一新阶段的独特之处，我们还获得了一个全新的旋钮（以及相关的缩放定律），通过生成更长的推理轨迹和增加“思考时间”来控制作为测试时计算量函数的能力。OpenAI 的 o1（2024年底）是 RLVR 模型的首次演示，但 o3 的发布（2025年初）是一个明显的拐点，你可以直观地感受到其中的差异。

2. 幽灵 vs. 动物 / 参差不齐的智能 (Jagged Intelligence)

2025年是我（我想这也是整个行业）第一次开始从更直观的意义上内化 LLM 智能的“形状”的一年。我们不是在“进化/培育动物”，我们是在“召唤幽灵”。LLM 技术栈的一切都不同（神经网络架构、训练数据、训练算法，尤其是优化压力），因此毫无疑问，我们在智能空间中得到了截然不同的实体，用动物的视角去思考它们是不恰当的。就监督信号的比特而言，人类神经网络是为了部落在丛林中的生存而优化的，但 LLM 神经网络是为了模仿人类文本、在数学谜题中收集奖励以及在 LM Arena（大模型竞技场）上获得人类点赞而优化的。由于可验证领域允许 RLVR，LLM 在这些领域附近的能力会“突刺”般飙升，总体上表现出令人发笑的参差不齐的性能特征——它们同时是天才博学家，又是一个困惑且认知受损的小学生，只需几秒钟就会被越狱攻击欺骗从而窃取你的数据。

人类智能：蓝色，AI 智能：红色。我喜欢这个版本的梗图（抱歉我弄丢了它在 X 上原始帖子的引用），因为它指出了人类智能也以其独特的方式参差不齐。

碾压所有基准测试但仍未实现 AGI 是什么样子的？

关于本节的主题，我在这里写了更多内容：

3. Cursor / LLM 应用的新层级

关于 Cursor（除了它今年的迅速崛起之外），我觉得最值得注意的是它令人信服地揭示了“LLM 应用”的一个新层级——人们开始谈论“某某领域的 Cursor”。正如我今年在 Y Combinator 演讲中强调的那样（文字稿和视频），像 Cursor 这样的 LLM 应用为特定的垂直领域打包和编排 LLM 调用：

它们进行“上下文工程”。
它们在后台编排多个 LLM 调用，将其串联成日益复杂的 DAG（有向无环图），并仔细平衡性能和成本的权衡。
它们为处于循环中的人类提供了特定于应用程序的 GUI。
它们提供了一个“自主性滑块”。

2025年有很多关于这个新应用层有多“厚”的讨论。LLM 实验室会捕获所有应用吗？还是 LLM 应用还有广阔的天地？我个人怀疑 LLM 实验室将倾向于培养出具有通用能力的“大学生”，但 LLM 应用将通过提供私有数据、传感器、执行器和反馈循环，组织、微调并真正将这些“学生”团队动画化，使之成为特定垂直领域的已部署专业人员。

4. Claude Code / 生活在你电脑上的 AI

Claude Code (CC) 作为一个令人信服的演示出现了，它展示了 LLM 智能体（Agent）应该是什么样子的——某种以循环方式将工具使用和推理串联起来以解决扩展问题的东西。此外，CC 对我来说值得注意的是它运行在你的电脑上，拥有你的私有环境、数据和上下文。我认为 OpenAI 在这方面搞错了，因为我觉得他们将 codex / agent 的努力集中在容器中的云部署上，由 ChatGPT 而不是 localhost 进行编排。虽然在云端运行的智能体集群感觉像是“AGI 的终局”，但我们生活在一个能力参差不齐的中间过渡和缓慢起飞的世界中，因此简单地在电脑上运行智能体，与开发人员及其特定设置携手合作更有意义。CC 正确地把握了这种优先顺序，并将其打包成一个美观、极简、引人注目的 CLI（命令行界面）形式，改变了 AI 的外观——它不仅仅是你访问的一个像 Google 那样的网站，它是一个“生活”在你电脑上的小精灵/幽灵。这是与 AI 交互的一种新的、独特的范式。

5. Vibe Coding (氛围编码/意念编程)

2025年是 AI 跨越能力门槛的一年，只需通过英语即可构建各种令人印象深刻的程序，甚至完全忘记代码的存在。有趣的是，我在这条灵光一现的推文中创造了“Vibe coding”这个词，完全没想到它会流传多广 :)。有了 Vibe coding，编程不再是受过严格训练的专业人员的专利，它是任何人都可以做的事情。在这个意义上，这又是我在《Power to the people: How LLMs flip the script on technology diffusion》一文中所写内容的另一个例证，即（与目前所有其他技术形成鲜明对比的是）普通人从 LLM 中获得的好处比专业人士、公司和政府要多得多。但这不仅赋予了普通人接触编程的能力，它还赋予了受过训练的专业人员编写更多（Vibe coded）软件的能力，而这些软件原本是永远不会被写出来的。在 nanochat 中，我用 Rust Vibe code 了我自己定制的高效 BPE 分词器，而不是必须采用现有的库或学习该级别的 Rust。今年我 Vibe code 了许多项目，作为我希望存在的某种东西的快速应用演示（例如参见 menugen、llm-council、reader3、HN time capsule）。我还曾仅仅为了找到一个 Bug 而 Vibe code 了整个临时应用，因为为什么不呢——代码突然变得免费、短暂、可塑、一次性使用后即可丢弃。Vibe coding 将重塑软件格局并改变职位描述。

6. Nano banana / LLM GUI

Google Gemini Nano banana 是2025年最令人难以置信、最具范式转变意义的模型之一。在我的世界观中，LLM 是类似于1970年代、80年代计算机的下一个主要计算范式。因此，出于基本相似的原因，我们将看到类似的创新。我们将看到个人计算、微控制器（认知核心）或（智能体）互联网等的等价物。特别是，在 UIUX 方面，与 LLM“聊天”有点像是在1980年代向计算机控制台发出命令。文本是计算机（和 LLM）的原始/偏好数据表示，但它不是人类偏好的格式，尤其是在输入端。实际上人们不喜欢阅读文本——它既慢又费力。相反，人们喜欢在视觉和空间上消费信息，这就是为什么在传统计算中发明了 GUI。同样，LLM 应该用我们偏好的格式与我们交谈——用图像、信息图表、幻灯片、白板、动画/视频、Web 应用程序等。目前这种形式的早期和当前版本当然是像 emoji 和 Markdown 这样的东西，它们是用标题、粗体、斜体、列表、表格等视觉方式“打扮”和布局文本以便于消费的方法。但是，实际上谁来构建 LLM GUI 呢？在这个世界观中，nano banana 是这种未来可能样貌的第一个早期暗示。重要的是，其中一个值得注意的方面是，这不仅仅关于图像生成本身，而是关于来自文本生成、图像生成和世界知识的联合能力，所有这些都纠缠在模型权重中。

TLDR. 2025年是 LLM 令人兴奋且略感惊讶的一年。LLM 正在作为一种新型智能涌现，同时比我预期的要聪明得多，也比我预期的要笨得多。无论如何，它们非常有用，而且我认为即使以目前的能力，整个行业也没有发挥出其潜力的10%。与此同时，有太多的想法可以尝试，从概念上讲，这个领域感觉非常广阔。正如我在今年早些时候的 Dwarkesh 播客中提到的，我同时（表面上看起来矛盾地）相信我们将看到快速且持续的进步，并且仍有大量工作要做。系好安全带。

URL: 我将这篇文章同步发布到了我的博客上，我觉得那里的外观和感觉更好，没那么笨重。

Andrej Karpathy @karpathy 正在建立 @EurekaLabsAI。曾任 Tesla AI 总监，OpenAI 创始团队成员，斯坦福 CS231n/PhD。我喜欢训练大型深度神经网络。