Linguista

「Andrej Karpathy」2025年 LLM 年度回顾

Image

2025 LLM Year in Review

2025年是大型语言模型(LLM)发展强劲且充满变数的一年。以下是我个人认为值得注意且略感惊讶的“范式转变”清单——这些变化在概念上极大地改变了现有格局并引起了我的关注。

1. 基于可验证奖励的强化学习 (RLVR)

在2025年初,所有实验室的 LLM 生产技术栈看起来大概是这样的:

  1. 预训练 (Pretraining) (GPT-2/3, 约2020年)
  2. 监督微调 (Supervised Finetuning) (InstructGPT, 约2022年) 以及
  3. 基于人类反馈的强化学习 (RLHF) (约2022年)

这在一段时间内是训练生产级 LLM 的稳定且经过验证的配方。到了2025年,基于可验证奖励的强化学习(Reinforcement Learning from Verifiable Rewards, RLVR) 实际上成为了加入这一组合的新主要阶段。通过在许多环境(例如数学/代码谜题)中针对自动可验证的奖励训练 LLM,这些模型自发地发展出了在人类看来像是“推理”的策略——它们学会了将问题分解为中间计算步骤,并学会了许多用于反复推敲以解决问题的策略(参考 DeepSeek R1 论文中的例子)。这些策略在以前的范式中很难实现,因为对于 LLM 来说,最佳的推理轨迹和纠错路径是什么样并不清晰——它必须通过针对奖励的优化来找到适合自己的方法。

与 SFT 和 RLHF 阶段(这两个阶段相对较薄/较短,计算上属于轻微的微调)不同,RLVR 涉及针对客观(不可投机取巧的)奖励函数进行训练,这允许进行更长时间的优化。事实证明,运行 RLVR 提供了极高的“能力/美元”性价比,这吞噬了原本打算用于预训练的算力。因此,2025年的大部分能力进步都是由 LLM 实验室消化这一新阶段的潜力所定义的,总体上我们看到了体量相似的 LLM,但进行了更长时间的 RL 运行。作为这一新阶段的独特之处,我们还获得了一个全新的旋钮(以及相关的缩放定律),通过生成更长的推理轨迹和增加“思考时间”来控制作为测试时计算量函数的能力。OpenAI 的 o1(2024年底)是 RLVR 模型的首次演示,但 o3 的发布(2025年初)是一个明显的拐点,你可以直观地感受到其中的差异。

2. 幽灵 vs. 动物 / 参差不齐的智能 (Jagged Intelligence)

2025年是我(我想这也是整个行业)第一次开始从更直观的意义上内化 LLM 智能的“形状”的一年。我们不是在“进化/培育动物”,我们是在“召唤幽灵”。LLM 技术栈的一切都不同(神经网络架构、训练数据、训练算法,尤其是优化压力),因此毫无疑问,我们在智能空间中得到了截然不同的实体,用动物的视角去思考它们是不恰当的。就监督信号的比特而言,人类神经网络是为了部落在丛林中的生存而优化的,但 LLM 神经网络是为了模仿人类文本、在数学谜题中收集奖励以及在 LM Arena(大模型竞技场)上获得人类点赞而优化的。由于可验证领域允许 RLVR,LLM 在这些领域附近的能力会“突刺”般飙升,总体上表现出令人发笑的参差不齐的性能特征——它们同时是天才博学家,又是一个困惑且认知受损的小学生,只需几秒钟就会被越狱攻击欺骗从而窃取你的数据。

Image

人类智能:蓝色,AI 智能:红色。我喜欢这个版本的梗图(抱歉我弄丢了它在 X 上原始帖子的引用),因为它指出了人类智能也以其独特的方式参差不齐。

碾压所有基准测试但仍未实现 AGI 是什么样子的?

关于本节的主题,我在这里写了更多内容:

3. Cursor / LLM 应用的新层级

关于 Cursor(除了它今年的迅速崛起之外),我觉得最值得注意的是它令人信服地揭示了“LLM 应用”的一个新层级——人们开始谈论“某某领域的 Cursor”。正如我今年在 Y Combinator 演讲中强调的那样(文字稿视频),像 Cursor 这样的 LLM 应用为特定的垂直领域打包和编排 LLM 调用:

  1. 它们进行“上下文工程”。
  2. 它们在后台编排多个 LLM 调用,将其串联成日益复杂的 DAG(有向无环图),并仔细平衡性能和成本的权衡。
  3. 它们为处于循环中的人类提供了特定于应用程序的 GUI。
  4. 它们提供了一个“自主性滑块”。

2025年有很多关于这个新应用层有多“厚”的讨论。LLM 实验室会捕获所有应用吗?还是 LLM 应用还有广阔的天地?我个人怀疑 LLM 实验室将倾向于培养出具有通用能力的“大学生”,但 LLM 应用将通过提供私有数据、传感器、执行器和反馈循环,组织、微调并真正将这些“学生”团队动画化,使之成为特定垂直领域的已部署专业人员。

4. Claude Code / 生活在你电脑上的 AI

Claude Code (CC) 作为一个令人信服的演示出现了,它展示了 LLM 智能体(Agent)应该是什么样子的——某种以循环方式将工具使用和推理串联起来以解决扩展问题的东西。此外,CC 对我来说值得注意的是它运行在你的电脑上,拥有你的私有环境、数据和上下文。我认为 OpenAI 在这方面搞错了,因为我觉得他们将 codex / agent 的努力集中在容器中的云部署上,由 ChatGPT 而不是 localhost 进行编排。虽然在云端运行的智能体集群感觉像是“AGI 的终局”,但我们生活在一个能力参差不齐的中间过渡和缓慢起飞的世界中,因此简单地在电脑上运行智能体,与开发人员及其特定设置携手合作更有意义。CC 正确地把握了这种优先顺序,并将其打包成一个美观、极简、引人注目的 CLI(命令行界面)形式,改变了 AI 的外观——它不仅仅是你访问的一个像 Google 那样的网站,它是一个“生活”在你电脑上的小精灵/幽灵。这是与 AI 交互的一种新的、独特的范式。

5. Vibe Coding (氛围编码/意念编程)

2025年是 AI 跨越能力门槛的一年,只需通过英语即可构建各种令人印象深刻的程序,甚至完全忘记代码的存在。有趣的是,我在这条灵光一现的推文中创造了“Vibe coding”这个词,完全没想到它会流传多广 :)。有了 Vibe coding,编程不再是受过严格训练的专业人员的专利,它是任何人都可以做的事情。在这个意义上,这又是我在《Power to the people: How LLMs flip the script on technology diffusion》一文中所写内容的另一个例证,即(与目前所有其他技术形成鲜明对比的是)普通人从 LLM 中获得的好处比专业人士、公司和政府要多得多。但这不仅赋予了普通人接触编程的能力,它还赋予了受过训练的专业人员编写更多(Vibe coded)软件的能力,而这些软件原本是永远不会被写出来的。在 nanochat 中,我用 Rust Vibe code 了我自己定制的高效 BPE 分词器,而不是必须采用现有的库或学习该级别的 Rust。今年我 Vibe code 了许多项目,作为我希望存在的某种东西的快速应用演示(例如参见 menugenllm-councilreader3HN time capsule)。我还曾仅仅为了找到一个 Bug 而 Vibe code 了整个临时应用,因为为什么不呢——代码突然变得免费、短暂、可塑、一次性使用后即可丢弃。Vibe coding 将重塑软件格局并改变职位描述。

6. Nano banana / LLM GUI

Google Gemini Nano banana 是2025年最令人难以置信、最具范式转变意义的模型之一。在我的世界观中,LLM 是类似于1970年代、80年代计算机的下一个主要计算范式。因此,出于基本相似的原因,我们将看到类似的创新。我们将看到个人计算、微控制器(认知核心)或(智能体)互联网等的等价物。特别是,在 UIUX 方面,与 LLM“聊天”有点像是在1980年代向计算机控制台发出命令。文本是计算机(和 LLM)的原始/偏好数据表示,但它不是人类偏好的格式,尤其是在输入端。实际上人们不喜欢阅读文本——它既慢又费力。相反,人们喜欢在视觉和空间上消费信息,这就是为什么在传统计算中发明了 GUI。同样,LLM 应该用我们偏好的格式与我们交谈——用图像、信息图表、幻灯片、白板、动画/视频、Web 应用程序等。目前这种形式的早期和当前版本当然是像 emoji 和 Markdown 这样的东西,它们是用标题、粗体、斜体、列表、表格等视觉方式“打扮”和布局文本以便于消费的方法。但是,实际上谁来构建 LLM GUI 呢?在这个世界观中,nano banana 是这种未来可能样貌的第一个早期暗示。重要的是,其中一个值得注意的方面是,这不仅仅关于图像生成本身,而是关于来自文本生成、图像生成和世界知识的联合能力,所有这些都纠缠在模型权重中。


TLDR. 2025年是 LLM 令人兴奋且略感惊讶的一年。LLM 正在作为一种新型智能涌现,同时比我预期的要聪明得多,也比我预期的要笨得多。无论如何,它们非常有用,而且我认为即使以目前的能力,整个行业也没有发挥出其潜力的10%。与此同时,有太多的想法可以尝试,从概念上讲,这个领域感觉非常广阔。正如我在今年早些时候的 Dwarkesh 播客 中提到的,我同时(表面上看起来矛盾地)相信我们将看到快速且持续的进步,并且仍有大量工作要做。系好安全带。

URL: 我将这篇文章同步发布到了我的 博客 上,我觉得那里的外观和感觉更好,没那么笨重。