Linguista

「NVIDIA GTC 2025」AI与计算前沿:Yann LeCun与Bill Dally对话

Meta首席AI科学家Yann LeCun对当前AI热潮发出审慎之声

这位深度学习先驱认为,大型语言模型虽有价值,但并非通往真正机器智能的终点,呼吁业界关注更深层次挑战

在人工智能(AI)以前所未有的速度渗透商业和社会之际,科技巨头们正斥巨资竞相开发更大、更强的语言模型。然而,作为该领域最具影响力的奠基人之一,Meta Platforms Inc.的首席AI科学家Yann LeCun却发出了不同的声音,对当前围绕大型语言模型(LLM)的狂热持审慎态度,并指出通往更高级机器智能的道路需要克服更为根本的障碍。

LeCun教授是2018年图灵奖得主,其在卷积神经网络(ConvNets)上的开创性工作为现代AI的诸多突破奠定了基础。这位在AI领域经历过数次起伏周期的资深科学家,如今对业界普遍认为仅靠扩展LLM就能实现通用人工智能(AGI)的观点表示明确怀疑。“我现在对LLM不那么感兴趣了,”他在近期NVIDIA GTC大会与该公司首席科学家Bill Dally的对话中表示,“它们现在掌握在行业产品人员手中,进行着边际改进,试图获取更多数据、更多算力。”

他将当前LLM通过生成海量词元序列并从中筛选最优解的推理方式比作“在不知道如何编写程序的情况下编写随机程序,然后测试所有程序……这完全是没希望的。” 他认为这种方法“过于简单”,并坚信存在更好的路径。对于甚嚣尘上的“AGI即将到来”论调,LeCun更是毫不留情地斥之为“胡说八道”,并引用某位匿名人士的说法——“几年内你将在一个数据中心里拥有‘一个由天才组成的国度’”——称其为“完全是胡说八道”。他提醒道,AI历史上每隔十年左右就会出现一波类似的过度乐观浪潮,“当前的浪潮也是错误的。”

LeCun的研究重心已转向他认为更基础且更具挑战性的四大领域:让机器理解物理世界、拥有持久记忆、掌握真正的推理能力以及具备规划能力。他强调,理解现实世界远比处理离散的语言符号困难得多。“我们每个人头脑中都有世界模型,”他以推瓶子的简单物理现象为例解释道,“你知道从顶部推它可能会翻倒,但从底部推它会滑动。” 当前AI缺乏这种对物理世界运作方式的内隐理解。

为此,LeCun及其团队正致力于开发“联合嵌入预测架构”(JEPA/JAPA)。这种架构旨在让AI像婴儿观察世界一样学习——通过预测高维数据(如视频)在抽象“表示空间”中的演变,而非试图在像素层面进行无法实现的精确重建。“每一次试图让系统通过被训练来预测像素级的视频来理解世界……基本上都失败了,”他指出,“它会把所有的资源都花在试图构思那些它根本无法创造出来的细节上。” 他分享了其团队在视频理解上的尝试:基于像素重建的MAE模型扩展到视频时,计算成本高昂到需要“烧开一个小湖来冷却GPU集群”,且效果不彰,最终项目被停止;而基于JEPA的V-JEPA模型则在学习视频中的物理可能性方面展现出更好的效果和效率,如同婴儿通过观察区分合理与异常现象。

LeCun认为,达到他所称的“高级机器智能”(AMI)——他倾向于用此术语替代“通用人工智能”,因人类智能本身高度特化——可能需要十年或更长时间,尽管其核心技术有望在三到五年内取得小规模突破。他强调数据的重要性,指出一个4岁儿童通过视觉接收的信息量(约1014字节)就已相当于训练当前最大LLM所需的所有文本数据量(需40万年阅读),这雄辩地说明了仅靠文本无法实现真正的机器智能。

在产业策略上,LeCun是Meta开源战略的坚定推动者。他以LLaMA的诞生为例——一个最初由巴黎小团队进行的“海盗项目”最终胜过了资源更雄厚的大项目,证明了创新需要自由空间。LLaMA超过十亿次的下载量及其催生的庞大生态系统,印证了开源的力量。他认为,未来AI交互将无处不在,需要大量多样化的AI助手,适应不同文化和语言,这必须依赖于开放平台。“基础模型将是开源的……专有平台,我认为,将会消失,”他预测道,这直接关系到避免信息茧房和促进全球合作的必要性。

尽管对当前路径持批判态度,LeCun对AI的长远未来持积极看法。他预见AI将在科学(如蛋白质折叠、药物设计)、医疗(如加速MRI成像、辅助诊断)、自动驾驶(如已将碰撞事故减少40%的辅助系统)等领域产生革命性影响。他将AI视为赋予人类能力的“强大工具”,并设想未来人机关系是“我们将是它们的老板”,拥有“一支由超级智能虚拟人组成的团队”。对于风险,他承认存在,但认为可通过更好的AI技术来对抗滥用,并对Meta的实践经验(如并未观察到生成式内容被大规模恶意使用)和Galactica发布后截然不同的公众反应(相较于ChatGPT)等案例进行了反思,对灾难性风险论调表示怀疑。

LeCun教授的观点,为当前喧嚣的AI领域注入了一剂清醒剂。这位深度学习的奠基人正以其深厚的经验和独到的洞察力,呼吁业界超越眼前的模型竞赛,关注构建真正理解世界、能够推理规划的智能体这一更为宏大和艰巨的目标。他的探索无疑将对塑造人工智能的下一个十年产生深远影响。


AI与计算前沿:Yann LeCun与Bill Dally对话

内容介绍

本次对话汇集了人工智能领域的两位重量级人物:Meta首席AI科学家、深度学习先驱Yann LeCun,以及NVIDIA首席科学家、顶尖计算机架构师Bill Dally。在NVIDIA GTC 2025的这场对谈中,他们深入探讨了人工智能与高性能计算交叉点的前沿动态与未来走向。

对话内容并非仅仅围绕当前热门的大型语言模型(LLM),LeCun教授分享了他对AI未来研究方向的独到见解,强调了让机器理解物理世界、拥有持久记忆以及实现真正推理与规划能力的重要性,并介绍了他所倡导的联合嵌入预测架构(JEPA/JAPA)。双方就AGI/AMI(高级机器智能)的发展时间表、AI在科学、医疗、自动驾驶等领域的实际应用与潜在风险、开源(如LLaMA)在推动创新和多样性方面的关键作用等议题展开了讨论。

此外,对话也深度触及了实现更高级AI所需的硬件基础。从当前GPU的持续演进,到对神经形态计算、存内计算、量子计算等新兴硬件技术的审慎评估,LeCun与Dally交流了看法,并探讨了处理视频等复杂数据对计算资源提出的巨大挑战。

内容纲要

对话:AI与计算前沿 (Yann LeCun & Bill Dally)
├── 开场介绍
│
├── 一、 当前AI研究的焦点与LeCun的兴趣转变
│   ├── LeCun对LLM兴趣减弱,关注更深层问题
│   └── 未来研究重点:理解物理世界、持久记忆、推理、规划
│
├── 二、 理解物理世界:世界模型与表征学习
│   ├── 世界模型的重要性与人类认知类比
│   ├── LLM与Token在表征物理世界上的局限性
│   │   ├── 离散性问题 (vs. 连续高维现实)
│   │   └── 像素级预测失败与资源浪费
│   ├── 联合嵌入预测架构 (JEPA/JAPA) 作为替代方案
│   │   ├── 工作原理 (编码器 + 表征空间预测)
│   │   ├── 优势与挑战 (避免像素重建,防坍塌)
│   │   └── 应用前景 (智能体规划与推理基础)
│   └── 推理应在抽象空间而非Token空间进行 (区分JEPA与LLM)
│
├── 三、 通用人工智能(AGI)/高级机器智能(AMI)展望
│   ├── 对AGI/AMI术语的看法 (倾向AMI)
│   ├── 对基于世界模型的AMI实现时间表的预测 (3-5年突破,十年+达人类水平)
│   └── 批判仅靠扩展LLM实现AGI/AMI的观点
│
├── 四、 AI的应用、益处与风险
│   ├── AI的显著益处
│   │   ├── 科学与医疗 (药物、影像分析等)
│   │   ├── 自动驾驶辅助 (感知、控制、安全)
│   │   └── 生产力工具 (编码、创作辅助)
│   ├── AI面临的挑战与风险
│   │   ├── 部署难度与可靠性 (特别是安全攸关领域)
│   │   └── 滥用风险 (深度伪造、虚假信息) 与应对 (更好AI、常识)
│   └── 对人机关系的未来展望 (人类是管理者,AI是助手)
│
├── 五、 AI创新、开源与全球合作
│   ├── AI创新的来源 (全球化、无垄断、交流合作)
│   ├── 开源的重要性与Meta的实践
│   │   ├── 开源加速思想与代码交流 (ResNet例子)
│   │   ├── LLaMA的成功案例 (小团队创新、生态系统催化)
│   │   └── 开源理由:促进生态、满足多样性需求、构建全球基础模型
│   └── 开源平台 vs. 专有平台的未来 (看好开源)
│
├── 六、 AI系统与硬件需求
│   ├── 训练与推理的权衡 (认可推理重要性,但方式需改进)
│   ├── 系统1与系统2类比 (当前AI偏向系统1,需发展系统2能力)
│   ├── 数据需求:理解物理世界远超文本量 (婴儿视觉数据量 vs. LLM文本量)
│   ├── 未来硬件方向与展望
│   │   ├── 对GPU持续发展的需求
│   │   ├── 对神经形态/脉冲计算的看法 (短期不看好,有局限)
│   │   ├── 对存内计算(PIM)/模拟计算的看法 (特定边缘场景有潜力)
│   │   └── 对量子/超导/光计算的看法 (超导可能,光计算失望,量子计算怀疑)
│   └── 视频处理对算力的巨大需求 (MAE vs. V-JEPA 案例)
│
└── 七、 实现高级AI的瓶颈与未来
    ├── 模型与算法瓶颈:需要找到JAPA等新架构的“完美配方”
    ├── 核心理念:进步依赖全球贡献、开放研究与开源平台
    └── 总结与未来愿景:AI作为多样化助手,人类管理,硬件需降价

AI与计算前沿:Yann LeCun与Bill Dally对话 (NVIDIA GTC 2025 访谈录)

对话双方:


开场

Bill Dally: 大家好。我们准备就人工智能(AI)相关的话题进行一次简短的交流。希望你们会觉得有趣。

一、 当前AI研究的焦点与LeCun的兴趣转变

Bill Dally: Yann,过去一年里AI领域发生了很多有趣的事情。在你看来,过去一年最激动人心的进展是什么?

Yann LeCun: 太多了,数不过来。但我告诉你一件事,可能会让你们中的一些人感到惊讶。我现在对大型语言模型(LLM)不那么感兴趣了。它们有点像是过去式了。它们现在掌握在行业产品人员手中,进行着边际改进,试图获取更多数据、更多算力,生成合成数据。我认为在四个领域有更有趣的问题:

Bill Dally: 但如果不是LLM来进行关于物理世界的推理、拥有持久记忆和规划,那它会是什么呢?底层的模型会是什么?

Yann LeCun: 很多人正在研究世界模型(world models)。什么是世界模型?我们每个人的头脑中都有世界模型。这基本上使我们能够操纵思想。我们有一个关于当前世界的模型。你知道,如果我从顶部推这个瓶子,它可能会翻倒,但如果我从底部推它,它会滑动。如果我用力过猛,它可能会爆开。我们在生命的最初几个月就获得了物理世界的模型,这使我们能够应对真实世界。处理真实世界远比处理语言困难得多。


二、 理解物理世界:世界模型与表征学习

Yann LeCun: 我们需要用于真正能处理现实世界的系统的那种架构,与我们目前处理的(基于语言的)架构完全不同。

Bill Dally: LLM预测词元(tokens),但词元可以是任何东西。我们的自动驾驶汽车模型使用来自传感器的词元,并产生驱动车辆的词元。从某种意义上说,它是在推理物理世界,至少是在哪里开车安全、不会撞到柱子等方面。为什么词元不是表示物理世界的正确方式?

Yann LeCun: 词元是离散的。当我们谈论词元时,我们通常指的是一个有限的可能性集合。在一个典型的LLM中,可能的词元数量大约是$100,000$这个量级。当你训练一个系统来预测词元时,你永远无法训练它精确预测例如文本序列中紧随其后的那个词元。你可以生成一个关于你词典中所有可能词元的概率分布,这只是一个包含$100,000$个介于0和1之间且总和为1的数字的长向量。我们知道如何做到这一点。 但是,我们不知道如何用视频、用高维且连续的自然数据来做到这一点。每一次试图让系统通过被训练来预测像素级的视频来理解世界或建立世界的心理模型的尝试,基本上都失败了。即使是训练像某种神经网络这样的系统来学习图像的良好表示,所有通过从损坏或变换过的版本重建图像的技术也都失败了。它们某种程度上有效,但效果不如我们称之为“联合嵌入”(joint embedding)的替代架构,后者基本上不试图在像素级别进行重建。它们试图学习被训练的图像、视频或自然信号的抽象表示(abstract representation),这样你就可以在那个抽象表示空间中进行预测。 我经常用的例子是,如果我拍摄这个房间的视频,移动相机并停在这里,然后让系统预测该视频的后续内容,它可能会预测这是一个房间,里面坐着人等等。但它无法预测你们每一个人的具体长相。这从视频的初始片段来看是完全不可预测的。世界上有很多事情就是无法预测的。如果你训练一个系统在像素级别进行预测,它会把所有的资源都花在试图构思那些它根本无法创造出来的细节上。这完全是资源的浪费。我们尝试过的每一次——我在这方面已经研究了20年——使用自监督学习通过预测视频来训练系统,都行不通。只有当你在表示层面(representation level)进行时才有效。

Bill Dally: 这是否意味着这些架构不是生成式的?如果你基本上是说Transformer不具备这种能力,但人们确实有视觉Transformer(Vision Transformers)并且得到了很好的结果。

Yann LeCun: 我不是那个意思,因为你可以在那些架构中使用Transformer。你可以把Transformer放进那些架构里。只是我所谈论的这类架构被称为“联合嵌入预测架构”(Joint Embedding Predictive Architecture, JEPA/JAPA)。所以,取一段视频、一张图片或任何东西,通过一个编码器(encoder)运行它,得到一个表示;然后取那段文本、视频的后续部分,或图像的变换版本,也通过一个编码器运行它;现在,尝试在那个表示空间(representation space)中进行预测,而不是在输入空间(input space)中进行。

Bill Dally: 你可以使用相同的训练方法,即填空,但你是在这个潜在空间(latent space)中进行,而不是在原始表示层级。

Yann LeCun: 这里的困难在于,如果你不小心,不使用聪明的技术,系统就会崩溃(collapse)。它会完全忽略输入,只产生一个恒定的、对输入信息量不大的表示。直到五六年前,我们还没有任何技术来阻止这种情况发生。 现在,如果你想将这种架构用于一个智能体系统(agentic system),或者一个能够推理和规划的系统,你需要的是一个预测器(predictor)。当它观察到一段视频时,它对世界的当前状态有了一些概念,它需要做的是预测世界的下一个状态将会是什么,前提是我可能采取一个我正在想象要采取的行动。所以,你需要一个预测器,给定世界状态和你想象的行动,就能预测下一个世界状态。如果你有这样一个系统,那么你就可以规划一系列行动来达到特定的结果。这才是我们所有人进行规划和推理的真正方式。我们不是在词元空间(token space)中进行的。

让我举一个非常简单的例子。现在有很多所谓的智能体推理系统,它们的工作方式是生成大量大量的词元序列,使用不同的随机生成不同词元的方式,然后有第二个神经网络试图从所有生成的序列中选出最好的那个。这有点像在不知道如何编写程序的情况下编写程序:你写一个随机程序,然后测试所有程序,保留那个恰好能给你正确答案的。这完全是没希望的。

Bill Dally: 嗯,实际上有一些关于超优化(super-optimization)的论文建议正是这样做。

Yann LeCun: 对于短程序,当然可以,因为(复杂度)随长度指数增长。所以过了一段时间后,它就完全没希望了。


三、 通用人工智能(AGI)/高级机器智能(AMI)展望

Bill Dally: 那么,很多人说AGI(通用人工智能),或者我想你会称之为AMI(高级机器智能),就快要到来了。你的看法是什么?你认为它何时会到来,为什么?差距在哪里?

Yann LeCun: 我不喜欢AGI这个术语,因为人们用这个词来指代具有人类水平智能的系统,而可悲的是,人类智能是超级专业化的。所以,称之为“通用”是用词不当。我更喜欢AMI这个短语,意思是高级机器智能(Advanced Machine Intelligence)。这只是词汇问题。 我认为我所描述的这种能够学习世界的抽象心理模型并用它们进行推理和规划的系统概念,我们很可能在三到五年内掌握如何让它至少在小规模上运作起来。然后就是扩展它们等问题,直到我们达到人类水平的AI。 但事情是这样的:在AI历史上,一代又一代的AI研究人员发现了新的范式,并声称“就是它了”。十年内,我们将拥有人类水平的智能。我们将拥有在所有领域都比人类更聪明的机器。这种情况已经持续了70年,大约每10年就有这样一波浪潮。当前的浪潮也是错误的。那种认为你只需要扩大LLM规模,或者让它们生成成千上万的词元序列并挑选出好的那些,就能达到人类水平智能的想法,以及认为几年内你将在一个数据中心里拥有“一个由天才组成的国度”(引用某位不愿透露姓名的人的话),是胡说八道(nonsense)。完全是胡说八道。 当然,会有很多应用,在不久的将来,系统将达到博士(PhD)级别,如果你愿意这么说的话。但就整体智能而言,不,我们还差得很远。当我说很远时,它可能在十年左右发生。

Bill Dally: 那也不算太远。


四、 AI的应用、益处与风险

Bill Dally: AI已经在很多方面得到应用,改善了人类状况,让人们的生活更轻松。你认为AI的哪些应用最引人注目且最有益?

Yann LeCun: 嗯,当然有一些显而易见的事情。我认为AI对科学和医学的影响可能会比我们目前能想象的要大得多,尽管它现在已经相当大了。不仅仅是在蛋白质折叠和药物设计等研究方面,还在于理解生命的机制。而且有很多短期的成果。现在在美国,当你进行医学影像检查时,通常都有AI参与。如果是乳房X光检查,很可能已经用深度学习系统进行了预筛选以检测肿瘤。如果你去MRI机器,你需要在里面待的时间减少了大约四倍,因为我们现在可以用更少的数据恢复高分辨率的MRI图像。所以,有很多短期的成果。 当然,我们每一辆汽车——英伟达是这方面的大供应商之一——现在都至少配备了驾驶辅助系统或自动紧急制动系统。这些在欧洲现在已经强制要求了好几年了。这些东西将碰撞事故减少了40%。它们拯救了生命。这些都是巨大的应用。显然,这不是生成式AI;这是感知,以及现在汽车的一些控制。 LLM正如它们今天存在或将在几年内存在的那样,在工业、服务业等领域有很多应用,但我们也必须考虑其局限性。要部署和推广达到预期准确性和可靠性水平的系统,比大多数人想象的要困难得多。对于自动驾驶来说尤其如此。我们何时能实现Level 5自动驾驶一直是一个不断后退的地平线。我认为(对LLM来说)也会是同样的情况。AI通常失败的地方——不是在基础技术或炫酷的演示上,而是在你真正需要部署它、应用它,并使其足够可靠以与现有系统集成时。这才是变得困难、昂贵且比预期花费更多时间的地方。

Bill Dally: 当然,在像自动驾驶汽车这样的应用中,它必须始终正确,否则可能有人受伤或死亡,准确性水平必须近乎完美。但也有很多应用,如果它只是在大多数时候做对,就非常有益。甚至一些医疗应用,有医生进行复核;当然还有娱乐和教育领域,你只是希望利大于弊,并且出错的后果不是灾难性的。

Yann LeCun: 绝对如此。对于大多数这类系统,最有用的那些是让人们更有效率、更有创造力的系统。例如,辅助他们编码的助手。在医学领域是这样,在艺术领域是这样,在生成文本方面也是如此。AI不是在取代人;它是在给他们提供强大的工具(power tools)。嗯,也许未来某个时候会(取代),但我不认为人们会接受。我们与未来AI系统(包括超级智能)的关系将是,我们将是它们的老板。我们将拥有一支由超级智能虚拟人组成的团队为我们工作。我不知道你怎么想,但我喜欢和比我聪明的人一起工作。这是世界上最棒的事情。

Bill Dally: 那么,反过来看,正如AI可以在许多方面造福人类一样,它也有阴暗面,人们会用它来做坏事,比如制造深度伪造(deepfakes)和虚假新闻,如果应用不当还会造成情感困扰。你对AI的使用最大的担忧是什么?我们如何减轻这些担忧?

Yann LeCun: Meta非常熟悉的一件事是使用AI作为对抗攻击的对策,无论这些攻击是否来自AI。可能令人惊讶的一点是,尽管LLM和各种深度伪造等技术已经存在了好几年,我们负责检测和移除这类攻击的同事告诉我们,我们并没有看到生成式内容在社交网络上发布的大幅增加,至少不是以恶意的方式。通常,它们会被标记为合成内容。所以,我们并没有看到三四年前人们警告的那些灾难性场景,即这将摧毁信息和通信系统。 我需要给你讲一个有趣的故事。在2022年秋天,我在Meta的同事们,一个小型团队,构建了一个LLM,它是在整个科学文献上训练的,所有他们能弄到的技术论文。它被称为Galactica。他们发布了它,附带一篇长论文描述了它是如何训练的,开源了代码,并提供了一个你可以直接试玩的演示系统。这个东西遭到了推特圈的猛烈抨击。人们说:“哦,这太可怕了。这会害死我们。它将摧毁科学交流体系。现在任何白痴都可以写一篇听起来很科学的论文,论证吃碎玻璃的好处之类的。” 负面意见如海啸般涌来,以至于我那些可怜的同事,一个只有五个人的小团队,晚上都睡不着觉。他们下架了演示,留下了开源代码和论文,但演示没了。我们的结论是,世界还没有为这种技术做好准备,而且没人对此感兴趣。 三周后,ChatGPT问世了,简直就像弥赛亚的第二次降临。我们面面相觑,说:“刚才发生了什么?” 我们无法理解公众对此的热情,鉴于对前一个(Galactica)的反应。

Bill Dally: 很大程度上是认知问题。GPT并不是试图写学术论文或做科学研究;它是你可以与之交谈、问任何问题的,试图更通用。在某种程度上,它对更多人更有用,或者说更近似有用。

Yann LeCun: 肯定有危险,也有各种类型的滥用。但对抗滥用的对策就是更好的AI。正如我之前谈到的,存在不可靠的系统。对此的修复方法是更好的AI系统,它们拥有常识、推理能力,能够检查答案是否正确,并评估自己答案的可靠性——目前情况还不太是这样。但那些灾难性的场景,坦白说,我不相信。人类会适应。我倾向于认为AI主要是为了善,尽管其中也夹杂着一些恶。


五、 AI创新、开源与全球合作

Bill Dally: 作为在(大西洋)两岸都有家的人,你有一个非常全球化的视角。你认为未来AI的创新将来自哪里?

Yann LeCun: 它可以来自任何地方。聪明人无处不在。没有人垄断好主意。有些人有巨大的优越感,认为他们可以不与任何人交谈就想出所有好主意。以我作为科学家的经验来看,并非如此。好主意来自于很多人的互动和思想交流。在过去十年左右,代码的交流也变得重要起来。这也是我一直强烈倡导开源AI平台,以及Meta部分采纳这种哲学的原因之一。我们并不垄断好主意,无论我们自认为有多聪明。最近关于DeepSeek的故事确实表明,好主意可以来自任何地方。 中国有很多非常优秀的科学家。一个很多人应该知道的故事是,如果你问自己,在过去10年里,所有科学领域中哪篇论文获得了最多的引用次数?那篇论文发表于2015年,正好是10年前。它是关于一种特定的神经网络架构,叫做ResNet,即残差网络(Residual Networks)。它来自北京的微软亚洲研究院,由一群中国科学家完成。第一作者是何恺明(Kaiming He)。一年后,他加入了Meta在加州的FAIR(Facebook AI Research),在那里待了大约八年,最近去了MIT。这告诉你,世界各地有很多优秀的科学家,思想可以来自任何地方。 但要真正将这些想法付诸实践,你需要庞大的基础设施,大量的计算资源,你需要给你的朋友和同事很多钱来购买必要的资源。

Bill Dally: 拥有一个开放的知识社群能让进步更快,因为有人在这里想出了好主意的一半,另一个人在别处想出了另一半。如果他们交流,事情就成了。如果他们都非常孤立和封闭,进步就不会发生。

Yann LeCun: 另一件事是,为了让创新思想涌现——作为英伟达的首席科学家,你知道这一点——你需要给人们很长的“缰绳”(long leash)。你需要让人们真正去创新,而不是给他们压力,要求每三个月或每六个月就拿出点东西。DeepSeek和LLaMA的情况差不多就是这样。一个不太为人知的故事是,2022年在FAIR有几个LLM项目。一个拥有大量资源和领导层支持,另一个则是由巴黎的十几个人组成的小型“海盗项目”(pirate project),他们决定自己构建LLM,因为某些原因需要它。那个项目成了LLaMA,而你从未听说过的那个大项目则被停止了。所以,即使你没有所有的支持,也能想出好主意。如果你在某种程度上不受管理层干扰,他们让你自己干,你可能会比那些被要求按计划创新的人想出更好的主意。 十几个人搞出了LLaMA,然后决定选择它作为平台。围绕它建立了一个团队来制作LLaMA 2,最终被开源,并在行业格局中引发了一场小小的革命。截至昨天,LLaMA的下载量已经超过十亿次。我觉得这太惊人了。我猜这其中包括你们很多人,但所有这些人是谁呢?我的意思是,你肯定认识他们,因为他们都必须购买英伟达的硬件来运行那些东西。

Bill Dally: 我们感谢你卖了所有那些GPU。

Yann LeCun: (笑)

Bill Dally: 让我们多谈谈开源。我认为LLaMA在这方面确实很有创新性,它是一个顶尖的LLM,提供了开放权重(open weights),所以人们可以自己下载和运行。这样做的利弊是什么?公司显然投入了巨额资金来开发模型、训练它、微调它,然后把它送出去。这样做有什么好处,又有什么坏处?

Yann LeCun: 嗯,我认为有坏处。如果你是一家期望直接从该服务中获得收入的公司,如果那是你唯一的业务,那么透露你所有的秘密可能对你并不利。但如果你是像Meta或Google这样的公司,收入来自其他来源——Meta是广告,Google是各种来源——那么重要的不是你短期内能产生多少收入,而是你是否能为你想要构建的产品构建所需的功能,并让世界上最大数量的聪明人为此做出贡献。 对于Meta来说,如果其他公司将LLaMA用于其他目的,并不会对其造成损害,因为他们没有可以建立在此之上的社交网络。这对Google来说威胁更大,因为你可以用它来构建搜索引擎,这可能就是为什么他们对这种做法不那么积极的原因。 我们看到的另一个影响是,首先是PyTorch,现在是LLaMA,它们启动了整个初创公司的生态系统。我们现在在大型工业中也看到这种情况,人们有时会用专有的API来原型化一个AI系统,但到了部署的时候,最具成本效益的方式是在LLaMA上进行,因为你可以在本地(on-premise)或其他开源平台上运行它。 从哲学上讲,我认为想要拥有开源平台的最大因素、最重要的原因是,在短时间内,我们与数字世界的每一次互动都将由AI系统来中介。我现在戴着Ray-Ban Meta智能眼镜,我可以通过它们与Meta AI交谈,问它任何问题。我们不相信人们会想要单一的助手,而且这些助手将来自美国西海岸或中国的少数几家公司。我们需要极其多样化的助手。它们需要能说世界上所有的语言,理解世界上所有的文化、所有的价值体系以及所有的兴趣中心。它们需要有不同的偏见、政治观点等等。我们需要多样化的助手,原因和我们需要多样化的媒体一样。否则,我们都会从相同的来源获得相同的信息,这对民主或其他任何事情都不好。我们需要一个任何人都可以用来构建那些多样化助手的平台。目前,这只能通过开源平台来实现。 我认为未来这一点将变得更加重要,因为如果我们希望基础模型能讲世界上所有的语言等等,没有任何一个单一实体能够独自完成这件事。谁会去收集世界上所有语言的所有数据,然后 просто把它交给OpenAI、Meta、Google或Anthropic?没人会。他们想保留那些数据。世界上的各个地区会希望将他们的数据贡献给一个全球基础模型,但实际上并不交出数据。他们可能会为训练一个全球模型做出贡献。我认为这就是未来的模式。基础模型将是开源的,并以分布式方式进行训练,世界各地的不同数据中心可以访问不同的数据子集,基本上是训练一个共识模型(consensus model)。这就是为什么开源平台完全是不可避免的,而我认为专有平台将会消失。

Bill Dally: 这也很有意义,无论是对于语言的多样性还是对于应用。一个特定的公司可以下载LLaMA,然后用他们不想上传的专有数据进行微调。

Yann LeCun: 这就是现在正在发生的事情。大多数AI初创公司的商业模式都是围绕这个建立的。他们为垂直应用构建专门的系统。


六、 AI系统与硬件需求

Bill Dally: 在Jensen(黄仁勋)的主题演讲中,他举了一个很棒的例子,用生成式LLM来做婚礼策划,决定谁该坐在哪桌。这是一个很好的例子,说明了在训练上投入努力和在推理上投入努力之间的权衡。一种情况是,你可以有一个非常强大的模型,花费大量资源进行训练;或者你可以构建一个不那么强大的模型,但运行多次让它能够推理。你如何看待在构建强大模型时,训练时间和推理/测试时间之间的权衡?最佳点在哪里?

Yann LeCun: 首先,我认为Jensen绝对是对的,你最终能从一个能够推理的系统中获得更强的能力。但我不同意目前具备推理能力的LLM所采用的方式是进行推理的正确方式。它能工作,但不是正确的方式。当我们推理、思考时,我们是在某种与语言无关的抽象心理状态中进行的。你不想摆弄词元(kicking tokens around);你想要在你的潜在空间(latent space)中推理,而不是在词元空间(token space)。 如果我让你想象一个立方体漂浮在你面前,然后将该立方体绕垂直轴旋转90度,你可以在心理上做到这一点,这与语言无关。一只猫也能做到这个——虽然我们无法通过语言向猫说明问题,但猫在规划跳上家具的轨迹时,做的事情比这复杂得多。它们做的事情比那复杂得多,而且这与语言无关。这肯定不是在词元空间中完成的,那会是一系列动作。它是在一个抽象的心理空间(abstract mental space)中完成的。这就是未来几年的挑战:找出允许这种类型推理的新架构。这就是我过去几年一直在研究的东西。

Bill Dally: 我们是否应该期待一种新的模型,能让我们在这个抽象空间中进行推理?

Yann LeCun: 它叫做JAPA,或者JPA世界模型(JPA world models)。我和我的同事们在过去几年里已经发表了一系列关于这方面的论文,算是朝着这个方向迈出的第一步。JPA代表联合嵌入预测架构(Joint Embedding Predictive Architecture)。这些是学习抽象表示的世界模型,能够操纵这些表示,并可能进行推理和生成一系列行动以达到特定目标。我认为这就是未来。大约三年前,我写了一篇长论文阐述了这可能如何运作。

Bill Dally: 要运行那些模型,你需要很棒的硬件。在过去十年中,GPU的能力在AI模型的训练和推理方面提高了大约5000到10000倍,从Kepler到Blackwell。我们今天看到还会有更多(提升)。横向扩展(Scale-out)和纵向扩展(scale-up)甚至提供了额外的能力。在你看来,未来会怎样?你期望什么样的东西能让我们构建你的JPA模型和其他更强大的模型?

Yann LeCun: 继续推出(新硬件)吧,因为我们将需要我们能得到的所有算力(competition应为computation)。这种在抽象空间中的推理在运行时将是计算密集型的。这与我们都非常熟悉的一个概念有关。心理学家谈论系统1(System 1)和系统2(System 2)。系统1是你无需真正思考就能完成的任务。它们已经成为第二天性,你无需过多思考就能完成。例如,如果你是一个有经验的司机,即使没有驾驶辅助,你也可以一边开车一边和别人说话。但如果你是第一次开车,或者刚开几个小时,你必须真正专注于你正在做的事情。你在规划各种灾难场景等等。那就是系统2。你调动你整个世界模型来弄清楚将要发生什么,然后规划行动以确保好事发生。然而,当你熟悉一项任务时,你可以只使用系统1,一种反应式的系统,让你无需规划即可完成任务。

Bill Dally: 推理是系统2,而自动的、潜意识的、反应式的策略是系统1。

Yann LeCun: 当前的系统正试图朝着系统2缓慢前进,但最终,我认为我们需要为系统2设计不同的架构。如果你想要一个能够理解物理世界的系统,我不认为它会是一个生成式架构。物理世界比语言难理解得多。我们认为语言是人类智力能力的顶峰,但实际上,语言很简单,因为它是离散的。它是离散的是因为它是一种通信机制,需要离散才能抗噪声。否则,你现在就无法理解我在说什么。所以,因为这个原因它很简单。但真实世界要复杂得多。 你可能听我过去说过这个:当前的LLM通常用大约30万亿个词元进行训练。词元通常大约是3个字节,所以那是$0.9 \times 10^{14}$$10^{14}$字节,就算$10^{14}$字节吧。我们任何人要读完这些需要超过40万年,因为这基本上是互联网上所有可用文本的总和。 现在,心理学家告诉我们,一个4岁的孩子总共醒着的时间大约是16,000小时,我们每秒大约有2兆字节(megabytes)的信息通过视神经进入视觉皮层,大约每秒2兆字节。用这个乘以16,000小时再乘以3600秒,大约是$10^{14}$字节——这是四年内通过视觉接收的数据量。你看到的(视觉)数据量,相当于你需要40万年才能读完的文本量。这告诉你,我们永远无法仅通过文本训练就达到AGI(无论你指的是什么)。这根本不可能发生。

Bill Dally: 回到硬件,脉冲系统(spiking systems)方面取得了很多进展,倡导者们借鉴生物系统的工作方式,认为神经形态硬件(neuromorphic hardware)有一席之地。你认为神经形态硬件在AI领域有任何可能补充或替代GPU的地方吗?

Yann LeCun: 短期内不会。(笑)嗯,好吧,我得给你讲个关于这个的故事。所以,当我1988年开始在贝尔实验室工作时,我所在的团队实际上专注于用于神经网络的模拟硬件(analog hardware)。他们构建了好几代完全模拟的神经网络,然后是混合模拟-数字的,再到90年代中期完全是数字的。那时人们对神经网络有点失去兴趣了,所以(研究硬件)也没意义了。 像这样奇特的底层原理的问题在于,当前的数字半导体处在一个如此深的局部最优状态,以至于替代技术需要很长时间和巨额投资才能赶上。甚至在原理层面上,也不清楚它是否有任何优势。像模拟或脉冲神经元或脉冲神经网络这样的东西可能有一些内在优势,但它们使得硬件复用(hardware reuse)变得非常困难。我们目前使用的每一块硬件,在某种意义上都太大太快了,所以你必须基本上复用同一块硬件来计算模型的不同部分。如果你使用模拟硬件,你就不能使用多路复用(multiplexing)。你的虚拟神经网络中的每个神经元都必须有一个物理神经元。这意味着你无法在一个芯片上容纳一个像样大小的神经网络。你必须做多芯片方案,一旦你能做到这一点,它会非常快,但效率不高,因为你需要进行跨芯片通信,而且内存变得复杂。最终,你需要进行数字通信,因为这是唯一能有效抵抗噪声的方式。 事实上,大脑提供了一个有趣的信息。大多数动物的大脑通过脉冲(spikes)进行通信。脉冲是二进制信号,所以它是数字的,不是模拟的。神经元层面的计算可能是模拟的,但神经元之间的通信实际上是数字的,除了非常小的动物。例如,秀丽隐杆线虫(C. elegans),一种1毫米长的蠕虫,有302个神经元。它们不放电(spike),因为它们不需要远距离通信,所以在那个尺度上它们可以使用模拟通信。这告诉你,即使我们想使用像模拟计算这样的奇特技术,我们最终还是得用某种方式进行数字通信。至少为了内存。这并不清楚——我已经多次进行过这种计算,我可能在这方面比你了解得少得多——但我认为短期内不会发生。 可能在边缘计算(edge computation)的某些角落这有意义。例如,如果你想要一个超级便宜的微控制器来为你的吸尘器或割草机运行感知系统,也许(模拟)计算是有意义的。如果你能把整个东西放在一个芯片上,并且可能使用相变存储器(phase change memory)或类似的东西来存储权重。

Bill Dally: 我知道有些人正在认真地制造这些东西。这些就是人们所说的PIM(内存中处理器)或模拟和数字处理器及内存技术。你认为它们有前景吗?

Yann LeCun: 绝对有。我的一些同事对此非常感兴趣,因为他们想为那些智能眼镜制造后续产品。你想要的是某种视觉处理能够一直进行。现在这是不可能的,因为功耗问题。仅仅是一个像图像传感器这样的传感器,在这种眼镜里也不能一直开着;几分钟内电池就耗尽了。一个潜在的解决方案是在传感器上直接进行处理,这样你就不必把数据移出芯片——这才是耗能的地方。移动数据耗能,而不是计算本身。这方面有很多工作正在进行,但我们还没到那一步。我认为这是一个有前途的方向。事实上,生物学已经解决了这个问题。视网膜大约有6000万个光感受器,在我们的视网膜前面,有四层神经元——透明的神经元——处理信号,将其压缩到100万根视神经纤维,然后传输到我们的视觉皮层。这里有压缩、特征提取和各种处理,以从视觉系统中获取最有用的信息。

Bill Dally: 其他新兴技术呢?你认为量子(quantum)或超导逻辑(superconducting logic)或地平线上的任何其他东西会给我们在AI处理能力方面带来巨大进步吗?

Yann LeCun: 超导,也许吧。我对这个了解不够,无法真正判断。光计算(Optical)一直非常令人失望。我记得在1980年代,我对关于神经网络光实现的讲座感到非常惊讶,但它们从未成功。技术在发展,所以也许情况会改变。对于量子计算,我极其怀疑。我认为量子计算唯一的中期应用是模拟量子系统,比如量子化学之类的。对于其他任何事情,我都极其怀疑。


七、 实现高级AI的瓶颈与未来

Bill Dally: 你谈到了构建能够像幼年动物一样通过观察学习的AI。你认为这对硬件提出了什么样的要求?你认为我们需要如何发展硬件来实现这一点?

Yann LeCun: 你能给我们多少?(笑)

Bill Dally: 这是个问题,你愿意买多少。

Yann LeCun: 你买得越多,省得越多,正如我们今天听到的。这不会便宜。

Bill Dally: (笑)

Yann LeCun: 例如,视频。让我告诉你一个我一些同事直到大约一年前还在做的实验。有一种用于自监督学习以学习图像表示的技术是使用重建。那个项目叫做MAE,即掩码自编码器(Masked Autoencoder)。它基本上是一个自编码器,一个去噪自编码器,非常像现在使用的那种。你拿一张图片,通过移除其中的一些部分——实际上是很大一块——来破坏它,然后训练一个巨大的神经网络来在像素级别或词元级别重建完整的图像。然后你使用内部表示作为下游任务(如对象识别或其他监督学习任务)的输入。 它效果还行,但你需要“烧开一个小池塘”来冷却那些液冷GPU集群才能做到这一点。而且它的效果远不如那些联合嵌入架构。你可能听说过DINO、DINO V2、JAPA等等。这些是联合嵌入架构,它们往往效果更好,而且训练成本实际上更低。

Bill Dally: 在联合嵌入中,你基本上为两个输入类别设置了两个潜在空间。

Yann LeCun: 与其把所有东西都转换成一种词元,你不如取完整的图像和被破坏或变换过的版本,将它们都通过编码器运行,然后尝试连接这些嵌入(embeddings)。你从部分可见或损坏图像的表示中训练完整图像的表示。这样做效果更好,也更便宜。 好吧,所以团队说,“这对于图像似乎效果还行,让我们试试用它来处理视频。”现在你必须对视频进行词元化,基本上是将视频转换成16x16的补丁(patches),即使对于短视频来说,这也是大量的补丁。然后,你训练一个巨大的神经网络来重建视频中缺失的补丁,也许是预测未来的视频。这需要“烧开一个小湖”,而不仅仅是一个小池塘,而且基本上是失败了。那个项目被停止了。 我们现在有的替代方案是一个叫做V-JEPA的项目,我们快要接近第二版了。它是那些联合嵌入预测架构之一。所以,它在视频上进行预测,但是在表示层面进行,而且看起来效果非常好。我们有一个这样的例子。这个的第一版是在非常短的视频上训练的,只有16帧,它被训练来从一个部分遮挡的视频版本中预测完整视频的表示。那个系统显然能够告诉你某个特定视频在物理上是否可能,至少在受限的情况下是这样。

Bill Dally: 它给你一个二元输出:“这是可行的”,“这不是”,或者可能比这更简单。

Yann LeCun: 你衡量系统产生的预测误差。你在视频上取一个16帧的滑动窗口,看看你是否能预测接下来的几帧。你测量预测误差,当视频中发生非常奇怪的事情时——比如一个物体消失了、改变了形状、自发出现或者不符合物理定律——它会将其标记为异常。这些是自然视频,然后你在合成视频上测试它,在那些视频里发生了真正奇怪的事情。

Bill Dally: 如果你在发生真正奇怪事情的视频上训练它,那就会变成常态,它就不会检测到那些是奇怪的了。所以你不那么做。

Yann LeCun: 这有点对应于婴儿如何学习直观物理学(intuitive physics)。一个没有支撑的物体会下落——基本上是重力的作用——婴儿大约在九个月大的时候学会这个。如果你给一个五六个月大的婴儿看一个物体似乎漂浮在空中的场景,他们不会感到惊讶。但到了九或十个月大时,他们会睁大眼睛看着它,你实际上可以测量到这一点。心理学家有方法测量注意力,这表明婴儿的内部世界模型被违反了。婴儿看到了她认为不可能发生的事情,这与她的预期不符。所以,她必须看着它来修正她的内部模型,并说:“也许我应该了解一下这个。”

Bill Dally: 你谈到了在这个联合嵌入空间中进行推理和规划。我们需要什么才能达到那个目标?在模型方面和硬件方面,瓶颈是什么?

Yann LeCun: 很多工作就是让它能跑起来。我们需要一个好的“配方”(good recipe)。在人们想出训练即使是简单的卷积网络的好配方之前,这非常困难。回到2000年代末,Geoff Hinton告诉所有人用反向传播训练深度网络非常困难。Yann LeCun可以用卷积网络做到,但他是世界上唯一能做到的人——当时是这样,但不完全准确。事实证明,并没有那么难,但有很多技巧你必须弄清楚——工程技巧、直觉技巧,比如使用哪种非线性函数、ResNet的想法——这是过去10年所有科学领域被引用最多的论文。这是一个非常简单的想法:你只需要有跳过每一层的连接,这样默认情况下,深度神经网络中的一层基本上被简化为恒等函数,而神经网络所做的是对这个非常简单想法的偏离。这使我们能够防止梯度在反向传播时消失,并训练具有100层或更多层的神经网络。 在人们想出包含所有这些残差连接、Adam优化器和归一化的完整配方之前,什么都行不通。我们刚刚有一篇论文表明在Transformer中你不需要归一化,诸如此类。在你拥有这个完整的配方和所有技巧之前,什么都行不通。 对于NLP和自然语言处理系统也是如此。在2010年代中期,有基于去噪自编码器的系统,如BERT,你取一段文本,破坏它,然后训练一个大型神经网络来恢复缺失的单词。最终,这被GPT风格的架构所取代,你只是在整个系统上进行训练。你将其作为自编码器进行训练,但不需要破坏输入,因为架构是因果的(causal)。结果证明这种方式非常成功且可扩展。 我们必须为那些JAPA架构想出一个好的配方,使其能够扩展到同样的程度。这就是所缺失的。

Bill Dally: 嗯,我们面前有闪烁的红灯了。在我们结束之前,你有什么最后的想法想留给观众吗?

Yann LeCun: 是的,我想强调我之前提出的观点。AI的进步以及朝着人类水平AI、高级机器智能或AGI——随便你怎么称呼它——的进步,将需要每个人的贡献。它不会来自某个在秘密中进行研发的单一实体。那根本不会发生。它不会是一个事件;它将是一路上许多连续的进步。人类不会在这发生后的一小时内被灭绝,因为它不会是一个事件。它将需要来自世界各地的贡献。它必须是开放的研究,并基于开源平台。如果它们需要大量训练,我们将需要更便宜的硬件。

Bill Dally: 你需要降低你的价格。(笑)

Yann LeCun: (笑)你得去找Jensen谈这个。我们将拥有一个高度多样化的AI助手的未来,它们将在我们的日常生活中帮助我们,可能通过我们的智能眼镜或其他智能设备一直陪伴我们,而我们将是它们的老板。它们将为我们工作。这将像是我们所有人都将成为管理者。(笑)那是个可怕的未来。

Bill Dally: 嗯,就此打住吧。我想感谢你进行了一场真正激发智力的对话,我希望我们有机会再进行一次。

Yann LeCun: 好的,是的。谢谢。

Bill Dally: 是的,谢谢。


要点回顾

AI与计算前沿:Yann LeCun与Bill Dally对话概要 (NVIDIA GTC 2025)

一、 当前AI研究的焦点与LeCun的兴趣转变

二、 理解物理世界:世界模型与表征学习

三、 通用人工智能(AGI)/高级机器智能(AMI)展望

四、 AI的应用、益处与风险

五、 AI创新、开源与全球合作

六、 AI系统与硬件需求

七、 实现高级AI的瓶颈与未来