「讲座-Geoffrey Hinton@多伦多大学-2025」玻尔兹曼机
摘要
Geoffrey Hinton教授在多伦多大学的马丁讲座上,回顾了他对人工智能领域的两大贡献:反向传播(Backpropagation)和玻尔兹曼机(Boltzmann Machines)。
反向传播部分,Hinton教授首先阐述了这种算法在现代深度学习中的核心地位。他通过图像识别(AlexNet)和语言模型(小型语言模型和大型语言模型,如GPT)的例子,展示了反向传播如何通过链式法则高效地训练具有大量参数的神经网络。他强调,尽管反向传播取得了巨大成功,但其生物学上的不可行性促使他探索其他学习机制。
玻尔兹曼机部分,Hinton教授介绍了这种受统计物理学启发的模型。他详细解释了Hopfield网络、能量景观、热平衡等概念,并提出了一个基于“清醒-睡眠”循环的无监督学习算法。该算法在清醒阶段使用Hebb规则加强连接,在睡眠阶段使用反Hebb规则削弱连接,理论上可以实现最大似然学习。然而,由于达到热平衡所需时间过长,玻尔兹曼机在实践中并不实用。Hinton教授还介绍了受限玻尔兹曼机(RBM),它简化了模型结构,提高了学习效率,并曾被用于初始化深度神经网络。
在炉边谈话和问答环节,Hinton教授讨论了物理学与人工智能的交叉、AI的潜在风险与监管等问题,并表达了他对AI未来发展的谨慎乐观态度。总的来说,Hinton教授的讲座回顾了人工智能发展史上的关键概念和技术,并对该领域的未来发展方向进行了展望。
讲座要点
演讲介绍 (0:03 - 6:49)
- Melanie Woodin (多伦多大学文理学院院长) 介绍活动背景:
- 介绍Martin Lecture的由来和Martin家族对多伦多大学的贡献。
- 强调Martin Lecture旨在邀请顶尖思想家和研究人员。
- Paul Kushner (多伦多大学物理系主任) 介绍Geoffrey Hinton:
- 介绍Hinton教授的学术成就和荣誉,包括图灵奖、加拿大勋章等。
- 强调Hinton的研究将统计物理学与认知科学相结合,对人工智能领域产生了革命性影响。
- 宣布授予Hinton物理系荣誉教职。
- 预告之后的炉边谈话环节,由Yonatan Yoni Kahn教授主持。
Geoffrey Hinton演讲 (7:00 - 59:32)
引言:两种学习过程 (7:00-7:57)
- 自嘲地比较了两种他曾研究过的学习过程:一种有趣但效果不佳(Boltzmann Machines),另一种实用但缺乏趣味(反向传播)。
- 首先介绍反向传播,因为它更实用且是当前深度学习的基础。
反向传播 (Backpropagation) (7:57-24:15)
- 介绍AI的两种早期方法:逻辑推理(符号AI)和神经网络。
- 解释神经网络的基本结构和学习原理:多层神经元、连接权重、通过调整权重来学习。
- 强调反向传播的高效性:通过链式法则同时调整所有权重,避免了逐个尝试的低效性。
- 介绍2012年AlexNet在图像识别上的突破,标志着神经网络在计算机视觉领域的崛起。
- 讨论反向传播在语言模型上的应用:
- 反驳Chomsky等语言学家对神经网络处理语言能力的质疑。
- 介绍1985年的一个小型语言模型,统一了词义的两种理论(结构主义和心理学)。
- 解释大型语言模型(如GPT)的工作原理:将词语转换为特征向量,通过特征交互预测下一个词。
- 用乐高积木的比喻来解释词语如何通过“握手”组合成有意义的句子。
玻尔兹曼机 (Boltzmann Machines) (24:15 - 59:32)
- 提出问题:反向传播在生物学上不可行,大脑是否可能有不同的学习机制?
- 介绍Hopfield网络:
- 二元神经元、对称权重。
- “构型”及其能量/优度。
- 能量极小值可用于存储记忆(内容寻址记忆)。
- 解释如何用Hopfield网络进行感知推理:
- 输入神经元(可见神经元)表示图像。
- 隐藏神经元表示对图像的解释。
- 系统的能量代表解释的“坏”程度。
- 通过寻找低能量状态来找到好的解释。
- 用Necker立方体的例子说明同一图像可以有多种解释。
- 如何通过网络结构来加入视觉先验知识(例如:线段连接表示物理世界中的边连接)。
- 引入噪声神经元和温度:
- 解释噪声神经元如何帮助系统跳出局部最小值,找到更优解。
- 解释热平衡的概念:系统在不同构型之间的概率分布稳定,即使单个系统仍在不断变化。
- 强调热平衡下,构型概率仅取决于能量,与历史无关。
- 玻尔兹曼机的学习规则 (核心)
- 提出目标:找到权重,使得网络在自由运行时(“做梦”)生成的图像与真实图像相似。
- 介绍两个阶段:清醒阶段(wake phase)和睡眠阶段(sleep phase)。
- 清醒阶段:输入图像,更新隐藏单元至热平衡,使用Hebb规则(同时激活的神经元加强连接)。
- 睡眠阶段:无输入,自由运行至热平衡,使用反Hebb规则(同时激活的神经元削弱连接)。
- 强调这两个简单规则在期望上可以实现最大似然学习。
- 展示简化的数学推导:解释为什么这个学习规则等价于最大化模型生成数据的概率。
- 能量对权重的导数是神经元活动的乘积。
- 热平衡下,状态的对数概率是能量的线性函数。
- 清醒阶段增加数据出现的概率,睡眠阶段减少所有可能构型的总概率。
- 指出玻尔兹曼机的主要问题:达到热平衡需要很长时间,不实用。
受限玻尔兹曼机(RBM)及其与深度学习的关系: (59:32-1:05:45)
- 解释为什么受限玻尔兹曼机(只有一层隐藏单元且不互相连接)可以快速学习。
- 清醒阶段达到平衡只需要一次更新
- 睡眠阶段用对比散度(contrastive divergence, CD)学习:减少更新步骤,近似达到平衡状态。
- 介绍受限玻尔兹曼机在Netflix电影推荐比赛中的应用。
- 说明如何通过堆叠多个受限玻尔兹曼机来初始化深度神经网络,提高训练效果。
- 将受限玻尔兹曼机比作“酶”:一种帮助深度学习诞生的技术,但最终被其他方法取代。
- 解释为什么受限玻尔兹曼机(只有一层隐藏单元且不互相连接)可以快速学习。
总结 (1:05:45 - 1:06:59)
- 玻尔兹曼机像酶一样,促进了向当前神经网络的过渡。
- 强调睡眠中“反学习”的重要性,并解释为什么剥夺睡眠会导致精神问题。
炉边谈话 (1:06:59 - 1:23:32)
- 关于相关函数 (1:08:40-1:10:39):
- Yonatan Kahn 提出物理学中相关函数的重要性。
- 讨论是否可以用物理学中的相关函数概念来解释大型神经网络中的意义和可解释性。
- Hinton认为可能, 但不知道如何做, 且认为大型模型可能无法完全理解。
- 关于物理学视角 (1:10:39-1:12:17):
- 讨论物理学视角在理解深度学习中的作用,以及与心理学、生物学、传统计算机科学的区别。
- 讨论物理学中的scaling laws在AI中的应用。
- 用物理方法进行高效通讯(1:12:17 - 1:16:47):
- 讲述了如何使用变分方法 (物理中的自由能概念) 来优化通讯, 通过随机选择不同编码方式, 可以在传递信息的同时传递额外信息.
- 关于AI的“CERN” (1:16:47 - 1:19:15)
- 讨论是否需要一个类似CERN(欧洲核子研究中心)的AI研究机构。
- Hinton指出AI在军事和网络安全方面的应用可能会阻碍国际合作。
- 关于AI的风险与监管 (1:19:15 - 1:23:32)
- 将AI与核武器进行类比,强调其潜在的破坏性。
- Hinton认为Meta公开大型模型权重是“疯狂”的,因为这降低了滥用AI的门槛。
- 对AI的未来发展表示悲观,认为需要强有力的政府和明智的领导者来应对AI带来的挑战。
- 讨论对于已经开放的大模型, 能否从中学习从而避免未来更大模型的灾难.
观众问答 (1:23:32 - 1:34:42)
- 关于AI监管的时机和全球合作的必要性。
- 关于大型语言模型性能是否已经达到平台期,是否需要新的方法。
- 关于主动推理理论(active inference theory)中是否可能存在类似反向传播的机制。
- 关于图像生成与玻尔兹曼机“清醒”和“睡眠”状态的关系。
主要结论与要点:
- 反向传播是当前深度学习的基础,但在生物学上不可行。
- 玻尔兹曼机提供了一种理论上更优雅的学习机制,但实际上不实用。
- 受限玻尔兹曼机曾被用于初始化深度神经网络,但现在已被其他方法取代。
- AI的发展带来了巨大的机遇和风险,需要谨慎对待。
- Hinton对AI的未来持悲观态度,认为需要强有力的政府和明智的领导者来应对挑战。
- AI 发展迅速, 需要新的视角(如物理学)来帮助理解.
讲座实录
讲座介绍 (0:03 - 6:49)
Melanie Woodin (多伦多大学文理学院院长): 晚上好,各位。感谢大家今晚出席。我是Melanie Woodin,多伦多大学文理学院院长。在开始之前,我想对多伦多大学所在的这片土地表示敬意。数千年来,这里一直是休伦-温达特人、塞内卡人和密西沙加人的传统领地。今天,这里仍然是来自龟岛各地的许多原住民的家园,我们很感激能有机会在这片土地上工作。欢迎参加2025年马丁物理学讲座。
马丁讲座是为了纪念马丁家族及其对多伦多大学文理学院的慷慨捐赠而设立的。我想不出还有哪个家族与多伦多大学有更深厚、更广泛的联系。自19世纪末以来,马丁家族的约60名成员曾在这里学习,包括Mary和Ron Martin的四个孩子和六个孙辈。我很高兴今天看到马丁家族的许多成员来到这里,包括校友。也很高兴看到Peter Martin教授,我的同事,加拿大理论天体物理研究所的教授,感谢他长期以来对该研究所的正式和非正式领导。
Mary和Ronald Martin研究生奖学金是通过Mary和Ron Martin的慷慨遗赠设立的,他们坚信教育的力量,我们对此深表感谢。这是一个多么鼓舞人心的家庭啊!他们设立的奖学金帮助我们吸引来自加拿大和世界各地的最有前途的研究生。这些奖学金每年颁发给四个学科的顶尖研究生:物理学、天文学和天体物理学、生态学和进化生物学以及公共政策,这是Mary和Ron的四个孩子的专业领域。因此,每年的马丁讲座都会轮流关注这四个学科,我们努力带来引人入胜的讲座,探讨当今最相关和最引人入胜的问题。今晚当然也不例外,我们将与诺贝尔奖获得者Geoffrey Hinton一起。
众所周知,Hinton教授最近获得了诺贝尔奖,部分原因是他利用物理学训练人工神经网络。所以今晚我们将大饱耳福。今晚对人工智能早期发展的回顾将激发新的问题和想法,为未来的发现铺平道路,而我们现在只能瞥见这些发现。现在,我很高兴将讲台交给我的同事,物理系主任Paul Kushner教授,由他来介绍我们的演讲者。有请Paul。
Paul Kushner (多伦多大学物理系主任): 谢谢Woodin院长。很荣幸介绍今晚的主旨演讲者,Geoffrey Hinton荣誉退休教授。Hinton博士在人工智能和认知科学领域的多产思想追求为他赢得了无数荣誉,包括英国皇家学会和加拿大皇家学会会员、加拿大勋章获得者以及ACM图灵奖。但今晚的马丁讲座是一个绝佳的机会,来庆祝和探索Hinton教授的工作与物理学科的迷人联系,因为他获得了我们领域的最高荣誉——2024年诺贝尔奖。
他与John Hopfield博士共同获得了这一荣誉,因为他们将统计物理学作为认知科学的工具。Hinton博士及其同事利用统计物理学发现,人工神经网络的许多部分,经过系统组织和连接,可以用来识别和重现数据集中的模式。这一点,再加上来自神经科学、化学的思想,以及数学、工程学和计算机科学的重大进展,导致了今天的人工智能革命。
如今,在最前沿,用于分析亚原子和原子物理系统、新型材料以及无数生物、化学和环境系统的现代统计物理学,正在加深对人工智能本身的理解,从而进一步推动人工智能的发展。正如Woodin教授所指出的,我们在多伦多大学物理学的研究环境非常适合发现更多关于统计物理学和人工智能之间众多联系的信息。考虑到这一点,我们期待Hinton教授向我们讲述物理学与机器学习的交叉点。在他开始之前,我想代表整个物理系,以我们自己非常微小的方式,授予Hinton博士一个荣誉职位,让他成为我们物理系研究生院的荣誉教员,以此来表彰他的成就。
很棒,对吧?Hinton博士已经欣然接受了这个任命,我们保证这个任命绝对没有任何行政职责。我们还有一个可爱的框架来展示给他。在他的演讲结束后,我还将邀请Yonatan Yoni Kahn博士,我们物理系的新同事,主持一场炉边谈话。所以你们可以想象那边有一堆欢快的篝火。与Hinton教授一起,他们将进一步探讨玻尔兹曼机、物理学和人工智能之间的联系。在Hinton博士的主旨演讲之后,我将花一点时间介绍Kahn教授。
现在,请大家和我一起欢迎今年的马丁物理学讲座讲师,Geoffrey Hinton。
Geoffrey Hinton演讲 (7:00 - 59:32)
Geoffrey Hinton: 我应该说,我曾经被邀请担任统计学的兼职教授,但我拒绝了,因为我不懂统计学。如果我保持一致,我也应该拒绝这个,但我没有。早在20世纪80年代,我研究了两种不同的学习过程,这两种过程有点令人尴尬。其中一个非常有趣,另一个则有效。所以我将首先谈谈有效的那个,它只是微分链式法则的一个简单应用,我将谈论它大约20分钟左右,因为那实际上是有效的,那是当前人工智能、当前深度学习和人工智能的基础,我将谈谈我们在那里做的一些事情。我觉得我需要诚实地说明什么是真正有效的。然后我将谈论另一个学习过程,它更有趣,使用了统计物理学,但实际上效果不太好,但它非常有趣。好了,开始了。
引言:两种学习过程 (7:00-7:57)
所以在人工智能的历史上,有两种方法,可以追溯到20世纪50年代。有一种是受逻辑启发的方法,其思想是……不,我看不到幻灯片。其思想是,智能的本质是推理,我们需要研究推理是如何工作的,推理是通过操纵符号表达式来完成的。另一种方法是神经网络,其思想是,智能的本质是在神经网络中学习连接强度,在你弄清楚大脑如何学习之前,不要担心推理。图灵和冯·诺依曼都相信第二种方法,但他们都英年早逝。因此,第一种方法主导了50年。
反向传播 (Backpropagation) (7:57-24:15)
我将非常快速地解释一下什么是神经网络,以防这里有人不知道它们是什么。你有几层神经元,它们是相对简单的设备,在这项工作中。真正的神经元非常复杂,但我们做了粗略的简化。从这个意义上说,我是个物理学家。我有点忽略所有的细节。物理学家喜欢把马看成球形的。你有多个层次的这些东西,神经元之间有连接,你想学习连接强度,所以当你输入一些东西时,正确的东西就会输出。通常情况下,你输入的是图像的像素,你希望输出的是图像中对象的类别,图像的标签。
所以每个人都能理解,你可以通过以下方式学习神经网络。选择其中一个连接强度并稍微改变它,看看整个系统是否工作得更好或更差。这就是突变方法。这肯定会奏效,但会花费大量时间。因为现在,神经网络有万亿个权重。所以你必须,一万亿次,选择其中一个权重,稍微改变它,看看情况是否有所改善。为了看看情况是否有所改善,你需要给它很多例子。因为它可能会使它对某些例子更好,对另一些例子更差。所以这是非常慢的。
反向传播本质上是做同样的事情,但并行地计算出所有权重,稍微增加或减少它们是否会提高性能。所以在反向传播中,你通过网络发送一个信号,你看看你得到的和你想要的之间的差异,然后你向后发送一个信号。通过这样做并使用微分的链式法则,你可以计算出,对于每一个连接同时,你是否应该稍微增加或减少它,这就是你要做的。令人惊讶的是,令很多人惊讶的是,这非常有效。如果你有大量数据和一台非常快的计算机,它会非常有效。
所以在2012年,我实验室的两名学生,Ilya Sutskever,你可能听说过他,他刚刚创办了一家公司,该公司什么也不生产,现在价值300亿美元。我建议院长可以联系他。所以Ilya Sutskever和Alex Krizhevsky是一位了不起的程序员。他们制作了一个系统,可以比标准计算机视觉更好地识别图像中的对象。它的错误率几乎是标准计算机视觉的一半。这为神经网络打开了闸门。人们已经在使用了,特别是在语音方面,但这个网络的性能清楚地表明它们确实有效,而且它们确实在真实图像上有效。在接下来的一年左右的时间里,计算机视觉领域的每个人都转向使用神经网络。几年前,关于神经网络的论文经常被计算机视觉会议拒绝,因为每个人都已经知道这些东西是无稽之谈。几年后,几乎所有的论文都是关于神经网络的。所以这产生了很大的影响,至少它是由我实验室的学生完成的。所以我会因此获得很多荣誉。事实上,计算机博物馆邀请我,现在有一个AlexNet的展览,计算机博物馆问我是否可以为他们提供一句引言。所以,我和Alex和Ilya达成一致的引言是……是Ilya的想法,Alex让它实现了,而我获得了诺贝尔奖。
好吧,但语言呢?所以,符号人工智能领域的许多人说,这永远不会对语言起作用,这是完全不同的。如果你在我的网页上查找,你可以找到他们说这永远不会对语言起作用的引言。你还可以找到GPT4向这些人解释他们的引言有什么问题,这很有趣。
有一位语言学家叫乔姆斯基,你可能听说过他,他是一个类似邪教人物。他设法让人们相信语言不是习得的。很明显,语言是习得的。就像很明显奥巴马有更多的人群一样。但如果你能让人们相信语言不是习得的,那么你就掌握了他们。几代语言学家都相信语言不是习得的。乔姆斯基从来没有一个意义理论。他的理论都是关于句法的。他当然认为所有这些东西都是完全无稽之谈,即使它现在可以和他进行相当好的争论,但他仍然认为这是完全无稽之谈,它不是真正理解任何东西。
所以语言学家认为,一个大型神经网络只使用数据来学习句法和语义的想法是完全荒谬的,它永远不会奏效。多年来,它确实从未奏效。但最终,有了大型网络,它非常有效。这就是你在这些大型语言模型中看到的。我想稍微谈谈这些大型语言模型的起源和意义是什么。所以关于一个词的含义有两种非常不同的理论。一种理论认为,一个词的含义取决于它与其他词的关系。如果你有一堆句子,里面有多个单词,它与其他单词的分布方式决定了它的含义。这是一个来自德·索绪尔的理论,一百多年前,这就是符号人工智能人士基本上相信的。为了捕捉意义,你可能需要类似关系图的东西。
另一种理论来自心理学家,它认为一个词的含义是一大堆特征。所以星期二有一些巨大的特征,星期三有一些巨大的特征,它们是非常相似的特征。现在,这两种理论听起来非常不同。但在1985年,为了让人们相信反向传播实际上是有效的,我开发了一个系统,一个统一了这两种理论的小型语言模型。所以这个想法是,你将使用单词的特征来预测单词串中下一个单词的特征,从下一个单词的特征,你将预测单词。但系统中唯一存储的将是如何将单词转换为特征,以及上下文中单词的特征应该如何相互作用来预测下一个单词的特征。你实际上不存储任何单词串。所以符号人工智能人士认为你在你的头脑中存储单词串,或符号串,你用规则操纵这些符号串以获得其他的符号串,就像在逻辑中一样。这是一个完全不同的意义概念。你将一个单词转换为一堆特征。你知道特征如何与其他单词的特征相互作用来预测下一个单词的特征。而意义就是,取一个单词串,并将这些单词转换为适当的特征。这可能很困难。你可能有一个像may这样的词,它可能是一个月,或一个女人的名字,或一个情态动词,你必须使用与相邻单词的交互来决定may使用什么特征。
但本质上,你现在拥有的大型语言模型,它们的工作方式是,它们接受单词,实际上是单词的片段,并将这些单词转换为特征向量。然后,它们有许多层通过交互来消除歧义来细化这些特征向量。然后他们预测下一个单词的特征。从这些特征中,他们可以预测下一个单词。所以,它们的工作方式就像小型语言模型一样,只是它们更大,特征交互的方式更复杂。
所以我要向你展示,因为它是我做的,几年前的小型语言模型,因为它非常容易理解。大型语言模型,很难理解它们是如何表示知识的。小型语言模型,很容易看到它是如何表示知识的。所以我采用了一些关系知识,两个家谱,你可以将这些家谱中的信息转换为三个单词的字符串,即三个单词的组,如果你使用像儿子、女儿、侄子、侄女等关系。你可以有三个单词的字符串,比如Colin has-father James。从这些字符串中,如果你学习了一些字符串,你现在可以预测其他的字符串。这叫做泛化。
逻辑领域的人会这样做,他们会说,你必须有这样的规则。所以你必须有一个规则说,如果X有母亲Y,Y有丈夫Z,那么X有父亲Z,或者反过来。他们认为你应该做的是寻找这些规则。现在,如果有离散的规则,事情总是非常确定的,这很好。一旦你在数据中有一些例外和一些不确定性以及数据中的错误,搜索离散规则就困难得多。这个想法是,我们让一个神经网络找到那些相同的规则,但通过搜索一个连续的空间。关于计算机科学中的连续和离散有一件有趣的事情。很长一段时间以来,计算机科学家将自己定义为,我们对实数不感兴趣。我们只对离散的东西感兴趣,比如图,因为我们是真正的计算机科学家。然后数学家向他们解释说,实际上,即使你想做离散的事情,使用实数,使用大矩阵来理解离散结构也是一个好主意。所以,关于神经网络的要点是,它们使用实数并在那个空间中搜索,搜索在那个空间中要容易得多。
所以我使用了这样的网络。它有两个输入,一个人和一个关系。它将这些转换为特征。实际上,每个只有六个特征,因为它是一台比我们现在的计算机慢数十亿倍的小型计算机。这是在1985年。然后它接受单词的特征,它们相互作用,它们预测下一个单词的特征。整个过程都是通过简单地从输出反向传播,输出中的错误来训练的。你向后发送一个信号,它告诉你如何改变将符号转换为特征向量的连接强度,并使这些特征向量相互作用。它学到了有意义的有趣特征。所以你可以看到它是如何工作的。
例如,对于人,如果你考虑这两个家谱,这是20世纪50年代的家谱。没有离婚,没有收养,没有有趣的事情,只是非常非常正直的20世纪50年代的 美国家庭. 比如,意大利人只会和意大利人结婚。因此,如果你知道输入的人的国籍,你就知道答案的国籍。因此,当你将一个符号转换成特征时,将国籍作为其中一个特征是一个非常好的主意。这在训练数据中并不是明确的,但这是一个很强的规律,即意大利人只和意大利人结婚。所以它学习了国籍特征。它还学习了诸如世代之类的特征。对于关系,它学习了诸如答案应该比输入高一代之类的特征。因此,如果你在寻找某人的叔叔,那应该比他们高一代。因为对于关系,它知道一些关系要求你高一代,并且因为它已经学会了提取输入的人的世代,所以它可以预测输出的人的世代。因此,它获得正确输出的人的方式是通过预测输出的人的一堆特征,比如他们的国籍和他们的世代,以及他们在哪个家谱分支中,然后它可以预测输出的人。
所以它实际上是有效的。当时它并没有产生很大的影响。我认为这很棒,因为我设法统一了心理学家的意义理论,这是一大堆特征,与通过让特征产生序列的结构主义意义理论,并通过使用序列来学习特征,所以你可以从序列到特征,从特征回到序列。但是符号人工智能的人不是很感兴趣。但随着时间的推移,人们越来越感兴趣。我确实收到了一个我仍然很恼火的评论。每个科学家都有一些他们非常恼火的评论。我在2007年收到一个评论说,我在谈论将单词转换为特征并让特征相互作用,评论说,“Hinton多年来一直在做这件事,没有人感兴趣。是时候继续前进了。”那是2007年,当时它已经开始起作用了。
好的,我将通过尝试给你一个关于意义如何运作的类比来结束关于反向传播的这部分内容,单词如何运作来给你意义。所以乔姆斯基没有真正理解的是,你必须有事物的模型,单词是一种构建模型的特殊方式。它们实际上是一种比统计学家拥有的任何东西都好得多的构建模型的方式,因为你可以用它们制作非常复杂的模型。所以这样想。假设你想知道3D中的东西在哪里,比如你想模拟保时捷的形状,你不太担心空气动力学,所以你不关心表面。你可以用乐高积木制作它,你可以用乐高积木很好地近似它。
好吧,单词就像乐高积木,除了一些不同之处。第一个不同之处是,我们有大约30,000种不同类型的乐高积木。这是一个不同之处。第二个不同之处是,它们不是刚性的,它们可以移动一点。如果我告诉你一个单词的名字,它定义了一个形状,但这个形状有一定的灵活性。它当然可能定义了几个可选的形状,但它不是无限可变的,我是说,无限可塑的。这个词定义了一个粗略的形状。然后,这些单词相互作用以确定单个单词的形状,你可以认为,这些单词需要以某种方式组合在一起。现在用乐高积木,你有一个小塑料圆柱体,它进入一个小圆柱孔,它们卡在一起。你用单词做的方式是,每个单词上都有一堆手,当你改变单词的形状时,你会改变那些手的形状,单词必须与其他单词握手,它们必须决定与其他哪些单词握手。然后它们与手形与它们的手形相匹配的其他单词握手。所以,把理解一个句子的意思想象成你有这些单词,它们有这些有点灵活的形状,当你改变它们的形状时,它们握手的所有手都会改变形状,你需要做的就是找出如何使它们变形,使它们可以很好地锁定在一起,当你这样做时,当你使这些形状变形并且它们很好地锁定在一起时,这就是意义,这是一种建模事物的方式,这就是意义。
只是还有一个不同之处,那就是这些单词是千维的,而不是三维的,但我们不会大惊小怪。千维空间,你思考它们的方式是,你想象一个三维空间,然后说一千。我想物理学家也必须这样做,但我不知道。也许他们可以想象四维空间。当你达到11维时,我不认为他们可以想象它。
好了,这就是第一部分演讲的全部内容。我稍微谈了谈反向传播。我谈到了我们在反向传播方面做的两件事,一个小型语言模型和识别图像中的对象,这两件事在反向传播的使用发展中都非常有影响力,这就是导致,我是说,它们是非常有影响力的工作,导致了我们今天拥有的神经网络,可以做任何事情的深度神经网络。
玻尔兹曼机 (Boltzmann Machines) (24:15 - 59:32)
现在,关于反向传播的一件不幸的事情是,很难看出你如何在 大脑中做到这一点,我一直对大脑实际上可能是如何做到这一点感兴趣。这是做这件事的目的之一。所以如果你问,反向传播是什么样的,作为大脑如何学习的模型?好吧,没有人找到一种好的方法来实现反向传播在神经上可行的东西。我们可以为小型系统做到这一点,但一旦你采用一个大型系统,我们就无法在类似大脑的东西中实现,任何与反向传播一样有效的东西。
皮层神经元向彼此发送二进制信号。它们不像我们在反向传播中那样发送实数值。反向传播的向后传递。所以你输入一个图像,你向前走,你识别出一些东西。如果你知道那里有什么,你可以向后发送一个错误信号。但你必须知道那里有什么,这已经是一个问题了。当你向后发送这个信号时,你正在干扰感知的流水线。我们实时进行感知。东西总是在进来。你不想停下来向后发送东西。所以这是另一个问题。
一个新问题,因为我们只是在最近几年才知道这一点,反向传播比大脑工作得好得多,这就是认为它可能不是大脑做事的方式的原因。它在将大量信息打包到少量连接中比大脑工作得好得多。所以这些大型语言模型有大约一万亿个连接,最大的那些,你的大脑有大约一百万亿个连接。假设其中一千万亿个用于知识,这似乎并非不合理。我们是物理学家,所以我们只是按数量级做事。所以至少十分之一的连接将被用于了解事物。像GPT4这样的东西比任何人都知道的多几千倍。他们就像在所有方面都不是很好的专家。所以反向传播实际上在将大量信息压缩到连接中比我们在大脑中得到的任何东西都好得多,也许是因为大脑正在解决一个非常不同的问题。我们的问题是,我们有很多连接,像一百万亿个,但我们活不了多久,我们只能活大约二十亿秒。幸运的是,它比二十亿多一点,但大约二十亿。所以我们没有得到太多的经验,但我们有很多连接。在这些大型语言模型中,它们有大量的经验,没有多少连接。所以如果你有大量数据和没有多少连接,反向传播是好的。我们大脑做的任何事情都是好的,如果你有很多连接和没有多少数据,并且它是为此优化的,大概。
所以这导致了这个问题,也许有一种完全不同的方式来获得梯度,一种获得你应该如何改变你的权重以使系统工作得更好的梯度的方法,也就是说,系统所犯的错误相对于权重的梯度,这与反向传播完全不同,这意味着你不必一直中断流水线和事物?事实证明是有的,这就是统计物理学发挥作用的地方。因为我将使用统计物理学的一点魔法来向你展示,有一个非常简单的学习过程,它实际上非常像伟大的加拿大心理学家唐纳德·赫布在1949年左右推荐的过程,他说,一起放电的神经元,连接在一起。所以他的学习算法是,如果两个神经元一起激活,增加它们的连接强度,粗略地说。这行不通。如果你只是这样做,连接只会变得更强。他没有说连接是如何变弱的。答案是,你还必须做其他事情,然后这个算法才有效。
所以我将首先解释称为Hopfield网络的东西。Hopfield网络,正如你可能想象的那样,是由John Hopfield开发的,它们使用二元神经元。所以现在不是实数值,我们将拥有二元神经元,它们要么打开要么关闭。Hopfield实际上使用1和-1,但我会说得好像他使用1和0。这符合皮层神经元,它们在短时间内要么发送一个尖峰要么不发送。好的,所以我们有这些二元神经元,我们将在它们之间有对称的权重,这是完全不现实的。但我们是物理学家,所以这没关系。
所以对称权重意味着,以上面那两个神经元为例,当左边的神经元放电时,它向右边的神经元发送一个-5的输入,类似地,当右边的神经元放电时,它向左边的神经元发送一个-5的输入。所以,我们有加权连接,在Hopfield网络中权重始终是对称的。我将网络的全局状态,也就是说,为网络中的所有神经元分配1和0,说明它们是否在放电,我将其称为一个构型。构型有能量。如果你想去掉一些负号,我们将谈论构型具有优度,一个构型的优度很简单,对于所有活跃的神经元对,只需将连接上的权重相加即可。所以对于那里活跃的三个神经元,它们有1,你将权重相加,你得到4。所以能量是-4,优度是4。同一个网络有不同的……这是一个局部最小值。你不能改变任何神经元而不提高能量或降低优度。但那个网络有一个不同的状态,它具有更大的优度或低能量,也就是……我已经说过了。也就是,如果你采用同一个网络,你打开那三个单元,那么那个阶段的能量是-5,优度是5,这是一个更好的最小值。所以重点是表明,即使在像这样的小型网络中,你也可以有两个不同的最小值。
现在,Hopfield意识到这意味着你可以使用这些最小值作为记忆。所以他对你将用这样的网络做什么的 模型是,你将使用它来存储记忆,然后你将得到一个内容寻址记忆。如果我给你一点记忆,你可以通过让这个网络稳定下来来填补其余部分。对不起。我点击了两次。是的。你可以仅从知道记忆的一部分来访问记忆。现在,当他在80年代初这样做时,那是在谷歌之前,内容寻址记忆似乎是一件非常神奇的事情。一旦谷歌出现并制作了大型倒排索引,很容易做到内容寻址记忆,我们现在都习惯了。但这是在神经网络中进行内容寻址记忆的一种方式。
所以Terry Sejnowski和我去听了Hopfield的演讲,我们发现,你可以将Hopfield网络用于完全不同的事情。你可以将Hopfield网络用于进行感知推理,用于查看图像并解释图像中的内容。所以,这个想法是有两组神经元。我们将有输入神经元,你在其中表示图像中的内容,我将这些称为可见神经元,你有隐藏神经元,它们表示对图像中内容的解释。你希望整个系统的能量代表解释的坏处。所以通过找到这个整个网络的低能量状态,你正在找到好的解释。所以,如果你向它展示一个图像,你正在做的是,你正在固定可见单元的状态。假设它是一个二值图像。所以你固定可见单元的状态以表示一些二值图像,然后你希望网络通过反复更新单元的状态以使它们进入较低的能量状态来稳定下来,你希望找到对该输入的良好解释。所以,这引出了一些问题。
哦,这里有一个例子。我可能会给你一个模棱两可的线条图,我已经说明了Necker立方体的两种可能的解释,一种是它的方向不同于另一种。所以,同一个输入图像可以有两种非常不同的解释,它们或多或少同样好。左边的好一点,因为它可以很好地坐在表面上,而另一种必须粘在天花板上。但除此之外,它们或多或少同样好。你的大脑可以看到这两种情况。所以,这是一个很好的例子,说明一个系统对同一图像有两种不同的解释。似乎通过同一系统的两个不同的能量最小值来模拟这一点很好。
那么我们如何才能制造一个能够提出对这样的图像的那些解释的系统呢?好吧,首先我们必须考虑,图像将由线条组成。我们只使用带有直线的图像。我们必须考虑一条直线在世界上描绘了什么。所以我想让你想象在世界上你有一个物体的边缘,然后你和你和物体之间有一个窗口,使用记号笔,你在窗口上画出那个边缘。所以你可以看到。是的,激光不起作用,我想。你可以看到我在窗口上画了一条边,有两条视线穿过我在窗口上画的线的两端,有很多不同的边可以产生那条线。所以那条边,因为两条视线穿过它的两端,会给你图像中的那条线。但这条边也可以,或者这条边,或者这条边。你可以看到,有一整族的边可以给你图像中相同的线。所以你丢失了信息。关于视觉感知的要点是,你想找回那些信息,为此,你需要使用一些假设。
所以为了将这一点构建到神经网络中,我们仅从光学中就知道你一次只能看到其中一个边缘。所以,我们知道图像中的那条线将是那些边缘之一,但我们不知道是哪一个。所以我们可以通过说,让我们假设我们有代表2D线的神经元,我们将激活其中的一些来表示图像中的线条,我们知道对于每一条线,只有其中一个可能的边缘存在。所以我们要做的就是,我们将拥有所有可能产生那条线的边缘,这条线将尝试激活所有边缘。那些是绿色的连接。但是,所有那些边缘也会相互对抗,因为那些都是不能同时看到的边缘,它们会相互妨碍。所以当我们看到图像中的那条线时,我们真正知道的是,其中一个边缘存在,但我们不知道是哪一个。我们的神经网络将尝试通过说,这条线激发所有那些边缘并且边缘都相互抑制来捕捉这一点。抑制非常重要。对于图像中的另一条边也是如此,像那样。所以,这有点光学原理在里面了。
但现在让我们加入一些假设。所以这里有一个测试,我有时用它来区分计算机科学家和物理学家。如果你给物理学家以下问题,X加Y等于384,X和Y是什么?物理学家会认为你对等式了解不多,你不可能回答这个问题,计算机科学家会告诉你,X和Y是256和128,但他不知道哪个是X,哪个是Y。这是因为在计算机科学家的世界里,你一直在处理2的幂,只是因为计算机的工作方式,所以,他们非常熟悉像384这样的数字,他们知道当你看到384时,它可能是128加256,特别是如果你对Nvidia GPU进行编程。所以我们将在这里使用相同的技巧。我们将说,知道哪个3D边缘代表了图像中的一条线基本上是不可能的,但你可以使用关于世界通常是什么样子的假设,这可以帮助你很多来提出一个合理的解释。所以我们要做的就是,我们将说,如果你看到图像中的两条线在图像中连接,它们可能在世界上的深度上连接。它们不一定非得这样。从我的角度来看,我可以有两条线,像这样,我的眼睛恰好对齐,所以它们看起来连接在一起,但它们实际上并没有连接,但我必须在一个非常特殊的视点才能做到这一点。所以这是一个非常好的假设,如果你看到图像中的两条线连接,它们对应于实际上在深度上在该点连接的边缘。
所以我们可以采用在深度上连接的边缘,对应于不同线条但在深度上在 线条连接的点连接的3D边缘,我们可以说,它们应该相互支持,因为它们在深度上连接。现在,如果它们以直角连接,我们可以说它们非常支持彼此。因为在我们所处的这个小世界里,我们倾向于比其他事物更经常地看到直角。这实际上是一个非常糟糕的心理学。但要说为什么我们不更喜欢直角,这将是另一场完整的讲座。我们实际上更喜欢的是与我们强加给对象的矩形坐标系对齐的边缘。如果你强加一个矩形坐标系,它与两条边不对齐,两条边像这样,你的矩形坐标系像那样,你不知道这是否是一个直角。你只对与坐标系对齐感兴趣,你对直角并不真正感兴趣,但无论如何。我必须把这一点放在里面,因为我不想说错误的心理学。
所以现在我们有了进行解释所需的所有东西。我们有2D线。这些是我们的输入。这些是我们的可见神经元。我们知道每条2D线可能是哪些边缘,我们知道边缘应该如何最合理地组合在一起。所以,现在我们所要做的就是解决一个搜索问题。我们要做的是,采用可见神经元的状态并搜索系统的低能量状态配置。但我们有一个问题,我们可能会陷入局部最小值,我们能否做得比仅仅在能量上下降更好,更新神经元以使你在能量上下降并最终陷入局部最小值?事实证明,你可以做得比这好很多,你通过使用嘈杂的神经元来做得更好。事实证明,如果你使用嘈杂的神经元进行搜索,那么一件神奇的事情就会发生,你会得到一个非常简单的学习过程,但我稍后会讲到这一点。
所以在Hopfield网络中,能量实际上是二元事物配置的能量,它们实际上是超立方体的角。但我会把它画得好像它是一维的东西。所以想象一个景观,网络的状态是景观上的一个小球,当你改变神经元的状态时,你正在那个景观上移动,Hopfield网络的更新规则说,去任何降低能量的状态。如果你陷入局部最小值,那么你就无法,你被困住了,你无法进入更深的最小值,比如B。Hopfield更新规则说,如果神经元的总输入是正的,就打开它,如果是负的,就关闭它。所以它是顶部的那个平方函数。
但是假设我们使神经元嘈杂。假设我们在决策规则中引入抖动,或者物理学家称之为温度,那么我们可以有一个决策规则集,它说有时当它获得总负输入时,你打开它,有时当它获得总正输入时,你不打开它。显然,通常当它有正输入时,你打开它。但如果它只是小的正输入,也许你只比一半的时间多一点打开它。所以这就是那个决策规则。请注意,该图显示了神经元打开的概率。这些神经元仍然是二元神经元。它们没有实数值,但它们打开的概率受这样的决策规则支配。
现在,如果你使用这样的神经元,那么它们可以跳到更高的能量状态。所以这个能量表面上的这个滚珠轴承可以跳过那个障碍并进入较低的能量状态。现在,它也可能跳回来,但它不太可能跳回来,因为从那边能量障碍更高。
所以,我们将解释二值图像的方式是,我们将二值图像固定在可见单元上,然后我们将使用这个概率决策规则更新神经元。对于物理学家来说,我们将使用温度为1。我们将选择一个隐藏的神经元,我们将计算它获得的总输入,然后我们将随机决定是打开还是关闭它,如果它是正输入,可能会打开它,但偶尔会关闭它,我们只是继续对隐藏的神经元这样做。这将比仅仅下降做得更好。这通常会让我们进入更深的能量最小值之一。
现在,如果我们这样做足够长的时间,我们将达到一个称为热平衡的状态。如果你不是物理学家,你会认为热平衡意味着事物已经稳定到某个特定的状态,但它根本不是那个意思。这是统计学家所说的平稳分布。这意味着,即使神经元正在改变状态,找到整个系统处于特定状态的概率已经稳定。最好的思考方式是,想象有一百万个相同的神经网络,它们都有相同的输入,我们让它们都从相同的状态开始,比如说,但是每个神经网络都会对如何打开或关闭隐藏单元做出自己的随机决定。你可以想象,如果你采用网络的所有可能的二元状态,当我们开始时,它们都从相同的状态开始。所以如果你做了一个关于这些不同的二元状态被占用了多少的直方图,所有的系统都会在第一个状态,没有一个会在任何其他状态。但是你继续运行这个决策规则,逐渐发生的事情是,系统采用其他配置。在你运行了一段时间后,你将有一个直方图,其中低能量配置有很多系统,高能量配置有较少的系统,非常高的能量配置有很少的系统,即使任何一个系统都会在配置之间跳转,如果你有足够的系统,直方图将保持固定。这就是热平衡。当直方图保持固定时,即使单个系统到处跳跃。
关于那个固定直方图的好处是,它有一个非常好的属性,那就是系统数,或者处于特定配置的概率,只取决于该配置的能量相对于其他配置的能量。它根本不取决于历史。你必须运行它足够长的时间,所以它已经忘记了它从哪里开始,然后你会得到这个很好的保证,即处于状态、配置的概率只取决于该配置的能量相对于所有其他配置的能量。
所以,我们稍后会回到如何使用这一点进行学习,因为这是关于玻尔兹曼机的巧妙之处。现在,让我们回到这个线条图。我们想做的是,我们不想手工连接这个东西。我们希望它学习所有那些连接强度。所以我们希望只是给它,我们给它一些可见单元,在那里它表示线条图,我们希望只是给它一个带有随机连接的隐藏单元池,并让它学习所有那些结构。现在,它实际上不会学习那种结构。我把那种结构放进去,因为它很容易理解像那样的系统可能会工作。它会学习一个更复杂的结构,但它会做同样的工作。它将能够解释线条图。所以,问题是,你如何才能仅通过查看大量线条图来学习所有这些结构?看起来你不可能做到这一点。特别是看起来你不可能学习。例如,我们必须学习隐藏单元之间的权重。那个说,在3D中连接的连接。它必须学习所有那些连接。但你如何仅通过查看数据来学习所有这些,这根本不明显。事实证明,有一个非常非常简单的学习规则。
所以我已经解释了热平衡。是的,我已经解释过了,因为我超前了,因为我看不到幻灯片。现在让我们想想,我们有一个系统,我们已经有了权重。假设我是手工输入的。现在我不让它通过选择代表3D边缘的隐藏单元的状态来解释二值图像,而是让它做其他事情。我要让它生成一个线条图,一个线条图像。我要做的方式是,我将从某个随机状态启动整个系统,然后我将随机选择神经元并更新它们,并一直这样做,一段时间后,我将达到热平衡,然后我看看线条神经元在做什么。所以,我们可以考虑学习权重的目标。我们可以说,如果你给我展示一堆矩形物体的线条图,我的目标是找到权重,这样如果我从某个随机状态启动网络并一次更新一个单元,当我查看隐藏单元时,当我查看达到热平衡后的可见单元时,它们看起来会像我给你们看的这些线条图之一。换句话说,它将有一个线条图是什么样子的模型。因为如果我把它放在一个随机状态并说,稳定到你觉得合理的东西,它会想出一个线条图。当然,对于这个网络来说,找到合理的意味着低能量状态。能量越低,事物对网络来说就越合理。
所以如果我们网络中有正确的权重,我们有一种生成数据的方法,我们还有一种解释数据的方法。要生成数据,你更新所有单元,只需看看可见单元在做什么。要解释数据,你固定可见单元,然后更新隐藏单元,并查看隐藏单元中的解释。
所以那是生成。我已经说过了。学习的目的是,当网络生成时,你希望它产生看起来像真实事物的东西。所以你可以将在这个网络中生成视为做梦。事实上,弗朗西斯·克里克假设,当你做梦时,你正在让你的神经网络生成东西。他还假设你让它生成东西是为了摆脱那些东西。正如你将看到的,这个学习规则完全符合他的推测。
以这种方式学习的想法,在生成模型中学习的想法,该模型将生成像你看到的那样的图像,其目的可能不是生成图像。你在学习期间进行生成,但你真正的目的可能是获得这些解释正在发生的事情的隐藏变量。因为如果你在做感知,你对图像中的2D线不感兴趣,而是对世界中的3D边缘更感兴趣。所以做这个生成的目的是为了你可以做学习,学习的目的是获得这些不在输入中但你编造的解释输入的变量。
好的。所以这是我们非常乐观的方法,它在理论上非常有效,但在实践中效果不佳。你从一个有很多带有随机权重的隐藏神经元的神经网络开始,你有一些数据,这是可见神经元的状态,你不断地向它展示这些线条图,这些图像,你希望网络自己学习所有那些将解释图像的隐藏结构,你希望用一个简单易懂的学习模型来做到这一点。
所以,这就是统计物理学与神经网络相遇的地方,那里有一个非常美丽的协同作用。我们将有两个阶段。我们将它们称为清醒阶段和睡眠阶段。在清醒阶段,你所做的就是,你放入一个图像,你更新隐藏单元,直到你稳定到热平衡,然后使用Hebb规则。对于每一对单元,每一对同时打开的连接单元,稍微增加连接强度。这正是唐纳德·赫布提出的规则。我忽略了它的时间方面。但一起放电的东西,连接在一起。这就是你所做的。这是一个非常简单的规则。没有像反向传播这样的事情发生。然后对于睡眠阶段,你不给它输入。你关闭输入,让它生成。所以它现在正在生成图像。每次两个单元一起打开时,你降低连接强度。这是一个反Hebb学习规则。就是这样。令人惊讶的是,这两个简单的规则,当你给出输入时,更新隐藏单元,当两个隐藏单元或一个可见单元和一个隐藏单元一起放电时,增加它们之间的连接强度。另一个规则,你需要,去睡觉,生成图像,并通过更新隐藏和可见单元来生成图像,直到你达到热平衡。这两个规则在期望上做了完全正确的事情。你必须说在期望上,因为它们是嘈杂的。但平均而言,它们做了正确的事情。
我现在将向你展示一点数学,因为这毕竟是一场物理学讲座。你可能在这一点上想……我故意把数学排除在外,所以它可以供公众使用。公众现在可以在接下来的三个幻灯片中停止收听。是的。所以这个过程实现的是,它是一个最大似然学习过程。它改变模型的权重以最大化模型生成像你看到的数据那样的数据的可能性,这正是我刚才说的。
哦,对不起。在给你方程式之前,我只想说说为什么这个学习规则如此令人惊讶。假设我的数据只包含两个比特,这两个可见单元是链的两端,假设训练数据只包含说,你要么得到0,1,要么得到1,0。换句话说,这两个比特互相讨厌。当一个打开时,另一个应该关闭,反之亦然。但它们唯一的通信是通过这个隐藏单元链,我想知道我应该如何改变W1以使系统工作得更好。好吧,因为这两个可见单元需要相互关闭,那么所有这些权重的乘积,W1乘以W2乘以W3乘以W4乘以W5,必须是负的。如果这个乘积是负的,那么它们会相互抑制。这意味着要知道如何改变W1以使事情工作得更好,你必须知道W3的值。现在,如果你做像反向传播这样的事情,你通过向后发送信号通过网络来找到那些值。但在玻尔兹曼机中,W1如何知道W3?因为它需要知道关于W3的一些事情,以便知道它是否应该增加或减少以使系统工作得更好。答案是,它需要知道的关于其他权重的所有信息都是通过让系统在这两个阶段稳定到热平衡来传达的。
我说过所有这些。是的,W1需要知道W3。我刚刚说了。现在是方程。所以如果我给你一个图像V,一个可见向量,我问你,我应该如何改变一个权重,系统中的任何权重,以使V在网络只是生成数据时更可能?所以当这个玻尔兹曼机生成图像时,我如何使图像V更可能?或者更确切地说,我如何改变神经元I和神经元J之间的一个特定权重以使这个图像更可能?答案是,你通过查看两者之间的差异来获得确切的梯度……所以这是一个特定训练向量在模型下的对数概率相对于模型中一个权重的导数,那是两个相关性之间的差异。第一个是当你将向量固定在可见单元上时,两个神经元I和J的状态的乘积的期望值,在这种情况下,因为这只是针对V,所以当你将V固定在可见单元上时。第二个项是当系统自由运行时,即做梦时,两个单元的状态的乘积的期望值。但那些必须是热平衡时的期望值,然后你就得到了梯度。所以,这是一种比反向传播更好的获得梯度的方法。你不需要通过网络向后发送不同类型的信号。你不需要中断正在进行的处理。因为你要做的是,你将在你清醒时获得梯度的一半,在你睡觉时获得另一半,然后你只需通过你在清醒时测量的两个单元之间的相关性与你在睡觉时测量的相关性之间的差异来改变权重。当然,当你清醒时,你可以记住前一天晚上的相关性,因此通过当前相关性与你前一天晚上估计的相关性之间的差异来改变权重。
然后问题是,为什么那个导数如此简单?所以,网络状态的能量只是两个活动乘以权重的乘积。所以如果你对权重求导,你只需得到两个活动的乘积。所以能量相对于权重的导数只是两个活动的乘积。在热平衡下,状态的对数概率是能量的线性函数。(评论被背景噪音淹没)所以如果你问,当它生成时,它生成可见向量V的概率是多少?好吧,顶行是e的负能量次方,对于所有可能包含V作为可见向量的配置。所以你对所有可能的隐藏配置求和。所以,那是你会发现V的概率。如果你知道如何计算网络完整配置的概率,只需对所有具有V作为可见向量的配置求和,那就是它将生成V的概率。所以那是顶行。然后底行是对所有可能的可见向量求和。所以现在你对网络的所有可能配置求和。这就是物理学家所说的配分函数。如果你考虑对它求导,如果你想增加PV,你想使顶行更大,你想使底行更小,你使顶行更大的方式是,那是清醒阶段,通过增加两个都打开的单元之间的连接强度,因为你稳定到热平衡。所以你将拥有V和与V相配的一个H,你将使它与V更相配。然后负阶段是使底行更小,这是使V更大的方法,这就是为什么你在负阶段进行反学习。
所以我想这就是方程的全部内容。你可以重新开始听。热平衡的过程,本质上将你需要获得权重的梯度的所有信息放入这两个阶段中的两个相关性的差异,清醒和睡眠阶段。现在,这一切都非常漂亮,但玻尔兹曼机有一些问题。主要问题是,它们不起作用,那是因为在一个大系统中稳定到热平衡需要很长时间。所以这对于玻尔兹曼机来说已经有17年了。有一些工程问题。它们需要很长时间才能稳定。学习信号是嘈杂的,但那是一个小问题。但需要很长时间才能稳定到热平衡意味着你在热平衡时得到的这种美丽的关系太昂贵而无法计算,因为它需要很长时间才能稳定到热平衡。从神经科学的角度来看,还有一个问题。有一个关于大脑的理论。真实神经元之间的连接不是对称的,人们以非常粗略的时间尺度在清醒和睡眠之间交替,我们不会一次更新一个神经元。实际上,只要你随机更新它们,最后一件事并不重要。但它们显然不是大脑的工作方式。所以它们有两个属性。它们不能作为工程,它们不是大脑的工作方式。它们有第三个属性。你可以因为它们获得诺贝尔奖。
所以17年后,我意识到如果你制作一种受限形式的玻尔兹曼机,其中你只有一层隐藏单元并且它们不互相交谈。所以这是非常受限的。你只有可见单元和一些不互相交谈的隐藏单元。这就是它们受限的原因。然后,你可以获得一个非常快速的学习过程。所以如果你固定可见单元并且隐藏单元不互相交谈,你一步就稳定到热平衡。你只需访问每个隐藏单元,你可以同时做到这一点,你根据它们从可见单元获得的输入更新它们,你就一步达到热平衡。所以清醒阶段解决了。这非常高效。但睡眠阶段呢?你仍然需要在更新可见单元和更新隐藏单元之间交替,看起来这会很慢。很难估计它会有多慢。从数学上来说,估计这一点非常棘手。但你可以试试,所以我试了。
首先,我将数据放在可见单元上,我将更新隐藏单元,然后我将再次更新可见单元。称之为重建。因为你已经采用了可见单元中的信息,你已经激活了隐藏单元。从隐藏单元中的信息,你现在激活可见单元,你将得到类似图像重建的东西,不完美。然后你再次激活隐藏单元。然后你像这样上下上下上下很长时间,直到你达到热平衡,然后你可以通过采用数据之间的相关性以及当它是数据和I在第一步到隐藏单元时的相关性来学习,并在你运行这个链很长时间后采用相同的相关性,这将给你正确的梯度。但我对它必须运行多长时间感兴趣?所以我运行了它一段时间,学习起作用了。然后我运行了更短的时间,学习起作用了。我运行了更短的时间,学习起作用了。最后,我只是上下再上一次,学习仍然有效。所以这非常好,因为现在所有这些在热平衡时发生的事情都消失了。我们只是上下再上一次。我犯了一个非常幼稚的逻辑错误,也就是,如果你达到热平衡,学习就会起作用。但这并不意味着如果学习起作用,你就达到了热平衡。学习可以因为其他原因而起作用。
所以,有一种叫做对比散度的算法,你只需上下再上一次,在I和J之间的连接上写着1的地方,你测量相关性,它们一起打开的频率是多少?在写着2的地方,你测量相关性。你只需从另一个相关性中减去一个相关性,这个东西学得很好。很难从数学上证明它在做正确的事情,因为它没有,但在实践中效果很好。所以,然后我们可以使这些简单的精简玻尔兹曼机,受限玻尔兹曼机,实际上实用。它们实际上被Netflix用于预测你会喜欢哪部电影。有一场比赛,如果你能比Netflix在预测人们会喜欢哪部电影方面好10%,他们会提供一百万美元,比赛是由一个使用我们的受限玻尔兹曼机和另一种称为矩阵分解的方法并将它们结合起来的团队赢得的。所以RBM最终对某些东西有用,但只是这个受限版本。所以也许玻尔兹曼机有点用,但是受限版本已经抛弃了大部分力量,因为隐藏单元不能互相交谈。
好的,所以现在你可以做一些事情。你可以说,也许我可以有多层这些,我可以学习特征检测器的层次结构。所以这个想法是,你训练一个RBM,你向它展示数据,你有隐藏单元,你训练数据和隐藏单元之间的权重。所以隐藏单元现在正在捕获数据的特征,比如经常出现的像素组合,或经常出现的线条组合。一旦你学会了那个RBM,你然后采用这些隐藏单元,这些隐藏神经元,并采用它们的二元状态并假装那是一个图像,然后再做一次。所以你复制那些状态并学习第二个RBM。然后你采用那个RBM的隐藏状态并再次复制它们,并学习第三个RBM。有一个非常好的变分界限,它表明如果你这样做是正确的,你可以保证当你学习越来越多的这些玻尔兹曼机时,你可以将它们堆叠起来并从中制作一个大模型,每次你添加另一个玻尔兹曼机,你的模型就会变得更好。或者更确切地说,关于你的模型有多好的变分界限会得到改善。你的模型可能会变得更糟,但变分界限会得到改善。但我不打算深入讨论这一点,但它确实证明了这样做是合理的。
所以现在我们可以采用所有那些我们有效学习的受限玻尔兹曼机,我们可以像那样将它们堆叠起来,然后我们有了多层网络的权重,该网络查看图像并提取特征,以及特征的特征,以及特征的特征的特征,然后我们可以只在上面放置类标签。我们不知道到类标签的权重,那些红色的东西,我们不知道权重,但我们已经有了所有特征。所以我们从多层网络获得了特征,事实证明,这是一种非常好的初始化深度神经网络的方法,你将训练这些网络来做诸如对象分类或语音分类之类的事情。
所以最后,有这个非常非常脆弱的联系,它说,如果你将它们堆叠起来,一个精简版本的玻尔兹曼机是初始化反向传播的好方法。所以实际上有一个联系,你可以把它想象成一种酶。大约四五年,人们以这种方式初始化神经网络,并使它们工作得更好,显著更好,特别是在语音识别方面。然后他们发现了初始化网络的其他方法,他们扔掉了玻尔兹曼机,这就是玻尔兹曼机的终结。所以把它们想象成一种酶。它们是一种通过很好地初始化网络来帮助深度学习诞生的技术。所以玻尔兹曼机和当前的神经网络之间存在一个非常脆弱的联系,但它是脆弱的。
总结 (1:05:45 - 1:06:59)
总结一下。它们就像一种酶。它们帮助我们过渡到当前的神经网络。现在,我仍然认为在睡眠期间使用反学习的想法可能是理解大脑如何工作的非常有用的东西。人的一个非常有趣的特性是,如果你剥夺他们的睡眠,他们会完全疯掉。如果你只是剥夺人们一周的睡眠,他们会完全精神失常,其中一些人永远不会恢复。大多数睡眠理论都没有解释为什么会这样。但如果睡眠是为了反学习,那确实解释了为什么会这样。如果你只使用一个正的Hebb型规则,你不做这个反学习,那么整个系统都会疯掉。
这就是全部。
炉边谈话 (1:06:59 - 1:23:32)
Paul Kushner: 好吧,Geoff,非常感谢。我要感谢Hinton博士的精彩演讲,我们都从中了解了更多关于理想化的物理设置或系统如何揭示我们大脑实际工作方式的一些方面。但现在我很困惑。我不知道我们对我们大脑实际工作方式了解了多少。我们真的学到了很多很好的问题。所以为了继续对话,我想借此机会介绍Yoni Kahn博士,他站在Hinton博士旁边。他是我们物理系最新的教授,他还同时拥有Vector Institute的兼职教员身份。Yoni以前是伊利诺伊大学厄巴纳-香槟分校物理系的助理教授。他对使用分子和凝聚态系统设计下一代暗物质和暗扇区直接探测实验感兴趣。他还研究机器学习理论及其在高能物理学和天文学中的应用,并且对物理学教育也有浓厚的兴趣。他实际上出版了一本教科书,帮助学生准备物理学GRE研究生考试。它叫做“征服物理学GRE”,剑桥大学出版社。所以Yoni和Geoff,我们非常期待你们的对话,之后我们将在有时间的情况下回答一些问题。所以上来参加炉边谈话,我将……
Yoni Kahn: 这是它变得清楚我实际上不懂物理学的地方。
Geoffrey Hinton: 嗯,我希望能说服你相反。
关于相关函数 (1:08:40-1:10:39)
Yoni Kahn: 非常感谢您精彩的演讲。我有一个我想问你的问题清单,然后我想把它们都扔掉,只根据你说的内容来问,因为它非常有趣。但让我从你一次又一次提到的一个概念开始,即相关性和相关函数对学习过程或理解正在发生的事情有用的概念。在物理学的大多数领域,相关函数是我们描述宇宙的方式。即使是在大型强子对撞机上进行的粒子碰撞,你也可以将它们视为相关函数,这些东西叫做量子场,或者像Kushner教授研究的气候科学。如果你有一个时间序列的数据并且它是随机的,你可以从中获得的一些信息是,这个时间的天气与那个时间的天气有多相关。我想知道,我们现在有这些巨大的万亿参数模型,这些东西里面有很多数字。我们能否使用任何这种物理学启发的相关函数直觉来梳理出那些大型网络中发生的任何意义或可解释性?
Geoffrey Hinton: 可能吧,但我不知道怎么做。也就是说,许多人说我们永远无法信任这些大型神经网络,直到我们了解它们是如何工作的。我认为我们可能永远无法详细了解这些大型模型是如何工作的。我是说,我们对它们进行了编程,所以我们大致了解网络的架构。但它们如何工作取决于它们从数据中学到的东西。当一个具有万亿实值参数的东西做出决定时,可能没有比那些万亿参数的值更简单的解释为什么它这样做了。现在,我应该说,该领域的大多数人认为我们可以做得更好,但我不相信我们可以做得更好。
关于物理学视角 (1:10:39-1:12:17)
Yoni Kahn: 那么让我也问问。你提到过这个想法,即受限玻尔兹曼机就像一种酶,催化了深度学习的一些进步。我的理解是,有几个受物理学启发的进步已经成功地做了一些非常了不起的事情。我认为一个例子是这个标度律的概念,当你增加网络的规模或给它越来越多的计算时间时,它会做得越来越好,但它会以物理学家称之为幂律的特定方式做得越来越好,如果你制作某种图,它看起来像一条直线。我的理解是,这个想法是受到这种行为在物理系统、凝聚态系统、高能系统中一直出现的启发。这个事实已经发生了,还有其他例子,几次表明这并非偶然。
Geoffrey Hinton: 好吧,物理学家对事物思考了很多,对吧?他们非常聪明。就像很多数学都来自人们思考物理学一样。我想可能牛顿的一些数学来自试图弄清楚为什么月亮没有落到地球上以及诸如此类的事情。所以物理学家是最先接触到高级数学技术的人之一,这并不奇怪。
Yoni Kahn: 嗯,让我也问问,你认为物理学视角在哪里可以最有助于理解深度学习,也许可以将其与心理学、生物学或传统计算机科学的视角进行对比?
Geoffrey Hinton: 我希望我能回答这个问题。所以斯坦福大学的Ganguli是一位前物理学家,并且在展示模型学习时权重中发生了什么方面做了非常好的工作。所以我是说,我的信念是,物理学家的见解将是有用的。但让我做一个政治家,稍微改变一下话题,告诉你一点物理学,它真的非常有用。
用物理方法进行高效通讯(1:12:17 - 1:16:47)
所以,机器学习领域的人使用来自物理学的变分方法,我想尝试向公众描述你如何使用变分方法,或者你如何从变分方法中获得见解,来理解你如何获得模型之间的高效通信。所以假设你有两种不同的方式来编码完全相同的事件,你想传达这一点。我们有一个发送者和一个接收者,发送者希望使用尽可能少的比特将此事件传达给接收者,发送尽可能少的比特通过信道。所以,假设你想告诉某人正在下雨,作为加拿大人,你可以说,it's raining,或者il pleut。我不说法语,但我认为这是对的。我不是一个真正的加拿大人。所以一个正常人会说,好吧,如果说it's raining需要10个比特,说il pleut需要10个比特,你应该做的就是选择一个并做到这一点,它将花费你10个比特。
但物理学家会说,好的,你有两种不同的方式来编码相同的东西。如果我们随机选择其中一种方式呢?所以我们掷硬币,我们选择一种方式。现在看起来你这样做并没有赢得任何东西。因为你掷了你的硬币,你要么说il pleut,要么说it's raining,你仍然需要发送10个比特。但是假设我们不掷硬币,而是运行一个小的随机数生成器来获得我们的随机比特,并假设接收者有相同的随机数生成器。所以现在,我们将运行随机数生成器并决定是说it's raining还是il pleut。接收者也可以运行那个随机数生成器,看看我们使用了哪个随机比特。所以,实际上我们可以传达我们用于在这两个代码之间进行选择的随机比特。因此,接收者实际上可以获得11比特的信息。他可以获得告诉他是否正在下雨的10比特信息,他可以获得另一比特信息,这可能只是关于一个随机数生成器。但我们可以不使用随机数生成器,而是采用我们想要传达的另一条消息。假设你正在做兼职咨询,你想同时做其他事情。你可以通过你选择是说il pleut还是it's raining来一次一位地传达这条其他消息。
所以,事实证明,随机选择实际上是正确的做法。如果你看一个自由能函数,那么发送代码所需的比特数就像能量,你分配给代码的概率就像熵,最好的做法是使用玻尔兹曼分布。所以如果你有一个比另一个代码长一点的代码,你使用它的频率较低,但你偶尔会使用它。所以,发生的事情是,来自统计物理学的结果出现在编码理论中,就像这样,如果你有可选的代码。实际上,随机使用代码比只选择最便宜的代码更好。这是一点物理学出现在……
Yoni Kahn: 这是一个很好的例子,说明了领域的融合。香农在熵方面所做的工作现在已经进入了量子信息以及人们思考物理系统中信息的方式。我想稍微谈谈合作和消息传递的主题。
关于AI的“CERN” (1:16:47 - 1:19:15)
所以物理学有这种非常悠久的传统,即巨大的全球合作项目,其中CERN,欧洲核子研究组织就是其中之一。历史真的很了不起,有点像在二战后为了促进合作而成立的,但成功地做了了不起的事情,比如发现了希格斯玻色子,几年前获得了诺贝尔奖,通过将很多非常非常聪明的人放在类似的任务上,能够取得惊人的进展。感觉我们现在可能需要一个类似CERN的AI机构。这样的东西会是什么样子?人们将如何为它做出贡献?它将如何组织,它将做什么?
Geoffrey Hinton: 鉴于当前的政治局势,它显然会在欧洲。这有一个大问题。所以现在,人们正在组织一份请愿书,说我们应该有一个CERN for AI,我正在试图决定我是否想签署。主要问题是,人工智能将对致命的自主武器有用,所有出售武器的国家,比如美国、俄罗斯、中国、以色列和英国,都将希望开发自己的致命自主武器,他们不会希望合作。它对密码攻击和诸如此类的东西也很有用,网络攻击。所以我认为有很多原因导致国家更难合作。就像想象一下,你试图在一个人们认为,好的,我们有了原子弹,我们有了氢弹,然后还有另一种我们还没有完全掌握的炸弹的时候建立CERN。让我们都合作来探索它。它不会那样工作。他们必须相信我们现在有了氢弹,做这种高能物理可能不会给我们带来比这更糟糕的东西,所以我们可以合作。
我认为如果我们能做到这一点,这将是一个非常好的主意。但我认为会有很多政治原因导致政府不想这样做。
关于AI的风险与监管 (1:19:15 - 1:23:32)
Yoni Kahn: 所以也许我再问一个问题,然后我们将回答观众的一些问题。深度学习与大型、改变世界的武器(如核弹)之间的类比,有很多非常有趣的共鸣,我认为其中之一是这样一个事实,即控制原子弹工作原理的基础物理学是我在我的研究生粒子物理学课程中教授的内容,因为它是世界在基本层面上如何被描述的一部分。但当然,如果你把这个和一些你可以在某个地方挖出来的材料结合起来,它会制造出一些难以想象的具有破坏性的东西。我想知道你认为我们应该如何平衡这些理解AI这个工具的愿望,它肯定会做好事,除了所有它可能做坏事之外。但我们如何平衡理解与安全需求?
Geoffrey Hinton: 好的,所以有一件事我认为很强烈,那就是,你不会让人们可以在网上购买裂变材料。因为对于核武器来说,最困难的部分是获得裂变材料。我是说,一切都很困难,但这是最困难的部分。这非常昂贵。如果你想阻止人们拥有它们,你就轰炸制造裂变材料的设施。所以你会疯了才会释放裂变材料。因为也许研究人员会说,好吧,我想要一些裂变材料,这样我就可以玩炸弹了。哦,好吧,我们应该给他们。当国家拥有它时,不把它给研究人员和大学是不公平的,但这太疯狂了。Meta开始了,但他们现在发布了这些大型基础模型的权重。重点是,你对人工智能可以做什么的主要限制是,训练一个大型基础模型需要大量的金钱和大量的数据。一旦你掌握了模型的权重,你就可以使用该模型来做各种各样的其他事情,而无需太多训练。所以我认为他们完全疯了才会公开权重。人们把它说得好像它是开源的,但它根本不像开源。在开源中,你发布代码,人们查看代码并说,等等,那一行有点可疑。当你开源权重时,他们不会查看它并说,哦,看,这个权重有点可疑。他们只是采用那些权重并训练它们做其他事情。但他们是从一个非常好的起点开始的。所以那艘船已经启航了。但是发布这些大型模型的权重是疯狂的,因为这意味着任何可以获得几十万美元的网络罪犯都可以重新训练其中一个。对不起,这是个坏消息,对吧?
Yoni Kahn: 鉴于这些东西已经存在于世界上,你认为我们可以从中学习到什么,这将有助于我们防止一些灾难,这些灾难将来自之后训练的更大的模型?
Geoffrey Hinton: 我很悲观。所以我的朋友Yann LeCun,他在Meta工作,他非常乐观,事实证明你的性格对你预测未来的样子有很大的影响,事实证明我是对的。所以心理学研究表明,如果你采用正常健康的人,正常、开朗、健康的美国人,你问他们,预测一下,在未来五年内你或你的直系亲属会在车祸中受重伤的可能性有多大?我不记得数字了,但他们会说类似1%之类的东西,实际上它像10%。你问他们,你或你的直系亲属在未来五年内患癌症的可能性有多大?他们又太低了。他们只是低估了这些可怕事情发生的概率。如果你采用偏执型精神分裂症患者,他们会高估。如果你采用轻度抑郁症患者,他们会得到正确的答案。
Yoni Kahn: 好吧……很高兴能与观众的一些问题继续对话。
Paul Kushner: 好的。所以你继续吧?(评论被背景噪音淹没)是的。很棒的对话,是的。我不知道我们是否有麦克风传递员。哦,我们有。好的。所以观众提问,我看到后面有一只手举起来了。
观众问答 (1:23:32 - 1:34:42)
问(1:24:03- 1:25:07): Hinton博士,精彩的演讲,不仅对专家而且对公众来说。我想特别问你。我叫(听不清)。最近还出版了一本书,《创世纪》。基辛格先生也是作者之一,还有其他的创始人。
Geoffrey Hinton: 当你那样放手时,你把麦克风放在另一边,我听不清你在说什么。
问(1:24:30- 1:25:07): [观众]提到了一种基于伦理的未来人工智能发展,他们谈到了人类伦理被构建为整个监管框架的一部分,你提到的在全球范围内达成共识,在我们追求人工智能以实现AGI或超越之前,需要建立合作。我想知道一旦出现新技术,总会有关于监管的争论,以及何时需要监管,何时为时过早,对于人工智能来说,我们是否已经太晚了?感谢您的回答。
Geoffrey Hinton: 好的。所以第一点是,我们将无法减缓它的速度,因为它有太多非常好的用途。我是说,或多或少所有行业都可以利用人工智能。它将在医疗保健中非常有用,它将在教育中非常有用,它将在设计新材料方面非常有用,这可能对气候变化等事情非常有帮助。所以我们将无法减缓它的速度。问题是,我们能否安全地发展它?似乎没有太多的政治意愿这样做。人们愿意谈论诸如歧视和偏见之类的事情,他们理解的事情。但大多数人仍然没有理解这些东西真的理解它们在说什么。我们正在制造这些外星智能。目前,我们在控制之中。但我们正在将它们变成代理,所以它们可以在世界上做事,它们很快就会意识到实现你的目标的一个好方法是获得更多控制。所以,我很担心我们现在所处的情况,我们希望有真正强大、明智的政府,由聪明、有思想的人来管理,但我们没有。
问(1:26:33 - 1:27:37): 好的。继续,是的。[观众]嗨,Geoff。你好吗?我的问题是关于幂律的。所以,有一种理论或想法认为,随着我们扩展更多的计算和更多的数据,我们将拥有更多性能模型。我想Sam Altman提到它与计算和数据的对数相关。但是自从GPT-4发布以来,我们已经看到每次LLM的更新都有点平淡无奇,就像我们没有看到从GPT-3.5到GPT-4那样的大跃进。最近,随着GROK3的发布,关于投入其中的计算量有很多炒作,包括Elon Musk和XAI,但它也不是那么伟大的模型。我想知道你是否认为我们在计算和数据方面已经达到了平台期,我们需要一种不同的方法?
Geoffrey Hinton: 是的,我认为认为我们从这种扩展中获得的回报正在减少是很合理的。基本上,每次你将计算量加倍时,你都会得到一点点改进。这就是对数,对吧?所以获得这些小的改进变得越来越昂贵。然而,扩展已经让我们走了很远。我们现在已经有了非常聪明的东西,新的想法也将带我们走得更远,使这些东西更有效的新工程技巧将带我们走得更远。所以如果它只是停滞不前,我会非常惊讶。人们多年来一直在预测它即将停滞不前,但它没有。但可能是我们需要更多的好主意来使它继续发展。
所以如果你看看摩尔定律,例如,摩尔定律,几乎从我有生以来,人们一直在说,摩尔定律即将结束,计算机只是随着它们变得越来越小越来越小而变得越来越快越来越快。然后它达到了他们正在做一个gigaflop的地步,人们说,它们不会变得更快,这是摩尔定律的终结。然后它们以直角方向发展并开始变得越来越并行,我们得到了NVIDIA GPU和东西,摩尔定律一直在继续,事实上甚至加速了。所以我认为它会是这样的。我认为扩展带我们走了这么远,扩展可能就像使计算机越来越快。但现在使计算机越来越并行使摩尔定律又持续了10年左右,也许更长。我认为我们将获得新的想法,这将使事情变得更好。现在有这么多聪明的人在研究这个问题,我无法相信没有好的新想法会让它工作得更好。
问(1:29:39 - 1:30:05): [Yoni Kahn博士]也许最后一个问题。好的,我们将在后面回答一个问题,然后在前面回答最后一个问题。[观众]嗨。所以主动推理理论有感觉神经元与运动神经元并行运行,它们紧密耦合,感觉神经元中的错误信号激活运动神经元进行某种校正,我是说,那是关于激活而不是权重的,但我想知道,这里是否有可能存在类似反向传播的东西?就像如果你有这些实际并行的神经元组运行,是否有类似的东西?
Geoffrey Hinton: 是的,你实际上可以在大脑中实现一个版本的反向传播,它只是不像在数字计算机中那样有效。小脑是人们认为可能存在类似反向传播的地方之一。因为你会得到一个视觉滑动信号,可以用来训练你的前庭装置,这要快得多。所以,你可以使用视觉滑动来训练前庭,这就是你获得反向传播的错误信号的地方,人们推测那里是否发生了类似反向传播的事情。但你也可以通过使用时间差在大脑中进行反向传播。所以反向传播最初看起来非常不可信。因为在前向传递中,你正在发送神经激活,在向后传递中,你正在发送神经敏感性。回来的信号是,错误对这个神经元的变化有多敏感,一个导数?所以这是完全不同类型的信息。
但是你可以使用时间导数来代替误差导数。所以你可以有一个具有两个传递的系统,这两个传递中的激活之间的差异是你的误差导数。有一些证据表明大脑可能正在使用时间导数作为误差导数。例如,你有神经元来检测位置。然后如果你问,你如何检测运动?显而易见的方法是查看位置随时间的变化,但你根本不是这样做的。你有单独的神经元来表示运动。那么为什么你不能使用位置神经元的差异来表示运动呢?一个可能的答案是,因为你正在使用那些时间差来表示误差导数。所以我和Yoshua Bengio以及其他人有一整篇论文。实际上,我不认为Yoshua是那篇论文的作者。我和不同的人有一篇论文,关于使用时间差作为误差导数,并展示了如何在 大脑中实现一个版本的反向传播。但重点是,当你试图将大量信息打包到少量连接中时,它效果不佳。它不会将信息放入瓶颈。如果你有大型、慷慨的神经网络,有大量的备用容量,这些技术将起作用,并将允许你做类似反向传播的事情,但不像在数字计算机中那样高效。所以大脑可能有办法通过使用时间差来做类似反向传播的事情,但没有人真正知道,试图理解大脑在感知学习中做什么有点令人失望。我不认为我们已经达到了。
问(1:33:14- 1:33:54): [Yoni Kahn博士]来自马丁家族的问题。[观众]非常感谢您的精彩演讲。它非常有趣。只是,我有这么多问题,很难选择一个,但我们只是在看图像生成,而不是图像识别。我想知道清醒状态和睡眠状态之间是否存在某种关系。就像图像生成是清醒状态下的训练系统根据它学到的东西生成图像吗?
Geoffrey Hinton: 所以我应该强调,玻尔兹曼机是一个关于你如何获得学习信号的好主意,该信号使用了你在统计物理学中在热平衡时获得的简单关系,但我不认为这实际上正在发生,不幸的是,它们不是特别好的工程。所以我认为很可能是类似睡眠进行反学习的事情正在发生,但不是玻尔兹曼机。
Paul Kushner: 好的。好吧,我们已经到了晚上的结尾。所以我真的想再次感谢Hinton博士和Kahn博士,感谢精彩的炉边谈话,当然,还有我们在第一个小时听到的精彩演讲。所以让我们再次感谢他们。