Gilbert Strang:线性代数、教学以及MIT开放课程「LexFridman访谈#52 」
- 视频链接: Gilbert Strang: Linear Algebra, Teaching, and MIT OpenCourseWare | Lex Fridman Podcast #52
- 博主链接:LexFridman
引言
以下内容整理自与麻省理工学院数学教授 Gilbert Strang 的接受Lex Fridman的访谈。Strang 教授以其在线性代数教学领域的卓越贡献和深远影响而闻名,他通过 MIT OpenCourseWare 发布的视频课程,已成为全球数百万学习者的宝贵资源。本次对话的核心围绕线性代数这门学科展开,深入探讨了其基本概念的内在逻辑与美感,例如四大基本子空间和奇异值分解(SVD),并阐述了线性代数在当代科技,特别是数据科学、人工智能及深度学习等领域日益凸显的重要性。
除了对线性代数的专业解读,Strang 教授还分享了他对 MIT OpenCourseWare 创立初衷与价值的看法,回顾了其作为教育者的心路历程,包括他对教学方法、学习过程的思考,以及他对线性代数与微积分这两门基础数学课程关系的独到见解。对话中也穿插了他对数学本质的理解、个人最欣赏的数学结构,以及对数学在更广泛社会中所扮演角色的观察。
内容纲要
├── I. Gilbert Strang 与 MIT OpenCourseWare 的影响力
│ ├── Strang教授的教学风格与影响力 (平静、简洁、热情)
│ ├── 对“数学摇滚明星”称号的回应
│ ├── OCW线性代数视频的广泛传播与原因 (学科重要性、教学经验)
│ └── 主持人作为OCW学生的个人经历
├── II. MIT OpenCourseWare 的起源与理念
│ ├── OCW的诞生背景 (委员会与市场化探索)
│ ├── “免费分享”的革命性想法及其通过
│ └── Strang教授对OCW理念的认同 (符合MIT精神)
├── III. 线性代数的核心与魅力
│ ├── 线性代数重要性的提升
│ ├── 四大基本子空间 (The Four Subspaces)
│ │ ├── 概念介绍 (列空间、行空间、零空间、左零空间)
│ │ ├── 对向量的理解 (数字列 vs 箭头)
│ │ └── 高维空间的抽象与处理
│ ├── 线性代数 vs 微积分 (Linear Algebra vs Calculus)
│ │ ├── 基础性与简洁性对比 (平面 vs 曲线)
│ │ ├── 教学顺序的讨论
│ │ └── 处理高维问题的能力
│ └── 线性代数之美 - 奇异值分解 (SVD)
│ ├── 作为理解矩阵/数据的工具
│ ├── 定理: 旋转-拉伸-旋转 ($A = U \Sigma V^T$)
│ └── 几何意义与应用价值
├── IV. 数学的本质、学习与吸引力
│ ├── 可视化与抽象思维
│ ├── 数学的确定性、秩序与美感 (慰藉来源)
│ ├── 数学作为工具与艺术 (Strang教授的倾向)
│ ├── 大众对数学兴趣的增长
│ ├── 学习方法探讨 (实例 vs 抽象)
│ ├── 教学与评估的反思 (Strang教授的侧重)
│ └── 对初学者的建议 (寻找热情教师、保持兴趣)
├── V. 线性代数、深度学习与数据科学
│ ├── 数据与矩阵的天然联系
│ ├── 深度学习 (Deep Learning)
│ │ ├── 基本概念 (从数据中学习规则)
│ │ ├── 神经网络结构 (线性+非线性组合)
│ │ ├── 线性代数的关键作用
│ │ ├── 非线性的引入 (分段线性、折叠)
│ │ └── 工作原理与有效性 (表达能力、复杂函数逼近)
│ └── 深度学习的局限性 (Limits of Deep Learning)
│ ├── 对数据模式的依赖 (信噪比)
│ ├── 计算能力的演变
│ └── 作为自动化规则搜索的过程
└── VI. 个人视角与反思
├── 理论与应用的倾向 (Strang教授的自我定位)
├── 最喜欢的矩阵 (K矩阵: -1, 2, -1型)
├── 数学与社会 (政治领域缺失、SIAM经历)
└── 生活乐趣与职业自豪感的来源 (教学、连接、反馈)
访谈实录
I. Gilbert Strang 与 MIT OpenCourseWare 的影响力
Lex: 作为现代数学界的摇滚明星之一,感觉如何?
Gilbert: 我不觉得自己像个摇滚明星,这对一个老数学家来说有点疯狂。但确实,我在大约 2000 年制作的那些线性代数视频被观看了很多次。这部分是因为线性代数这门学科的重要性,我相信你稍后会问到,我也会有机会说,线性代数作为一门学科,其重要性确实急剧上升。
此外,这也是我教了很多次的课程,所以内容组织得比较好,而且我乐在其中。那些视频其实就是课堂录像,发布在 OpenCourseWare 和 YouTube 上,还被翻译了,这很有趣。
主持人评论: 那块黑板,以及您在开始时解释基本概念的方式,那种简洁性,确实有其特别之处。老实说,我读本科时,在上我们大学的线性代数课之前,我就在看 OpenCourseWare,您就是我的老师。我们用的也是您的书。成千上万,甚至数百万的人观看了那些视频,这真的很有力量。
II. MIT OpenCourseWare 的起源与理念
Lex: 您认为将讲座放到网上的想法是如何产生的?MIT OpenCourseWare 在这方面确实是创新者。
Gilbert: 是的,那是个很棒的主意。我听到的故事是,当时的校长 Charles Vest,一位了不起的人,任命了一个委员会。委员会的目的是研究 MIT 如何能像其他大学那样,将我们的工作市场化。但他们没找到方法。经过一个周末的思考,他们灵光一闪,回来向 Vest 校长提议:“我们干脆把它免费分享出去怎么样?” 校长决定,这是个好主意。
Lex: 如果我们把大学看作是创造知识产品(教育知识)的地方,那么免费分享这个产品,您对它最终获得通过感到惊讶吗?
Gilbert: 了解一点 Vest 校长,我觉得这很像他的风格。而且这确实是正确的想法。MIT 以其高水平的技术内容而闻名,而这是我们展示 MIT 真实面貌的最佳方式。就我而言,那些 18.06 的视频就是真实的课堂教学,在 26-100 教室录制的。人们看这些视频觉得挺有趣,有人写信给我说我有幽默感,我不知道那从何而来,大概是我和班级相处融洽,我喜欢学生。
那些 18.06 的视频就是纯粹的课堂教学,它们就在 26-100 教室里进行。看这些视频还挺有趣的。有人写信给我说:“哦,你挺有幽默感的。”但我不知道这种幽默感是怎么体现出来的。总之,我和班级关系很好,我喜欢学生。然后,线性代数这门课,我们必须给予这门学科大部分的功劳,它的重要性在这些年里确实突飞猛进。
III. 线性代数的核心与魅力
Lex: 让我们来谈谈线性代数,因为它既是数学中一个强大又优美的子领域。那么,在您讲解、讲述故事、教导学生时,您个人最喜欢的线性代数,乃至整个数学中的具体主题是什么?
Gilbert: 好吧,在教学方面,这完全不是什么深奥的数学,但我对“四个基本子空间”这个想法感到有点自豪。当然,这四个基本子空间在我给它们命名之前很久就存在了。
III. 四大基本子空间 (The Four Subspaces)
Lex: 您能详细介绍一下这四个子空间吗?
Gilbert: 当然可以。首先要理解的是矩阵。也许我应该先说说什么是矩阵。矩阵就像一个数字的长方形排列,它有 列,也有 行。当然,列和行使用的是同一批数字,所以它们之间肯定有联系,但这种联系并不简单。列可能比行长,数字的排布也是混合的。
第一个要考虑的空间是,取矩阵的列。这些列是向量,是 维空间中的点。
Lex: 什么是向量?
Gilbert: 物理学家可能会把向量想象成空间中的一个箭头,或者箭头指向的那个点。对我来说,它就是一列数字。
Lex: 在线性代数中,您对向量的思考方式似乎比它通常的用法更抽象一些,对吗?您似乎立刻就进入了任意多维空间。
Gilbert: 是的,我直接就在高维空间里思考,在 维空间里。在课堂上我尝试这样做,比如思考十维空间中的两个向量。我会坦诚地告诉学生,我的脑海里并没有一个清晰的十维空间箭头的图像。但无论如何,你可以把一组十个数字加到另一组十个数字上,也就是向量加法,你也可以把一个向量乘以 3,也就是数乘。如果你知道怎么做这两件事,你就掌握了线性代数,哪怕是在十维空间里。
Lex: 数学中有个很美妙的地方,比如弦理论等,这些理论基本上是通过数学推导出来的,但却很难可视化。您如何看待像十维向量这样我们无法真正可视化的事物?然而数学却揭示了我们世界中某种我们无法可视化的潜在美。您如何看待这种差异?
Gilbert: 可能我不是一个非常几何化的人。我可能是在三维空间中思考,而线性代数的美妙之处在于,它可以毫无问题地延伸到十维空间。如果你看到在三维空间中两个向量相加会发生什么,那么你也可以在十维空间中相加它们,你只是在加十个分量。所以我不能说我脑海里有图像,但我确实试图引导学生去想象十维空间中的一个平面,一个平坦的表面。
所以,这是子空间之一:取矩阵的所有列,取它们的所有组合。也就是这个列的若干倍,加上那个列的若干倍等等。把所有这些组合放在一起,你会得到某种平坦的表面,我称之为向量空间,一个由向量构成的空间。我的想象力可能只是看到了三维空间中的一张纸。
这就是第一个空间,矩阵的列空间。然后是行空间,正如我所说,它不同,但来自同一组数字。所以我们有列空间,即列的所有组合;还有行空间,即行的所有组合。这些词对我来说很容易说出来,但我无法真正在黑板上画出来,尽管我尝试用我的粗粉笔——大家都喜欢那种铁路粉笔,我也一样,现在我只用那个。
另外两个空间与这两个空间垂直。比如,在三维空间中你有一个平面,只是一个平坦的表面,那么垂直于这个平面的就是一条线。这就是所谓的零空间 (Nullspace)。所以,我们有列空间、行空间,以及与它们垂直的两个空间(零空间和左零空间)。这四个空间构成了一幅关于矩阵的优美图景。是的,这算是一个基础概念,不算难,在 18.06 课程早期就会讲到,它涉及到这些多维空间中的平面。
Lex: 回顾历史,您认为这个关于多维空间中平面的想法有多难被构想出来?我认为从数学上讲它很合理,但对我们来说,去想象我们刚才讨论的东西,可能并不直观。感觉微积分更容易直观理解。
Gilbert: 我得承认,微积分确实出现得更早,早于线性代数。牛顿和莱布尼茨是理解微积分关键思想的伟人。但对我来说,线性代数像是起点。
III. 线性代数 vs 微积分 (Linear Algebra vs Calculus)
因为线性代数处理的都是“平”的东西。微积分的所有复杂性都来自于曲线、弯曲、曲面。线性代数里,所有的表面都是平的,没有任何弯曲。所以它本应该先出现,但事实并非如此。
微积分在高中课程和大学课程中也通常先出现,大学第一年的数学通常是微积分。然后我会说,够了,该学点好东西了。
Lex: 您认为线性代数应该先学?
Gilbert: 是的,我真的这么认为。虽然它实际上不是先学的,我也能接受,但它确实应该先学。因为它更简单,一切都是平的。当然,正因为如此,微积分某种程度上局限于一维,或者最终会涉及多元,但那基本上也只是二维。而线性代数可以毫无问题地进入十维空间。只是超越二维感觉有点可怕和危险,但如果一切都是平的,你就不会出错。
III. 线性代数之美 - 奇异值分解 (SVD)
Lex: 在线性代数或整个数学中,您觉得哪个概念或定理最为优美,让您驻足惊叹?
Gilbert: 我还是专注于线性代数吧。我希望听众知道,数学真的是一个奇妙的学科,充满了深刻的联系,连接着那些看起来毫不相关的思想,结果它们却有关联。
但如果我们只谈线性代数,我们有一个基本的东西,就是矩阵,一个数字的长方形。它可能是一个数据矩形。你可能稍后会问我数据科学,数据通常以矩阵形式出现。比如,每一列对应一种药物,每一行对应一个病人,如果病人对药物反应良好,你就在对应位置填入一个正数。
总之,一个数字矩形,一个矩阵,是基础。最大的问题是如何理解所有这些数字,你有一大堆数字,其中的模式是什么?发生了什么?
将这个矩阵分解成简单部分的一种方法,使用了所谓的“奇异值”(singular values)。这在我有生之年变得至关重要。如果你的听众学过工程数学或更基础的线性代数,他们可能知道“特征值”(eigenvalues)。但特征值仅限于方阵,而数据通常是长方形矩阵。所以你必须迈出下一步。我总是在推动数学系的老师们:动手去做,去做奇异值分解!
奇异值提供了一种方法,来找到矩阵中重要的组成部分,这些部分加起来就是整个矩阵。所以你是在把一个矩阵分解成简单的片段。第一个片段是数据中最重要的一部分,第二个片段是第二重要的部分,以此类推。通常,数据科学家如果能找到前一两个片段,可能就会停在那里,因为数据的其余部分很可能只是舍入误差或者实验误差。所以你是在寻找最重要的部分。
Lex: 您觉得奇异值分解美在哪里?
Gilbert: 啊,我还没给出定理。奇异值的思想是这样的:任何矩阵,无论是长方形还是方阵,都可以写成三个非常简单、特殊的矩阵的乘积。这就是定理:任何矩阵 都可以写成 ,其中 是一个代表旋转(Rotation)的矩阵, 是一个代表拉伸(Stretch)的矩阵(它是一个对角矩阵,除了主对角线外其他元素都是零), 是另一个代表旋转的矩阵。所以,旋转-拉伸-旋转,是任何矩阵的一种分解结构。
Lex: 这种结构,即任何矩阵都能如此分解的能力,其吸引力或美感体现在哪里?
Gilbert: 从几何上看,正如我坦率承认的,一个矩阵的作用不太容易可视化。但每个人都能想象旋转:拿一个二维空间绕中心转动;或者三维空间,飞行员必须知道偏航(yaw)等三个转动。即使到了十维空间,你也有十种转动方式,但你可以想象旋转:将空间转动。你也可以想象拉伸。所以,将一个包含所有那些数字的矩阵,分解成你可以可视化的东西——旋转、拉伸、旋转——这是相当巧妙的。非常有力。
IV. 数学的本质、学习与吸引力
主持人评论: 在 YouTube 上看各种视频,观察人们对什么内容产生共鸣、真正喜欢并受到启发时,数学似乎一次又一次地出现。我试图理解原因,也许您能提供一些线索。不仅仅是您授课的那种形式,还有像 Numberphile 这样的频道,他们只是聊一些极其复杂的东西,但人们仍然能与之建立联系。您认为这是为什么?
IV. 数学的本质、学习与吸引力
Gilbert: 这很奇妙,不是吗?我其实并没有完全意识到这一点。我们习惯性地认为数学很难、很抽象,只适合少数人。但事实并非如此,很多人相当喜欢数学。我收到很多人的信息,说他们退休了,打算学点数学。这真的令人鼓舞。
我认为人们喜欢的是数学中的某种秩序。很多秩序,或者说,事情虽然不明显,但它们是真的。所以,想到有这么多人真的想学习更多数学,这让人感到振奋。
Lex: 再谈谈真理,抱歉有时会滑入哲学。数学确实非常有力地揭示了哪些事物是“真”的。我的意思是,证明的全部意义就在于此。然而,我们的现实世界却是混乱和复杂的。您如何看待数学所揭示的真理的本质?因为它确实像您提到的那样,是一种慰藉的来源。
Gilbert: 哇哦。我得说,我不太算是个哲学家。我只是喜欢数字。你知道,这在你需要补牙之前就得想好。我当时就是想数学,比如想 2 的幂:2, 4, 8, 16... 一直想到牙不疼了,牙医说结束了。或者数数。所以,那几乎是一种平和的源泉。
Lex: 您认为数学的什么特质带来了这种平和感?那是什么?
Gilbert: 你知道自己身处何处。对称性,确定性。比如,你把 2 乘以自身 10 次,得到 1024,句号。每个人都会得到这个结果。
Lex: 您认为数学是一种强大的工具,还是一种艺术形式?
Gilbert: 两者都是。这确实是数学的妙处之一。你可以成为一个艺术家并且喜欢数学,也可以成为一个工程师并使用数学。
Lex: 您是哪种?您个人更倾向于哪个?
Gilbert: 我介于两者之间。我肯定不是艺术家或哲学家类型的人,虽然今天早上听起来可能有点像,但我不是。我真的很喜欢教工程师,因为他们追求答案。在 MIT 数学系内部,大多数人可能更喜欢教那些能理解抽象概念的学生。而我则很乐意教那些寻找方法来找到答案的工程师。
IV. 教学与学习 (Teaching and learning)
Lex: 这是一个有趣的问题。您认为对于教学,以及通常思考新概念而言,是代入数字更好,还是进行更抽象的思考更好?也就是说,是关注定理并证明它们,还是实际地建立对定理或方法的直觉,然后代入数字看它如何运作?
Gilbert: 当然,我们中的许多人喜欢先看例子。我们理解的可能是一个听起来相当抽象的例子,比如三维旋转。你将如何理解三维或十维的旋转?然后,我们中的一些人喜欢继续深入,直到得到具体的数字,比如 10 个角度、10 个轴。但最伟大的数学家,我不知道他们是否这样做,因为对他们来说,一个例子可能对我们其他人来说已经是高度抽象的东西了。但无论如何,在例子的空间内工作,例子似乎能构建我们大脑与之连接的结构。
Lex: 您通过这么多年教这么多学生数学,对学习过程本身有什么体会?
Gilbert: 喔,这很难。我得在这里承认,我可能不是一个真正意义上的“好”老师,因为我不怎么投入到考试环节。考试是我生活中不喜欢的部分,给它们评分,给学生 A 或 B 或其他什么。我做这些是因为我应该做,但我喜欢的是开始时的教学部分。那是激动人心的时刻,第一次告诉别人什么是矩阵,哇!
但我会在课程开始时告诉班级——我不知道他们是否相信我,可能不信——我告诉他们:“我在这里是为了教你们,教你们数学,而不是给你们评分。”但他们心里想的可能是:“好吧,这家伙什么时候……他会给我 A- 还是 B+?”
Lex: 关于学习的过程,您学到了什么?
Gilbert: 也许要给出一个关于学习的合理答案,我本应更关注最后的评估部分。但我喜欢开始时的教学部分。
Lex: 但是否有这样的时刻,当您在教授一个概念时,不需要看成绩,就能从学生的眼神中看到学习的火花?您看到他们被吸引住了,您知道自己与他们建立了联系,让他们爱上了这个美丽的世界?或者反过来,他们在那一刻放弃了,认为“数学太难了,我不擅长数学”?
Gilbert: 是的,看到它有某种美感... 是的。或者反过来,他们放弃了,认为自己不擅长数学。是的,也许是因为过去的方法让他们感到沮丧,但别灰心,数学太好了,不容错过。
如果我在教一个大班,我是否知道(他们是否理解了)?我想也许我知道。我一开始提到了四个基本子空间和线性代数基本定理的结构。线性代数基本定理就是这四个子空间的关系。我想我能感觉到,当班级想要看到它的时候,他们就理解了。
Lex: 对于今天刚开始数学之旅的学生,您有什么建议?他们该如何开始?
Gilbert: 哦,这很难。我希望你有一位仍然享受自己所做、所教内容的老师或教授,他们仍在寻找新的教学方式和理解数学的方式。因为乐趣在于你领悟的那个瞬间:“哦,原来是这样!” 所以,这关乎材料本身,也关乎教师的热情来源。更多的是关于乐趣,领悟的瞬间。
在主题方面,线性代数是我的领域。但几何学中也有很多美妙的东西去理解。最棒的是,最终你会发现模式,有规则可循,在生物学中如此,在每个领域都如此。
主持人提及 Strang 关于模仿的引述
Gilbert: 是的,模仿是百分之百美妙的……除了评分。评分很糟糕。
V. 线性代数、深度学习与数据科学
主持人: 华盛顿现在对人工智能有些担忧,关于未来。我认为其核心是数学。
Gilbert: 的确如此。是的。但也许它被隐藏了,戴着不同的帽子。嗯,人工智能,特别是,我可以用“深度学习”这个词吗?深度学习是理解数据的一种特定方法。你又有了大量的数据,数据正淹没着世界的计算机。要理解它,从所有这些数字中找出什么是重要的,无论是在气候领域还是其他任何领域。
人工智能是处理数据的一种方法的两个词。深度学习是其中一种具体的方法,它大量使用了线性代数。所以我开始研究它,我想,好吧,我必须了解这个。
Lex: 从您的角度来看,这是一个最基本的问题,您如何看待神经网络?它是什么?
Gilbert: 嗯,好的。
V. 深度学习 (Deep Learning)
我可以先从深度学习这个概念开始吗?什么是深度学习?
Lex: 当然,什么是深度学习?
Gilbert: 我们试图从所有这些数据中学习,试图学习什么是重要的,数据在告诉我们什么。所以,你有数据,有一些输入,你知道它们对应的正确输出。问题是,你能看到其中的模式吗?你能找出一个方法,对于一个我们没见过的新输入,去理解它的输出会是什么吗?
我们有百万个带有已知输出的输入数据,我们试图创建某种模式、某种规则,能够将这百万个训练输入(我们已知)映射到正确的百万个输出。而神经网络这个概念,是我们创建规则的新方法结构的一部分。我们正在寻找一个规则,能将这些训练输入映射到已知的输出,然后我们将使用这个规则来处理我们不知道输出的新输入,看看会得到什么。
线性代数是定义和寻找那个规则的重要组成部分。是的,线性代数是很大一部分,但不是全部。人们依赖矩阵,这很好。但线性(Linear)是特殊的,它只关乎直线和平坦的平面。而数据并不完全是那样的,它更复杂。所以你必须引入一些复杂性。你需要有一个不是直线的函数,不仅如此,它还是非线性的。
结果发现,使用一个由一段直线和另一段不同直线组成的函数就足够了,也就是分段线性 (piecewise linear)。一段有一个斜率,另一段有另一个斜率。引入这种简单的非线性,就打开了局面。那个小小的非线性部分,使其足够复杂以变得有趣,因为你会把它重复使用一百万次。所以,它的图形有一个“折叠”。但当你把东西折叠一百万次,你就得到了一个相当复杂的函数,非常接近现实。这就是神经网络的特点,它们有很多很多这样的单元。
Lex: 为什么您认为神经网络,通过构建一个非常…不是平面的目标函数,一个对输入到输出进行了大量折叠的函数,能够有效地找到一个我们不知道是否最优,但在很多情况下似乎相当不错的规则?您的直觉是什么?这对您来说是否像对许多人一样令人惊讶?您对它为什么能工作有直觉吗?
Gilbert: 我开始有了更好的直觉。这种分段线性的想法,即由平坦的部分组成,但它们之间有折叠,就像一个极其复杂的房子的屋顶,它几乎是弯曲的,但每一小块都是平的。工程师们一直在使用这个想法,现在也在大规模使用,比如在一种叫做“有限元方法”(finite element method) 的技术中。如果你想设计一座桥、一栋建筑、一架飞机,你就在使用这种分段平坦(piecewise flat)的思想,作为对现实的一个良好、简单、可计算的近似。
Lex: 您感觉这种分段线性组合起来具有很大的表达能力(expressive power)?
Gilbert: 是的,你用了正确的词。如果你衡量其表达能力,即这种分段平坦的东西能表达多复杂的事物,答案是非常复杂。
V. 深度学习的局限性 (Limits of Deep Learning)
Lex: 您认为这种分段线性或一般的神经网络,其表达能力的极限在哪里?
Gilbert: 不久前你可能会说,极限只是计算上的。问题规模超过一定程度,超级计算机也做不到。但计算能力确实在不断增强,所以这个极限已经被推后,允许越来越复杂的表面。
Lex: 就从输入到输出的映射而言,观察数据,您如何看待……在神经网络的背景下,通常数据就是张量、向量、矩阵。您如何看待从数据中学习?我们的世界有多少可以用这种方式表达?这个过程有多大用处?我想这是另一种问法,即这种方法的局限性是什么?
Gilbert: 这是个好问题。是的。我想深度学习的整个理念在于,数据中有东西可学。如果数据完全是随机的,由随机数生成器产生,那么我们将找不到有用的规则,因为根本就没有。拥有规则的极端情况就像知道牛顿定律:你击打一个球,它就会运动。这就是物理定律存在的地方,牛顿、爱因斯坦和其他伟人已经发现了那些定律。还有比如地下石油分布的规律,石油工程师理解石油如何在地下盆地中赋存。所以过去是有规则的。
现在,人工智能的新思想是去学习规则,而不是借助牛顿或爱因斯坦的帮助来找出规则,计算机在寻找规则。这是又一步。但如果根本没有规则可供计算机寻找,如果数据完全随机,那么你就一无所获,没有科学可以发现。这是自动化地搜索潜在规则。是的,搜索规则,没错。
当然,会有很多随机的部分。我不是在否定随机性,因为随机性是存在的,内置了很多随机性。但必须有一些基础的…几乎总是有某种信号,对吧?在大多数情况下。必须有一些信号。如果全是噪声,那你将一事无成。我们周围的这个世界似乎总是存在某种信号等待被发现。是的,没错。
VI. 个人视角与反思
吉尔伯特·斯特朗其人 (Who is Gilbert Strang)
Lex: 什么更让您兴奋,是理论,还是数学的应用?
Gilbert: 对我自己而言,我可能更偏向理论。我在这里很自由地谈论应用,但我不是一个真正……我不是物理学家、化学家或神经科学家。对我自己来说,我喜欢数学的结构,比如那些平坦的子空间,以及矩阵、列与行的关系。这是我在整个领域中的角色。
真正的科学是一个广阔的光谱,从提出实际问题并用一些数学来回答它们的人,到像我这样处于中间的数学家,再到数学、物理、化学等领域的天才,他们发现基本规律,真正地理解自然最底层、最简单的层面。
Lex: 从您的角度,能否粗略地谈谈线性代数在数学这个大学科中的位置?您认为与线性代数相关的各个子领域有哪些?
Gilbert: 好的。数学的主要领域包括代数作为一个整体,还有像微积分和微分方程这样的问题,这是第二个相当不同的领域。然后也许几何学应该作为一个独立的领域,去理解高维表面的几何。
我想,我可以在这里说这个吗?我觉得这是个人观点:我认为在思考本科数学,即数百万学生学习的内容时,我们过分强调了微积分,牺牲了代数,牺牲了线性代数。
Lex: 您是说微积分对决线性代数?而且您认为线性代数胜出?您能稍微深入探讨一下吗?为什么线性代数胜出?
Gilbert: 好的。听众可能会觉得这家伙有偏见。不是的,我只是在陈述事实。是的。我觉得线性代数是数学中一个很好的部分,人们可以理解它的思想,可以理解一些东西。它有点抽象,因为一旦你进入十维或百维空间。而且它非常非常有用。这就是在我有生之年发生的事情:数据的重要性日益增加,而数据确实以矩阵形式出现。所以它天生就适合代数,而不是微分方程。
现在让我公平地补充一下概率论。概率论和统计学的思想也变得非常非常重要,它们也向前迈进了一大步。这与线性代数不同,相当不同。所以现在对我来说,我们真的有三个主要领域:微积分、线性代数(矩阵)以及概率统计。它们都应该占有重要的地位。而传统上,微积分占据了绝大部分时间。是的,不成比例的份额,谢谢你用“不成比例”这个词,占据了那些兴奋的年轻头脑的爱与关注。
最喜欢的矩阵 (Favorite matrix)
Lex: 我知道这很难选,但您最喜欢的矩阵是什么?
Gilbert: 好的。我最喜欢的矩阵是方阵,我承认。它是一个方形的数字阵列。它的主对角线上是 ,紧邻主对角线的上方和下方(次对角线)是 。其他地方都是零。所以大部分是零,只有三条非零的对角线向下延伸。
即
Lex: 它有趣在哪里?
Gilbert: 它以各种不同的方式出现。你在工程中看到它,在微积分中它类似于二阶导数。微积分学习求导数,计算某事物变化的速度。但二阶导数也很重要,它表示变化率的变化速度,图形弯曲的速度,曲线弯曲的速度。爱因斯坦表明这对于理解空间至关重要。所以二阶导数在微积分中应该有更大的地位。而我的这个矩阵,就像是二阶导数的线性代数版本,在线性代数中非常简洁,用它们处理问题,一切结果都恰到好处,很优美。
数学与社会 (Math in Washington)
主持人: 您可能熟悉,Andrew Yang 是目前正在竞选的总统候选人,他的帽子上印着全大写的 MATH,代表“让美国努力思考”(Make America Think Harder)。
Gilbert: 好,我会投票给他。
主持人: 他的名字和您的押韵,Yang 和 Strang。他也热爱数学,来自那个世界。但看到他也让我意识到,数学、科学和工程似乎并未真正成为我们政治的一部分,不是政治话语或政府的普遍组成部分。您认为这是为什么?您对此有何看法?
Gilbert: 当然,在这个体系的某个地方,我们需要那些对数字和数量感到自在的人。如果你说“这会导致那”,他们能看到,这是不可否认的。
Lex: 但您不觉得奇怪吗?我们几乎没有——我很确定我们没有——国会或显然总统职位上的民选官员拥有工程学或数学学位。
Gilbert: 是的,这太糟糕了。少数几个能够建立联系的人……他们必须是既懂工程或科学,又能发表演讲、领导和激励他人的人。
Lex: 说到启发,您曾担任工业与应用数学学会 (SIAM) 的主席,这是一个重要的数学组织。您认为该学会在我们的公共话语中扮演着怎样的角色?
Gilbert: 是的。嗯,在 2000 年前后担任主席那几年很有趣。那是一个相当小的学会,但当时数学在华盛顿正获得更多关注。是的,我有机会在众议院的一个委员会面前做了大约 10 分钟的发言,谈论为什么数学重要。实际上那次很有趣,因为其中一位众议院议员曾经是我的学生。
Lex: 您觉得怎么样?
Gilbert: 正如你所说,这种情况相当罕见。大多数众议院议员有不同的训练和背景。但有一位来自新罕布什尔州的议员,因为上过我的课,真的成了我的朋友。所以那些年挺好的。当然,后来其他事情在华盛顿占据了更重要的位置,数学在目前就不那么显眼了。但曾有那么一小段时间,它在那里引起了一些兴奋。
VII. 结论 (Conclusion)
Lex: 回顾您的人生,哪些记忆带给您最多的快乐和自豪感?
Gilbert: 这是个好问题。当然,当我在教 18.06 课程时,感觉很好。那是 MIT 的线性代数课程,是我开设的。所以有一种满足感,觉得“好吧,我开设了这门课,很多学生选修,不少人喜欢它。”是的,所以当我感觉自己正在帮助连接思想与学生,连接理论与读者时,我感到很开心。
我收到了很多看过视频的人发来的非常友好的信息,这很鼓舞人心。也许借此机会说声谢谢。
主持人: 您教过数百万学生,我很荣幸曾是其中一员。Gilbert 教授,非常感谢您。与您交谈是我的荣幸。
Gilbert: 很高兴与你交谈,谢谢。
访谈要点总结
I. Gilbert Strang 与 MIT OpenCourseWare 的影响力
- Gilbert Strang 是 MIT 数学教授,他的线性代数课程通过 MIT OpenCourseWare (OCW) 影响了全球数百万学生(包括播主本人)。
- 他的教学风格被描述为平静、简洁且充满热情。
- Strang 对自己被称为“数学界的摇滚明星”感到有些意外,但他承认他的早期(约2000年)线性代数视频确实被广泛观看。
- 他将视频的成功部分归因于线性代数这门学科本身重要性的提升,以及他多次教授该课程后对其内容的熟悉和喜爱。
II. MIT OpenCourseWare 的起源与理念
- OCW 的诞生源于一个 MIT 委员会的建议,他们最初想探索如何将 MIT 的知识“市场化”。
- 最终的灵感是“干脆免费分享出去”(What if we just gave it away?),这个想法得到了时任校长 Charles Vest 的支持。
- Strang 认为这是一个正确的、符合 MIT 精神的想法,它展示了 MIT 的真实面貌,因为分享的正是实际的课堂教学内容。
III. 线性代数的核心与魅力
- 重要性:线性代数作为一门学科,其重要性近年来显著提升。
- 教学偏好:Strang 喜欢教授线性代数,特别是其中的“四大基本子空间”概念,他为此感到自豪。
- 四大基本子空间 (The Four Subspaces):
- 矩阵 () 是一个数字矩形(例如 行 列)。
- 列空间 (Column Space):矩阵各列向量的所有线性组合构成的空间。
- 行空间 (Row Space):矩阵各行向量的所有线性组合构成的空间(与列空间来自相同的数字,但结构不同)。
- 零空间 (Nullspace):与行空间垂直的空间。
- 左零空间 (Left Nullspace):与列空间垂直的空间。
- 这四个空间构成了理解矩阵的优美图景。
- 向量与高维空间:
- Strang 更倾向于将向量理解为一列数字,而非物理学中的箭头。
- 他强调线性代数的美妙之处在于,二维或三维空间中的运算(向量加法、数乘)可以无缝扩展到 维空间,即使我们无法直观想象高维箭头。
- 线性代数 vs 微积分:
- Strang 认为线性代数(处理平面、直线)比微积分(处理曲线、弯曲)更基础、更简单,或许应该先学。
- 传统教育体系中微积分通常先于线性代数。
- 线性代数能轻松处理高维问题,而微积分通常从低维开始。
- 线性代数之美 - 奇异值分解 (SVD):
- 对于理解充满数字的矩阵(尤其是数据矩阵),SVD 是一个强大的工具。
- 定理:任何矩阵 (无论是否方阵)都可以分解为三个特殊矩阵的乘积:。其中 和 代表旋转 (Rotation), 是一个对角矩阵,代表拉伸 (Stretch)。
- 意义:SVD 将复杂的矩阵操作分解为几何上可理解的步骤(旋转-拉伸-旋转)。奇异值( 对角线上的元素)按重要性排列,可以用来提取数据的主要成分,常用于数据科学中降噪和模式识别。
IV. 数学的本质、学习与吸引力
- 可视化与抽象:虽然高维空间难以可视化,但数学(尤其是线性代数)的结构允许我们将低维(如3D)的直觉扩展应用。
- 数学的确定性与美:
- 数学提供了秩序和确定性(例如 ),这是一种慰藉。
- 数学既是强大的工具,也是一种艺术形式。Strang 个人更偏向应用,喜欢教工程师解决问题。
- 大众对数学的兴趣:
- 越来越多的人(非专业人士)对数学表现出兴趣(如 Numberphile 频道、退休后学习数学的人),这打破了“数学很难、只属于少数人”的刻板印象。
- 人们可能被数学的内在秩序和真理性所吸引。
- 学习方法:
- 从具体例子入手通常有助于理解抽象概念。
- 对 Strang 而言,即使是“三维旋转”也算是一个例子,顶尖数学家可能在更抽象的层面思考。
- 教学与评估:
- Strang 热爱教学过程本身(向学生介绍新概念,如矩阵),但不太喜欢考试和评分。他认为自己的职责是“教数学”,而不是“给学生打分”。
- 他能感受到学生“顿悟”的时刻,也知道学生可能因畏难而放弃,他鼓励学生不要放弃,因为数学“太好了不容错过”。
- 给学生的建议:
- 找到一位对教学内容本身充满热情和探索精神的老师。
- 不要害怕,保持兴趣。
V. 线性代数、深度学习与数据科学
- 数据与矩阵:现代数据科学中,数据常以矩阵形式出现,使得线性代数工具(如 SVD)非常有用,可以帮助理解数据模式、分离信号与噪声。
- 深度学习 (Deep Learning):
- 是一种从大量数据中学习模式和规则的方法。
- 神经网络 (Neural Network):是深度学习的一种结构。
- 与线性代数的关系:神经网络大量使用线性代数运算(矩阵乘法)。
- 工作原理:网络结合了线性变换(由矩阵完成)和非线性激活函数。一个关键的非线性函数是分段线性的(如 ReLU),它引入了“折叠”(fold)。通过大量简单非线性单元的组合和层叠(“深度”),网络可以拟合非常复杂的函数/模式。这种“分段平面”逼近复杂函数的能力类似于工程中的有限元方法。
- 有效性:神经网络之所以有效,是因为它们具有强大的表达能力(expressivity),能够通过组合许多简单的“折叠”来模拟现实世界数据中的复杂关系。
- 局限性:需要数据中存在可学习的模式(不能是纯随机噪声)。计算能力曾是瓶颈,但现在已大大提高。深度学习本质上是“自动化地搜索规则”。
VI. 个人视角与反思
- 理论 vs 应用:Strang 认为自己更偏向理论,喜欢数学的结构(如子空间、矩阵性质),但也享受教工程师并看到数学的应用。
- 最喜欢的矩阵:一个特定的方阵 ,主对角线是 ,紧邻主对角线的两条次对角线是 ,其余为 。即 。这个矩阵在工程和数学中反复出现,是离散化的二阶导数,性质优美。
- 数学与社会:
- 他认为政界缺乏数学和工程背景的人才是一种遗憾。
- 他曾担任工业与应用数学学会 (SIAM) 主席,并在约2000年左右参与过向美国国会宣传数学重要性的活动。
- 生活乐趣:教学(尤其是教授 18.06 课程)、连接思想与学生、收到观看视频者的积极反馈,这些都给他带来快乐和自豪感。