Linguista

Giblert Strang教授谈线性代数、工程、计算机科学与AI「Hrvoje Kukina Podcast#26」

导言

本篇访谈记录了 Hrvoje Kukina 对著名数学家、麻省理工学院荣休教授 Gilbert Strang 的深入对话。Strang 教授以其在线性代数领域的卓越贡献和深入浅出的教学风格闻名于世。在这段访谈中,他首先回顾了个人如何走上数学道路的历程,从早年对数学的兴趣到在 MIT、牛津和 UCLA 的求学经历,最终选择线性代数作为其主要研究方向,并分享了早期在偏微分方程稳定性方面的研究突破。

对话的核心围绕线性代数展开。Strang 教授阐述了他编写广受欢迎的教材和投身教学的原因,强调了将抽象概念与实际应用相结合的重要性,并谈及了 MIT OpenCourseWare 如何极大地普及了他的课程。他深入探讨了线性代数如何深刻影响工程学(如有限元方法)和计算机科学,特别是当前热门的人工智能领域,解释了特征值、奇异值等核心概念的实际意义,并指出了理解新型 AI 模型数学原理的前沿挑战。

此外,访谈还涉及 Strang 教授对纯粹数学与应用数学的看法、数学之美(如黎曼猜想)、对高斯消元法的教学改进、线性代数未来发展方向(包括与 AI 和数据科学的结合),以及他对年轻数学研究者的建议。

访谈纲要

├── 引言与嘉宾介绍
│   └── Hrvoje Kukina 介绍并欢迎 Gilbert Strang 教授
├── 个人背景与数学启蒙
│   ├── 早年对数学的兴趣与天赋
│   ├── 教育经历 (MIT, Oxford, UCLA)
│   └── 加入 MIT 并长期任教
├── 专注线性代数
│   ├── 选择线性代数作为研究领域的原因 (对应用和计算的兴趣)
│   ├── 早期研究:偏微分方程数值解的稳定性
│   │   ├── 提及CFL条件、冯·诺依曼、Peter Lax
│   │   └── Strang的贡献:最精确差分格式的稳定性证明
│   └── 奇异值分解 (SVD) 的重要性
├── 教学理念、教材与知识传播
│   ├── 编写应用线性代数教材的动机 (满足工科学生需求, 与纯理论区分)
│   ├── 教学方法:非正式、易懂、强调应用
│   ├── MIT OpenCourseWare (OCW) 的影响
│   └── 自行出版教材 (Wellesley-Cambridge Press)
├── 线性代数的核心及其影响
│   ├── 对工程学的影响 (有限差分、有限元方法 FEM)
│   ├── 对计算机科学与人工智能 (AI) 的影响
│   │   ├── 神经网络作为函数逼近
│   │   └── 现代方法中分片函数不需连续性及其解释的挑战
│   └── 特征值与特征向量的现实意义 (描述不变模式)
├── 数学研究、观点与未来展望
│   ├── 当前研究兴趣 (理解AI近似方法、矩阵性质)
│   ├── 纯粹数学 vs 应用数学的看法 (侧重理解计算现象)
│   ├── 心中的“最美”数学定理 (提及费马大定理、黎曼猜想)
│   ├── 对高斯消元法的矩阵化理解与教学 (近期论文)
│   ├── 线性代数的未来方向 (与AI结合、计算工具如Julia、理解AI基础)
│   └── 数据科学的兴起及其重要性
├── 难忘经历与建议
│   ├── 回顾教学心路历程 (从紧张到享受)
│   └── 给年轻学者的建议 (关注数据科学、在顶尖院系交流)
└── 结束语
    └── 双方致谢

Gilbert Strang 教授访谈录

访谈者:Hrvoje Kukina 受访者:Gilbert Strang 教授


Hrvoje Kukina: 非常荣幸能邀请到 Gilbert Strang 教授。Strang 教授,非常感谢您抽出时间参与这次播客。

Gilbert Strang: 我的荣幸。

一、 个人背景与数学启蒙

Hrvoje Kukina: 好的,我想从第一个问题开始。基本上,是什么激励您走上数学研究的职业道路?

Gilbert Strang: 哦,嗯,可能和许多其他数学家一样,我很早就发现自己跟得上数学的节奏,但动手能力不行。任何需要手工灵巧性的工程对我来说都会是一场灾难,而数学却进展顺利。我小时候在看牙医的时候就尝试数到无穷大,并且一直坚持了下来。所以,当我上高中的时候,我能很快完成所有的考试,因此,像许多其他数学家一样,我已经提前学习大学的课程了。之后我去了麻省理工学院(MIT),然后去了英国的牛津大学,最后为了博士学位回到了加利福尼亚——我从没见过洛杉矶,所以去了加州大学洛杉矶分校(UCLA)读博。然后MIT很友好地给了我一份工作,我当然就答应了,从那时起我就一直在MIT工作到现在。

二、 专注线性代数:动因与早期研究

Hrvoje Kukina: 您是如何决定将线性代数作为主要专业领域的?

Gilbert Strang: 这确实是个好问题。因为在那个时候——我得提一下,我刚过了90岁生日,谢谢你的祝贺——所以我们谈论的是六十多年前的事情了。嗯,我在MIT上学时学过线性代数,我很喜欢它,但那完全是纯粹数学。我的老师是一位伟大的代数学家,岩泽健吉(Iwasawa)教授。但在牛津的那几年,以及之后,我一直想做一些应用。在牛津我学到了一点,在UCLA也是。当我说“应用”时,我不是指流体力学之类的东西,我只是指——我想说我指的是计算,但也不完全是,因为我自己并不擅长计算机编程。所以,它是关于理论背景,关于你如何求解一个包含100个线性方程的方程组,或者你如何找到——现在你的听众可能知道“奇异值”(singular values),它们有点像特征值,当矩阵是对称正定时它们是相同的。奇异值是特征值的一种推广,但奇异值适用于所有矩阵,而且它们非常重要。奇异值分解(SVD)已经成为应用线性代数中的核心工具。所以,当时有很多事情可以做。

Hrvoje Kukina: 您能分享一下您第一个重要数学发现背后的故事吗?

Gilbert Strang: 天哪,好的,我想我可以。我的UCLA博士论文和在MIT的早期工作是关于如何求解偏微分方程,特别是线性方程,这样我就可以使用线性代数。你需要逐步求解时变的方程。通常情况下,这进行得相当顺利,但也存在稳定性的问题。一些看起来很普通的微分方程差分近似可能是不稳定的,这意味着它们随时间的增长速度远超真实解的增长速度。因此,确立稳定性——意味着如果真解不增长,近似解也不增长,或者说增长速度不超过真解——就成了一个问题。这方面有一些伟大的名字,库朗(Courant)、弗里德里希(Friedrichs)和列维(Lewy)是三位伟大的欧洲裔美国数学家,他们认识到时间步长不能超过特征线的速度(如果你讨论的是所谓的双曲型微分方程)。这些方程有其自然的“传播速度”,如果你步子迈得太大,就会不稳定。但这只是一个充分条件,意思是不要尝试走巨大的步子。然后,有趣的是,那个年代最伟大的数学家冯·诺依曼(von Neumann)和他的学生彼得·拉克斯(Peter Lax)——当时他是一位刚从布达佩斯来的20岁年轻人,后来成为了我的英雄,至今仍是我的英雄,他还健在,快100岁了——冯·诺依曼提出了一个想法:检查稳定性,只需检查每一种频率、每一种纯粹的频率就足够了。如果输入是 eiθx,它随时间增长有多快?如果它增长很快,你肯定知道你的方法不稳定。反过来,这是一个充分条件:如果你对所有纯指数函数都稳定,那么你的方法整体上就是稳定的。这就是相关的数学背景。你可能想问我贡献了什么,那么我就告诉你这一点,然后我这部分的会谈就差不多结束了。我最喜欢的一个结果,连拉克斯都感到满意,是关于取最精确的差分方法。当你构建与微分方程相似的有限差分格式时,你从物理学的微分方程出发,用有限差分代替导数。如果你决定了在有限差分近似中使用哪些点,允许多少项,那么你可以用最精确的方式来选择它们。然后定理表明,只要选择一个合适的时间步长,这个方法就将是稳定的。这真是太棒了,可以说大自然是站在我们这边的。

三、 教学理念、教材编写与知识传播

Hrvoje Kukina: 是什么启发您编写广受欢迎的线性代数教材呢?

Gilbert Strang: 现在我们转向教学了,是的,你说得对。这可能要感谢… 启发我的是这样一个事实:我当时在使用线性代数,但我使用的和我教给MIT学生的不一样,因为教的有点太抽象了。而我实际上在做具体的应用,但这是真正的线性代数。MIT是一个有很多工程师的地方,他们需要应用,需要建设性的线性代数,而不是纯粹的理论,比如若尔当标准型(Jordan forms)或其他虽然重要但主要只在理论中重要的东西。所以我想,我要开设第二门线性代数课程,保留由别人教的第一门理论课程,然后我来教这门新课程,它对工程、科学、经济学以及所有领域都有用。我认为当时线性代数并未得到应有的重视,现在它确实受到了更多的关注。但在那时,微积分是所有MIT学生必须学的,却不要求学任何线性代数。现在情况有所改变,线性代数正在占据其应有的位置。总之,这就是我开始教学的原因。接着,需要有一本面向线性代数新方向(更应用化)的教科书。我再说一遍,我实际上并不在课堂上教授编程——像MATLAB和其他系统,现在还有Julia、Python等等,学生们可以在课程之外独立学习。所以我的课程是这样的。

Hrvoje Kukina: 您如何让复杂的数学概念更容易被学生理解和接受?

Gilbert Strang: 天哪,这就像问医生如何治愈病人一样。我不知道,也许即使在这次谈话中,你也能看到我有些非正式,目的是把想法传达清楚。因为这门课是应用的、可以理解的,学生们真的非常喜欢学习线性代数。而且,我也觉得数学系有一些非常优秀的讲师,我想,好吧,我要为那些明星们树立一个榜样。我的朋友吉安-卡洛·罗塔(Gian-Carlo Rota)就是一位杰出的讲师,还有其他人。所以,一方面是为了指明方向,让其他人可以跟随;另一方面是因为这种更应用、更有用形式的线性代数,在我看来,当时的教科书或课堂上并没有体现出来,我自然认为这才是适合大多数学生的途径。所以我写了一本教科书来配合课程,并制作了视频来配合课程。因为这门课程的方向对如此多的科学家来说是正确的,所以事情就流行起来并向前发展了。

(结合后续内容补充关于OCW和出版)

Gilbert Strang: 还有一件大事要说,就在那个时候,另一个好运降临了:MIT决定将其大型课程的视频讲座免费开放给全世界,完全免费。一个教员委员会被要求在周末想出一个好主意。当时的期望是找到一种为MIT赚钱的方式,因为那时课程、软件等都是收费的。但他们没想出特别的办法,于是他们说:“我们干脆把它免费送出去怎么样?把所有我们能提供的MIT课程——教学大纲、信息,对于大型课程,还有讲座视频——都公开。”MIT的校长同意并启动了这个项目,这就是所谓的麻省理工学院开放式课程(OpenCourseWare),网址是 ocw.mit.edu。这基本上涵盖了所有MIT课程,专业性强的课程提供大纲形式,而大型课程则提供实际的讲座视频。线性代数已经成为大型课程之一。这大约是在2000年左右,是我在MIT工作的中点。那时我已经开始教授应用线性代数了,但当视频部分,也就是开放式课程出现时,那是一个全新的可以贡献的世界。

我还做了更疯狂的一步,那就是自己出版这些书。这确实是个新奇的事情要告诉你,因为理智的人不常这样做。但我很享受,这有点像个爱好。我把出版公司命名为韦尔斯利-剑桥出版社(Wellesley-Cambridge Press)。这是一次伟大的冒险。但接着我必须告诉你它能触达很多人的原因,那就是MIT决定通过开放式课程(OCW)将这些视频课程免费提供给所有人。现在它被复制、翻译等等。所以,一方面是自己做事情带来的快乐和满足感,另一方面,真正让这一切奏效的原因是,与此同时,这些讲座正通过视频传播给世界各地的每一个人。开放式课程的人告诉我,到目前为止,大约有两千万观众观看了线性代数的讲座,我相信微积分、物理等课程也有数百万的观看量。所以,这是一个恰逢其时的巧合:一个需要被更广泛了解的学科,MIT决定通过视频向所有人开放课程,以及有人帮助实现这一切。

四、 线性代数的核心及其影响

Hrvoje Kukina: 您能否谈谈线性代数是如何影响其他学科的,比如工程学和计算机科学?

Gilbert Strang: 当然。它影响工程学,例如,我已经提到了用有限差分法求解微分方程。然后工程界又朝着另一个方向发展,即有限元方法(Finite Element Method, FEM)。它不是从微分方程开始,而是可能从一个最小化原理(比如最小化能量)开始,但最终也会得到一个计算机可以求解的离散差分方程(实际上是线性方程组 Ax=b)。这就是线性代数,矩阵无处不在。我们需要关心这些矩阵是什么样的?它们是否稀疏(这样系数就不会太多)?你能获得什么样的精度?这些近似函数需要具备什么样的光滑性?所以,有限元使用的是分段多项式。也就是说,在一个三角形区域内,它们可能只是某个线性函数,比如 a+bx+cy。然后在相邻的三角形里,是另一个不同的线性函数,比如 A+Bx+Cy。但这两片必须连接起来,所以这里面涉及很多精彩的几何学,以及构造越来越好的分片多项式。所以,你不是用有限差分,而是创建一种函数形式。

这正是我们现在所做的——人工智能(AI),或者说包含解决物理问题及各种问题的解的构造的领域——取得巨大成功的背后原因。通过创建一个神经网络(neural network),这是描述新函数的一种说法。这些函数也是分段的多项式或类似的东西,就像之前的有限元一样。但新构造的关键在于,这些多项式不必,而且通常也不是在连接处光滑的。两片多项式相遇的地方,它们甚至可能不完全吻合。这两片可能有点差异。无论如何,这是一种构造方法,它正在解决一个基本问题:如何以稳定的方式拟合数据,如何能快速计算,以及如何能方便地使用。这是一个巨大的进步。每个人都曾以为,让多项式在两个区域相遇的边界线上匹配是至关重要的,但事实证明并非如此。所以,我们现在使用更一般的拟合函数,即使它们在每个小片上可能仍然很简单,仍然由许多片段组成,但现在这些片段在连接处不一定需要完美地匹配,却取得了非常好、极其好的结果。于是,一系列全新的数学问题出现了:为什么我们甚至在没有连续近似的情况下也能得到好的答案?但我们确实得到了。这就是探索的乐趣。数学在这些应用中,是一个接一个的冒险,当有人设计出更好、更成功的近似方法时,数学家就会介入,试图解释它为什么有效。

Hrvoje Kukina: 特征值(eigenvalues)和特征向量(eigenvectors)在现实世界问题中有什么意义?

Gilbert Strang: 对于你正在寻找的真实解(虽然你不知道它具体是什么),特征值和特征向量给出了一个非常简单的形式:一种形状保持不变、仅幅度按比例增长的解。函数(比如可能是一个非常简单的“帽子函数”)的高度、宽度可以改变,但它仍然是个帽子函数。在二维和三维空间中则是更复杂的函数。这就是特征模式。现在(在现代数值方法中),我们不再要求相邻的“帽子”完美地拼接在一起。我们允许这些帽子有点移位。令人惊讶的是,这使得获得快速、良好且成功的近似成为可能,尽管缺乏了(传统的)连续性。

五、 数学研究、观点与未来展望

Hrvoje Kukina: 当前线性代数领域有哪些研究问题最让您兴奋?

Gilbert Strang: 最让我兴奋的… 如果你问的是关于AI,关于那些不连续的新型近似函数,那么解释它们为什么如此有效,对许多人来说都是一个非常令人兴奋的问题。对我个人而言,我想,每个数学家都会找到一个他或她不太明白如何解释的问题,然后去研究它。我当然也这样做。所以我给自己设定的问题,我尽量不让自己觉得太难,并且我试图让它们能指导我们理解矩阵的幂 Ak 等行为。所以,问题通常来自某个我们不太理解其成功原因的应用,我们想要找到原因并证明它。

Hrvoje Kukina: 您如何看待纯粹数学与应用数学在社会中的角色?

Gilbert Strang: 哦,你知道,我不知道自己是否深入思考过这个问题。我只是做我所做的事情,就像其他人一样。但我想,当你进行一次大型计算时,想要理解到底发生了什么是很自然的。真正起作用的是什么?你能预先预测结果会有多精确吗?会有多稳定吗?这两个特性——精度和稳定性——某种程度上是相互矛盾的。你可以通过增加很多项来获得更高的精度,但可能会失去稳定性。这就是其中的权衡。

Hrvoje Kukina: 您认为数学中最美的定理是什么?为什么?

Gilbert Strang: 哦,数学中最美的定理… 我不认为我有资格回答哪个是“最美”的。但是,当费马大定理(Fermat's Last Theorem)被证明时,每个人都感到高兴、印象深刻,那是一个特殊的事件。证明过程结果用到了各种各样的新思想,这些思想远在费马之后才出现,是更近代、更强大的思想。所以可以说费马大定理已经被解决了。但还有其他重大问题,其中最为所有纯粹数学家所熟知的,可能就是关于一个以黎曼(Riemann)命名的特殊函数——黎曼Zeta函数(Riemann zeta function),因为他用了希腊字母Zeta(ζ(s))来命名它——的问题:这个函数在哪些点上为零?这是一个要求很高的问题,但现在一直都在取得重要的进展,新的思想不断涌现,并且未来还需要新的思想。所以这是继费马大定理之后值得关注的事情。纯粹数学正处在一个伟大的世纪,而我所从事和写作的面向应用的世界也是如此。

Hrvoje Kukina: 您能分享一次令您印象深刻的教学或研究经历吗?

Gilbert Strang: 我不知道,我本该为此做好准备的。好吧,让我想想。嗯,刚开始教书的时候,我在课堂上相当紧张。现在这更多的是一种愉快的经历。嗯,我最终退休了,你可以说那是一次愉快的经历。但是课程当然还在继续,因为视频一直都在那里。而且我还在继续制作新的视频,并发表一些小的论文。这里有一篇论文正在发表,就在我们现在所处的2024年12月,由美国数学协会(MAA)的大学教学组织发表。

所以,我现在要谈谈这篇论文涉及的数学内容。在线性代数早期,我们教的一个东西是高斯消元法(elimination),因为它很早就被发现了,大约在公元前2000年由中国人发现。这是一种简化线性方程组的自然方法。如果你有一堆线性方程,你可以用一个方程减去另一个方程,如果操作得当,你可以在方程的项中制造出很多零,使之简化,然后你就可以求解了。当然,你必须付出做所有这些工作的代价。这叫做消元法,它是基础性的,每个线性代数课都会教通过组合方程来简化方程组的思想。但是我对(传统的)描述方式不完全满意。现在我真的只是在谈论教育方面。用矩阵来工作,而不是分开处理各个方程,要好得多,强大得多。所以我希望用矩阵的步骤来描述消元法。当然,其他人在这方面已经做了很多工作,但仍有可为之处。所以我相当满意的那篇论文,内容与我的线性代数教科书第六版(也是最后一版)的第一章基本一致,然后在第三章有所发展。它用矩阵语言解释了消元法的步骤,而不是一系列对方程进行减法操作。我只是认为这是看待它的正确方式。这可能是我能想到的(经历)。

Hrvoje Kukina: 您认为线性代数领域在未来十年将走向何方?

Gilbert Strang: 嗯,部分来说,我想它将不得不跟上人工智能(AI)的步伐。这意味着很多人,不仅仅是数学家,而且更多地是在计算机科学和其他领域的人,会更加活跃。而且,当我们有了更快的计算机,就会有更多的问题。所以线性代数的一部分是创建能够很好地表达线性代数的计算机语言。我认为当前的冠军,也许是永远的冠军,是Julia。这是一种有点让人想起MATLAB但更新的语言,而MATLAB自然是50多年前开始的。所以Julia是一种非常快速的计算方法。这是一个方向:如何快速计算物理量。这将引出越来越多、越来越难的问题。比如,如何理解AI为何如此成功?这个基本问题尚未完全被理解。我们用分段常数(或者说分段简单)函数来逼近我们的目标函数,但这些片段不必拼接在一起,我们却得到了很好的答案。而且我们可以在很多很多变量的情况下进行计算。所以,一个全新的世界正在发展,需要解释,这将让我们在很长一段时间内保持快乐和忙碌。

还有另一件事我必须说,关于今天与40年前的区别。我们一直有统计学,但不知何故它不是最前沿的。但现在,统计学数据科学(Data Science)已经变得超级重要。我的孙子在伯克利教授数据科学,班级有800或1000名学生。这仅仅是因为它易于入门且显然有用。所以,应用数学并非停滞不前,它正在采取的重要方向之一就是计算统计学、应用数据的数据科学,而不是那些更老的问题。

六、 给年轻学者的建议

Hrvoje Kukina: 您会对刚开始在线性代数领域起步的年轻学生或研究人员提出什么建议?

Gilbert Strang: 嗯,我想只有相对较小但重要的一部分人,他们的整个职业生涯都会被问到“你在研究什么?”时,如果他们回答“线性代数”,那只是计算机科学等领域的一个子集,一个相当特定的子集。我认为对于他们来说,答案是在一些关键的数学系、计算机科学系以及现在的数据科学系花些时间。正如我刚才提到的,数据科学如今扮演着极其重要的角色,这与几十年前截然不同。你需要去那些顶尖的院系学习和交流。

Hrvoje Kukina: 好的。非常感谢您,Strang教授,感谢您抽出宝贵的时间以及这次精彩的对话。

Gilbert Strang: 非常感谢你的邀请。回顾过去在研究生院的时光,然后开始教学,再到今天的教学,以及未来由他人进行的教学——其中数据科学将非常突出——这真是一次奇妙的经历。谢谢你的邀请。


Gilbert Strang 教授访谈核心内容框架与要点

一、 个人背景与数学启蒙

二、 专注线性代数:动因与早期研究

三、 教学理念、教材编写与知识传播

四、 线性代数的核心及其影响

五、 数学研究、观点与未来展望

六、 给年轻学者的建议