「科学讲座@IHES2025」Misha Gromov-生物结构的数学描述-1
讲座介绍
这段视频脚本记录了数学家 Misha Gromov 关于“生物结构的数学描述”系列讲座的第一部分。讲座的核心目标是探索如何为生物学家描述生命现象所使用的语言赋予严谨的数学意义,涵盖从亚细胞结构到群体进化等多个层面。Gromov 教授首先指出了理解生命的固有困难,与物理学相对清晰的数学框架形成对比,并从历史和认知的角度剖析了为何我们对生物系统的“理解”往往停留在直觉层面。
讲座深入探讨了物理学视角在解释生命现象时的局限性,例如物理定律通常描述“通用”行为,而生命则充满了“非通用”的特例,并持续对抗熵增。在此基础上,Gromov 强调了“信息”在生物学中的核心地位,但特指一种超越香农信息定义的、包含控制、功能与目的等内涵的“生物信息”。他考察了生命的基本单元(细胞、生物体)和关键结构(如细胞膜、DNA),并详细剖析了核心生物过程,如酶的作用机制(批判了教科书式的简单解释)和中心法则(从 DNA 到蛋白质的信息流及其物理实现),始终围绕信息、物质、能量三者的复杂互动展开。
讲座以对生物算法的独特性质和复杂性背后可能存在的“抵消”机制的思考结束,坦诚地展示了在用数学语言精确捕捉生命特殊性方面存在的巨大挑战与未解之谜。
内容纲要
Misha Gromov - 生物结构的数学描述 (1/4)
├── I. 引言:目标与挑战
│ ├── 讲座核心目标:为生物学语言赋予数学意义
│ ├── 关键概念界定:生物信息、复杂性、结构、功能、目的等
│ ├── 历史视角:理解生命的困难(Buffon),与泛灵论对比
│ ├── 感知与理解的差异:视觉识别的直觉 vs. 数学理解的难度
│ └── 物理学与生物学理解对比:物理定律的确定性 vs. 生物现象的复杂性
├── II. 物理学视角下的生物学:局限性与差异
│ ├── 物理学语言特点:依赖数值、数学适用性
│ ├── 生物学语言特点:词汇丰富、充满隐喻
│ ├── 生命的特征:复杂性与规律性
│ │ ├── 复杂性:柯尔莫哥洛夫复杂性的局限
│ │ └── 规律性:对称性 vs. 感知适应的美感
│ ├── 物理定律与生物现象的“冲突”
│ │ ├── 非通用性:生物是“特例”(鸟飞行)
│ │ └── 对抗熵增:“逆流而上”(活狗 vs. 死狗)
│ └── 物理学家介入生物学的尝试与教训
│ ├── Schrödinger, Delbrück 的贡献
│ ├── Delbrück-Luria 实验及其局限(CRISPR)
│ └── Fred Hoyle 的错误:基于物理概率论断生命起源不可能
├── III. 生物学中的信息:核心概念
│ ├── 核心观点(Jacob):物质、能量、信息的结合
│ ├── 生物信息的特性
│ │ ├── 非香农信息:侧重含义、功能、控制
│ │ ├── 物理载体:DNA/RNA 序列
│ │ ├── 指向性:信息是“关于”什么的(调控)
│ │ └── 自指性:信息包含处理自身的信息(Von Neumann)
│ └── 目标:发展能容纳生物学概念的数学语言
├── IV. 生命的基本单元与结构
│ ├── 基本单元:细胞、生物体及其自主性
│ ├── 复制与相似性:大量相似复杂单元的产生
│ │ └── “数字命理学”:细菌原子数 vs. 群落数量
│ ├── 细胞膜:结构、自组装(疏水效应、自由能)、意义
│ └── DNA 结构:化学、几何、信息逻辑
├── V. 核心生物过程与信息流
│ ├── 新陈代谢与酶
│ │ ├── 酶的功能:催化特异性反应
│ │ ├── 酶的机制:对“降低活化能”解释的批判,探讨更深层物理机制(振动、时间尺度)
│ │ └── 酶的信息角色:特异性、网络平衡与调控
│ └── 中心法则:信息从 DNA 到蛋白质
│ ├── 转录(DNA -> RNA)
│ ├── 翻译(RNA -> Protein):遗传密码、复杂性、Crick 错误但优美的假说
│ └── 蛋白质折叠:信息(序列)到物质结构(3D形状)的实现,物理驱动,非通用性
├── VI. 生物算法与复杂性的本质
│ ├── 生物算法特点:“可发现性”、相对简单、鲁棒性
│ ├── 结构产生的复杂性:骨骼关节的例子(数学抽象 vs. 生物实现)
│ └── 形态发生中的“抵消”:细胞凋亡、免疫系统(构建-移除模式)
└── VII. 开放问题与结论
├── 核心挑战:数学化生物系统的“特殊性”
├── 对信息、酶、算法等理解的深化需求
├── 演讲者视角:承认难度,寻求更深形式化
└── 问答环节:关于细菌数量与原子数量的讨论
Misha Gromov - 生物结构的数学描述 (1/4) - 演讲实录
I. 引言:目标与挑战
我之所以系统性地引用他人,是因为许多通用类型的想法是由那些比我更了解主题的人提出的,所以倾听他们的言论是值得的,当然你可能同意或不同意。这是很久以前有人提出的第一点,关键在于科学家们在哪个阶段意识到,他们原则上并不理解生命。你需要一个视角来看他们为何不理解,然后是一些历史性的评论。不过,当我谈论历史时,这更像是一种想象中的历史。要真正谈论科学史,你得投入一生去研究每一个具体问题,这非常困难。所以我所说的是关于历史的普遍看法,这通常可能是不准确的。
在历史上的某个时刻之前,生命是被很好理解的,而且,其他一切都是用生命来解释的,这叫做泛灵论,现在依然如此。对于一个天真的头脑来说,生命,所有运动的东西都是活的。比如对一个小男孩来说,汽车是活的;相应地,对几千年前的普通人来说,河流或云彩也是活的。描述生命曾经并且现在都容易得多,因为我们的感官系统,特别是视觉,是适应于生命的。所以当我们开发这些人工视觉系统时,你可以立即看到它们非常不同——我们能非常快速地识别生命。看着那张有牛的图片,你马上就能编出一个故事。但如果你看这个——顺便问下,这是什么?概率论,当然是数学。你需要了解一些东西才能看到这些公式中的几何学,这是数学,是数值思维和几何思维两种方式的相互作用。
然后是物理学。从19世纪初开始,物理学很大程度上被视为对数据的统计分析和对统计数据的解释。这一点被许多人清晰地阐述过,特别是麦克斯韦,他对此有非常深刻的理解,因为他是最早发展原子层面统计力学的人之一。顺便问一下,这张棕褐色的图片到底是什么?我们该如何描述它?人类语言中没有词汇能恰当地描述它,对吧?不像那头牛,有天空,有人,牛在睡觉,人们在走路,你可以说很多很多。但这跟你所说的科学无关,对吧?
然后是这个景观,火星的景观。它显然是某个随机场的样本,对吧?显然这幅画背后有一个随机场,其规律将是找到概率定律。然后你看到这个样本,你还可以制作许多其他样本,从中你可以恢复这个随机定律。顺便说一下,我们是如何恢复这个的?我们有样本,如何恢复统计定律?当然,这不是一个简单的问题。通常你是通过寻找已有的标准定律,比如高斯定律或其他一些简单定律,然后进行调整。我们就是这么做的,当然没有固定的方法。这实际上与生命的基本特征有关。
存在两种随机性。一种是你在这张图片上感知到的,某个东西的样本。然后是它背后的定律,随机分布。当然,这个随机分布依赖于最初的某种数学形式体系。在科学和物理学中,隐式或显式使用的概率论公认形式体系是柯尔莫哥洛夫的,对吧?这种形式化,顺便说一下,也源于布丰可能首次(我说可能首次,因为这正是历史,我不知道)表达的一些想法。布丰将连续概率模型的第一个版本与确定速度联系起来,你知道,就是把法棍面包扔在地板上,看它与方格边界相交多少次,对吧?这是对布丰思想的著名分析,他不仅是生物学家,还涉猎许多其他领域。但无论如何,如果我接受这个观点,存在某个概率空间,某个构型空间上的特定测度,你必须去创造它——这当然没有物理意义,但你创造了它。理论物理学家系统地这样做,我不知道实验物理学家怎么做。然后你就看到这是数据的样本,你就是这样分析它的。这是一个问题。
另一方面,在右边(指有牛的图片),没有明显的定律。样本在那里,但没有办法建立定律。从物理学家的角度来看,这是一个难题:如何谈论生物学?
对生物学的原始思考首先依赖于我们的视觉感知。当你看到生命时,你就能认出它。实际上,不仅我们自己,动物也是如此。有关于猴子的实验:屏幕上显示图片大约200-300毫秒,然后猴子要判断图片上是否有动物。猴子做得非常好,即使是动物雕塑,它们也知道那不是动物,不会做出反应,有时会犯错,但它们能识别生命。我们非常擅长识别生命,因此我们产生了一种错觉,以为我们理解了它。就像人脸,我们非常擅长识别不同的人脸变化,但如果你作为数学家去理解它,特别是去编写一个区分和识别人脸的人工程序,我们就会意识到我们并不理解它。
对于生物学,花了很长时间才意识到它并未被理解。当然,生物学中有一个问题在布丰之前或与他同时代被许多人质疑过,那就是遗传的本质:父母的性状是如何传递给子女的?其机制是什么?在我引用的第二段话的最后一句,你可以看到……布丰意识到,从数学家和物理学家的立场出发,他无法理解生命。而在他之前,像他那样风格的人并不存在,或者非常少。也许在某种程度上是莫佩尔蒂,或者达朗贝尔,他们能做出这样的陈述。在此之前,人们看待生命就像孩子一样,相信他们理解它,看着简单的图片。
让我再举个例子,你看这张图片,你知道这是什么,一个孩子都懂。你看,这只狐狸在换毛,你完全知道发生了什么,毛发是什么,为什么它们会这样动。你知道,在古希腊,哲学家从不会问自己,毛发为什么朝这个方向动?它们为什么会动?它们有目的,它们在动。但他们无法理解一支箭在空中移动时,它是如何移动的。关于这一点,芝诺和亚里士多德之间有过大讨论。一个说它在真空中运动,一切正常。亚里士多德说,不,没有真空,因为“无”无法存在,因为从“无”开始看起来很荒谬——但现在我们知道他是对的。你知道,要移动,你必须与某物相互作用,我们知道它并不是与某个量子场相互作用,并非我们真正理解了,但两种观点都是可以接受的。无论如何,物体无目的、无动力地运动曾是一个巨大的谜团。而在这里(指狐狸图),每个人似乎都理解它。顺便问一下,关于这三只(可能是指过马路的动物),它们为什么要过马路?你知道吗?你不知道。因为绕路太远了,它们意识到了这一点,对吧?完美地这样论证。
所以,这算是我要讲内容的前言,只是为了让你相信,接受你不懂生物学是困难的。物理学则相反,没人懂物理学,然后在某个时刻,从亚里士多德开始就已经在阐述一些物理定律。他的定律是速度与力成正比——在特定条件下,即低速和高粘度下,这是一个完美的定律。人们批评他,但这显然是第一个物理定律,如果我没记错历史的话,可能甚至在阿基米德之前。力学定律是阿基米德提出的,但到了伽利略时代,紧随其后,实际上是布丰,大多数人直到现在,即使学了物理定律也不接受它们,对吧?
一个很好的例子是儒勒·凡尔纳关于《从地球到月球》的故事。他描述了他们如何发射、如何飞行,并且一直犯着明显的力学错误。如果你懂物理学,这些错误看起来很明显,但当我还是个男孩读这本书时,当然不会发现。后来我读了一本书,解释了里面有多少错误。我很确定,但我确实知道有实验表明,那些在大学里学过物理学的人,当涉及到现实生活时,仍然不接受第二定律,不接受惯性定律。这绝对是反直觉的。直到现在,每个人都相信重物比轻物下落得更快,这绝对是普遍现象。你可以做些小实验,事实就是如此,无论你被教了多少次。这有充分的理由,对吧?因为当你看到重物砸向你的头时,你会跑得更快,对吧?因为这关乎你的生命。如果你没有这种直觉,你死亡的概率就会更高。所以你是带着对物理学的错误感知被选择下来的。
但布丰理解物理学。另一方面,现在这个层面的物理学,我们某种程度上相信我们理解了,至少我们可以操作和应用它。还有一个非常好的例子,我说过,它展示了大众对第二定律理解得多么贫乏:有些人将进化论中的“适者生存”法则与牛顿第二定律相比较,说这个定律(牛顿定律)是否也将力定义为质量与加速度的比值或其他什么也是有疑问的。这简直是惊人的不理解,难以置信!因为不理解物理学已经深深植根于你的思维定式中。
尽管如此,物理学更难学,但一旦学会了,你就能理解它。一个很好的例子,关于第二定律,与适者生存比较,我可能还会再提到。你知道,如果你知道到太阳的距离——确定它很困难,你知道这一点,但并不简单,顺便说一下,确定到月球的距离很容易,但到太阳的你无法在家里随时做到,这曾是一个真正艰巨的任务——但无论如何,假定你知道了,你就可以估算出太阳中心的温度,大约是两千万摄氏度。你可以通过从力学第二定律推导出来做到这一点。你知道吗?如果你不知道这个,你可能通不过大学入学考试,比如说在俄罗斯的数学考试。这绝对是你应该理解的,这表明你理解了第二定律,你知道如何应用它。无论如何,它无处不在,是极其强大的东西。
它的意义在许多非物理学家的文本中也被严重扭曲,因为物理学家无法单独理解它,那些理解的人不屑于解释,当然有些人自己也不理解。只有极少数人能很好地解释它。在哲学层面上,有人解释了第二定律是什么,它的意义何在。它与生物学定律截然不同,我们稍后会谈到。
II. 物理学视角下的生物学:局限性与差异
那么,生命是什么?综合所有这些,典型的说法是它结合了复杂性和规律性。复杂性在数学上可以通过多种方式形式化。最常用的是柯尔莫哥洛夫复杂性,它给你指明了正确的方向,但其本身完全无用,就像所有这些数学概念一样。因为柯尔莫哥洛夫复杂性以及所有与不可解性相关的概念,其重点在于趋向无穷大。但在物理学和生物学中,存在限制,存在数字,你永远不会超过某些数字。这些数字在数学家看来非常小,比如 或 ,有时当你考虑物理系统的状态数时,你会取这个数字的指数,但这已经是幻想了,这些东西没有真正的物理意义,但它们很有用。顺便说一句,这很令人惊讶,并且有其有用的原因,但肯定不能超出这个范围应用。
然后是规律性。这很有趣。系统地说,生命系统既复杂——这在两种意义上都不容易说清楚,因为它与柯尔莫哥洛夫复杂性的关键点无关,但在某种有限的方式上有关——又具有规律性。那么规律性是什么?当数学家说规律性时,通常指对称性,比如正多边形,以及一些关于对称性的暗示。然后人们会说,哦,晶体也是规则的。但我相信这里的“规则”意味着纯粹的情感:它看起来很赏心悦目。这正是因为你的视觉系统适应了有生命的东西,当你喜欢看某个东西时,存在某种原因,存在某种你不理解的心理机制,让你喜欢看对称的物体。我认为这与信息和生命有某种关系。具体来说,生命看起来令人愉悦,是因为这些图像中有很多交错嵌套(intercalation),它们降低了复杂性,但复杂性又出现在下一个层面上。
但无论如何,这是一方面。另一方面,物理上你不能这么说。物理学当然也可以这么说,但物理上“看起来赏心悦目”意味着什么?这不是一个好的标准。有一个例子,某种程度上想要区分生命与非生命,由物理学家(除了布丰,他更偏向生物学而非物理学)切斯特顿(Chesterton)很好地阐述了这一点。布丰懂数学,实际上翻译了牛顿的基础著作,对数学和物理学理解得相当好。但作为专业物理学家,被这种对生命的物理学视角所吸引的是薛定谔(Schrödinger)。他在43年或45年在爱尔兰做了讲座。但在此之前,当然是马克斯·德尔布吕克(Max Delbrück),他是将物理学思想引入生物学的主要贡献者。
关于德尔布吕克有趣的一点是,这对于我所知道的一些名字来说是真的,不知道是偶然还是必然,生物学家不像数学家那样,直接或间接地卷入了政治。比如说,德尔布吕克的亲戚参与了战斗(反抗纳粹)。他是德国人,早期从德国移民到美国,但我认为他的兄弟们还在德国。在某个时刻,他们被纳粹逮捕,其中一些人在1944年被纳粹处决。他的一些亲戚随后在第二年又被俄国人处决了,当俄国人把他们从德国监狱里带走时。同样,我们谈到一些法国生物学家,他们也参与了抵抗运动,在那段时期经历了复杂艰难的平民生活。我不知道有哪个数学家是这样的,也许只是支持者之类的,因为在学术层面上,无论在德国还是俄国,数学家通常都与当局保持一致,他们中的许多人是这样的。他们不是那种可爱的人,不是那种倾向。但像德尔布吕克这样的人,是伟大的头脑,也是伟大的人格,这是一种有趣的组合。
然后,在达尔文时代,他强调了这样一个观点:你必须找到在物理基础上理解生命的原则。他寻找这个原则,或多或少地说可能存在与生命相关的特定定律。但这些都没有实现,部分原因我认为是“定律”的概念令人困惑,因为语言太隐喻化了。我们说物理过程“遵守”(abide)物理定律,但它们并不遵守任何东西。这是从日常实践中借用到物理学中的隐喻,没什么好处。就像你在数学中有理想(ideals),但你不会将生理学用于人类理想一样。事情就是这样发生的。所以他们(早期物理学家)在寻找对生命信息部分的物理学解释。你看,“信息”这个词当时还没有明确出现。
当你谈论这些时,你会编故事。实际上,当你阅读生物学教科书时,很多内容都只是故事,这与我们描述物理学的方式非常不同,物理学是用数字来描述的。这也有充分的理由。物理学如此依赖数字编码,当你这样说时,我们必须意识到是哪种数字。例如,你有某个物体的质量,多少克。这个数字意味着什么?它在什么意义上是数字?是有理数?p-adic数?什么样的数?它不是一个数字,对吧?我们不知道它是什么。它是一种我们可以操作的数字,但在某种程度上可以,超过某个点就不再是数字了,对吧?我们可以说它是近似数,但“近似”不是一个数学概念。所以这是一个有趣的点。当你应用物理学时,你立刻就超出了数学的范畴,你使用相同的词语,但方式略有不同,对吧?物理学家确实与我们思考方式不同,并且为了他们的目的非常高效,但这并不适用于生物学。
遵循薛定谔的观点之一是,要理解生物学,就要认识到你不能用理解物理学的方式来做。在数学上,这可能是一种完全不同的思维方式。不是你有不同的定律,而是有不同的操纵符号的方式——逻辑符号或概念符号,用词语(词语本身也是符号)。特别是,生命的词汇量远大于物理学的词汇量。在物理学中,你只有少数几个基本可观测量,如质量、能量、作用量,也许总共半打,然后你用这些进行操作,而且它们是数值化的,出于某种神秘的原因。因为质量是可加的,熵是半可加的,能量也是如此,力在矢量意义上也是可加的。因此,数学立刻就介入了,带来了所有奇妙的后果。因为你看到实数的存在,如果你从物理角度思考,认为宇宙属性中存在某种结构,你会看到它是高度超定的,所以你会预期它们不存在。因此,物理学中这套数字框架的存在本身,以及它对物理学的适用性,都和它的不可理解性一样令人费解。如果科学家看到这样的结构,当然会认为它不可能存在。就像有限域,当然对于大的素数p,不会存在大的有限域,如果你看看它必须满足多少条件,或者至少这种可能性的密度会难以置信地低,远低于素数的密度。
好了,这是关于问题。那么我们想用这个做什么呢?问题在于复杂性。啊,是的,这里有些相关的。这是一张现在标准的生命图景。顺便说一下,我引用的最后一段话是雅各布(Jacob)说的,他正是那个参与抵抗运动的人,实际上曾与英国人一起对抗纳粹。他去世得相当晚近,二三十年前,按我的时间尺度算。我会谈到他对生物学的贡献。他阐述并强调了信息必须介入。
所以我认为,我们的出发点是,我们想要用一种包含物质、能量和信息的语言来描述生命。这不是香农(Shannon)的信息。香农信息,就像通常的数学和物理学一样,是用数字来处理的。你有熵,它是一个数字,你用这个数字进行操作,非常完美。但在这里,事情没那么简单。我们不知道如何定义它。我认为唯一尝试定义它的尝试都是愚蠢的,没希望。你必须看看如何使用它,并尝试系统地去做。作为数学家,要接受这一点。我的观点是,我们接受生物学家使用的所有词语,但尝试以最普遍的方式思考它们,最终找到其他领域,其中同样的事物也适用。
这就是庞加莱(Poincaré)提出的思想:数学是一门给不同事物赋予相同名称的艺术。但你必须找到这些不同的事物,在这些事物中我们有物质、能量、信息的组合。在这里,物质和能量可以说是次要的。一方面,信息当然依赖于它们;另一方面,几乎所有的结构都来自信息。你可以忘记物质和能量,用别的东西替代它们——不是完全忘记,如果完全忘记,你就得到了香农信息,从这个角度看,那是某种非常简单的东西——而是需要某种背景,它具有与物质和能量相当的特征。物质和能量是指你可以使用数值形式体系的情况,它可能具有与普通物理学非常不同的属性,但它以某种方式支持这种信息,以一种从数学角度看非常复杂的方式与这种信息相关联。这就是我们想要做的,尝试看到这一点。但为此,我们当然首先需要看看我们想把它应用到什么上面。
是的,也许再说一句,因为这里写着。物理学的问题是什么?为什么物理学原则上不能谈论生物学?并不是存在某些定律被违反了,而是没有一种表达方式能让物理学家谈论生命。一个相当天真的例子是,正如爱因斯坦所说,如果有一个实验与你的理论相悖,那就忘了这个理论,重新开始。但这当然不完全准确,因为问题在于你如何解释这个实验,对吧?定律说,所有重量和密度或多或少相同的物体都以相同的速度下落,对空气阻力做微小修正。然而,如果你拿一只鸟,它会飞,它不会掉下来。我们如何在物理上调和这一点?我们怎么说?物理学出了什么问题?你不能说“这是生命”,因为没人知道我们说的“生命”是什么意思。
顺便说一下,有几种解决方案。我思考过,物理学家会立刻说,“哦,试试真空。”首先,我们不是在谈论真空。其次,在真空中你可以想象某种机械装置,它做类似的事情,你有一些推进系统,对环境做出反应然后飞走,或者做其他事情。有一个普遍的现象是,当你说某物遵守物理定律时,比如说“所有”物体,“所有”并不是指全部。当我说“所有”时,这又是数学中某个东西的隐喻,你知道,“所有”是一个逻辑符号,你可以用某种方式操纵和解释它。但在物理学中,这个“所有”意味着“最可能”的或“通用”的。通用系统会下落,而生物系统从某种角度看是高度非通用的。这是一种说法,也是一种普遍原则。
这一点薛定谔(Schrödinger)在他的关于《生命是什么》的书中强调了。我会把这个放到网上,不是这里的内容,而是我写得更数学化的东西,里面有薛定谔的引文。他强调,我们观察到的物理对象不是真正存在的东西,而是最可能的东西,对吧?你在宏观世界中观察到的一切,都是某种通用现象的表现。存在一些数学机制迫使它们在各处或多或少相同,比如大数定律,对吧?如果你看一个随机序列,它是0和1,随机意味着它处处不同,没有模式。然而,如果你看大段上的平均值,几乎所有这些平均值都会几乎相同。几乎所有,几乎相同。
这一点被计算机科学家清晰地表达出来了,他们有这个PAC(Probably Approximately Correct,可能近似正确)理论,他们可以围绕这个大做文章。但这是基本原则:物理学中的一切都是可能近似正确的。但问题是,真实情况是什么?
另一件非常简单的事情,实际上是切斯特顿(Chesterton)在大约比薛定谔早25-30年时阐述的定律,至少我第一次看到是在那里。他说,死狗和活狗的区别在于,活狗可以在溪流中逆流而上,即使是死狗也会随波逐流。逆流而上是生命的特征。特别是,鸟类可以对抗重力流。但更基本的生命逆流而上的过程是熵增之流。因为正如物理学家所说(我重复这一点,虽然我不喜欢),熵总是在增加,存在平均化过程,趋向平均状态,它们变得更对称,也就是平衡态。熵的增加意味着对称化的增加,高度对称化,对吧?而我们的有机体一直在对抗它。溪流不断向下流淌,我们保持向上。因此,如果你停止向上片刻,随波逐流一点点,你就再也回不去了,对吧?所以总是有你在对抗的溪流。当然,这是由自由能供给的。
所以这是一个问题,这是对物理学家的反驳。然而,像德尔布吕克这样的人,他们对物理学做出了根本性的贡献。我会提到,有一个著名的德尔布吕克-卢里亚(Delbrück-Luria)实验,他们某种程度上证实了——现在有时仍然这样说——关于进化的达尔文观点对立于拉马克观点,即获得性性状不会被遗传,它们是自发产生的。这种说法在很多方面都是错误的。首先,这与达尔文无关,达尔文实际上强烈宣传了(获得性遗传)这个想法,并受到了魏斯曼(Weissman)的批评,后者才是真正出于充分理由首次清晰阐述(遗传物质独立性)这一观点的人。其次,这取决于对特定实验的解释。第三,我们知道这根本就是错的,那个实验恰恰不够充分,怎么说呢?我稍后会解释那个实验的问题所在。那是一个典型的物理学上的“通用”实验。它在“通用”意义上显示某事为真。但生命并非关乎通用性,生命关乎对通用性的例外。我们现在知道的现象,叫做CRISPR,我们知道在细菌中存在某种原则上与那个实验相矛盾的东西,对吧?那个伟大的实验,是很有趣的,涉及一些数学,由这两个人完成。但我感觉实际上是卢里亚(Luria)发明的,他也受过数学教育,然后德尔布吕克只是在数学上稍微更好地证明了它。我们会回到这一点。这是一个很好的科学案例,尽管结果并不完全恰当。
III. 生物学中的信息:核心概念
接下来是什么?是的,这是一个典型的生物学图景,展示了生命中涉及的众多因素。他们喜欢说的关键词,以及我们的目的是理解它们。“远离平衡态”被某些人强调,但我发现这相当愚蠢。没有什么东西处于平衡态,我们从未见过任何平衡态的东西。可以说,在万亿年后宇宙完全死亡的未来,如果真有那一天的话,才会处于平衡态。所以生命是显著地远离平衡态,我们从这个角度思考它,但这并非生命所特有,尽管那些不懂物理学并重复薛定谔话的人总是强调这一点,这是我的印象。然后是达尔文式进化。为什么叫达尔文式?同样,达尔文式并不意味着是达尔文发明的,就像命名规则一样,名字从来都不是给得恰到好处的。但所有这些词,无论它们是什么,都需要用数学术语来理解。
我想说的是,生物学中有很多词语。这里是另一组图片。这是一个特定结构出现的例子,树状结构,这在生物学中相当重要,是树木和诱饵(bait? bate?),也许这里也是树。这里你也有树状结构,在活体情境中,但在这里(指非生命结构)看起来也很像活的东西。在非生命、纯物质世界中,有一些共同的现象,它们不携带信息。所以我认为,雅各布(Jacob)恰当地强调了这一点,生命是信息与物质和能量的混合,以及它们混合的方式,对吧?这是一种令人难以置信的逻辑混合,我们并不确切地理解如何处理它。我会给出一些例子。
在某个时刻,接下来是什么?是的,这是我们想要讨论的主题,我假设这是第一次讲座,但可能需要稍长一点时间。让我看看我的时间。还好,目前还不算太糟。
现在,我们想再次强调并认识到,原则上,我们从物理学家的角度,如果采用数值科学的观点,并不理解生命。我们不理解生命系统中发生了什么。我们除了物理学之外,没有其他的参照点。因为在某种意义上,我们有机体确实是物理系统,并由某种物理定律运行。但这又是隐喻,在这一点上被滥用的隐喻。每个人都这么说,但这是一种隐喻性的东西。是的,有数学模型,然后你把它们应用于物理学,然后你知道如何将这个模型拟合到现实世界——我意思是,我不知道,物理学家知道,对吧?他们有时这样做,有时对,有时错。当涉及到物理学应用于生物学时,他们系统性地犯错误,对吧?著名的例外是弗雷德·霍伊尔(Fred Hoyle),他是一位伟大的物理学家,天体物理学家,是本世纪最伟大的物理学家之一。他给出了一些非常好的物理学理由,说明为什么进化是不可能的,生命不可能来自非生命,这绝对是极不可能的。他做了一些计算,是典型的物理学推理。他的结论是原因……嗯,他的物理学计算,他无意识地使用了物理学家的……他自己就是这么做的。你知道他一个著名的、非凡的事情,他发现了地球上重元素的起源,特别是碳的起源,对吧?因为你知道,在太阳和我们周围,你看到的基本上是氢、氦,一点点锂,就这些了。没有碳。他意识到碳是如何通过超新星中的聚变产生的。因为太阳的温度,两千万摄氏度,不够高,不足以产生氧气,你需要大约十亿度。这发生在超新星中。他某种程度上发展了这个理论,并且不仅仅是理论,他预测了某个特定的核反应,通过这个反应我们可以得到碳。这在地球上得到了实验验证。这确实是他非凡的发现,非凡的贡献。
他这样做,部分动机是想理解生命是如何出现的,因为有碳,我们依赖于碳化学。我们仍然不知道是否存在其他可以支持生命的化学物质,这是一个有趣的问题。但如果我们确实是超新星的灰烬,另一方面,生命可能曾被附近的超新星部分摧毁过。这是一个有趣的世界图景。
无论如何,现在看起来……我们能说什么?我们的观点是,看待生命,我们一方面要看特定的现象和结构,另一方面要尝试用通用的术语来谈论它们,希望最终能变得数学化。这当然我还没实现,但这是目标。
这里涉及到信息的基本表达方式,我们必须赋予它们数学意义。例如,我刚才说的,信息是“关于”某事的,对吧?所以它是一种关于将会发生什么的知识。这里的关键词是“控制”和“调控”。同样,它们在纯粹的数学本身或物理学中没有位置。你必须创造如何使用它们的方式。不是要描述某种额外的意义,我们知道那里发生了什么,但我们必须发展一种语言,让它们作为这种语言中的表达方式恰当地融入其中,对吧?这种语言将不同于通常的数学语言,因为它将有更多内部术语,它们之间的相互关系将可以说是来自实验。这非常非常棘手。它可能是自相矛盾的,这将是相当正常的,因为这种生命的逻辑是自指的。正是这一点使得形式化变得困难。因为写在DNA中的信息是关于它自身的。我们知道,一旦你这么说,你就陷入了逻辑矛盾。但这没关系,你必须如此,否则我们就不会在这里了。这部分也是智能(intelligence)的问题所在,它也是自相矛盾的。如果它是完美的,像计算机化的,就像彭罗斯(Penrose)解释的那样,它就行不通了。不是因为某些量子原因,只是逻辑不同。当我们以某种方式实现数学时,你经常会混淆隐喻和现实。
信息是如何在细胞中流动的?这就是所谓的克里克(Crick)的“中心法则”,现在已经理解了。我们有DNA,这是一条分子链……
所以这就是雅各布(Jacob)所说的,这是一个三重流(物质、能量、信息),信息与能量和物质流耦合在一起。那么这个信息是什么?这个信息不是抽象的香农信息。这个信息首先在物理上由在周期性分子上的共价“书写”来表示。你看DNA的骨架确实是周期性的,是普通的聚合物,然后你将一些字母(碱基)附着在上面。这个信息是以数字方式书写的,完全是数字化的,在周期性背景上。所以这说得通。但这个信息是“关于”某事的,是关于如何让细胞运行的,对吧?它告诉你必须强制执行,规则就像决定如何做的物理定律。这通过包含关于自身信息的DNA本身的物理属性来实现。这一点冯·诺依曼(Von Neumann)在他的人工自复制系统模型中阐述得非常好,我们稍后会回到这一点。在我看来,这方面的数学还没有定论,人们非常紧密地遵循冯·诺依曼,但在这个方向上你可以说和做的还有很多。
IV. 生命的基本单元与结构
那么,生命的基本单元是什么?这一点我们对生命确实有所了解,再次是在形式层面上,但生命由某种…无论它是什么,基本的生命实体是孤立的。只有两种基本类型,这非常了不起,非常少。它们是细胞和生物体。它们确实是自主的,某种程度上是真正分离的。它们相互作用,但高度自主。它们内部运行着物理和化学过程,称为新陈代谢。它们内部还有信息过程。它们的主要目的是信息的传播,对吧?
当你说“信息”时,你立刻引入了带有目的论色彩的词语,引入了“目的”的概念。有时生物学家讨厌谈论这个,特别是当达尔文解释进化时,某种程度上避免了目的的概念。这受到了物理学家的欢迎,特别是玻尔兹曼(Boltzmann),他说19世纪将被称作达尔文的世纪,因为他找到了生命的机械论解释。机械论的,你知道,玻尔兹曼自己找到了粒子力学加概率论对物质(气体)行为的机械论解释。但这很有趣,我总是试图想象,如果玻尔兹曼也读了孟德尔(Mendel)的文章会怎么说。孟德尔的文章在达尔文关于选择进化的书出版几年后发表。因为那篇文章中的东西既不是机械论的,但肯定远比那更令人惊奇:统计数据中存在某种奇妙的规律性。我认为玻尔兹曼会完全被震撼到。
不像当时的生物学家,他们基本上无法理解那里写了什么。对当时的生物学家和一些人来说,孟德尔的文章就是一些数字。在我看来,这是那些人惊人的无知。他们是伟大的人物,其中一些是当时真正伟大的科学家,但他们无法欣赏这个想法,因为它太新颖了。实际上,生物学中有两个重大发现。你知道第二个是孟德尔。第一个是谁?顺便说一句,孟德尔不是生物学家。而第一个发现也不是由生物学家完成的。他们发现了自己从未知道、从未怀疑过的东西。还有第三个,我猜还没到来。第三个仍然存在。这是谁发现的?是列文虎克(Leeuwenhoek)发现了微观生命。现在我们知道这是本质。如果你现在理解生命,你总是从细菌和细胞层面开始谈论,理解从那里开始,然后你在此基础上构建。但这是由列文虎克发现的,他不是生物学家。他确实是个了不起的人。人们,大多数时候,不相信他做的事情,因为它太好了,因为他有非常好的显微镜。
与此同时做类似工作、发现了细胞的人是谁?你知道是谁发现了细胞吗?我不知道。是罗伯特·胡克(Robert Hooke)。你知道这个家伙,力学中的胡克定律就是归功于他,还有许多其他事情。但他发现了细胞,并且是他创造了“细胞”(cell)这个词。他在树木和植物中发现了细胞,那里的细胞通常比动物细胞大得多。但列文虎克… 胡克实际上在争论中批评列文虎克,因为胡克使用的是带有两个透镜的显微镜,这当然更有效,但列文虎克只用一个透镜。没人相信这可能做到,但他制作了极好的透镜。当时没人理解他是怎么做到的。直到1950年代的某一年,人们才意识到他是怎么做的,他是如何制作这些透镜的。因为他设法制作液态玻璃滴,并将它们放在某个位置。他当然是一个非常好的观察者。他发现了基本的微观生物。这确实是一个转变。在此之前,没有发现,人们只是环顾四周,你知道,这里有头牛,那里有这个那个,没有什么根本性的东西。解剖学和生理学当然在古代就已经有了,一点点解剖学,但没有什么像发现新类型生物那样激进。
然后是孟德尔发现,在分子层面上显然存在某种与遗传相关的现象。已经有类似想法的人,同样不是生物学家,而是莫佩尔蒂(Maupertuis)。他以莫佩尔蒂最小作用量原理而闻名。他在同一条轨道上,但没有走得像孟德尔那么远。当然,孟德尔分析了人有六指的现象,以及它在家族中如何遗传。他试图找出模式,他接近了孟德尔关于基因的思想。我不知道孟德尔本人在多大程度上明确提出了基因的概念,但他肯定理解了。他受过数学教育,实际上是物理学家出身,这很……而且他极富热情,做了成千上万次关于蜜蜂的实验,观察当你杂交它们时某些特征如何出现。这是他所做的非凡的工作,但未被赏识。
它是如何被重新发现的?他写了一篇论文,没人读。但大约30年后发生了什么?三组人做出了类似的发现。他们非常恼火地看到别人发现了他们所做的事情。所以其中一些人,为了感觉好一点,去查阅文献,发现哦,孟德尔早就做过了!这就不那么难受了。如果你证明了一个伟大的定理,然后别人也证明了它,你会更乐意知道是30年前某个人做的,对吧?你感觉会好一些。正是因为这样,我们才知道孟德尔。如果只有一个人重新发现了它,没人会知道孟德尔。那只是一篇小文章,没人读过。虽然它在达尔文的图书馆里,但达尔文远未理解它。原则上,达尔文已经有某种哲学思想,会妨碍他接受这些关于生命连续性、信息连续性的想法。
我们想要做的是形式化并描述生命中的基本现象,用物质、能量和信息这些术语。当你结合物质和信息时,令人惊讶地,很多事情就出现了。因为你说物质携带信息,物质遵循该信息给出的规则。这在许多许多阶段都发生。
有些人,特别是当谈到近代时,会说,这太简单了。现在我们对细胞了解更多了,特别是真核细胞和生物体的基因调控,这是近几十年来出现的复杂调控。他们认为生命中还有其他东西,没那么简单。特别是菲利普·鲍尔(Philip Ball)写了一本很棒的书,他是一位学识极其渊博的人,书名叫《生命如何运作》(How Life Works)。他说了一些事情,一些生物学家会同意他的观点,即生命系统是意义的产生者。他强调这一点。我只是觉得这有点奇怪。我认为这完全是空谈,因为我们不理解信息是如何分布的,在某些层面上它是如何交流的,涉及到高等生物、多细胞真核生物的过程。这个问题在人们意识到基因并不像它们看起来那么简单之前就已经出现了,它们不是一个整体,而是由许多片段组成(外显子和内含子)。我们稍后会谈到这个。
一个非凡的事情是,生命只有两种基本的基础单元,那就是细胞和生物体。它们是单元,然后它们中的每一个都以许多几乎相同的副本形式出现。这在物理学中是绝无仅有的。你无需走得更远,你有一个相当精细的东西,准随机的复杂玩意儿,本质上看起来是随机的,然后它以非常多的副本形式出现。特别是如果你观察细菌,一个有趣的数值现象是,一个细菌中的原子数量(大约 )小于通常细菌群落中的细菌数量。如果你看看你肠道中的细菌数量,可能不只是一个物种,也许特定的大肠杆菌会稍微少一些。但如果你取一个小池塘,你可能会发现某个特定细菌的副本数量比该细菌中的原子数量还要多。当你转向真核细胞时,这就不再成立了,对于生物体来说更是如此。当然,令人惊讶的是,我们在世界各地有近80亿个几乎相同的骨架,像我们自己一样。这同样是物理上绝对不可能的情况。一个随机模式怎么可能出现这么多次?如果你有一个随机模式,你来到一个新世界,看到随机模式在这里出现,然后在10公里外又出现,这可能是生命的痕迹。没有任何物理过程能做到这一点。当然,你可以理论上想象模板复制,但从未有人见过。当然,分子本身,它们是简单的结构,或者甚至是原子,它们以许多副本形式出现。但这是相对的,副本数量相对较少。我认为这与有机体中分子间相互作用远弱于原子或分子内部的能量相互作用有关。
啊,我消失了。好吧。实际上在分子层面,在原子层面,有几个数值现象你需要留意。其中之一就是副本数量以及某个特定单元中有多少内部元素。单元是生物体,它们形状非常明确。我们不是物理连接的,我们都是不同的个体,而且我们很相似。这再次是生命的特征之一。对数学家来说,这非常令人愉快,数学家能够理解这一点。
细胞膜,再次从数学上讲,是一个引人入胜的对象,如果你思考一下。所有这些蛋白质镶嵌在那里,决定了特定的属性。但在你研究这些高级蛋白质之前,它仅仅是由这个双层脂质构成的。你看,这里有两层垂直的分子构成了膜,厚度大约是我认为的3纳米。据我理解,其厚度与面积(或体积)的比例,大致与飞机的相同。是的,波音飞机的外壳具有相同的相对厚度。
那么是什么让它保持在一起?忘了那些蛋白质。维持膜的功能当然是隔离细胞。当然,也存在一些实体,比如细胞融合在一起,有时变得很长。但就像生物学中的一切一样,如果生物学家说某事总是真的,那通常意味着80%的情况,甚至60%就已经很好了。因为你描述的东西是如此不可思议,即使有很多例外也仍然可以接受。那么是什么让它(细胞膜)在数学上保持在一起?这是一个数学问题。我有这些分子,它们是双层脂质分子,它们相当小,每个大约1纳米,它们粘在一起形成双层结构,构成了这种相当圆的形状。是什么力让它们保持在一起?关键在于,它们之间没有物理吸引力,它们不会相互吸引,对吧?
让它们聚在一起的是,它们不相互吸引,但它们更倾向于与自身结合,而不是与水分子结合。因为它们不是极性的,水分子是极性的,水分子会相互粘附,但它们(脂质)不想粘在这里(水里)。因此,如果你把它写下来,作为某个玻尔兹曼分布的基态,你看分子间的能量相互作用——它们之间没有相互作用——以及分子如何相互作用,你会发现以这种方式(形成膜)达到了能量最小值,对吧?因为这最大化了水分子间的吸引力。否则,单个双层脂质分子会更多地干扰水分子,水分子不希望这样,也不让它们(脂质)彼此非常吸引。人们说这是熵效应,但这当然不完全是熵,而是能量与熵的混合,对吧?你最大化熵,或者最小化系统的自由能。这当然取决于温度。如果你开始加热,到某个点这些分子会散开。当你冷却它们时,它们又会形成这种漂亮的形状。
这种形状满足某些偏微分方程。据信,我不知道直觉上你期望什么,它是否真的如此并不重要,它们最小化了这些表面的积分平方曲率,对于给定的面积和它们包围的给定体积。显然,如果你看红细胞(erythrocytes?),它们具有双凹形状,它们是这种能量泛函的极值点。但这是一个数学猜想,好的,尚未被证明。但这一点是已知的:如果你有旋转对称性的东西,它大致会有这种形状。我认为这很容易计算,人们做到了,并且相信他们证明了这一切。所以对于数学家来说,你知道,这又是一个极其有趣的形状。
引人注目的是,它在特定条件下有自组装的趋势,无需额外蛋白质的干预——当然这(完全无需蛋白质)并不完全正确,确实有各种蛋白质参与——但确实存在这种趋势。这可能是地球生命出现的主要因素之一,因为它容纳了……允许某些分子高浓度存在,从而使得合成代谢,即产生更复杂结构的过程成为可能,对吧?因为如果你只考虑奥巴林(Oparin)和稍晚的霍尔丹(Haldane)提出的原始汤(primitive soup)的想法,那肯定与物质容易被稀释的趋势不符。双层脂质的存在至关重要,这可能是生命的主要步骤,即这种膜创造了不同部分的隔离。在细胞各处,细胞内部,真核细胞内,原核细胞内也是如此。
存在两种复杂性类型的细胞。实际上我没展示细胞的图片,现在我想展示这张非常好的、来自标准教科书的图片。就是这张,它让你了解细胞的大小和复杂程度。这是我们的那种细胞,这里是小细菌,然后是酵母细胞。它们之间存在根本性的区别。再次,这是术语上的,也有充分理由预期这是一种普遍现象,这种区别:有真核细胞(eukaryotic)和原核细胞(prokaryotic)。原核细胞有两个特点:它们的大小恰好使得其组成成分的数量小于它们群落中的个体数量;而对于真核细胞,情况则不同。实际上,它们在进化时间上的分离大约是20亿年。我认为这可能与这种数字命理学有关。
问: 你能重复一下那个数字命理学吗?
答: 我是说,如果你看细菌,一个细菌中的原子数量小于一个基本细菌群落中的细菌数量。因此,这使得生命在统计上成为可能。这意味着,如果你有稳定的条件,但在非常长的时间尺度上,大多数时候你都会有细菌。但如果它稍微大一点,比如说体积大一千倍,那就不成立了,它的存在将变得非常不可能。这个计算非常简单,因为你看原子的组合有多少种,细菌有多少种,指数级复制,然后这些常数匹配。他们说,第一个生物体必须很小,可能是细菌量级的,原则上不可能是大的。但如果它们小得多,也不清楚它们如何能存在,根据我们所知的所有生命结构,我们无法想象更小的东西。但这是一种明确的现象,以及它被重复了多少次。当然,原则上你不能有那么多越来越大的生物体,物质上你也不够材料,但从信息角度讲,你看,这就是你如何尝试使用它,尝试计算所涉及的信息量以及它产生的概率,看看它是如何运作的。
你可以在这方面提出另一点。如果你身体里的所有信息都能在遗传层面上被复制和记录下来,那么按照我们所知的突变发生的速率,进化应该需要大约千万亿年(quadrillion years)。但因为它写在DNA上,所以不是千万亿个细胞,甚至更多,你有原子,你有大约万亿个细胞和千万亿个原子,你只有相对较少的梯度(gradients? 应该是基因组信息)。当然,你的基因组大约有20亿比特,但其中大部分可能只是填充物(material? junk?),所以可能要减少10倍。因此,从一点到另一点的步数是这个数字的对数,这与已知的进化速率和进化所涉及的时间大致相符,当然是非常粗略的。但这就是达尔文的直觉,当他与开尔文(Kelvin Thompson)争论时,当然他没有依据知道这些,但他的想法是,生命仍然有如此多的特征,因此产生进化需要很长时间,是以十亿年计,而不是像开尔文·汤姆森(Kelvin Thompson)相信并实际上数学证明的那样,是以百万年计。你知道他数学上证明了,并与达尔文争论,地球的年龄低于1亿年,他的估计可能是大约2千万年。他的论据是地球的冷却速率。最初是热的,然后失去热量,他查看了热传导方程,分析了它,以及当时测量的热量梯度数据,得出了这个结论。
但他错了。人们相信他错的原因也是错的,认为啊,他没有考虑地球内部的辐射等等。然而,这是一个非常有趣的故事。这个关于他错的原因的故事是如何产生的?当然是由那些不懂物理学的人创造的。我必须承认,当我读到它时,我自己也从未能理解他的错误是什么。但这个故事是如何出现的呢?当放射性被发现时,卢瑟福(Rutherford)正在做讲座,年老的汤姆森(Kelvin Thompson)坐在那里。卢瑟福想对他说些好听的话,他说:“我们发现了放射性,但您预测到了这一点。您说过这与地球冷却和年龄等不符……”你可以说他是放射性的预测者。汤姆森非常高兴。但放射性的贡献是一个次要因素,也许能让年龄翻倍,但并不能从根本上改变他所犯的错误。
这个错误在他那个时代就已经有人指出了,但他忽略了。有一个年轻人解释了这一点,他说:“您没有考虑地幔的对流。”当存在对流时,热量当然散失得快得多,而不是慢。然后我记得我读到这里时想,这到底是怎么回事?如果对流会让冷却更快,那么地球的年龄岂不是更小?但关键在于,他(年轻人)用了一个简单的论点,因为如果你不考虑对流或任何其他因素,只考虑地球从某个温度(比如核心1000摄氏度)冷却需要多长时间,那将需要大约千万亿年,因为热量传导非常非常慢。传播一定距离所需的时间与距离的平方根成正比,这是概率论的基本知识,对吧?随机游走,n步的随机游走的长度是 的平方根。所以,我的意思是,当然,这是一个有趣的点,因为这是物理学家写的,然后被别人转述,然后我读到物理学家绝不会这么说,对他们来说这太显而易见了。开尔文所做的,以及对流的作用,只是热传导方程的应用。当然,他当然知道这一切。数学家忘记了……正确的(?)热传导方程,但忘记了这个热传导方程对应于平方根……我自己和别人争论加法时也说过,人们没有意识到这一点。我们学习东西,但我们不理解我们学了什么,因为我们头脑中没有足够的例子。有数十亿的事情你必须去尝试应用你学到的东西。而对流改变了梯度,他通过实际测量观察到的梯度是由对流造成的。所以所有的计算……我仍然不完全理解所有这些计算的微妙之处。但无论如何,这值得去理解犯错误是多么容易。
但令人难以置信的是达尔文,他当然不如汤姆森聪明,但仍然是对的。而汤姆森完全错了。正是因为,你不能应用……他知道所有这些数学,而达尔文恰恰是说:“好吧,我不能在数学上与你争论,但我怎么知道你应用得是否正确呢?”对吧?你总会做出一些假设,物理学中你总会做出假设,这些假设至关重要,然后你进行计算。不幸的是,对于非物理学家的读者来说,我们不知道这些假设,它们(对物理学家来说)是显而易见的。我说物理学家,是指真正的物理学家,不是那些弦理论家。他们立刻就能明白我在说什么。是的,是的,我不是开玩笑。这确实是……简单的物理学非常难学。我记得我还是个男孩时,我的图书馆里有这本旧书,关于实验物理学,描述和解释了大量的小现象。我在互联网上找不到它了,忘了作者的名字。学习它真的很有趣。就像生物学一样,有许许多多的事情,但每一件都符合物理定律,你可以进行计算,看看会发生什么。这是一种令人难以置信的知识。
V. 核心生物过程与信息流
现在回到细胞。细胞中还有什么?同样,细胞中的基本过程是什么?再次,这个术语是代谢化学,即新陈代谢,化学转化在那里发生。然后是细胞的繁殖。繁殖的目的当然是信息的产生和保存。这当然是生命信息的本质,信息通过复制得以保存。顺便说一句,还有其他机制可以产生相同的副本,比如蛋白质和细胞,原因不同,但主要的事情就是这个。细胞的所有新陈代谢基本上都服务于这个目的。
这些化学过程本身,即新陈代谢,其中肯定有信息成分,它出现在两个层面上,据我所理解。但肯定有,但我不知道它们是如何关联的。有时我设法在文献中找到一些东西,这有时很困难。即,如果你忘记那些复杂的事情,不是纯粹的化学反应,而是合成蛋白质,这更复杂,但考虑非常简单的化学过程,一些组分结合在一起,又分开。你知道它们是由酶控制的。那么酶做了什么?
同样,你在教科书和大多数地方找到的,你会看到人们重复着相同的词语。他们说酶基本上不改变反应类型,只是让它们更快。然后解释说,这些酶把东西聚集在一起,然后等等等等。然后就完全荒谬了。某事荒谬的一个好迹象是同样的东西在各处重复,所以你看到的是一样的,对吧?这有时可以追溯到源头,有人在100年前说了些关于酶的话,然后被不断重复。
然后自然会出现两个问题。首先,酶是如何工作的?因为如果你看一个非常简单的化学过程,例如,一个常见的例子,每个人都能观察到:你有H2O2,我忘了它英文怎么叫,双氧水(hydrogen peroxide)。它因为某种原因存在于我们的细胞中。如果你有它,是的,氧气会冒出来。它被用来消毒,因为它产生分子氧。它相当稳定。人们系统地……你可以看到这张图……所以我重复这种说法,就像人们说的,完全荒谬。你有这个能量景观,对吧?你坐在这里某个地方,你必须从这里到这里。当然,当你到达那里时你会获得能量,理论上你应该过去,但你必须越过一个势垒。然后说,啊哈,酶催化时,它们降低了这个势垒。它们是怎么做到的?然后是一些词语,并非完全没有意义,但如果你开始思考它们,你就会发现,如果你有蛋白质,蛋白质是一种非常软的东西,内部能量很少,这根本行不通。因为这(越过势垒)无论如何是如何发生的,即使没有催化剂?
发生的是,存在这个能量,为了获得这个能量,这在量子层面进行,这个层面的一切都已经量子化了。所以你有一些运动足够快的水分子,或者几个分子,它们携带足够的能量来完成这个跳跃。你必须等待这个发生,你可能要等很长时间。因为时间随势垒高度呈指数增长。这实际上是……我找不到……我记得我读过相关的数学论文,这是纯粹的数学:如果你有一个微分方程和一个势能,你需要多长时间(或以什么概率)穿过它?最近莫尔斯不等式(Morse inequalities)在这方面被广泛宣传,他为莫尔斯理论做了这个。但我记得我见过很早的论文,也和人讨论过,但找不到了。但这是纯粹的数学。
然而,蛋白质能做什么?蛋白质来了,如果你要断裂……如果你改变了大小……事情……然后你可以理解,蛋白质吸引了这两个不同的分子,它们靠近了,然后一个撞击另一个的概率……所以某个东西撞击了其中一个,它们粘在一起,反应发生了。好吧,你不能相信这个。在数值上你仍然无法满意地解释,但你可以相信它。但是断裂分子呢?你有这个H2O2,你有两个氧原子和两个氢原子,它们以某种方式这样结合在一起……首先我必须说,我不太理解量子力学上这是什么,忘了其他任何东西。这个定态方程是如何产生的?你怎么知道这个?这当然是初等量子力学,但我不知道……同样,我不知道如何解释它。我知道方程是什么,但我不知道如何测量这个……我们能……人们真的能计算它的能谱,然后说在某个尺寸范围内有两个值,或者是什么吗?这可能是你必须做的。
这里出现的问题是理解特定微分算子(?)谱分布的问题。可能,再次,我只是没有足够研究这个。但即使如此,蛋白质也帮不了你。所以你加入了这个蛋白质,它粘在蛋白质上。为什么会发生什么?如果你做任何力学……我思考过,因为蛋白质很大,某个东西撞击它,然后通过某种模式撞击到那个部分……我做了这种启发式计算,什么也没改变,就是零。否则你就会制造出麦克斯韦妖(Maxwell's demon)。事实上,酶的工作方式有点像麦克斯韦妖。它们确实等待快速的分子,抓住这个分子,然后做点什么。但是因为能量随后被释放了,所以没关系。所以仍然没有违反第二定律。虽然对我来说,再次,对物理学家来说某些东西是神圣的,但我谁在乎这个定律呢,对吧?也许在这个尺度上,微观上,在某个时刻它会失效。
然而,我的理解,我最终在文献中找到的——实际上是昨天,在浏览了大量无意义的论文之后——显然在数学上,作为第一近似,发生的是,当你有一个蛋白质,任何分子,忘了其他一切,这是量子力学的一个事实,同样,我不理解,它会经历……即使没有环境,但你已经有了一个在某种环境中待了一段时间的分子,所以你有一些残余温度,意味着分子的平均能量是给定的,但它在运动。但现在这种运动具有不同的性质,因为共价键,不是那些将蛋白质维系在一起的键(它们是弱键)。
存在两种类型的键,这当然至关重要,是生命中的关键之一。有强的共价键,在分子内部。还有弱键,它们如何粘在一起。这在数量级上是不同的,这确实是本质性的。但共价键短得多,它们的尺度是埃(angstrom)的几分之一,也许是埃的三分之一,不像弱键在纳米尺度。因此它们振荡得快得多,它们强得多。所以我可以想象这是一堆用弦连接起来的原子,是非常短且非常刚性的弦。所以它们振荡得更快。不是说它们运动得更快,因为能量必须相同,对吧?每个自由度的能量或多或少是相同的,在玻尔兹曼分布中。但它们振荡得快得多。因为它们振荡得快得多,它们中的一些真正积累起所有能量的概率——这是一种布朗运动现象——在数量级上更频繁地发生。因此,在正确位置撞击的概率变高了。因此反应速度加快了。所以时间尺度改变了。
酶所做的是改变分子振荡的距离尺度和时间尺度。但同样,我只是看了一些文章,不是很仔细,但我认为他们甚至没有声称能理解数量级。所以当你往那个……我们英文叫什么来着,H2O2,氢的过氧化物……无论什么,如果你往上面吐口水……它瞬间就反应了。我认为它将反应加速了 倍。这个 有点多了,因为你看你这里改变的尺度,从弱相互作用到强相互作用,似乎只在100倍左右,而不是一百万倍。所以我对此不满意。
再次,不幸的是,当人们说这些时,他们不明说“我们不知道”。我找到一些论文说“我们不知道”,然后你就可以相信人们说的话了。当他们开始解释他们不知道的东西时,这相当烦人。关于酶,大多数情况下,当你看大多数文献中的文本时,有时会做一些绝对……很好的计算,假设你已经使用了实验中的某些东西。如果你知道你改变了多少,反应速率如何变化,这些计算,你知道,是花园式计算(garden computations? 可能是指标准的、程式化的计算)。但实际上那里发生了什么,我不认为我们知道。因为我认为这在数学上首先非常复杂,对吧?要理解能谱如何在大分子中局域化。所以这是非常有趣的事情。
数学上想象一下以下图景:你有一个相对大的图,某种程度上构成的,边是弦。你让它振荡,它们有某种刚性,然后振荡。但你看它随机行为。测量将在能量面上均匀分布,某种玻尔兹曼分布。但你想知道它的动力学,某个分子的能量达到某个水平的频率是多少。然后确实,你需要一个大的……你需要一个大的蛋白质,这样总能量会相当大,因此当它局域化时,它仍然足够大,并且位置恰当,能够影响那里发生的事情。所以当然,你没机会解这个方程,没机会证明这样的定理,但至少要形式化它,知道发生了什么,对吧?如果你不考虑这一点,我想你可以证明这是不可能的,对吧?
所以可能存在某种现象,关键地依赖于量子力学现象。他们有时会说,哦,存在这种量子现象,我们如何穿过小能量的势垒。但同样,没有任何严肃的计算,甚至是启发式的计算来证明这一点。当然,你无法在数学上严格做到,但你可以精确地在数学上形式化它。知道存在量子隧穿,量子隧穿也参与其中。但这似乎不是量子隧穿在那里起作用。再次,我不评判……数学上的说法,但我们如何阅读这些文章,人们说了什么,他们说的话有多严肃。至少我找到了一些文章,作者从“我们不知道这个东西如何工作”开始。从那一刻起,你就可以信任他了。就像医生,如果你的医生来了,立刻解释你的问题,那很可疑,对吧?他必须从说“我不知道”开始,如果你有一个稍微不那么简单的问题。这些文章也是一样。
但这在数学上,我认为是绝对有趣、引人入胜的问题。你有一堆分子,通过布朗运动移动,内部有一个图,具有某种刚性。你可以用薛定谔方程诚实地描述它,考虑自旋让它更有趣,因为当有自旋时,当然你会有完全不同的能谱,这会非常强烈地改变能谱的形状,这在这里可能相关,也可能不相关,对吧?我猜我想知道。这可能确实会显著改变能谱的影响。但这当然,对于懂物理学的人来说,一切都是已知和理解的。但不幸的是,我没有机会和他们中的任何人交谈。但即使忘了那个,只考虑孤立的数学问题,我认为这是未知的。当你有多尺度振荡时会发生什么?这里有两个能量尺度。作为数学家会问,更多尺度呢?你有这种高度异质的情况,许多能量尺度,它如何振荡?我会在后续讲座中更多地研究,我花了几周时间才在文献中找到关于酶的这些信息。
但现在,信息是如何进入的?信息在其中的作用是什么?即使有了所有这些知识,正如我所说,在数学上离问题的核心还很远。因为这些酶对特定的分子非常特异。所以它们知道一些东西。它们携带某种知识。就像锁和钥匙。你知道,当你去开门时,你撞到门上,那是物理学。但当你有了钥匙,那是信息,那是生物学。这是一种非常不同的逻辑,对吧?所以某种程度上存在信息内容,是某种类型的内容,它通过选择进化而来。它进化得多快?这是一个非常有趣的问题,实验上已经证实,它不符合通常那种关于产生的朴素想法。这显然是弗雷德·霍伊尔(Fred Hoyle)犯的错误之一。所以我会非常小心地批评一位伟人,他肯定懂物理学,不像我。
所以这是一件事。你知道教科书里酶的“锁和钥匙”图景,原则上当然是对的,但在细节上不对,对吧?你需要投入多少信息来创造这个酶,第一点。第二点,它有多特异?酶的作用不仅仅是让反应更快。如果你只是让所有反应都更快,我猜你拿一个细菌,让它变得通用,然后让所有反应都更快,它会立刻死亡,会变成一团糟。某种程度上,它们平衡了……反应速度以一种特定的方式被平衡了。这就是信息的丢失(loss? 应该指信息的体现或内容)。比如说你有100种不同的酶,你将这些反应速度排序的顺序是什么?这大约是 种排列方式,对吧?所以里面有巨大的信息量。当然,在细菌的DNA中实现时,信息量并没有那么多,对吧? 肯定是一个非常大的数。不,它可能……也许没那么大。实际上是100,然后是 到 左右。是的。不,抱歉,它是可比的。是的,它与基因中的信息量是可比的。再次,我没有做所有这些计算,但当然它们必须被完成,才能知道我们在谈论什么。
但问题仍然是,这些酶的排序在多大程度上是必要的?有多少信息编码在DNA中?或者只是速度本身?还是速度与它们被使用的时间同时存在?基因调控又涉及多少?当然,在细菌中,基因调控相对简单,正如我们相信的那样,对吧?但这可能是……好吧。
我们有DNA,它是一条分子链。让我给你看图片。你看,我把它们分开放,因为当你把它们和文本混合时,它们会跑到随机的地方,你不知道……
所以我们谈论DNA。有三张图片反映了不同的东西。这是化学结构,让你了解分子是如何构成的,它们如何匹配。这是几何结构,它是一个螺旋状的东西,以及它的大小。所有这些你都必须知道,这是必要的组成部分。这某种程度上是它的逻辑。你有这个骨架,只是糖类,一个接一个连接。当没有碱基时,它确实非常漂亮且周期性。然后你将碱基附着在这个骨架上。有四种不同的字母,它们成对出现。无论如何,它本质上是二进制信息,对吧?
这是DNA。然后这个DNA被读取,你创建RNA。在我的图片里RNA在哪里?它是分段的。你看这里。你把它分成片段。所以这也增加了一点信息,你分段的方式。然而,如何分段已经写在DNA上了,所有东西都写在DNA上。你得到了相似的序列。这再次,逻辑上仍然简单,但机制复杂。这是RNA聚合酶,执行这个过程的机器。一个相当复杂的机器。
然后下一个阶段,逻辑上再次简单,但可能复杂得多,可能是细胞中乃至整个宇宙中发生的最复杂的过程:当你从2或4个字母的序列转到20个字母的序列。你转向氨基酸,将它们粘合成蛋白质。这里有一些辅助过程。但无论如何,你有了从RNA到蛋白质的序列。好吧,仍然是另一个序列。我的意思是,过程复杂,但逻辑简单,对吧?你只是对每个三联体,每三个字母,你创建一个… 四个字母(碱基)创建一个由20种(氨基酸)组成的字母。
实际上这是一个令人惊奇的问题:这是怎么做到的?已知有20种氨基酸和4种碱基。数字20是怎么来的?克里克(Crick)和某人写了一篇精彩的论文,他们为此找到了数学解释。如果你想阅读某物,并且不想混淆,不使用逗号,你写一些没有逗号的东西,但仍然能区分单词,你必须只选择特定的三联体。而恰好有20种你可以这样组成。这是一个奇妙的发现。但结果完全错了。这是生物学中最美丽的逻辑发现之一,但结果在自然界中是错误的。自然界用了一种非常愚蠢的方式,你只是把它们一个接一个地放上去,你知道,嗒嗒嗒嗒嗒。这非常容易出错。因为克里克(我认为是他,忘了和谁一起写的论文)提出的方案会非常稳定,错误少得多。但自然界就是……在数学上,这对自然界来说太难达到了。你看,自然界当它找到算法时……你看它可能有这些程序,必须找到这个程序,必须通过蛮力搜索来寻找这个程序。因此,程序必须易于找到。
因此,我们在生物学中拥有的程序,存在的算法,具有非常特殊的性质。它们具有这种高层次的复杂性,低……不仅程序短,而且容易找到,对吧?程序运行时间不长……抱歉,它很短,运行时间不长,而且找到它很容易。这极大地限制了你能在生物学中找到的程序/算法的类型。这是这种信息分布的基本特征。我不认为它被严肃地分析过。因为有一篇论文,一些计算机科学家,名字我忘了,关于这个PAC理论,他提出了一种进化论的计算机科学方法,我认为完全离题了。他发展了某种形式体系,但我认为它从未应用于生物学,因为它仍然是非常通用的算法。而在这里,我们有非常非常有限的一类算法。我相信有理由相信我们的大脑以同样的方式工作。我们使用某些程序,但非常非常简单和特殊。在某个时刻,在某个后续讲座中,我会给出这类算法的例子。
这是克里克和某人(我忘了是谁)提出的非常巧妙的建议,但不正确。但仍然,这是非常原始的东西。你取一个序列,只是局部地将它转换为别的东西,非常原始的算法。
但现在,你如何创造结构?这只是序列,只是纯粹的信息,这些序列没有实质内容。关键时刻是当它们创造蛋白质时。蛋白质折叠时,它们的程序开始工作。这个程序的作用是什么?它被称为“折叠程序”(folding program?),它只是遵循分子链自由能的弱相互作用梯度,近似地,因为存在这样或那样的边界条件,所谓的翻译后折叠(post-translational folding)。但这基本上就是这样。所以你知道那个实现一切的程序,就是你遵循分子中弱相互作用的梯度。在这一刻,信息变成了物质。这是由物理学完成的,可以说。生物信息没有参与。这是一个有趣的现象。这当然在生命中无处不在,事物的自组装。一旦你给定了正确的能量,但你准备好了这个,它或多或少会自己粘在一起,以这种方式创造出非常复杂的结构,比如核糖体等等。
当然,在数学上,这肯定是缺失的。再次,这个粘合在一起的过程,这是一种物理学,但这种物理学的困难在于,它在一般情况下并不成立。这是一种非常特殊的情况,当这发生时。对于通用系统,绝不会发生类似的事情。会发生一些事情,但绝不会是这种类型,显然,对吧?这是一个问题,你需要对这种特殊性进行数学表述。而描述这种特殊性,又是一个复杂的问题。
VI. 生物算法与复杂性的本质
一个非常简单的例子,为什么(生命)不可能(从物理角度看)。看看你的人类骨骼,大约有200块骨头,随着年龄增长会减少,你出生时大约有200多块,一些后来会融合在一起。有这么多关节。关节相当大,它们必须匹配,精度大约1毫米,所以是10%(?原文如此,可能指相对精度或误差)。这包含了巨大的信息量,对吧?它是如何呈现在那里的?它是如何完成的?你有一个关节,另一个关节,它们必须被制造成相互匹配,并且匹配得相当好。更不用说它们必须具有特定的形状,必须是圆的。
你知道有两种类型的关节。一些关节是不可动的,比如你头骨里的那些,一些骨片以相当随机的方式连接在一起。然后当然是你的活动关节。有两种类型的活动关节。像你的膝盖,只有一个自由度。或者像你的髋关节、肩关节,有三个自由度,对吧?没有两个自由度的关节。为什么?
数学家会说,如果你有一个具有两个自由度的曲面,黎曼曲面,那么它在数学上有三个自由度(?原文如此,可能指曲面类型或运动空间)。这三种可能是球面、欧几里得平面或双曲平面,对吧?我们的关节不是双曲的。那些圆柱形的关节,本质上是欧几里得的。或者这里是球状的,对吧?除了……看看这个(指手腕),这是三个自由度。怎么回事?与数学矛盾。
这正是生物学的问题所在。所以你可以做出……实际上有类似矛盾的有趣例子,我稍后告诉你那个故事。那么答案是什么?你……你不懂解剖学,对吧?可能你们都没学过。这里有两块骨头。这个部分是由两块骨头组成的。所以这里有两个关节。事情就是这样发生的。一个关节相对于另一个运动。但这些当然是旋转关节,完全像你的膝盖。但它们被分成了两块骨头。
所以问题就在这里。你以为你理解了某件事,生物学家会说,哦,还有别的东西。这个故事是关于DNA复制的。我稍后会讲到,当时数学家也做出了一些观察,发现……确实发现了一些矛盾。但当然,那些了解复制方式的人,比如沃森和克里克,他们完全知道这一点,他们写下来了,对吧?所以如果你……在生物学中做某事有点棘手。事情不可能完美契合。但如果某件事已经契合得很好,你很可能一方面抓住了某些东西,另一方面……在数学中,我不知道物理学如何,我认为可能不是这样,如果你有一个好主意,至少有50%的机会它能成功,是真的。但在生物学中,有人告诉我,实际上是物理学家说的,如果你有一个非常好的主意,真的很出色,它成功的机会可能只有百分之零点五。这已经很好了!因为通常什么都行不通。因为总是有更多更多的东西。
一个非凡的例子,我会讲到,一个绝妙的想法,并且惊人地成功了:PCR(聚合酶链式反应)。这纯粹是一个数学想法,非常逻辑化的想法,由穆利斯(Mullis)发明。它成功了。但这实际上是艰苦的工作。有时人们说,哦,他只是做了,然后就成功了。实际上,花了数年时间来实现它。这是因为……但有时它确实能成功。但这确实是一个超级绝妙的想法。这就是生物学对数学家的吸引力所在。有些想法真的非常漂亮,令人惊讶的是它们竟然能成功,在生物学存在的所有这些混乱中,它们成功了。
这是关于骨骼。顺便说一下,它是怎么发生的?这些信息保存在哪里?当然,现在你知道是DNA,有数字信息。但仍然有很多事情需要知道,在哪里以及如何……身体某个小部分的分子,它们的位置在哪里?这信息量巨大,远超单个分子所能包含的。但同样,有解决方案。所以我们可以说……基于……假设生命是不可能的,有一些超级定律支配着它。但随后当然有解决方案,它是如何完成的?你如何达到一个关节与另一个关节完美匹配?
我会说,哦,这是通过选择。首先你制造方形关节,不行。然后他们制造矩形关节,不行。进化从这些中进行选择。但这当然是无稽之谈。自然界当然不是这样进行的。但当然,如果你看看关节的形态发生(morphogenesis),关于这个写了整卷的书,这是一个极其复杂的过程。我的理解当然是,实现这一目标的主要过程是,首先形成或多或少坚固的结构,当然没有太多钙质,但随后在它们之间形成一层薄膜,然后这层薄膜消失了,它们死亡了——凋亡(apoptosis),正确地说。基本过程:你创造细胞,然后细胞死亡。事情就是这样运作的。这是非常主要的方式,就像……你拥有辅助结构,然后结构消失了。你不知道那个结构是什么。这当然是一个基本的数学问题,体现在P与NP问题中,对吧?当你有一些东西被抵消掉了。
同样的方式,顺便说一下,在数学中无处不在,复杂的数学构造中,某些东西被抵消掉了。生命一直使用这一点。所以它与数学在大尺度上的工作方式非常相似。关节就是这样形成的,我猜。我只是粗略地看了这些文章,当然,读它们真的很有趣,但里面有大量信息,你很难……
生命非常特殊,它远非“通用”(generic)。再次,用数学精确地表述这一点是一个问题。
VII. 开放问题与结论
所以现在,下一个小时将是关于基础知识的初级教程,关于生命的基础知识,实际上是分子和细胞生物学,只是一些基本知识。所以如果你是生物学家,你会觉得这很无聊。
是的,我引用维特根斯坦(Wittgenstein)的话:“一个词的意义是什么?”这适用于数学和语言学。不是每个人都接受,但在某种程度上,思考词语意义的唯一方式是……实际上哈里斯(Harris)强调过,词语没有外部意义。如果你广泛地理解语言,意义只是内部的。外部意义只是一种愚蠢的方式……而内部意义,这种观点的好处在于,这是你可以在计算机上模仿的东西。其他一切都只是在你头脑里。
所以,我们想要形式化并描述生命中的基本现象,用物质、能量和信息这些术语。希望最终你能更有效地做到这一点。
好吧,今天就到这里。如果你们有问题,如果我能……当然,我大多数问题可能都答不上来。但如果你想尝试……我的知识就在我所说的边缘。你知道,通常当你做讲座时,你讲的是你所知道的10%,而在这里我可能讲了110%,比我知道的稍微多一点。是的。但仍然,作为数学家,看到这么多你无法解释甚至无法形式化的事情,是很有趣的。但你能看到那里的结构,因为你的直觉告诉你那里有结构,是数学结构,但它与你在物理学中所做的非常非常不同。再次,这有充分的理由。我们会一直对物理学提出负面评论,不是因为它们是负面的,而是因为它们是我们拥有的唯一参照点,对吧?我们从那里开始争论。
除了大卫·科尔特(David Colter? DeWitt? unclear reference)给出的他的物理学感知,我会……也许几天后我会放到网上,把我所说的大部分内容以稍微系统化的方式组织起来。我不知道如何把图片更好地整合到文本中,因为它们……我还没学会LaTeX如何把它们精确地放到我想要的位置,因为它们会自己选择位置,然后变得非常不方便。再次,我找不到更好的方法来做这件事。但也许我会……我想创建一个完整的目录,我会尝试把它放到网上,如果可行的话。如果不行,就在我当前的……实际上这个主题,如果你看我当前的……我今年的讲座,我说的一部分内容已经在那里面了。所以在那里放更容易一些。
好的。今天就到这里。
(听众提问环节开始)
问: (听不清,似乎是关于细菌数量与原子数量比较的问题)
答: 我是说,如果你看细菌,一个细菌中的原子数量小于一个基本细菌群落中的细菌数量。因此,这使得生命在统计上成为可能。这意味着,如果你有稳定的条件,但在非常长的时间尺度上,大多数时候你都会有细菌。但如果它稍微大一点,比如说体积大一千倍,那就不成立了,它的存在将变得非常不可能。这个计算非常简单,因为你看原子的组合有多少种,细菌有多少种,指数级复制,然后这些常数匹配。他们说,第一个生物体必须很小,可能是细菌量级的,原则上不可能是大的。但如果它们小得多,也不清楚它们如何能存在,根据我们所知的所有生命结构,我们无法想象更小的东西。但这是一种明确的现象,以及它被重复了多少次。当然,原则上你不能有那么多越来越大的生物体,物质上你也不够材料,但从信息角度讲,你看,这就是你如何尝试使用它,尝试计算所涉及的信息量以及它产生的概率,看看它是如何运作的。
(讲座结束)
要点总结
Misha Gromov - 生物结构的数学描述 (1/4) - 框架与要点
I. 引言:目标与挑战
- 核心目标:尝试为生物学家描述生命结构(从亚细胞到种群进化动力学)所使用的语言赋予数学意义。
- 关键概念阐释:重点阐明生物学(非香农)信息、描述性(非柯尔莫哥洛夫)复杂性、生物结构、生物功能、生物目的、物质结构(DNA/RNA)编码的信息/程序、物质/能量流传递的信息/信号、控制流的信息/程序、由物质/能量流网络构建的结构(如转录->翻译->蛋白质折叠)等概念的数学和生物学含义。
- 潜在应用:指出生物学语言形式化的潜在用途,例如在基因工程(如CRISPR、噬菌体辅助连续进化)中的分析和应用。
- 历史视角(Buffon):早期科学家(如Buffon)认识到,从数学家和物理学家的角度理解生命是困难的,这与早期泛灵论(认为万物有灵,生命易于理解)形成对比。
- 感知与理解的差异:人类(及动物)的感知系统(尤其是视觉)高度适应识别生命,但这会造成我们理解生命的错觉。数学化尝试(如人脸识别)揭示了这种理解的肤浅。
- 物理学 vs 生物学理解难度:物理学定律(如牛顿第二定律)虽然反直觉且常被误解,但一旦掌握,就能提供强大的解释力(如估算太阳核心温度)。相比之下,生物学直观上似乎易懂,但深层机制难以用现有物理/数学框架完全把握。
II. 物理学视角下的生物学:局限性与差异
- 物理学语言的特点:物理学依赖少量基本可观测量(质量、能量等),这些量通常具有数值性(可加性/半可加性),使得数学(特别是实数系统)能够有效应用。这种适用性本身是深刻且难以理解的。
- 生物学语言的特点:生物学词汇远比物理学丰富,且充满了隐喻(如“遵守”定律),需要谨慎对待。
- 复杂性与规律性:生命常被描述为复杂性与规律性的结合。
- 复杂性:柯尔莫哥洛夫复杂性(描述程序的最小长度)有启发性,但在生物学中应用有限,因其忽略了有限尺度、计算时间和程序的可发现性。
- 规律性:可能与对称性有关,但更可能是指一种因感知系统适应而产生的“美感”或“秩序感”,难以量化。
- 物理定律与生物现象的冲突:
- 非通用性/概率性:物理定律通常描述“最可能”或“通用”的行为。生物系统是高度“非通用”的特例(如鸟会飞而不是下落)。物理学观察到的宏观现象往往是微观层面通用性的体现(大数定律,PAC理论)。
- 对抗熵增:生命系统(如活狗逆流而上)持续对抗物理过程趋向平衡和熵增的“流”(由自由能驱动),这与非生命系统(死狗顺流而下)不同。
- 物理学家介入生物学的尝试与教训:
- Schrödinger, Delbrück:将物理学思想引入生物学的重要人物。
- Delbrück-Luria 实验:最初被解读为支持达尔文式随机变异而非拉马克式获得性遗传,但后来发现(如CRISPR)生物系统存在更复杂的、能整合环境信息的机制。这说明基于“通用”物理思维的实验可能忽略生物的特殊性。
- Fred Hoyle 的错误:基于物理学概率计算认为生命起源和进化不可能,其推理可能基于不适用于生物系统的物理学假设。
III. 生物学中的信息:核心概念
- 核心观点(Jacob):生命是物质、能量和信息三者的结合与相互作用。
- 生物信息的特性:
- 非香农信息:不同于香农信息理论中的可量化数值(如熵),生物信息更侧重于其含义、功能和控制作用。
- 物理载体:信息通常由物理结构(如DNA/RNA的共价键序列,写在周期性骨架上)承载。
- 信息是“关于”什么的:信息指导和控制细胞/生物体的运作和构建(如调控)。
- 自指性:信息(如DNA)常常包含关于其自身处理和复制的信息(类比Von Neumann自复制自动机),这带来了逻辑上的复杂性甚至悖论。
- 目标:发展一种数学语言,能够自然地容纳“控制”、“调控”、“功能”、“目的”等生物学概念,理解信息如何与物质/能量流耦合。
IV. 生命的基本单元与结构
- 基本单元:细胞和生物体是生命的基本、相对独立自主的单元。
- 复制与相似性:生命的一个显著特征是能够产生大量(几乎)相同的复杂单元副本(如细菌群落、人类个体),这在纯粹的物理世界中不会发生。
- 数量关系:细菌的原子数(约 )可能少于其群落中的个体数,这在统计上支持了其存在的可能性。对于更大的真核细胞或生物体,情况则不同,这可能与进化时间尺度有关。
- 细胞膜:
- 结构:磷脂双分子层(约3nm厚),包含蛋白质。
- 自组装:并非由脂质间的直接吸引力维持,而是通过疏水效应(最小化对水分子网络的扰动)自发形成封闭结构,这依赖于自由能最小化原理。其形状可能与最小化表面曲率积分(如Willmore能量)有关。
- 意义:形成区室,是生命起源的关键步骤,允许分子浓缩和复杂化学反应。
- DNA 结构:
- 化学:脱氧核糖核酸聚合物,由磷酸二酯键连接的糖-磷酸骨架和四种碱基(A, T, C, G)组成。
- 几何:双螺旋结构。
- 逻辑/信息:碱基序列构成数字信息,通过碱基配对(A-T, G-C)实现信息的存储和复制。信息写在周期性骨架上。
V. 核心生物过程与信息流
- 新陈代谢(Metabolism):细胞内的化学转化过程,受酶的精确调控。
- 酶(Enzymes):
- 功能:生物催化剂,极大地加速特定化学反应。
- 机制疑点:教科书中“降低活化能”的解释常流于表面。酶如何高效工作(尤其是断裂化学键,如H2O2分解被唾液中的酶加速百万倍 )的深层物理机制仍不完全清楚。
- 可能机制:酶(大分子)内部共价键的快速振动(比布朗运动快得多)可能增加了在活性位点瞬时集中足够能量以发生反应的概率,即改变了反应的时间/空间尺度。但定量解释仍是挑战。
- 信息角色:酶具有高度特异性(锁钥模型),这种特异性本身就是信息。整个代谢网络中各种酶反应速率的精确“平衡”和“排序”(组合可能性巨大,如 )是关键的、受调控的信息,最终编码在DNA及调控网络中。
- 中心法则:信息从DNA到蛋白质
- DNA -> RNA (转录 Transcription):DNA片段被RNA聚合酶读取,合成信使RNA(mRNA)单链。
- RNA -> Protein (翻译 Translation):核糖体读取mRNA上的密码子(碱基三联体),按照遗传密码规则,将对应的氨基酸连接成多肽链(蛋白质一级结构)。这是一个极其复杂和精确的分子机器过程。
- 遗传密码:4种碱基如何编码20种氨基酸。Crick等人提出的早期数学上优美的“无逗号密码”(刚好20种)被证明是错误的;自然界采用了更简单但可能更易出错的连续阅读框机制。
- Protein Folding (蛋白质折叠):一维的氨基酸序列自发折叠成特定的三维结构。
- 物理驱动:主要由氨基酸间弱相互作用(氢键、疏水作用等)驱动,寻求自由能最低状态。
- 信息实现:这是信息(序列)转化为功能性物质结构(3D形状)的关键一步,由物理定律“执行”。
- 非通用性:只有特定的氨基酸序列才能可靠地折叠成稳定结构,这再次体现了生物系统的特殊性。
VI. 生物算法与复杂性的本质
- 生物算法的特点:自然选择找到的算法/程序,不仅要有效,还必须是“可发现的”(findable)。这意味着它们可能不是理论上最优的,而是相对简单、鲁棒、易于通过随机变异和选择逐步构建的。
- 程序复杂度:不仅要求程序本身短(Kolmogorov意义),还要求运行时间不能过长,且找到该程序的搜索过程相对容易(与P vs NP问题相关)。
- 数学结构与生物现象:
- 骨骼关节自由度:手腕看似有3个自由度,但单一关节表面在数学上通常只有1或3个(旋转)。生物学的解决方案是用了两块骨头组合。这提示生物学的“实现”方式可能与直接的数学抽象不同。
- 形态发生中的“抵消”:关节形成等过程涉及细胞凋亡(程序性死亡),即先构建再移除部分结构。这类似于数学证明或计算中复杂的中间步骤最终被“抵消”掉,可能与计算复杂性(如P vs NP)有深刻联系。
- 免疫系统:获得性免疫反应中,产生大量随机抗体,然后清除掉对自身有害的部分,是“构建-抵消”模式的宏观体现。
VII. 开放问题与结论
- 核心挑战:用数学语言精确描述生物系统的“特殊性”和“非通用性”。
- 信息的作用:如何形式化地理解和处理生物信息(非香农信息)及其与物质、能量的复杂耦合。
- 酶作用机制:酶催化效率的深层物理机制仍需阐明。
- 生物算法:生物进化发现和使用的算法类型及其复杂性特征需要更深入的理论分析。
- 总体感受:演讲者强调,从数学角度看,生物学充满了深刻而未解的问题,现有物理学和数学框架可能不足以完全捕捉其本质,需要新的概念和思维方式。这是一个充满挑战但也极具吸引力的领域。