「科学讲座@IHES2025」Misha Gromov-生物结构的数学描述-2
讲座介绍
这段文字旨在引导您阅读 Misha Gromov 关于“数学描述生物结构”系列讲座第二部分的文字记录。在本讲中,Gromov 教授继续其核心议题,即探索如何运用数学的严谨性来理解和形式化生物学中描述基本结构与过程的语言。他首先从物理学的角度切入,对比了物理与生物描述方式的差异,并强调了理解细胞内各种尺度(尺寸、能量、时间)的重要性,特别指出了我们对水分子微观行为理解的局限。
随后,讲座深入探讨了细胞内几个关键的分子过程:自组装(以蛋白质折叠和细胞膜形成为例)、酶催化(重点讨论了活化能垒的物理本质以及酶加速反应的多种可能机制,并包含了一段精彩的问答互动)以及分子马达的作用。Gromov 教授并未止步于描述这些过程,而是不断追问其背后的物理原理和数学逻辑,揭示其中的复杂性与相互关联。
接着,他以“鸡蛋变小鸡”为引子,探讨了信息、复杂性与自复制这些核心生物学概念。他辨析了生物复杂性与传统柯尔莫哥洛夫复杂性的区别,并对比了冯·诺依曼的自复制模型与生物实际复制过程的差异。
最后,讲座将视角转向宏观的演化动力学,从数学角度审视了达尔文和孟德尔的理论贡献,分析了各自模型的数学结构、优点与局限性,并点出了生物学语言中固有的“功能”与“目的”概念给数学形式化带来的挑战。
通篇记录展现了 Gromov 教授独特的思考方式——不断质疑基本假设,寻求精确定义,并试图在看似混乱的生物现象中寻找深刻的数学结构。对于希望理解数学、物理学与生物学交叉领域的前沿思考以及其中存在的概念性难题的读者,这份记录提供了丰富而引人深思的内容。
内容纲要
Misha Gromov - 数学描述生物结构 (2/4)
├── 引言:物理、数学与生物描述的差异
│ ├── 物理描述 (数值、公式) vs 生物描述 (文字、信息)
│ ├── 非生命 vs 生命图像分析的根本不同
│ ├── 生命的本质:物理/化学 + 信息 (Jacob)
│ └── 讲座目标:赋予生物学语言 (信息、复杂性、结构、功能、目的等) 数学意义
├── 一、 细胞结构的物理基础:尺度与能量
│ ├── 尺度的重要性
│ │ ├── 尺寸尺度:细菌 vs 真核细胞,体积差异
│ │ ├── 数量尺度:细胞内原子数 vs 菌落细菌数 (生命存在概率)
│ │ └── 时间尺度:分子碰撞 (微秒) vs 化学反应 (皮秒/飞秒)
│ ├── 能量尺度
│ │ ├── 基本单位:kT (分子热运动能量)
│ │ ├── 弱相互作用 (2-10 kT):自组装关键,亲和力与能量指数关系
│ │ └── 共价键 (~100 kT):量子力学本质
│ └── 水分子运动的复杂性与不确定性
├── 二、 细胞内的关键分子过程
│ ├── 1. 自组装 (Self-Assembly)
│ │ ├── 弱相互作用驱动,趋向能量最小化
│ │ ├── 核心例子:蛋白质折叠 (信息 -> 物理实体,AlphaFold)
│ │ ├── 其他例子:病毒、核糖体组装
│ │ └── 特殊自组装:细胞膜形成 (脂质双分子层,自由能最小化,最小弯曲能量?)
│ ├── 2. 酶催化化学反应 (Enzyme Catalysis)
│ │ ├── 酶加速共价键变化
│ │ ├── 活化能垒的存在与理解
│ │ │ └── (问答) Gromov 对活化能垒物理起源的疑问与讨论 (经典势能 vs 量子细节)
│ │ ├── 酶加速机制的探讨
│ │ │ ├── 提高局部浓度/熵效应 (类比铂催化)
│ │ │ ├── 稳定过渡态 (Haldane/Pauling)
│ │ │ ├── 延长中间体寿命以匹配碰撞时间尺度 (Gromov 的理解)
│ │ │ ├── 几何/熵引导 (提供特定通道)
│ │ │ └── 蛋白质振动/动力学贡献能量
│ │ └── 反应速率:受扩散限制 (微秒级),酶效率差异 (过氧化氢酶 vs Rubisco)
│ ├── 3. 分子马达 (Motor Proteins)
│ │ └── 产生定向运动,需要能量输入
│ └── 过程的相互关联与复杂性
├── 三、 信息、复杂性与复制
│ ├── “鸡蛋变小鸡”隐喻:对称性破缺与复杂性增加
│ │ └── 关键:特殊细胞 (合子) 携带蓝图 (DNA)
│ ├── 生物复杂性
│ │ ├── 对比 Kolmogorov 复杂性 (随机序列最复杂)
│ │ ├── 生物结构特点:复杂且有序/规则
│ │ └── 描述性复杂性:程序 + 随机输入/统计定律?基因组提供上限
│ └── 自复制 (Self-Replication)
│ ├── 冯·诺依曼模型 (通用构造器 + 程序带)
│ └── 生物复制的差异:非通用,依赖特定分子机器,随机环境作用
├── 四、 演化动力学的数学视角
│ ├── 达尔文演化论
│ │ ├── 核心数学思想:指数增长,选择
│ │ ├── 模型:高维特征空间中的随机行走
│ │ ├── 贡献:提供了看待演化的视角
│ │ ├── 问题:特征相关性,随机性定义,目的论语言,“可生存”区域未知
│ │ └── 评价:缺乏足够解释力,生物学细节有误,原创性讨论 (Matthew, Lamarck)
│ ├── 孟德尔遗传学
│ │ ├── 离散遗传单位
│ │ ├── Hardy-Weinberg 平衡 (稳定性)
│ │ ├── 数学结构:类比 Veronese 映射 ($T^2=T$)
│ │ └── 评价:更基础、更具数学性的发现,与代数结构关联 (Bernstein, Jordan)
│ └── 群体遗传学 (综合)
│ └── 数学丰富,但与生物现实关联度存疑
├── 五、 生物学语言的特殊性
│ ├── “功能”与“目的”的普遍使用 (目的论)
│ ├── 与物理学因果解释的差异
│ └── 数学形式化的挑战:定义生物信息、功能、目的、选择
└── (结论 - 隐含)
├── 生物现象背后独特的数学原理
├── 现有数学工具的局限性
└── 发展新数学框架的必要性与潜力
Misha Gromov - 数学描述生物结构 (2/4)
引言:物理、数学与生物描述的差异
[音乐]
让我来... 你们已经看过这个了,只是稍微修改了一下,区分了不同主题。是的,这是第一部分。这个公式是什么?是的,这是拉马努金的著名公式,是众多著名公式之一。这是一个相当、相当非平凡的公式。是的,但这就是数字如何与几何混合在一起的方式,这是一个相当了不起的公式。
重复一下,这是我们在物理学中描述事物的方式。我们无法用语言描述,只能用数字。你必须描述某种概率分布 。这是火星的表面,实际上,除了生命之外,几乎所有东西都看起来像这样。所以我们的视觉系统……有时人们说你分析图像,但是生命中的图像和非生命中的图像几乎没有任何共同之处,对吧?这两张图片之间几乎没有共同点。无论是数学上还是用你的大脑进行分析,都会有根本的不同。
实际上,我们的感知非常适应这一点。我们可以讲述关于(生物图像)的故事,但对于那个(火星表面),我们说不出太多,只能用数字来描述。这更像是生物学的数学方式。当然,这个(拉马努金公式)是一个公式,但如果你深入研究其结构,涉及某些特定领域,它是可以用语言描述的。嗯,我并非了解那个,但你可以用语言说出来。但物理学是无法用语言表达的,它本质上是数值的。
生命(Life)的特殊性,正如雅各布(Jacob)清晰阐述的,是物理学或化学与某种信息(information)的结合。
上次我讲到最后……在进入正题之前,我必须先谈谈一些物理方面的东西。从我们的角度来看,本质是信息性的,而用严格的术语来讨论这一点非常困难。
我今天的讲座,将尝试赋予生物学家用来描述生命有机体中基本结构和过程(从(亚)细胞水平到种群的演化动力学)的语言赋予数学意义。特别是,我们将阐明以下概念的数学和生物学含义:
- 生物(非香农)信息
- 描述性(非柯尔莫哥洛夫)复杂性
- 生物结构
- 生物功能(由特定结构执行)
- 生物目的(功能的意图)
- 由物质结构(DNA、RNA)编码和存储的信息/程序
- 由物质/能量过程/流传输的信息/信号
- 控制这种“流”的信息/程序
- 由物质/能量流(例如,转录 -> 翻译 -> 蛋白质折叠)网络构建的生物结构
我们还将指出生物学语言形式化在基因工程中的潜在用途,例如在CRISPR和噬菌体辅助连续进化(phage assisted continuous evolution)的分析/应用中。
一、 细胞结构的物理基础:尺度与能量
但我想继续我们之前关于细胞物理方面的话题。这是需要记住的基本事情:那里发生的事情的尺度。在一个特定的例子中,我认为尺度对于理解不同时间尺度的关系至关重要。
首先,当然是细胞的大小以及细胞内发生的事情。细胞相当小,正如我解释过的,体积至关重要。在线性尺度上,细菌细胞大约是1微米(百万分之一米),我们的细胞大约大10倍,体积上我们的细胞要大上千倍。
一个细胞的内容物,比如原子或小分子(如水分子)的数量,比起一个小型细菌菌落中的细菌数量,要少几个数量级。一个小的细菌菌落,比如你肠道里的,含有数千万亿(quadrillions)的细菌。而一个细菌的原子数量大约是万亿(trillion)量级。所以这确实是巨大的差异。因此,构成细菌的原子构型的数量,小于潜在的指数增长的细菌群落的数量。因此,如果你知道生命存在,那么只要你生活在一个远超宇宙生命时间尺度的时间尺度上(当然是假设你有无限的时间,无限的意思大概是 量级),生命就将永远存在,概率为一。仅仅因为你知道像细菌这样的小型机器能够指数级繁殖。所以,这是一个奇迹。我们当然无法理性地解释这个奇迹,我们只能观察它并试图证明其合理性。但承认这个奇迹,数学上你知道这是合理的。也许这种数量上的平衡并非偶然。但肯定的是,如果细菌再大一些,这就值得怀疑了,因为原子数量会增加约千倍,而种群数量会相应减少。
历史上,细菌在地球上存在的时间占了生命存在时间的一半。曾经只有原核生物或这些非常小的细胞,真核细胞大约在生命出现20亿年后才出现。然后又过了5亿年,似乎没什么发生,但当两个细胞合并,形成更复杂的细胞后,事物开始发展得快得多。但细菌当然过去是、现在是、并将永远是我们预期中地球生命的主要构成部分和参与者。
现在我想谈谈能量尺度。生命中能量的基本单位是,在我们所处的温度(比如20摄氏度)下,水分子或其他任何分子的运动能量。这是标准的能量单位,大约是……我总是忘记,我想是每摩尔2千卡路里之类的。但这就是单位。你不需要知道任何其他东西,这就是能量的单位,通常称为 单位。
然后,以这个单位衡量,有两个能量水平。一个是分子间的弱相互作用,它们彼此有点粘连。这主要是因为分子略微带电且电荷分布不对称,所以它们有偶极吸引力。分子间的吸引力很小,这种能量大约是几个 单位,从2到也许10个 (10已经很多了),也许是6个 。所以它与分子的运动能量相当。但是,它们聚集在一起的时间,这种吸引力,与能量呈指数关系。能量变化两三倍,亲和力(affinity)会指数级地增加两倍或四倍。所以即使是很小的弱相互作用,亲和力也可能非常强,分子会长时间粘在一起。
但即便如此,这种相互作用也远弱于最弱的分子内相互作用,即共价键(chemical bonds)。化学键具有大得多的能量,可能是前者的100倍。例如,一个绿色光子的能量就比 大约100倍,它已经可以破坏许多共价键。你知道,在光照下,光会破坏颜色,比如你头发里的色素。
所以存在这两种不同的能量,相应地,细胞中也有两种不同的过程。一种与这些弱键有关,另一种与强键有关。弱键相关的更像是物理过程,分子聚集在一起,这或多或少可以用经典力学、经典物理来很好地近似。而共价键的一切都是量子的。我对后者理解得少得多,但对它的描述通常不显式涉及量子力学考虑。
细胞内分子的运动,特别是在水中,其具体图像我一直没能完全掌握。水不像气体。水分子之间的距离与分子大小(约0.3纳米)是同个数量级。它们之间的间隙有多大?它们如何移动?当然存在扩散,但我对此没有清晰的图像。在空气中,情况更清晰,因为原子间的距离大约是原子大小的10倍(空气比水轻1000倍,线性尺寸大10倍)。很清楚原子能跑多远,空气分子的速度大约是300米/秒,可以算出它们多久碰撞一次,大约是微秒(microsecond)尺度。但在水中,我不完全理解。这也是微秒尺度,扩散速率和移动也是微秒级,但具体是几微秒,我不确定。稍后你会看到这为什么是相关的。这是一个需要记住的图像,但我对水没有好的图像。我找不到简单的描述,你翻开关于水结构的书,马上就是公式,一页接一页的公式,还有我不懂的术语。水当然是非常特殊的液体,在分子层面上不同于其他任何东西。比如,水的能量状态是什么?它一直分裂成不同的复合物,不是简单的 ,水中可能没有多少 ,而是 或 之类的东西,它们不断地结合、分离。相互作用能大约是 。有实验和理论计算,但当我读文章时,总是不清楚这到底意味着什么,是平均值?是单个事件?还是统计上的?不很清楚。但总之,数量级是 ,分子间的碰撞/相互作用速率是微秒量级,但具体是多少微秒我不确定。
二、 细胞内的关键分子过程
在分子层面上,细胞中有两大类过程,它们与我们刚才提到的两种能量尺度相关。
1. 自组装(Self-Assembly)
这类过程与弱键相关。一个主要的例子是自组装,当你有一些大分子或分子的组合,它们表面有特定的电荷分布(偶极分布),基于此,它们倾向于相互粘附,形成特定的形状。
最重要的自组装过程是蛋白质折叠(protein folding)。我们有一条由大约20种基本氨基酸构成的长链(多肽链),在适宜条件下,它会自发折叠、粘合在一起,推测是形成能量最低的状态。能量最低指的是这种粘合使得弱相互作用的总能量最小化。这是一个假设,当然很难验证,有时可能不是全局最小值,而是某个亚稳态。
折叠完成后,蛋白质就有了执行特定功能的三维结构。这是信息真正转化为物理实体的关键时刻。写在DNA里的信息,实际上是用“词语”(碱基序列)进行的描述,这些词语本身并没有直接的物理含义,它是一种符号描述。然后它物化了,物化的时刻正是蛋白质折叠的时刻。
(在此之前有两个过程:信息从DNA转录(transcription)到RNA,这只是字母对字母的复制,有其生物学原因;然后从RNA翻译(translation)成多肽链,这时是按三个字母一组(密码子)来读取。翻译过程化学上极其复杂,稍后会提到。但最后一步折叠,逻辑上似乎很简单。)
逻辑上,你把多肽链扔进水里,它就那样折叠了,仅仅因为这些分子的相互作用定律就是如此。说起来容易,但计算上或任何其他方面,这都是完全无法理解的。我们不理解它们为什么以及如何折叠。然而,现在有了漂亮的算法,比如AlphaFold,可以以90%以上的准确率预测折叠后的形状。这是人工智能或深度学习机制的巨大成就,其基本思想很简单且由来已久,但需要巨大的计算能力来实现。为此已经颁发了诺贝尔奖,我忘了是生物学奖还是物理学奖。David Baker的团队在蛋白质结构预测方面做了大量工作,之前最好的方法实际上是人类直觉:看着序列,通过类比猜测形状,再加上一些计算辅助。现在这种直觉被人工神经网络的模式匹配所取代。
这种自组装不仅发生在蛋白质上。比如说,病毒颗粒也是这样组装的。病毒的各个部件在细胞内被生产出来,然后“砰”地一下,它们就自发组装成非常复杂的颗粒。还有核糖体(ribosome),它是包含几十个大分子的复合物,同样,一旦这些分子被合成出来,它们就知道如何找到自己的位置并组装起来,本质上也是因为这最小化了某种能量。
但这个过程能如此顺畅地发生是很奇妙的。这是一个高维空间,存在某种能量梯度,系统(随机地)沿着梯度下降。当然是随机的(stochastically),不是精确地沿着梯度,所有运动都带有随机性。这种随机运动必须……我从未能确切了解水溶液中分子的运动是怎样的。
还有一种非常特殊的自组装,它不依赖于特定的电荷分布模式,而是利用了分子的手性对称性(chiral symmetry)或者说是两亲性(amphipathicity)。这就是细胞膜(cell membrane)的组装方式。细胞膜也是自组装的,但途径完全不同。它由脂质分子(lipid molecules)构成,通常是磷脂双分子层。这些分子具有亲水头和疏水尾。它们聚集在一起形成膜,也是一个纯粹的物理过程,类似于肥皂泡。如果这些分子分散在水中,在特定温度和浓度下,它们会自发组装成这种漂亮的表面。原因不是它们彼此粘附——实际上它们在膜平面内是完全滑溜的,像二维液体一样几乎没有摩擦力——而是因为这种构型最小化了这些分子与周围水环境组合的自由能(free energy)。它们是两亲性的,一部分与水相互作用,一部分不相互作用。通过形成双层膜,它们将疏水尾部藏在内部,亲水头部朝向水,从而减少了对水分子自身相互作用(水分子希望彼此粘附)的干扰。如果它们自由分散,会对水分子间的氢键网络造成更大的破坏。所以,通过形成膜,它们最小化了系统的自由能。人们有时说这是熵驱动的(entropic),当然,因为当你写出完整模型时,温度和熵项 包含在自由能 中,所以最小化自由能当然涉及熵。
这是一个非常值得注意的过程,数学上也很有趣。这些表面通常满足一些漂亮的微分方程。例如,红细胞膜被认为具有在给定面积和包围体积下最小的弯曲能量(bending energy)。这在红细胞那种独特的双凹圆盘形状(biconcave disc shape)中可以看到,这种形状是旋转对称的。红细胞是非常特殊的细胞,它们没有细胞核,没有DNA,所以不是严格意义上的“细胞”。但它们的形状被认为最小化了曲率平方的积分 (是平均曲率)。据我所知,这个数学问题(对于这种特定形状是最小值)尚未被严格证明,尽管研究者声称证明了(但通常是在假设旋转对称性的前提下)。在高维空间中,这个问题也很有意义,并且引出了非常有趣的数学。
通常你看待极小曲面时,它们是静态的实体,相应的微积分、变分看起来是分析连续扰动。但真实的膜是随机热涨落的(stochastic),它们可以破裂、融合,拓扑结构不是固定的,它们在呼吸。它们可能在纳秒(nanosecond)尺度上改变形状。但它们仍然在某种意义上最小化某个量。建立这样一个包含温度和随机性的数学模型将非常有趣,这远比通常的极小曲面理论复杂,具有更丰富的结构。这对于理解这类偏微分方程可能至关重要,它们具有随机(stochastic)解释。膜的厚度大约是3纳米。相对于细胞的大小,这就像飞机的蒙皮相对于飞机本身一样薄。
2. 酶催化化学反应(Enzyme Catalysis)
第二类过程与强键(共价键)相关,即化学反应。例如,我们呼吸,氧气进入肺部,氧化葡萄糖。这是一个化学过程,但它以一种非常特殊的方式进行,不是燃烧,我们不会爆炸。一切都被某些酶(enzyme)控制着。这是一种酶驱动的化学(enzyme-driven chemistry),酶是催化剂(catalyst)。
酶是特定的蛋白质,它们控制并加速各种化学反应的速率。我之前提到过一个最快的反应,是过氧化氢酶(catalase)。当你把它扔进过氧化氢()溶液中,你会立刻看到氧气()冒出来。它将反应速率提高了许多数量级。但即使这样,这个反应的速率实际上也是在微秒量级,也许是十分之一微秒。这是最快的酶之一。有时你会看到文献说酶将反应速率提高了 倍,但这通常是因为你在与一个极其缓慢的自发反应(可能需要数百万年)作比较。所以,即使提高了这么多倍,反应速率也不会超过某个物理极限,比如微秒级。仍然有很慢的酶。世界上最重要的酶之一是Rubisco,它利用光合作用从空气中(实际上是从)合成葡萄糖。它是地球上分布最广的蛋白质。它的反应速率非常慢,我记得大约是每秒10个分子。部分原因可能是它经常被氧气“毒害”。这是世界上发生的主要过程之一,我们仍未完全理解它如何工作。但如果它停止工作,我们很快就会饿死。
那么,酶是如何加速反应的呢?到底发生了什么?这里有一张图,摘自一本书。
我们有一个过程,假设从状态A到状态B。所有自发过程当然都是能量“下坡”的,我们总是消耗能量或释放能量(放热反应,exothermic)。当然,如果你加入燃料,也可以是吸热的(endothermic),但全局来看,能量总是降低的。但是,通常存在一个障碍,你必须越过这个障碍,即活化能垒(activation barrier)。
问: (Gromov提问)我必须说,我不理解为什么这个能垒会存在。也许你能解释一下?你有一个分子,它处于某个量子态,肯定是量子系统。然后它不是处于最低能量状态。是什么让它保持在那里?这不是基本的量子力学(电子动力学)吗?因为当你能量下降时,有东西燃烧,能量释放出去,比如光子出去了。所以这是费曼图的第一步,一级近似。我听说过这些词,但我不懂。你能用简单的话解释一下是什么让它停留在那里,而不是最低能量状态吗?量子系统倾向于处于最低能量状态,但它不是。它可能自发地去到那里。实验上测量这个能垒似乎是清楚的,你可以做实验并解释结果为活化能垒的高度。但实际上,物理上,为什么它在那里?为什么一个简单的量子系统,比如这个 分子,是什么让它保持在这个非最低能量状态?最低能量是 和 。是什么让它停在那里?它怎么能在那里?这必须理解基础物理,而我没能在文献中找到任何解释。
答: (观众,可能是物理学家)它不是处于最低能量态,而是处于一个中间构象态。
问: 但我们有某种构象……但无论如何,它是一个量子系统,它可能是某个子系统的能量最小值,但能量……
答: (观众)他们说的能量当然不是包含电磁场在内的总能量,电磁场也是量子的,量子电磁场。有粒子,有光子,有光子场(电磁场)。这个光子场不是稳态的。因为它由麦克斯韦方程定义,而麦克斯韦方程本质上涉及时间,不像薛定谔方程(时间演化算符)。因此,它不是……薛定谔方程是微扰……你写一些微扰公式,但我不明白在你写公式之前,它们意味着什么。这是一个量子系统,你有质子、电子。它不是最低能量态,因为涉及到光子。那么,那里的哈密顿量是什么?是最小化了还是没有?它也必须包含这个……但你当然不会看整个量子场,只是某种近似。无论如何,我乐于看到这种近似,但哈密顿量是什么?从来没写出来。
问: (观众)是什么让它停在那里?在量子力学中是什么创造了能垒?
答: (观众)让它停留下来的原因是,量子力学上,你总是可以隧穿(tunnel)过势垒内部,但这个概率是指数级小的。是的,如果势垒比……
问: 但为什么势垒会出现?势垒在哪里?在量子力学中,这是一个线性算符。当这个线性算符……
答: (观众)不,这只是意味着……波函数……当你进入禁区时,你是指数衰减的,而不是像波一样振荡。例如,电子当它处于允许区域时,它的波函数是振荡的,像余弦函数。如果一个电子必须穿过一个势垒,波函数就变成……
问: 不,为什么会有势垒?为什么会有势垒?你看,我们有一个抽象的线性算符,在希尔伯特空间中,有一个线性算符,势垒在哪里?
答: (观众)但势垒是势能(potential)的一种形式。如果我们……在势能中……如果你只看普通的薛定谔方程,你可以放一个势垒进去。
问: 不,但势能是电磁场的势能,是的。那里没有……没有势垒。有所有这些……的库仑相互作用。
答: (观众)不,那里没有势垒。
问: (观众)不,但是有原子核,所以它们创造了场的某种构型,可能存在一些特定于这些分子的势垒。
问: 所以,所以你说在电磁场中存在一个势垒?在任何光子来之前?
答: (观众)是的,因为为了……你必须……在电磁场中,当然是量子化的电磁场,但是库仑场你不需要量子化它。
问: (观众)不,电荷之间的库仑力。
问: 但这是什么?我明白有场,有电荷,但从量子力学角度看,有一些公理,说你总是处于某个本征函数上,最低能量的函数上。这种数学东西的物理解释是什么?我可以想象存在数学,但物理解释是什么?我们如何从算符的量子描述过渡到真实世界的图像?这是我不理解的。
答: (观众)但它不一定处于最低量子态。这取决于……它可以处于其他状态。是的,这取决于……
问: 但你知道,在量子力学的世界里,我们忘记了它从哪里来。你拥有的是算符和它的谱。所以你说,啊,你坐落在这个本征值上,这是低能量值。那么,势垒从哪里来?势垒从哪里来?
答: (观众)不,但在薛定谔方程中,你有……
问: 不,对于……我已经有了算符,量子场,有算符。
答: (观众)是动能项 加上一个势能 。如果这个势能具有这种形状(指有势垒的形状),那么你就有了近似稳态,它们位于势垒内部。就像你有一个碗,把粒子放在中间。薛定谔方程是一个好的近似,这些状态将是亚稳态的(metastable),它们会隧穿过壁垒。所以,这里的势能是由库仑相互作用产生的。
问: 所以这个库仑相互作用创造了这个势垒?
答: (观众)我想是的。因为你不需要在壳(on-shell)光子来实现这个。
问: 但你怎么知道?我有这个分子,看,我有这个分子,我知道它如何……从那里我可以计算出这个势垒?是这个分子的形状还是什么?
答: (观众)我认为是分子的形状。对于不同的分子,你会得到不同形状的库仑场,其中一些可能具有这种(势垒)形状。
问: 好的,所以是库仑场的形状为特定分子创造了一个势垒?
答: (观众)是的。你取一定数量的电荷,然后……
问: “分子的形状”是什么意思?
答: (观众)对不起,是这里的距离。是的,就是原子核之间的距离。计算原子核产生的库仑势。所以你固定原子核,然后计算相对于它们的库仑势。
问: (观众)固定空间中的位置,计算所有电荷之间的 势能,然后探索所有可能的构型,比如它们靠得很近,或者其中一个离得很远。这给出了一个势能景观(landscape),作为这个几何形状的函数。
问: 所以这是一个经典的图像?
答: (观众)经典的势能图像。是的。在玻恩-奥本海默(Born-Oppenheimer)近似中,你可以开始做这种计算。
问: 是的,我知道在这个近似下。然后你说,现在我量子化这个系统,我说我的东西变成……
答: (观众)不,不,甚至在量子化之前,你说这个形状实际上是势能的经典形状。问题是你如何……好的,好的,我明白了。不,这……好的。好的。所以它取决于原子核之间的位置。是的。好的,好的。
问: 好的,那么我们可以忘记量子力学,一切都很好……
答: (观众)Misha,但你确定这个分子()能稳定存在吗?我认为如果它在纯净条件下,它根本不稳定。它是在被水稀释时才稳定成这种形状的。因为与……的交流……
答: (Gromov反驳)不,不,不。没有水它也是稳定的。不,它不稳定?不,不,不。如果你拿纯的……我们只是抽象地讨论这个。如果你在常温下拿它,它会立刻自己……不,不,不。大多数分子都以亚稳态存在,我们都是由亚稳态分子构成的。它只在……不,不,不。势垒让它稳定。对于这个特定的分子,这个势垒大约是每摩尔50千卡路里。这个分子非常稳定。水在这个阶段与此无关。不,不,不。恰恰相反,水可能会让它不稳定,因为水中有一些运动足够快的分子,它们有足够的能量来“杀死”它,它们可以贡献能量,然后它就进入了稳定状态。不,不,不。当然,存在依赖于温度。实际上,你如何测量它?当你实际看化学测量时,你看它在什么温度开始反应。你升高温度,看它如何反应,然后你将其解释为势垒。但这种图像可能具有欺骗性,也许不是能量势垒,而是别的东西。我们稍后会讨论这个。
从我们进入经典图像的那一刻起,一切都清楚了。我没有完全意识到这个势垒指的是经典势场。因为它当然是一个量子过程,这个隧穿过程,我们不知道它有多相关。在酶学中有一个大讨论:隧穿是否至关重要?现在有很多文章说它至关重要,但也有人不同意。
现在让我们更仔细地看看。那么它是如何发生的呢?你无论如何都有这个势垒。你需要一定的能量才能过去。你需要一些在水中快速移动的粒子。但它们很少来,你必须等待很长时间才能等到一个。如果你对水有足够好的理解(实际上我也不知道如何理解:水中速度的涨落是怎样的?空气中很清楚,麦克斯韦分布如何工作。水中不清楚,涨落如何?需要等待多久才能有一个足够快的水分子,其能量足以越过某个特定的势垒?),你可以计算出来。因为,你看,我从未见过这个计算。计算这个势垒的形状(基于电磁场)是初等的东西,不是薛定谔方程。但我从未在任何我看过的论文中看到它被实际计算出来。
但就算承认这一点,至少在概念上变得清晰了。但有趣的一点是,它怎么可能发生?你有一些其他分子(酶),你越过了势垒。这怎么可能?你加入的酶分子,这个蛋白质分子,它自身的内能可以忽略不计,就几个 。蛋白质是相当软的东西。你手里拿着一块石头,你无法用手捏碎它,那能量要大得多,尤其是在亲和力和时间尺度上。这怎么发生的?
然后我读到一些东西,我无法理解,但现在我想我可以解释它了。这个想法可以追溯到霍尔丹(Haldane),然后到泡林(Pauling)。他们说,啊哈,存在某个中间状态(intermediate state)。当你从一个分子变成另一个分子时,存在某个中间状态。它可能是虚拟的,不是实际存在的东西,但它是某个中间状态。这不是一步过程,而是多步过程。而你的蛋白质具有这样的形状,它能结合……它的形状使得它能粘附到这个特定的(中间状态)分子上。
在我们讨论这个之前,有两种情况。我们先看另一个更清晰的例子。例如,我们如何在室温下强制氢气在氧气中燃烧?实际上,艾萨克·阿西莫夫(Isaac Asimov)有一篇关于此的精彩侦探科幻故事。如果你把氢气和氧气的混合物放在这里,保持平衡,打开它,什么也不会发生。但如果你引入铂(platinum),特别是如果它充分分散(比如铂黑),那么它就会燃烧。铂催化了这个反应。实际上对于其他过程,不仅是铂,许多金属都这样做。顺便说一句,地球上和工业中使用的基本化学过程是:从空气中固定氮气用于化肥。这是使用某些催化剂完成的,现在用的是铁。总之,金属吸附不同气体的分子,例如氧气和氢气,并将它们拉近。这是一种弱相互作用,它们粘在一起。所以这意味着,几何上,某种势阱将它们吸引到一起。存在一个它们聚集的区域,它们在这个区域内移动,因为受到弱吸引力的梯度驱动。由于密度急剧增加,它们以足够的速度相互碰撞以克服势垒的概率大大增加(原文:far smaller? 应为far greater或time far smaller),于是开始燃烧。这样你就可以在没有火柴的情况下让它们燃烧。我不确定这是否在空气中发生,也许甚至在空气中,不一定在纯氧中,氢气也会燃烧。
这很清楚。你没有改变能量图景,你改变了熵(entropy),对吧?你把它们聚集在一起,这不需要任何能量。就像你有一把钥匙,你可以修改它。你有一把形状错误的钥匙,现在调整它,你就能打开锁。或者,如果你在信息层面上而不是物理层面上操作,你实际上可以有一个数字锁,如果你知道正确的数字,你按下它们。这当然在物理上无法解释:为什么你有锁上的特定数字,你输入它们,然后锁就开了?你用知识创造了一个物理过程。这太不可思议了,对吧?这不应该发生。这是魔法,对吧?我们如何物理解释:你有一个物理过程——开门,而你用对某个数字的知识来完成它?这个数字先验地与任何物理都无关,然后你打开了门。这是不可能的。这是魔法。它发生了。这就是生命。这就是为什么生命无法用物理术语解释。因为它是魔法,是信息。从数学上解开这个谜团是相当有趣的。数学上发生了什么?我们稍后会谈到。
现在让我们回到酶,因为我认为当我理解了一些东西时,我感到非常高兴。那么,你有了这个(反应坐标图)。现在当你加入一些蛋白质时,发生了什么?你给这个图景加入了新的参数。当然,首先,即使是这个一维图像也是骗人的。这是一个高维空间,有很多参数。然后存在一个势能的“山脉”,这个山脉形状复杂,它的高度是多少,路径在哪里,都非常不清楚。如果你有一个多维山脉,山的“高度”是什么?你无法测量它。你只能做统计测量,你看越过这个势垒的概率如何依赖于温度,我想实验上就是这么做的(阿伦尼乌斯公式,Arrhenius formula)。你看到某个温度下过程开始的概率。
但无论如何,假装这是一维的。现在你加入了新的坐标。所以,是的,一切都分布在许多维度上。然后你稍微扰动了它,因为你加入了新的能量(相互作用能),但你的扰动非常小,对吧?这个蛋白质里没有能量,里面没有弹簧之类的。所以你稍微改变了它。为什么这个微小的改变能极大地加速反应?因为它只改变了一点点。
那么你能做什么呢?例如,在这种情况下。你原来有这样的图像(画一个高势垒),然后下降。你稍微改变它,让它变成这样(画一个略低的势垒)。我理解的是,你可以这样做(再画一个,势垒顶部被“削平”或出现小凹陷)。这是原来的,你做了一点改变,让它变成这样。然后反应可能会快得多。答案是,它当然会更快,但仍然慢得令人难以置信。它最多只能达到酶工作的微秒或毫秒尺度。当你读到 倍加速时,这让我很困惑。它之所以能将反应速度提高这么多,是因为你拿它与以年或百万年为单位的自发速率相比,它变得非常快。但在秒的尺度上,它仍然很慢。它仍然发生在分子碰撞的尺度上。
但进入这种量子世界的化学反应,它们的速度可以达到飞秒(femtosecond)量级,可能快一百万倍,或者至少快一千倍。所以这个中间态,如果它们存在,它们可能只存在皮秒(picosecond)然后就消失了。
但是现在,发生了什么?我的理解是(同样,我从未在教科书中读到过,但也许是因为每个人都知道,所以才不说?我记得我刚到法国时,问一些关于语音学的问题,他们说“这从不写在教科书里,好吗?每个人都知道。”那你为什么问?当然不会写出来。同样,物理学家显然知道这个,所以他们从不说。而生物学家我猜不知道,所以他们因此也不写。于是这里就成了一片空白。)
你需要一定的能量从一个状态到另一个状态。但是你只有相对较慢的分子,它们帮不了你多少。然后你说,好吧,有两个慢分子(同时撞击)可能与一个快分子概率相同。但只有当它们同时到达时才行。但这里存在巨大的时间尺度差异。分子以微秒的速率碰撞。而你认为先验存在的中间态只存在皮秒量级。但是,如果你有酶,当你(底物)与酶结合时,这个中间态会保持得更久一点。它不再只存活1皮秒,现在可以存活1微秒。然后第二个(提供能量的)分子来了,又一个来了。即使需要10个这样的分子(逐步提供能量),总时间尺度仍然是微秒级。它只是乘以因子10,而不是 。如果它们需要同步到达,时间会按 增加。但在这里,只乘以10。所以它只比微秒(碰撞速率)慢一点点。它仍然... 所以你达到的最大速度恰好就是碰撞速率。这就是我理解的最快酶的最大速度。但我不确定我理解得对不对,因为我从未见过写出来的。但这似乎是显而易见的解释,对吧?
所以,化学反应中存在非常不同的时间尺度是至关重要的。化学步骤本身可能快至飞秒,通常我认为皮秒是正确的时间尺度,无论如何纳秒内一切都发生了(十亿分之一秒)。然后是微秒级的扩散速率,细胞内所有这些分子的碰撞速率。然后一切都汇聚到同一个尺度上。这就是我对中间态以及所有关于中间态讨论的理解。这是一个解释。
纯粹从几何角度描述这一点会很有趣。我描述的当然……没有人展示过这个能量图景,他们只是说存在中间态。在某些情况下,甚至对于氢气和氧气的燃烧,已知存在中间态,大约有一千个中间体,有一些实验数据支持。它们当然都寿命极短,纳秒或皮秒级。你读所有这些文章,但没有一篇给你完整的图景,因为很多是未知的,是假设的。
而且,例如这个能量势垒,可能这个势垒是零。没有势垒。可能纯粹是熵的原因。因为你可能有一堵墙,墙上有一个狭窄的通道,但它太窄了,以至于从熵的角度来看,通过它的可能性非常小。这是酶可能做的另一件事:它可能只是改变了通道。就像它在催化合成时把两个分子拉到一起一样。它也可以在那里这样做,只是定位。如果你有一个需要解开三个部件的智力玩具,你知道这非常困难,除非你知道诀窍,否则你做不到。而蛋白质知道诀窍,通过定位,使得随机运动有更高的机会解开它们。这种情况是否发生,你需要更好地理解这些分子的几何形状,并想象发生了什么。我相信这是未知的,这种几何学还没有被任何人完成过,原则上。所以我们可以验证它。但这是可能发生的另一种可能性。书里也说了,它可能改变,可能找到不同的路径。无论这意味着什么,是否可能,对我来说不清楚。所以这取决于可能的形状,如果我理解你(指观众)说的正确,这只是电磁势的形状,你可以分析这个形状。这是初等的数学,只是计算上困难,但数学上相当容易。
问: (观众)不,但我应该纠正一点,一旦你有了这些,你就有了共价键。是的。所以这意味着你从几何位置开始。是的。但随后你需要解电子的薛定谔方程,这给出了共价键。所以它们给出了一个结合能,这个结合能贡献给了几何构型的势能。好的。所以势能有一部分是经典的,加上量子力学的解。好的。然后这就是分子的势能景观。
答: (Gromov)好的。我们只是把……动能……积分掉……
问: (观众)算符……
答: (Gromov)不,但是我们有电子的轨道……
问: (观众)不,但是加上算符,看看谱如何表现。
答: (观众)但是你有轻粒子(电子)和重粒子(原子核)。好的。重粒子就是你在这里看到的H、O。好的。然后当你……
答: (Gromov)我明白了,我明白了,我明白了。哦,是的。你必须找到正确的位置。是的,几何。是的,是的,当然。解……但取决于距离……是的。
问: (观众)而这个解给出了一个势能,现在是对于空间位置的。这给出了景观。这近似地给出了这个势垒。
答: (Gromov)是的,我同意,我同意。但仍然需要调整距离。但无论如何,你可以想象可能存在这种狭窄的通道。是的。特别是当你加入更多(分子时),因为你加入了这个额外的(酶)分子,它们在那里有相当显著的电场,当然这个电场扭曲了原来的图像,可能会创造出这个(通道),也可能不会。这个景观能有多复杂?因为主要成分仍然是……现在只是求和,是库仑势的和。
然后还有第三种解释。实际上书里说……力?不,我说过会有……所以一个是这个场的扭曲,通常……你看,关键是他们在大多数文献里重复同样的事情,复制粘贴,复制粘贴。他们重复同样的事情,显然作者不知道他们在说什么,因为他们在重复。你知道,有一个原理,如果某件事被重复,每个人都知道,我忘了他是怎么说的,“那一定是胡说八道”。如果你提到“哦,每个人都知道那个”,那按定义就一定是胡说八道。他用更……更英式英语的风格说的更……更地道。但根据我的理解,大多数写这些东西的人,尤其是在网上未经修改的,确实在不断重复。
但因为几何确实……在那里可能发生一些高度非平凡的几何现象,我认为这还没有被分析过。第三点是,可能发生的是……对这个(加速)有贡献的是蛋白质内部的振动(vibration)。当你有一个像蛋白质这样的分子时,它当然一直在振动,而且振动尺度相当快,可能甚至比……振动速率可能在皮秒尺度,而不是微秒尺度。因为它是蛋白质,分子间有共价键在振动,还有弱相互作用,但能量仍然略高,略高于 水平。所以蛋白质在振动。然后它坐落在一个分子浴中。总能量只是……但它的振动比微秒尺度快得多。那里的某些快速运动的原子的涨落,会比周围水中的涨落更频繁。因为时间尺度不同,快10倍或1000倍。它的振动比水中分子的碰撞速率快1000倍。因此,出现快速运动的涨落也会快1000倍。因此,在那里有一个分子运动得非常快的概率,比在水中要高。这在……例如在金属中是正确的吗?是的。原子振动比空气中的碰撞速率快得多。因此,涨落的概率相应地快得多。所以在高斯分布中出现病态快速运动的概率,在这里每单位时间要高得多得多。当然,它移动的距离要小得多,因为速度大致相同,但位移相应地更小。问题是,即使是这么小的位移,是否足以撞击到你分子中正确的位置,并产生越过势垒的过程?同样,我不……人们用各种词语说这些,但我认为没有任何令人信服的论证证明它是真的。你需要多靠近特定的电子、电场或其他什么,才能实际产生这个量子跳跃,量子势垒,量子力学步骤,然后光子出去?所以这真的是量子力学。你必须比我更懂才能理解。我没能找到相关资料。
但无论如何,这是一种可能性。纯粹经典地,你可以想象这个模型被发展起来。纯粹有趣的数学。
所以有三种不同的现象。纯粹几何的,这可能发生在这里,你必须用量子力学来解释它们,但没有一个被以任何精确度进行过数学研究,来检验它是否符合你可以做的真实测量。但即使在理论上,也不是那么清楚。
所以,一个是,你创造了中间体,所以你只是改变了这个尺度,你产生了小波浪,所以几次撞击就能完成。另一个是,你在蛋白质中有振动。第三个是,你改变了……所以我说了三个:蛋白质振动,改变这个(势垒形状/通道),和中间态。以及,蛋白质在那里的电场也产生了影响。所有这些都被提及了,大概是说“这可能发生”。唯一被明确研究过的是中间态的存在。并非总是存在,他们说有时有中间态,有时没有。那么(没有中间态时)发生什么就不清楚了。
但我的理解是,人们仍然承认他们不完全理解那里发生了什么,酶是如何工作的。而这至关重要。当你开始理解这一点时,它可能对工业至关重要,因为非常多的工业依赖于使用酶,比如你喝的酸奶、啤酒或葡萄酒,所有这些都是由特定的酶完成的。现在酶是人工合成的,通常利用细菌或其他东西,当然不是直接合成。
这就是关于酶的故事,一个非常肤浅的故事,有大量关于此的文献,我试图读一些,但有点迷失了。
3. 分子马达(Motor Proteins)
除了自组装和酶催化化学反应,还有分子马达。特别是在,比如说,转录过程中,RNA聚合酶是一个巨大的分子机器,涉及几个酶。它沿着DNA移动并进行合成。但“沿着移动”是另一个过程。这在细胞中一直发生,当你有一个分子相对于另一个分子的运动,并且是强制运动。你一步一步地走,利用弱相互作用粘附。但实现定向的步骤,弱相互作用本身不提供能量,它是对称的,你可以往这边走,也可以往那边走。但要确定一个方向,你必须花费能量,对吧?要做任何确定的事情,你都必须花费能量。没有能量,一切都是完全时间对称和空间对称的,对吧?这是物理学中完美的平衡。然后你必须使用能量。能量如何被使用有特定方式。
所以有三件基本的事情:自组装,分子合成(当然也有分子降解,这也很重要,但对合成蛋白质来说不那么核心),然后是移动的分子马达。
过程的相互关联
这三者都相互依赖,它们都相互连接。一切都取决于事物完成的顺序和时间尺度。所以这是一个极其复杂和混乱的事情。
三、 信息、复杂性与复制
让我谈谈一个鸡蛋(egg)。再次,从物理角度来看,我们看一个鸡蛋。我们有一个相当均匀、无定形的物质。它不完全均匀,但基本上是均匀的。然后你只是把它保持在合适的温度下,我想大约是30……我忘了合适的温度是多少,大约20、25摄氏度左右。然后三周后,一只小鸡(chick)就出来了。这怎么可能呢?
如果你对这个鸡蛋的任何样本进行烘烤,你会得到……除了微小的(不均匀),它是完全均匀且相当无定形的。那么我们有……我想我上次已经提到了一些,我想更详细地阐述一下。这怎么可能?是什么让它看起来不可能?为什么它又是可能的,尽管它看起来似乎不可能?
当然,首先想到的是,当你取样时,你错过了本质。所以,首先想象你的取样是有代表性的,就像你在任何地方做的那样。当然,有数十亿个细胞,你取了一百万个样本,它们看起来都或多或少……你试了一百万次,它们都一样。所以你假设它们都一样,对吧?这是科学的主要原则,对吧?如果你测量、测量、测量了数百万次,从十亿个中取样,它们都相等,那么它们必定都相等。为什么?实际上,相等是一种非常罕见的现象。所以如果你有一个你不期望发生的罕见现象发生了,你说它总是发生。这基本上是人类知识的原则,对吧?
但在这里它行不通。所以生物学是不合逻辑的,基本的逻辑科学在这里不适用。因为有一个特定的细胞是特殊的,这一个细胞是一切的来源,对吧?这就是……想象一下在物理学中你这样做,你看这里的原子,这里的原子,都一样。不,但有一个是特殊的。而这个特殊的决定了……非常非常奇怪。
但这就是……所以首先,如果你相信物理学,相信通常的科学逻辑,这永远不会发生。它不可能在合理的时间内转化。合理的意思是,可能需要一百万年,但不是 年。所以它不能转变成任何结构化的东西。而且,当然,你知道,能量上没有任何问题,一切都对。因为鸡蛋发育时会产生热量,所以熵增加了,一切都很好。
但仍然有两件事发生了,它们密切相关:对称性的破缺(break of symmetry),以及复杂性的增加(increase in complexity)。所以,天真地、也相当合理地,你会预期这两者都不会发生。你有一个对称的东西,然后你继续……对称……生命……物理学的基本定律是对称的,对称性不能被打破。这部分与熵必须增加的事实有关,因为(均匀状态)是高对称性。而且你相信,在时间中存在某种平均化,当有足够的随机性时,这当然会增加熵。出于同样的原因,你不能有结构。但你不知道结构到底意味着什么。但复杂性肯定增加了。
那么,复杂性(complexity)是什么?同样,这是本质部分。每个人都说,生命的结构比非生命的东西更复杂(complicated and complex),同时更有规律(regular)。再说一遍,当你说这些词的时候,你必须知道你的意思。
这里的复杂性,数学上,是柯尔莫哥洛夫复杂性(Kolmogorov complexity)的一种推广或变体,尽管你必须小心如何精确定义它。因为柯尔莫哥洛夫复杂性是一个纯粹的离散概念,应用于离散结构,比如0和1的离散序列,这是典型情况。这样一个字符串的复杂性是,在特定类型的计算机(图灵机)上,能够生成该序列的程序的最短长度。是的,是最小值,绝对是最小值。这是最小可能的东西。这是一个非常低效的定义,它是不可计算的(incomputable),原则上可以证明它在逻辑上是不可计算的实体。因为这个程序可能极其长,我们不知道多长……不,是程序运行的时间可能非常长。程序可能很短,但运行时间可能非常非常长,甚至可能是关于输入的不可计算函数。因此,在现实生活中,你永远不会遇到这种情况。这是一点。
从这个角度来看,最复杂的序列是随机序列。你取一个真正随机的序列,无法缩短它,没有办法让它更短。只有当存在某种隐藏的周期性,序列的某部分与另一部分相似时,才可能缩短,你可以编码这种相似性,从而使它变短。这就是你处理语言时所做的。顺便说一句,没人知道,我的意思是人们谈论过,人类语言的实际复杂性是多少?它能被压缩多少?实际上,香农(Shannon)做过他的实验,关于语言的熵,然后柯尔莫哥洛夫(Kolmogorov)重复了它。人类语言的熵是多少?你能扔掉多少信息,然后仍然能猜出那里有什么?人工智能和文本分析在多大程度上遵循了这些步骤?看你能填补语言中多少空白?
问: 你是指给定文本的复杂性,还是作为抽象概念的语言的复杂性?
答: 给定文本,是的,给定字符串。有趣的是,我记得我实际上在场听过柯尔莫哥洛夫的讲座,他当时就在讲这个。至少在俄语中,如果你比较高度组织的俄语诗歌,或者你拿一些报纸上的东西(在我看来完全是算法化的俄语报纸),然后是与普通人的对话,熵最高的是诗歌。填补诗歌中的空白要困难得多。熵最低的是对话,人们总是说差不多同样的话,“你好吗?”“你好吗?”等等。当然,这是在非常短的时间间隔内。在长尺度上会发生什么?
我们确实知道的是,某些特定文学作品的文本之间可能存在深层相似性。比如,学习莎士比亚的演员随后会很快学会莫里哀。这很常见。但如果他们面对技术文本,记忆就必须重新开始。对我们来说也是,我们可以轻易记住数学片段,因为我们适应了它。同样,你知道,对于国际象棋对局,特别明显的是,象棋大师能立刻记住正在进行的棋局。但如果给他们看随机摆放的棋子,他们就记不住了。顺便说一句,一位专业钢琴家告诉我,钢琴家从不在音乐会上演奏最后的作品,因为他们记不住。为什么?记住很容易啊,对吧?是的,这里确实存在……这是一种……那里隐藏的结构是什么?可能更多地与我们的思维有关,而不是结构本身或其他什么。但我们不知道。但这绝对是有趣的历史在这里不断出现。
回到鸡蛋,回到小鸡。所以,那里发生的一件事是,存在这个鸡的合子(zygote)。顺便说一句,它不是一个完整的分子,但它有很多……你知道,比我们有更多的染色体,出于某种原因,鸟类有更多的染色体。但这并非偶然,仍然是合理的小数目。所有其他基本分子都以多得多的拷贝数出现。
这又是生命结构的一个典型特征。特别是如果你看一些非常形式化的东西,比如细菌的基因组。在某个环境中,你有大量的细菌,它们都拥有真正相同的序列。它们有一个长度大约一百万的(二进制)序列,它以千万亿(quadrillion)的拷贝数出现。即使在千万亿拷贝中,我想也会有一些……你知道,十亿分之一可能会有突变。是的。我的理解是校正率大概是那样的。我认为是十亿分之一,如果有适当的校正。但无论如何,它们基本上是相同的序列,重复了很多很多次。这从任何物理角度看都是绝对不可能的。但无论如何,它发生了。
但是,DNA拷贝的数量……连接拷贝的数量并不多。它们每个可能出现两到四次。有两对(同源染色体),然后是来自另一个(亲本)的。所以同一个序列基本上出现四次,为了保持它,最小化错误。但即使是连通性也相当高。我们有……我忘了,大约17对还是多少染色体,鸡有更多。
但另一方面,鸡体内的部件(细胞)数量要大得多,肯定达到数十亿。它们之间的相互位置……所以完整的信息量是巨大的。但它只被编码在这个DNA上,其大小与我们的相当,大约二十亿个字母。
这使得我们的细胞成为可能。这告诉你一些关于我们复杂性的事情。这个基因组的大小给出了我们复杂性的上限。但是,在什么意义上呢?当然,描述这个结构需要的信息远不止这些。但这个结构的大部分是噪音,只是一些随机的东西,这不受DNA控制,还有许多随机影响。这变成了……因为这是“先天与后天”(nature versus nurture)的大讨论:是什么决定了我们自己?对于所有这些随机的东西,他们说这是“后天”,它不在DNA中。当然,一切都在DNA中,然后有随机噪音。
然后你必须相应地修改柯尔莫哥洛夫复杂性。说,啊哈,你……有几种说法,但我从未见过它被真正系统地阐述过。有一些这类文章,但不够系统。一方面,你说你编码的不是你的序列本身(你的身体,你的组织),而是描述它的某个随机定律。但当我说随机定律(random law)时,是的,这是一个棘手的数学对象。它是某个空间上的某个测度,无论它是什么。这与我们通常谈论复杂性时的情况不完全一样。或者你可以说,你有一个图灵机,但也允许你使用随机数生成器。那么使用这个随机数生成器,程序会有多长?但是,当然,实现这一切的机器……在生物学中,这台机器,我会说,是受控的自组装。
你有一个写在DNA里的程序。遵循这个程序,制造出一系列蛋白质。然后砰砰砰,你把它们扔出去,它们就自组装了。自组装就是你的机器。但我们不知道它是如何工作的。我的意思是,原则上,我认为这种物理学原则上是已知的。但要做任何实际计算,我们跟不上,这是不可能的,对吧?这绝对超出了任何计算可能性。你必须以某种方式绕过它,找到绕过它的方法。但这再次使这门数学变得相当有趣。
如果你观察它的逻辑,非常复杂有趣的逻辑。有逻辑步骤。我之前没有说的一个,我想强调一下。有化学过程,有自组装,还有马达蛋白。所以在细胞中一直发生的是一个分子相对于另一个分子的运动,并且是强制运动。你一步一步地走,利用弱相互作用粘附,但要实现定向的步骤……弱相互作用本身不提供能量,它是对称的,你可以往这边走,也可以往那边走。但要确定一个方向,你必须花费能量,对吧?要做任何确定的事情,你都必须花费能量。没有能量,一切都是完全时间对称和空间对称的,对吧?这是物理学中完美的平衡。然后你必须使用能量。能量如何被使用有特定方式。
所以有三件基本的事情:自组装,分子合成(当然也有分子降解,这也很重要,但对合成蛋白质来说不那么核心),然后是移动的马达蛋白。它们都相互依赖,它们都相互连接。一切都取决于事物完成的顺序和时间尺度。所以这是一个极其复杂和混乱的事情。
无论如何,一切都被写下来了,它是如何完成的。这其中的逻辑相当有趣。因为结果是,鸡可以产生另一只鸡,或者一个蛋产生另一个蛋,取决于你如何看待它。顺便说一句,是谁产生了谁?
这是自复制(self-replication)。冯·诺依曼(Von Neumann)在数学上对其进行了建模。有冯·诺依曼的自复制模型。这个时代……是的。所以我想说两句。这是一种自动机(automaton)。冯·诺依曼的第一个模型相当清晰,但更难形式化。你有一个有限自动机四处走动,收集一些部件,然后制造自己。然后他用细胞自动机(cellular automata)将其形式化。你必须形式化它,结果变成一团糟。你必须用精确的术语描述发生的一切。有一个描述,但不可能读懂,对吧?任何理解这个想法的人都可以做出他或她自己的形式化,但它是不可读的。在我看来,这是一种荒谬的活动。对数学家来说很清楚,你可以形式化它。但如果你开始逐点形式化,它将非常冗长和令人不快。
然而,生命并非那样运作。它的组织方式不是这样的。当然,对这个现象描述的主要观点是(这是在DNA被发现之前),这个自动机的一部分是一个程序(program),一串符号。并且有一些简单的操作,即给定任何描述某个自动机的字符串(用该自动机的语言),它可以产生这个自动机。这很简单,因为是通用的(universal),你不必非常特殊。这就像通用图灵机。有一种简单的自动机,读取某些东西,可以实现任何程序。因为涉及到这个程序,以及这个程序应用的程序……我必须再说一遍,这里有些东西在数学上不完全令人满意,因为描述图灵机的方式有些完全非标准(non-canonical)。它有点……不完全是数学化的。实际上,多伊奇(Deutsch)恰当地评论道,图リング机是描述产生计算的物理过程。然后受此启发,他说,现在拿量子力学来做同样的事情。是的,这就是量子计算机。量子计算机的来源之一确实是这个。这种描述和直觉是机械的。
数学上,我的理解是,原则上你无法定义什么是计算(computation)。没有令人满意的定义什么是计算或通用计算。我们可以有几个模型:递归函数、图灵机、马尔科夫的矩阵……我们可以产生数十亿个模型,它们都等价。再次,没人知道这里的“等价”是什么意思。你说它们等价,但这不是数学上的等价,它只是某种东西,对吧?当涉及到数理逻辑时,没有任何东西是严格的。只是大量的……大量的词语,假装它们非常严格,但通常它们是值得怀疑的。我认为这很矛盾,逻辑学本应是最逻辑的,但它却是最不逻辑的,是的,在所有科学中。
但无论如何,这里非常不同。是的。它的方式……没有一个单一的机器,没有一个自动机。有很多小机器,它们都非常相似(蛋白质、RNA等),还有一个基因(组),一切都写在那里。是的。所以冯·诺依曼的机器,一旦你有了这个东西,它可以复制任何东西,然后复制这个程序,所以它产生一切。它是通用计算机。你不能让它精确地产生自己,但它可以产生一切。
而细胞不完全是那样,顺便说一句。它们不是通用的。它们可以做很多事情,但不是所有事情。因为它们不仅能产生自己,还能产生病毒。所以你可以这样看它们:它们是能够复制病毒的机器。比如说,入侵细胞并迫使这个机器产生它们(病毒)的拷贝,而不是细胞自身的拷贝。当然,它们也能产生自己。但不是任何东西。是的。所以,再次,你不知道如何……这表明存在远比冯·诺依曼模型有趣得多的数学。冯·诺依曼模型涉及的逻辑相当原始。但在细胞实际复制中的逻辑要有趣得多。是的。而我们没有对此的数学描述。真正简单的、概念性的、描述这个过程的数学。
当然,一切都发生在随机环境中。所有步骤,比如对于酶,都依赖于布朗运动。有时你必须被某个分子撞击才能发生某事。比如扩散。如果你合成蛋白质,限速步骤是tRNA的扩散。tRNA分子携带一小段RNA(密码子)和对应的氨基酸,它们聚集在一起,核糖体的某部分在正确的tRNA到来时捕捉它。所以这取决于特定分子的密度分布。是的。所有这些随机噪音对细胞在每一刻的功能都至关重要。它进行选择,存在随机定律,然后有这个定律的实现,你从中选取合适的部分。这在生命中无处不在,在分子水平上,也在演化水平上:随机扰动和选择。再次,没有对此的数学形式化。我们说这些词,但数学上“选择”是什么?如果你思考这个直观的词,它意味着什么?你选择,选择什么?我知道这是生命中每时每刻、每毫秒在你细胞中发生的系统性事情,对吧?它在演化层面上发生。你生活中所做的一切都依赖于这种选择。但我相信没有数学家……没有关于什么是“选择”的抽象数学定义,对吧?我的理解是,它是一种区分……是概率定律和该定律实现之间的相互作用。这是两种不同的概率。
四、 演化动力学的数学视角
好的,现在来看下一部分。这是关于鸡蛋和……蛋。好的。
现在,还有另外两个方面,在生物学中数学是可见的。我的观点是,我们看到了某种有趣数学的痕迹,但我们不知道它,它没有被实现。
但现在数学以一种非常……的方式进入,是通过达尔文(Darwin)。在此之前,正如我所说,生物学上的基本发现是列文虎克(Leeuwenhoek)发现的微生物生命。我们确实做了一些全新的事情,是人们事先无法想象的。结构极其有组织的实体,非常美丽。人们开始理解它有多复杂。但另一方面,现在一些数学进来了,这就是达尔文。在我看来,他90%是数学家。他的生物学可以忽略不计,他对生物学的贡献是值得怀疑的,对吧?他所说的大部分生物学内容都是错的。但数学上他是对的。他强调了……他强调了种群的指数增长和其中大部分死亡是基本特征,这是你看待演化必须持有的视角。并非它解释了任何事情,而是这个视角。
问题在于,是达尔文还是其他人?因为……我立刻想引用一些话。是的。我看到了达尔文,但我刚才在说大象。是的。你知道,关于兔子物种数量的计算,是斐波那契(Fibonacci)在达尔文之前大约500年完成的。达尔文,这个更伟大的人,对大象做了同样的事情。然后理论就出现了,是的,演化论。而且他算错了。有趣的是,错误。什么样的错误?如果你计算,如果你看这个数字,你看……你得不到这些数字。是的。只是算术错了。原理是对的,是的。但算术……这很有趣。我读过他关于统计学的其他一些文章,忘了是关于某种疾病还是什么,他在计算中也犯了错误。但定性结论是对的。所以他似乎不关心细节。
如你所知,在他的演化图景中,一切基本上都是错的。但大方向是对的。但问题是,所有这些关于谁是第一人的有趣故事……玻尔兹曼(Boltzmann)对达尔文非常兴奋,因为他以一种机械的、逻辑的方式解释了真实生活。没有目的,只是随机的东西,然后那些你存活下来的被固定下来,然后你继续。但问题是这个想法有多原创?这就是我们能说的。当然,他观察了在这种情况下、那种情况下是如何发生的,重新解释了一切。你把“上帝创造的”替换掉,说“是选择完成的”,然后什么也没发生,只是同样的逻辑。所以这真的看起来像是,你把所有地方的“上帝”替换成“自然选择”,你就从旧生物学得到了新生物学。没什么大不了的。
时间点至关重要,因为宗教的影响非常强大,许多人基于此拒绝演化论。一个有趣的例子是,即使在19世纪初,人们还相信生命可以从无到有产生。比如从腐肉中可以产生苍蝇。原因是,许多寄生虫,比如生活在人体内的蠕虫,不可能……一定是一直被创造出来的。因为否则,如果它们从生命之初就存在,那么它们都会存在于亚当体内,亚当将不得不携带所有这些寄生虫。在亚当体内拥有所有可能种类的寄生虫,这并非很幸福的生活。这真的是被严肃讨论过的,不是玩笑。例如,布丰(Buffon)就不能大声说出他想说的许多事情。
特别是这个人,马修(Matthew),他写了一本书,在书中概述了演化论。他没有非常强调它,可能也是因为在那个时代,也许可以说出来,但不完全可以。他对达尔文的原创性非常怀疑。他当然相信自己是发现者。现代生物学家之间有这场有趣的讨论,一些人说达尔文是剽窃的,不是原创的,有马修,还有其他人。另一些人说,就是达尔文,就这样。这也很奇怪,正如我所说,所有这些都非常意识形态化,他们对此非常情绪化。是的。坚持达尔文是如此伟大,你不能批评他。或者相反,试图……试图说他有点……那……我认为两者可能都不是真的。达尔文当然是一个伟大的头脑,但这些想法在流传,他的原创性不清楚谁确切地发明了什么。
有趣的是,即使在现代,你说有拉马克主义(Lamarckism),有达尔文主义(Darwinism),然后比较它们。但在那个时候,达尔文和拉马克(Lamarck)之间没有区别。两人都相信获得性状(acquired traits)是被遗传的,会代代相传。是魏斯曼(Weismann)强调事实并非如此。然后我们知道,这个想法在现代被修正了,是的,表观遗传学(epigenetics)之类的事情。再次说,拉马克并非完全错误。整个要点是,即使某件事在生物学中发生,你永远不知道……它总是有时发生,它经常发生。所以人们争论,他们基于这种混淆,对不同概念的混淆。拉马克到底是什么意思?但是某物被遗传,或者以这种方式产生。
根据我的阅读理解,关于拉马克,人们知道的大部分信息来自居维叶(Cuvier)对他的评论,但那是讽刺性的。居维叶写了一些关于拉马克的讽刺文章,使他的陈述看起来荒谬。是的。因为居维叶反对演化的观点是,我们身体中有太多的平衡,不可能是通过小步骤产生的。我们仍然不完全理解这是如何发生的。因为我们生物体的结构与它们如何形成之间存在非常高的相关性,细节上我们仍然不理解。
其次,当从法语翻译成英语时,因为我认为是……我忘了拉马克实际用了哪个词。说像长颈鹿这样的动物,为了吃到食物,它伸长脖子,这种“想要”得到某物的欲望(desire)对它的身体产生了影响。这是一个完全合乎逻辑的想法,即心理压力,而不是运动本身,对身体有影响,这可能发生。他的想法相当正确,我的意思是不是荒谬的。它不对,但并非荒谬。然后它被翻译成英语时,我不太确定是怎么翻译的。所以这是混淆之一。达尔文总是强调拉马克对他没有影响,但他本质上只是……在他(拉马克)的步骤上推进了某些观点。是的。
所以,当然不清楚到底是什么来自什么。但实际上那里的数学是什么?关键在于,他提出了某种描述演化的数学方案。这个方案,数学上是这样的:
另一个要点当然是,所有关于演化的这些……或多或少,人们……近200年来的重大发现,古人已经知道了。我想这是常识,是的。根据泰特斯(Titus)所说。
所以这是模型。数学上我们有什么?从达尔文的角度来看,在有任何DNA概念之前,我们有我们的生物体。这些生物体由某些性状(traits)来表征。对达尔文来说,这些是数字,是实数,比如身高、体重、你知道的、味觉,我不知道是什么。有很多参数,我们不知道有多少,但可能数以百万计的不同参数。它们每个都可能取值,比如说从1到10,连续地。然后你有一个大立方体,是的, 是性状的数量,我们将它们归一化到单位立方体 中。所以你关心的是这个立方体中的点。你的性状数量由数字给出。至少我不认为达尔文明确这样说过,但如果你读他的著作,他确实指的是数字,因为它们是连续的。
然后在这个立方体内部,有某个……可能的性状组合,它们实际存在于……描述特定的生物体,对吧?所以我们用这种语言描述……这个向量,他们称之为……性状序列。这就是你。然后演化意味着你在这个立方体上移动。这就是达尔文的图景。
实际上这是一种随机行走(random walk)。你迈出一些步子。其中一些……存在死亡……如果你走出了某个你存活的区域,你就消失了。或者你回到了某个区域,那里的性状能让你成为一个可行的生物体。然后存在这个迈出一步的概率,性状如何改变。这就是达尔文的图景。这就是他知道的……他没有这么说,但这就是那里的图景。存在这个巨大的死亡事物的世界,内部有一个微小的、存活的东西(由这些参数定义),你在这里进行随机行走。我们不知道概率是多少。这些步骤是随机的,意思是……顺便说一句,“随机”是什么意思?
概率论是一种数学学科,有一些形式化,当然有几种模型如何形式化它。但你如何应用它?你如何解释它?这是最有趣的事情。当然,其中之一,概率论的关键用途是,我们有两个看起来独立(visibly independent)的事物,那么它们在概率上是独立的,它们的概率相乘,对吧?这就是概率的乘法法则。但“看起来独立”……你看不到它们之间的关联,那么你就把它们相乘。这就是你论证的方式,对吧?所以如果你看不到联系,它们就相乘。或者你加上一些联系,你知道它们是……而其他一切都是独立的。
当然,即使我认为达尔文也意识到并非如此。某些事物可能是相关的(correlated),对吧?即使我们看不到关系,它们也可能秘密地相关。这是……这是非常本质的。这种现象在生物学中至关重要。事物之间的相关性比我们预期的要强得多。但至少在那方面没有目的(purpose)。这些突变可能是相关的,但不是因为它们知道会发生什么,对吧?它只依赖于过去。所以这确实是一个过程,其中没有任何目的论(teleological)的东西。
然而,在描述它时,当你谈论它时,你无法避免这种观点:这件事发生是为了某种目的。达尔文自己,一方面他想让它变得科学,所以这种运动中没有目的。但很难避免这样说,因为存在选择(selection),而选择有生存的目的。特定的性状具有某种功能(function),所以这个功能有一个目的。所以你遵循它以达到某个目的。所以存在反向因果关系(reverse causality)。在自然科学中,一切都必须依赖于过去。但在这里,它依赖于未来。你用未来的目的来解释它。实际上,亚里士多德(Aristotle)描述了因果关系的逻辑。有不同的原因,一些是产生它们的事物的本性(质料因、形式因、动力因),其次是目的,它们是为了什么目的而被制造的(目的因)。生命具有这个特征。所以要避免它……语言是……它就在那里,用其他方式说话非常不可能,对吧?这是描述时的一个基本特征。当你思考生物学中的任何事情时,你会看到它是为什么目的而完成的,这在物理学或化学中你肯定永远不会这样做,对吧?
但无论如何,他们读了这个东西。有一些处理它的原则。我只想重复一下,我写在了……但问题当然是我们对它的理解非常贫乏。我们可以观察生物体的许多特征,新陈代谢中的数值特征。我们可以观察它们活多久,有多少后代,它们的大小是多少,成百上千个特征。但问题是,这是一个子集,我们可以简化……你可以忽略一些特征。然后在大的立方体中,它们构成一个子集。但这个子集看起来像什么?它有多大?它的形状是什么?
所以你认为它有点……一方面,很多参数是可能的,一些是不可能的。但你期望它像康托尔集(Cantor set)或者这种分形(fractal)集合,具有某种连通性,某种分布,并且它有明确的维度(dimension),某种维度在那里,这本质上对应于熵。那是什么?我们不知道。我不知道如何真正评估它,我认为从未有人尝试过评估它。但这很关键,当你进行随机突变时,仍然有机会停留在集合内。所以我们需要知道这些概率,但我们不知道。
有大量的数学,遵循这个模型,提出了许多关于那里实际发生什么的猜想。但它们是猜想。但这就是达尔文的模型。这种生与死的描述看起来相当幼稚,但它仍然告诉你一些事情:你从一个点到另一个点的时间与这些性状的数量成正比,对吧?你有一个立方体,特征的数量……你移动的时间与这个立方体的“厚度”(维度)成正比。当然,立方体中的元素数量是指数级的。所以在那里选择像那样的东西是完全不现实的。这就是为什么演化不可能的某些原因:因为立方体太大了,是指数级大。我们怎么能选择它呢?但幸运的是,从一个点到另一个点,只需要这个大小的对数(logarithm)时间。仍然很大,但如果你每一代都进行突变,你可以看到我们需要多少代才能从一个点到另一个点。然后你得到一些数字,令人惊讶的是,非常现实,达尔文发现了这一点。但这当然基本上与理解地质学有关,观察不同类型的……了解形成不同粘土、地质层的速率,这实际上在200年前由其他人完成了,但不如莱伊尔(Lyell)和他的人做得那么严格。
这就是关于达尔文的。那么……
当然,这里没有解释力。这只是一种描述事物的方式。是的。在我看来,这又被生物学家完全……[音乐]……曲解了。他们说,“哦,这解释了一些东西”。当然,它给出了一些满足感,但你可以这么说,然后你感觉你理解了。当然,除非你尝试去看它的数字命理学,然后你发现没有任何东西是现实的。所以它的解释力对于孩子们来说非常好,如果你能解释给他们听,孩子们理解得很好。但如果你看达尔文同时代的人,他们非常怀疑。我们现在仍然持怀疑态度,我们处于不理解发生了什么的状态。
当然,基本的(演化)改变,我们知道,并非那么随机,它们也不是微小的。达尔文的观点,在他所有著作中,他都在说连续性(continuity)。他强调连续性,正是为了如何协调如此多必须相关的性状。他相信你是通过小步骤达到的。但当然,原因比那更微妙。我们知道,创新的基本步骤是基因加倍(gene duplication)。这真的是一件大事。整个基因加倍了。然后它选择……它可能摧毁你,或者它可能最终承担新的功能,但随后通过小的调整。所以至少有两个阶段。在那里面有两个阶段。
加倍显然非常普遍。我从某个地方读到,基因组加倍非常普遍。在人类中,这种加倍发生得非常频繁,但通常怀孕在很早期就终止了。是的。基因组加倍对动物来说是致命的,但它发生得非常非常频繁。有时一个基因或染色体的加倍,你知道,也不是很健康。但这肯定是主要因素。
然后有大量隐喻(metaphors),它们与现实混淆,另一方面又需要被数学地解释。是的。从“力”(force)的概念开始。是的。所以在我看来,许多生物学家,对他们来说,物理学中的力和像情感力量这样的力,他们相信是相同的。或者演化的力量。他们说一些非常有趣的事情,即使是那些显然相当老练的人。是的。实际上这个人,考夫曼(Kauffman),写了很多关于演化等的书。我相信他是个物理学家,因为他用数字。但有时在某个时刻,我读到他关于物理学说了些极其愚蠢的话。然后我上网查了一下,他是医学博士出身。他说了一些关于牛顿第二定律的话,显然不理解它是什么。是的。所以他是医生,不是物理学家。我以为他是物理学家,因为他喜欢数字和一切。是的。
现在,在达尔文之后,来了孟德尔(Mendel)。我们有时间谈孟德尔吗?现在我们快……啊,我们快结束了。好的。所以我只展示一张图片。方向……现在我们去吃午饭了,是的。所以我想展示这张图片。
现在来了孟德尔。从数学上和概念上比较达尔文和孟德尔非常有趣。我必须再说一遍,大多数生物学家总是强调达尔文。从我作为数学家的角度来看,达尔文只是……你知道,综合者。有人说他只是汇编者。他是一位伟大的思想综合者。而孟德尔是预测、产生了新思想的人。他发现了新现象。
这就是这张图所展示的。它有一个推论,让上世纪之交重新发现孟德尔的生物学家感到困惑。即,你有种群,你有两种花,你把它们混合。然后在下一代,你有这种新的颜色分布,对吧?你原来有相同数量的红色和白色。下一代,红色是白色的三倍。你再看下一代,再下一代,你会想也许是9:1等等?不,它稳定下来了。没有演化。(红色表现出的)适应性似乎没有持续。第一代红色看起来最适应,它们似乎占主导。但随后就稳定了。他们对此非常不高兴。
有一个故事,说有人和哈代(Hardy)玩某种游戏时问他,发生了什么?哈代基本上写下了这个公式(指Hardy-Weinberg平衡公式)。是的。这就是等式。当然,如果你能用一般的话语说出来,不需要任何东西,这当然是完全显而易见的。但数学上它是显而易见的。他只是做了一些计算,迭代了孟德尔定律,然后就得到了这个结果。
但这背后有一段我认为相当有趣的数学,如果你用这些术语来表述它。再次,这是一个非常简单的变换,但背后有相当不平凡但仍然简单的数学。所以这是公式。如果你有一个矩阵(代表基因型频率),你进行操作……你通过乘以行和列来构造一个新的矩阵。这个映射(map)的显著特点在于,这个映射的平方等于它自身 ()。用这些术语来说,这是初等的东西。但如果你思考它背后是什么,是什么样的几何模式……它以多种形式出现。我只说一件事,它是……Veronese映射。这个孟德尔映射,在代数几何中是Veronese映射,还有Veronese簇(Veronese varieties),附带着大量非平凡的数学。
这相当了不起。当然,你有一个多项式映射,而多项式映射的平方变成它自己,次数没有增加。这在生物学上和数学上都非常反直觉。这是孟德尔定律有趣的部分。所以它不像……高度直觉的达尔文定律,你接受这个观点,只是稍微转动一下你的视角,你就看到了。但这里是发现。你发现它发生了。数学上,这也是一个你不会期望它为真的公式,但它确实是真的。
实际上关于它有很多有趣的事情。数学上,这个Veronese映射……Veronese映射是,你有一个……你从线性形式的空间映射到二次形式的空间,只是取平方。然后球面(sphere)映射到高维空间中的某个曲面(Veronese surface)。从 维空间映到 维空间(二次型空间)。关于它有很多几何猜想……它是反例。有很多非常直观……至少有几个非常好的、直观的猜想,非常貌似合理,而反例就在这里找到了。所以它在数学上确实是反直觉的。这个映射是反直觉的。孟德尔的东西是反直觉的。这是一个发现。
我只是……我不知道孟德尔在多大程度上理解、意识到他做了什么。他受的教育是物理学,对吧?他是……我忘了,他的主修专业是物理学和僧侣?
问: 他是僧侣。
答: 他是僧侣,但那是因为他找不到工作。但他受的教育……他实际上和……我忘了那个名字,当你……波的速度如何改变频率……是谁的定律?当你……某物向你驶来时,它听起来……多普勒(Doppler)?是的。多普勒。我想他是……他是多普勒的学生。还有另一个人,也是一位物理学家,他与之有过交流。是的。但他……他当然懂数学和物理学。所以肯定比达尔文懂得多。这是一段相当了不起的数学。
事实上,它仍然是生物学中最具数学性的部分,围绕着这个变换,以及处理种群的理想变换。这实际上是“2”,因为有两个亲本,所以是二次映射。更多的亲本将是更高次的映射。那里有相当丰富的数学。其中一部分被称为Bernstein代数(Bernstein algebra)。然后还有这些……我忘了……它们被称为Jordan代数(Jordan algebra)。是的。也是这种类型的代数,一些非结合代数(non-associative algebra),具有有趣的东西。是的。
好的。然后它被所谓的“新……”新类型的演化发展所发展,来自霍尔丹(Haldane)、费希尔(Fisher)和赖特(Wright),他们实际上有一半是数学家。那里有大量的数学。我必须说,我不理解它与生物学的相关性如何。这仍然值得怀疑。人们争论说它非常重要,有很多推论,但它有点半形式化。但那里的数学相当重要。这里有微分方程,非常有趣的微分方程,非常有趣的动力学,也出现在生态学中。混沌(chaos)就是由这些人中的某位发现的,我老是忘了他名字……在生态学中……他的名字我从没能很快想起来,如果能想起来的话……
问: 洛伦兹(Lorenz)?
答: 不,不,不。不是洛伦兹。是……是这个人……一秒钟……哦不,他……我忘了他的名字了。是的。有一位著名的生态学家……是物理学家,他发现了这个……二次方程的事实……谁首先发现了二次方程中的混沌?
问: 二次迭代,你是说芒德勃罗(Mandelbrot)?
答: 不,不,不。是相当近期的。他在生态学领域做的,为了生态学。不是……
无论如何,是的。无论如何,我忘了名字……我绝对有借口,是的,忘记名字。但那里有很多数学。但当数学开始时,我想生物学家有点……停下来了。是的,对吧?它们不太合拍。
好的。是的。所以现在是10:30了,我明白所有其他的……结束了。
[音乐]
五、 生物学语言的特殊性
在前面的讨论中,尤其是在谈到演化和酶的功能时,我们已经触及了生物学语言的一个核心特征:它不可避免地使用了“功能”(function)和“目的”(purpose)这类词语。
在自然科学,尤其是物理学中,我们习惯于用过去的原因来解释现在的现象(因果律)。但在生物学中,我们经常反过来,用一个结构或过程要达到的未来目标或结果(即它的“目的”)来解释它的存在和形式。比如,我们会问“心脏的功能是什么?”或者“眼睛是为了什么目的演化出来的?”。这种隐含的反向因果或目的论(teleology)的视角,是生物学描述语言的固有部分。
达尔文试图消除这种目的论,将演化归结为随机变异和非目的性的自然选择。然而,即使在他自己的论述中,以及在后来的生物学讨论中,“目的”、“功能”、“适应”这类词语仍然普遍存在,因为它们非常有效地捕捉了生命现象的某些本质特征,特别是选择过程本身就隐含了“为了生存和繁衍”的倾向。
从数学的角度来看,这就提出了一个挑战:如何为这些在物理学中通常避免使用的概念赋予精确的数学含义?我们需要形式化地定义什么是“生物信息”(区别于香农信息,因为它有“意义”或“功能”),什么是“生物结构”的“功能”,以及这个功能的“目的”。
同样,“选择”(selection)这个核心概念,虽然我们直观上理解它,但它缺乏一个清晰、抽象的数学定义。它似乎涉及到概率分布(随机变异)和这些分布的具体实现(个体)之间的某种相互作用,以及基于某种标准(如适应度)对这些实现进行筛选的过程。我们需要发展能够精确描述这种 interplay 的数学框架。
结论
总而言之,我们看到生物学的结构和过程,从细胞内的分子机器到宏观的演化动力学,都暗示着深刻而独特的数学原理。这些原理与我们在物理学和传统数学中习惯处理的概念既有联系,又有显著的区别。
现有的数学工具和概念,无论是经典的物理模型、概率论,还是如图灵机那样的计算模型,似乎都还不足以完全捕捉生物现象的复杂性、信息内涵和内在逻辑。我们需要发展新的数学语言和框架,来更精确地理解生物信息、描述性复杂性、结构、功能、目的以及演化选择这些核心概念。
对酶的工作机制、蛋白质折叠的自组装过程、遗传信息的复制与传递、以及演化动力学的深入数学理解,不仅对基础生物学至关重要,而且对于基因工程、药物设计、合成生物学等应用领域也具有巨大的潜力。生物学为数学提出了许多全新的、富有挑战性的问题,等待我们去探索和解答。
[音乐]
要点回顾
Misha Gromov - 数学描述生物结构 (2/4) - 框架与要点
引言:物理、数学与生物描述的差异
- 物理学倾向于使用数字和公式描述(如拉马努金公式、概率分布),而生物学更多依赖文字描述,尽管也包含数学。
- 非生命(如火星表面)与生命(如生物图像)的视觉信息和分析方法有本质区别。
- 生物的核心特征是物理/化学与信息的结合(引用Jacob)。
- 讲座目标:赋予生物学语言(如信息、复杂性、结构、功能、目的、编码、信号、控制等)数学意义。
一、 细胞结构的物理基础:尺度与能量
- 尺度重要性:
- 尺寸尺度:细菌细胞约1微米,真核细胞约10微米(体积大1000倍)。
- 时间尺度:分子碰撞(微秒)、化学反应(皮秒至飞秒)、蛋白质折叠等。
- 能量尺度:
- 基本单位:室温下分子热运动能量 。
- 弱相互作用(氢键、范德华力):能量约为 ,对自组装至关重要,亲和力与能量呈指数关系。
- 共价键(化学键):能量强得多,约 或更高,本质是量子力学。
- 细胞内部分子数量: 细胞内原子/小分子数量远少于一个小型菌落中的细菌数量,这与生命存在的概率和指数增长有关。
二、 细胞内的关键分子过程
- 1. 自组装(Self-Assembly):
- 由弱相互作用驱动,趋向于能量最小化状态。
- 核心例子:蛋白质折叠 - 一维氨基酸序列(信息)折叠成特定的三维结构(物理实体),这是信息物化的关键时刻。(提及AlphaFold的预测能力)。
- 其他例子:病毒颗粒组装、核糖体组装。
- 特殊自组装:细胞膜形成 - 由脂质分子因疏水效应自发形成双层膜结构,最小化自由能(涉及熵和能量),其形状可能与最小化弯曲能量有关(数学上的极小曲面问题)。膜厚度约3纳米。
- 2. 酶催化化学反应(Enzyme Catalysis):
- 酶(主要是蛋白质)加速细胞内的化学反应(共价键形成/断裂)。
- 活化能垒:Gromov对其存在的量子力学基础提出疑问,并讨论了经典图像(分子构象的势能面,玻恩-奥本海默近似)。
- 酶加速反应的可能机制:
- 提高局部反应物浓度(熵效应,类似铂催化氢气燃烧)。
- 稳定过渡态:酶与反应过渡态的结合比与底物或产物的结合更紧密,有效降低能垒(Haldane/Pauling观点)。
- 延长中间体寿命:将需要高能量单步完成的过程分解为多步低能量事件,利用微秒尺度的分子碰撞能量逐步克服皮秒尺度的反应能垒。
- 几何/熵引导:为反应提供特定通道,规避高熵或高能垒路径。
- 蛋白质振动/动力学:蛋白质自身快速振动(可能在皮秒尺度)可能局部提供克服能垒所需的能量。
- 反应速率:许多酶催化反应的速率受限于分子扩散或碰撞频率(微秒级),尽管核心化学步骤可能快得多。存在速率差异巨大的酶(如快速的过氧化氢酶 vs 慢速的Rubisco)。
- 3. 分子马达(Motor Proteins):
- 在细胞内产生定向运动的蛋白质(如RNA聚合酶沿DNA移动进行转录)。
- 定向运动需要能量输入(如ATP水解)来打破对称性。
- 过程的相互关联: 自组装、酶催化合成、分子马达运动这三类过程相互依赖,其顺序和时间尺度至关重要,构成了复杂的细胞运作网络。
三、 信息、复杂性与复制
- “鸡蛋变小鸡”的隐喻:
- 从看似均质的状态(蛋液)产生高度复杂和结构化的生物体(小鸡)。
- 对物理直觉的挑战:对称性破缺和复杂性显著增加。
- 解释关键:存在一个包含蓝图(DNA)的特殊细胞(受精卵),生物系统的复杂性不能通过对均质部分的简单采样来理解。
- 生物复杂性:
- 不同于 Kolmogorov 复杂性(描述离散序列的最小程序长度,随机序列复杂性最高)。
- 生物结构既复杂又高度有序/规则。
- 需要一种“描述性复杂性”(Descriptional Complexity),可能要考虑产生结构的程序+随机输入,或者描述该结构的统计定律。基因组大小提供了复杂性的上限。
- 自复制(Self-Replication):
- 冯·诺依曼模型:通用构造器读取描述信息(带子),建造出对应的机器,并复制带子。依赖于“通用性”。
- 生物复制:并非冯·诺依曼意义上的通用。细胞复制自身,但也能被病毒“劫持”复制病毒。它依赖于特定的分子机器(DNA指导合成的蛋白质、RNA等),涉及自组装和酶催化,并在随机环境中运作(如tRNA的扩散对蛋白质合成速率的影响)。生物复制的逻辑可能比冯·诺依曼模型更复杂和有趣。
四、 演化动力学的数学视角
- 达尔文演化论:
- 核心数学思想:种群指数增长、资源有限性、自然选择(适者生存)。
- 模型:将生物体特征视为高维空间(特征立方体 -cube)中的点,演化是在这个空间中进行的随机行走,受限于“可生存”区域。
- 贡献:提供了一种看待演化的有力视角(选择作用于变异),尽管其生物学细节(如连续变异、遗传机制)有误或不完善。Gromov指出达尔文计算曾有错误。
- 问题:特征间的相关性、随机性的本质、“可生存”区域的结构和维度等都很难确定。
- 演化速率:特征空间中的行走时间与维度 (或 )相关,这使得在合理时间内发生显著演化成为可能。
- 孟德尔遗传学:
- 引入了离散的遗传单位(基因/等位基因)。
- 发现:特定的遗传比例(如3:1),群体等位基因频率在一代随机交配后趋于稳定(Hardy-Weinberg平衡),这曾让早期达尔文主义者困惑。
- 数学基础:描述等位基因/基因型频率代际传递的变换。Gromov将其与Veronese映射(概念上如从等位基因频率 到基因型频率 的映射)类比,其迭代具有稳定性(变换 满足 )。
- 孟德尔的发现被视为比达尔文更具原创性和基础性的贡献。其数学模型(如种群遗传学中的Bernstein代数、Jordan代数)具有深刻的数学内涵。
- 群体遗传学:
- 达尔文与孟德尔思想的综合(Haldane, Fisher, Wright等)。
- 包含丰富的数学内容:微分方程、随机过程、动力系统、混沌理论(在生态模型中发现)。其对生物现实的解释力仍在讨论中。
五、 生物学语言的特殊性
- 生物学描述中普遍使用“功能”(Function)和“目的”(Purpose)等概念,这隐含了目的论(Teleology),即用未来的目标来解释现有结构/行为,这与物理学基于过去原因的解释方式不同。
- 这种语言在生物学中几乎不可避免,反映了生命现象的核心特征(自然选择本身就隐含了“生存/繁衍”的目的)。
- 需要对这些概念进行数学形式化,理解“生物信息”(非香农信息)、“生物功能”、“生物目的”的数学含义。
- “选择”(Selection)本身需要一个清晰的数学定义,可能涉及概率定律与其具体实现之间的相互作用。
结论
- 生物结构和过程背后蕴含着深刻且独特的数学原理,这些原理与物理学和传统数学中的概念既有联系又有显著区别。
- 当前的数学工具和概念尚不足以完全捕捉生物现象的复杂性和逻辑,需要发展新的数学框架来理解信息、复杂性、功能、目的和演化在生命系统中的作用。
- 对酶工作原理、自组装、遗传和演化过程的深入数学理解,对于生物学本身以及生物工程(如基因编辑、定向演化)等应用领域都至关重要。