中心法则

字数:4312

我们的故事还没讲完。

“好了,我相信DNA分子确实就是遗传物质了,”你也许会说,“它的碱基顺序能够记录信息。它的半保留复制能够保证这些信息被完美复制和传递,甚至它的螺旋结构都是那么优美动人。可是这些到底和遗传有什么关系呢?讲了这么久,我还是不知道为什么‘种瓜得瓜,种豆得豆’,还是不知道黄色豌豆和绿色豌豆的区别,不知道为什么孩子总是长得像爸爸妈妈呀?”

这个疑问的核心其实是,遗传信息到底是以什么形式写进DNA的,或者反过来说,DNA上携带的信息是怎样决定生物性状的?就像我们刚刚举过的例子,如果把DNA看成是用一种外国语言出版的报纸,报纸上的文章究竟该怎么读,又说明了什么事情呢?

还是拿孟德尔的豌豆来举例吧,我们现在已经知道,必须有一种“黄豌豆”基因能够决定豌豆的表皮颜色,而且这个基因就在DNA分子长链上。甚至我们都可以设计些简单的方法,准确地把它给找出来。但是一段由四种简单的碱基分子组装成的长链,怎么就能够决定豌豆的表皮颜色呢?

这个环节的主角,正是刚刚被遗传学家抛弃的分子——蛋白质。

从某种程度上来说,蛋白质就像是更加复杂的DNA。和DNA的组成方式类似,地球生物中的蛋白质分子是由20种氨基酸小分子首尾相连形成的长链——当然复杂程度明显要高得多。大多数地球生物的DNA分子总是呈现双螺旋的简洁结构,而蛋白质分子的三维结构则变化多端、复杂莫测。插句话,其实这也是为什么在埃弗里实验之后,很多生物学家拒绝相信DNA是遗传物质的原因——他们下意识觉得更加复杂和多样的蛋白质分子才是遗传物质。而人们对蛋白质的认识历史也要远远早于DNA。

早在20世纪初人们就已经知道,生命体中存在着许多能加速各种化学反应的催化物质,而这些物质就是蛋白质(图1-26是一个非常复杂的蛋白质三维结构)。就在沃森和克里克看着DNA分子的X射线衍射图谱,用硬纸板和铁丝搭建双螺旋模型的时候,他们的同事马克斯・佩鲁茨(Max Perutz)和约翰・肯德鲁(John Kendrew)也在试图用同样的方法分析蛋白质分子的三维结构。他们的成功来得更晚一些,到了1959年,他们才成功获得了血红蛋白——血液中负责运输氧气的蛋白——的三维结构,而这也充分说明了蛋白质的高度复杂性。因此,在遗传的秘密终于得到解答以后,人们有理由做出这样的假设,即生命体的各种性状是由各种各样的蛋白质分子实现决定的。

图1-26 蛋白质(ATP合成酶)的三维结构

不难想象,也许有一种蛋白质分子能够合成黄色色素,所以会让豌豆种子长出黄色的表皮;也许有一种蛋白质分子能够制造厚厚的多糖,从而让肺炎链球菌具备光滑的外壳——这一类有着几乎无穷无尽的组合(可以心算一下,一个由20个氨基酸组成的蛋白质就可以有2020种可能),有着复杂空间结构的大分子,给人们留足了想象的空间。

于是我们的问题就变成构成方式较为单调、结构也很简洁的DNA分子,是怎样指导生命体生产出各种各样的蛋白质,从而决定生命性状的?

说起来有点惊人,对这个问题最初的回答居然不是在实验室里,而是在演算纸上完成的,这一点对于生物学这门绝大多数时候仍然依赖经验的科学来说非比寻常。大爆炸理论的发明者、物理学家乔治・伽莫夫(George Gamow)对DNA双螺旋也非常着迷,他试图用物理学家的思维方式帮助解决从基因到蛋白质的难题——这可能部分解释了为什么我们是从纸上而不是试管里得到问题的答案的。

在和克里克的通信中,伽莫夫推测,DNA如果能够指导蛋白质的准确合成,就意味着四种碱基A、T、C、G的排列顺序必须能够指导20种氨基酸的排列顺序。就像我们在故事里提到的,一个简单的思路就是,数个碱基的序列共同决定一个氨基酸。如果是两个碱基分子构成一个氨基酸“密码”,那么仅有的42(16)种组合不足以代表全部的氨基酸;如果是三个碱基形成一个氨基酸“密码”的话,那么43(64)种组合,仅仅比氨基酸数量略高;而如果是四个碱基形成一个氨基酸“密码”的话,那么44(256)种组合似乎就太过浪费了(见图1-27)。因此,伽莫夫推测,DNA指导蛋白质合成的基本原则是相邻三个碱基的序列形成一个独特的密码子,用来指代一种独一无二的氨基酸。

图1-27 伽莫夫推理

根据伽莫夫的推理,三个碱基构成的密码子既能够覆盖所有的20种氨基酸,又不会太浪费。

我们现在知道,伽莫夫的简单推理精确得不可思议,所有地球上的生命都使用了三碱基密码子来指导氨基酸的装配序列和蛋白质的生产。这其实也是对生命进化之美的一次绝妙展示,在无数种可能的编码机制中,生命恰恰选择了足够多样而又非常节约的一种编码方式!

而解密密码子的实验也同样精巧美妙。如果三个相邻的碱基顺序能够决定蛋白质分子中一个氨基酸的身份,那么我们就可以用一串人工合成的DNA序列,生产出任何一种我们想要的蛋白质分子来。1961年,马歇尔・尼伦伯格(Marshall Nirenberg)证明,一长串人工合成的尿嘧啶核酸序列,会指导生产出一个由一串苯丙氨酸相连而成的蛋白质分子。(要说明一下的是,尼伦伯格实验中实际使用的是RNA而非DNA。RNA中的尿嘧啶对应的是DNA中的胸腺嘧啶。)随后尼伦伯格和他的同事们又相继证明,一长串腺嘌呤对应的是全部由赖氨酸组成的蛋白质,一长串鸟嘌呤则是脯氨酸。碱基序列和氨基酸序列的对应关系得到了初次证明(见图1-28)。

当然,严格说起来,尼伦伯格实验只能证明DNA序列对应氨基酸序列,还不能证明到底是几个碱基对应一个氨基酸。而在此后不久,哈尔・霍拉纳(Har Khorana)又利用更复杂的长链核酸序列,证明了只能是3碱基序列对应一个氨基酸(见图1-28)。在接下来的几年里,许多研究机构之间的白热化竞争最终解密了3碱基密码子全部64种组合所携带的信息。最终我们知道了,大多数氨基酸都对应着两到三种密码子,与此同时,还有三种密码子不负责编码任何氨基酸。它们作为终止信号,竖立在基因DNA序列的尽头,标志着氨基酸装配工作的完成。

图1-28 尼伦伯格-霍拉纳实验证明了3碱基密码子假说

好了,说到这里,我们大概可以再回头说说孟德尔神父的豌豆了。

我们现在已经知道,组成DNA分子的碱基排列顺序能够决定氨基酸的特定排列顺序,从而指导蛋白质的合成。那么想象豌豆里有这么一个“黄豌豆”基因就没有那么困难了。我们完全可以想象,豌豆里会有一种蛋白质,它的功能是帮助豌豆表皮生产一种黄色色素,从而把豌豆表皮变成淡黄色。而这种生产色素的蛋白质中氨基酸的排列顺序,都被一丝不苟地以三个碱基对应一个氨基酸的形式写在豌豆的DNA里。这段“黄豌豆”基因会随着豌豆的交配过程进入子孙后代的体内,再随着子孙后代的生长,不断地一分为二,二分为四,四分为八,进入每一个豌豆细胞的内部,从而让这些后代结出的千千万万颗豌豆都变成黄色。考虑到不管是豌豆还是人类,细胞内蕴藏的DNA分子都是由数十亿碱基所组成的,而与此同时,蛋白质一般是由数十个至数千个氨基酸构成的——这个数字乘以3就是编码所需的碱基长度。也就是说,复杂生物的遗传物质足以编码数以万计的蛋白质分子。这个庞大的数字,也就是丰富多彩的生物性状的物质基础。

●DNA是遗传信息的载体。

●遗传信息的最小单位——基因,以碱基序列的形式存在于细长的DNA分子上。

●DNA分子通过一轮又一轮的半保留复制,将遗传信息忠实地传递给了每一个后代。

●基因通过3碱基对应一个氨基酸的形式,决定了氨基酸的装配序列和蛋白质的生产。

●蛋白质催化了生物体内各种各样的化学反应,从而让生物体呈现出丰富多样的性状。

这,可能就是遗传的秘密。

当然,在我们今天的生物学认知里,遗传的秘密比这几条简单的原则要复杂得多。从某种程度上说,今天的地球生命正是在此基础上叠床架屋,增加了许多层次的复杂度,来保证对遗传信息的精确传递,以及对生物性状的复杂控制。

比如说,我们现在知道,大多数复杂生物的DNA并不是单纯用来编码RNA和蛋白质的。人类的基因组DNA中有多达90%的碱基序列并不用来制造任何蛋白质。单纯从蛋白质生产的角度而言,人类的基因组里充满了“垃圾”,效率惊人得低下。但是这些看似无用的“垃圾”DNA为遗传的秘密提供了新的复杂度。我们已经知道,很多不直接参与蛋白质制造的DNA能够通过各种方式参与到蛋白质合成的调节中去,是它们保证了生物可以在合适的时间和地点生产出合适数量的蛋白质分子。

再比如说,早在双螺旋模型刚刚诞生的时候,克里克就已经预言,DNA并不会直接指导蛋白质的合成,而必须借助一个中间桥梁——RNA。DNA首先要根据碱基互补的原则,以自己为模板制造一条RNA长链;然后RNA再根据3碱基对应一个氨基酸的原则制造蛋白质。这个假说之后也被证明了,DNA→RNA→蛋白质的遗传信息流动规律,被冠以了“中心法则”的鼎鼎大名(见图1-29),站在了全部生物学发现的巅峰。RNA为遗传的秘密提供了又一层新的复杂度。因为RNA的存在,蛋白质生产的时空调节可以通过RNA来进行。比如我们可以想象,如果细胞大量合成某个特定的RNA分子,就可以极大地促进其对应的蛋白质分子的生产。

还比如说,我们今天也知道,蛋白质分子自身的结构和功能也能够被精密地调控。许多蛋白质分子需要特定氨基酸位置上发生化学修饰——例如磷酸化、甲基化、乙酰化,等等——才能够发挥特定的功能。与此同时,我们也知道了生物体内的蛋白质分子并非永生不死,它们也有自己的生命周期,有诞生和独立存活,也有死亡和降解。正因为此,遗传的秘密可谓非常复杂。

图1-29 中心法则

根据中心法则,遗传信息存储在DNA分子中,通过RNA介导,指导了蛋白质的合成,从而决定了生物体的各种性状。

但是如果抛开这些所有的复杂调节,DNA→蛋白质的核心原则,始终存在于地球上的每个生命体内。

这个原则细细想来可谓意味深长。

对于地球生命而言,这无疑是传递遗传信息最简洁高效的办法。我们可以把一个活的生物体看成许许多多化学物质在三维空间里的时空分布——对于人体而言,这意味着差不多有近1023个原子,在以纳米为空间精度、微秒为时间精度的约束下完成排列组合。其中蕴含的信息量远远超过人类文明的理解范围。即便在遥远的将来,它对于人类文明来说也可能是永久的秘密。所有这些时空组合的源头,却不过是区区30亿个碱基对组成的DNA长链。在DNA长链上,遗传信息以碱基组合变化的方法存储,呈简单的一维线性排列,而且精确到在世代传递中几乎不发生任何错误!可想而知,在生物世代繁衍的过程中,想要准确复制一条DNA分子的难度——就像我们刚刚讲过的那样——要远远低于临摹先辈三维空间里的全部生物性状。而DNA复制和传递过程中出现的偶然错误——概率大约是1/109,反过来也可以赋予生物体足够的多样性,为达尔文的进化论提供基础,让地球生命在严酷多变的地球环境中熬过自然选择的洗礼。

而对于渴望理解生命、理解人类自身的我们而言,DNA为我们的探寻提供了方便的入口。对于刚刚走进生命大厦的一楼大厅却渴望探索大厦里每一处神秘角落的我们而言,DNA就像建筑师的蓝图,为我们提供了最可靠的指南。人类遗传学手段帮助我们理解了许多人类基因的功能。简单来说,当我们发现某个疾病患者体内存在某个基因的功能缺失,我们就可以将这个基因与这种疾病联系在一起。类似的例子包括先天性色觉障碍、白化病、血友病,以及更为复杂的某些癌症和代谢疾病。而反过来,我们马上也可以想象,如果有一天我们期望能够改造人类本身,消灭某些顽疾,甚至是增强某些机能,直接在人类的基因组上下手将是最快捷和高效的做法。

路漫漫其修远兮。

在过去的亿万年里,是遗传规律促成了地球生命的开枝散叶,并呈现出了五彩斑斓的模样。基因就像亿万年间从未止息的河流,把地球生命带向一个又一个新的港湾。

在过去的一万年间,对遗传现象的认识和利用催生了农业社会的到来,人类这种不起眼的灵长类生物也正是基于此建立起辉煌的文明大厦,开始了认识自身、认识世界、认识宇宙的漫漫征程。

而在过去的一两百年中,我们才真正开始理解遗传的秘密,理解在一代代生命的繁衍中,是什么样的规律主宰了遗传信息的流动,这些信息又如何塑造了每个独一无二的生物体。我们甚至已经开始利用这些规律来改造地球生物,甚至改造我们自己。

在即将到来的未来,遗传的秘密又将把我们带往何处?人类有一天会不会操起上帝的手术刀,主动修改自身的遗传信息,就像在河流上建坝修堤,让生命的河流顺着我们自己的意愿流淌?


双螺旋给基因动手术