第五章 基因档案
外边儿正在下DNA。
我的花园尽头,就在牛津运河边,有一棵很大的柳树,它正在释放大量的种子。柳絮迎风飘扬。风向不定,四面八方都是柳絮。运河上上下下,以我的双筒望远镜望去,河面上尽是白茫茫一片,其他方向,想必也是柳絮铺地。柳絮是因为表面有白色的绒毛、柔软如絮而得名,绒毛的成分是纤维素,藏在其中的种仁,就体积来说简直微不足道,种仁里装着DNA——遗传信息。满天的柳絮里,DNA只占微小的比例,为什么我说天上正在下DNA,而不说外边正在下纤维素呢?答案是:DNA才重要。纤维素绒毛尽管体积庞大,不过当作降落伞,用过就丢的。浮生若梦。柳树这出戏,棉质绒毛、花、树的本体等等,都是配角,主戏只有一场,情节只有一个,就是在乡间散布DNA。可不是任何DNA,而是建造另一棵柳树的DNA,更精确地说,是含有特定文本的DNA,那分文本是编过码的特定指令集,新的柳树在那套指令指挥之下发芽、成长、茁壮,然后开始散布新一代的柳絮。飘散在空中的柳絮,正在散布制造自己的指令,不多也不少。它们现在随风飘散,正因为同样的事它们的祖先做得很成功。外边儿满天下的都是指令,满天下的都是程序,都是让柳树发育、柳絮飘扬的算则(algorithm,有明确执行步骤的指令集)。那不是隐喻(metaphor),而是明摆着的事实。即使我说天上正在下磁盘片,也不会更明白。
这是明摆着的事实,可是大家一直不了解。才不过几年前,要是你问:“生物有什么特质,好与无生物分别的?”几乎每一个生物学家都会跟你大谈什么原生质(protoplasm)。原生质与任何其他物质都不同;它有生机,有活力,是动态的,有韵律的,对刺激有反应的。老师卖弄这些词藻,说穿了不过是指出原生质“会对外界刺激有所反应”(responsive)。要是你找来一个活的生物,将它逐步分解,最后就会得到纯原生质的小颗粒。当年“达尔文斗犬”赫胥黎(Thomas Huxley,1825~1895)相信海底有一层纯原生质的生物(bathybius),它们是“均质、没有结构的物质,一种活的蛋白质颗粒,有营养、生殖功能”。德国演化论大师赫克尔(Haeckel,1834~1919)认为这种“单质生物”(monera)是最原始的生物。我小时候这个概念已经过时了,可是老式教科书上还在讲原生质。现在这个词没有人提了,就像化学的“燃素”、物理的“以太”(aether),“原生质”已经死了。构成生物的物质没什么特别的。生物是分子的集合体,与其他的东西一样。
这些分子的特殊之处是:生物分子构造比较复杂,必须按照程序制造这些分子。程序是成套的指令,生物体内都有,生物就是按照体内程序发育的。生物也许有生机、有活力、是动态的、有韵律的,总之,对刺激会反应,而且有体温,但是这些性质全是突现的(emerge),附带的。每一个生物的核心,不是火,不是温暖的气息,不是“生命的火花”,而是信息、字、指令。如果你想打个比方,别想火啊、气息、火花什么的。试试“刻在芯片上的几十亿个离散状态的数字字符”。如果你想了解生命,忘了有活力的、会跳动的原生质还是别的什么,想想信息技术。我在上一章结束的地方提到蚁后是中央数据库,暗示的正是这一点。
先进信息技术的基本需求,是某种记忆容量超大的储存媒体。媒体中每个记忆位置都能处于几个离散态中的某个特定“态”。现在人工制品世界的主流技术——数字信息技术——正有这种特色。信息技术也可以走另一条路,就是以模拟信息为基础。过去的胶盘唱片储存的就是模拟信息——储存在波状的沟槽里(以唱针“读”取)。激光唱片(CD)储存的是数字信息,记录在唱片上一系列微小的“坑”里,每个对应一个特定离散态,绝无模棱之处。那是数字系统的诊断特征:它最基本的要素不是处于一个状态,就是另一状态,没有半个状态的,也没有中间状态的。
基因的信息技术是数字式的。这个事实是19世纪的孟德尔(Mendel,1822~1884;他的家乡现在捷克境内)发现的,当然,他还没有“数字信息”的概念。孟德尔以豌豆做实验,演绎出的结论是:生物的子代不是亲代基因“混合”的结果。我们从亲代接收的“遗传”是以分离的粒子形式进入合子(受精卵)的。就每一个特定遗传粒子而言,我们不是从亲代得到了,就是没有得到。其实,正如数学遗传学家费希尔(R. A. Fisher,1890~1962)指出的,这个“粒子遗传”事实是显而易见的,只要想想有性生殖就成了。我们的父母(亲代)是一男一女(或一雄一雌),但是我们不是男就是女,没有“中间态”(雌雄莫辨)的。每个新生儿从父母亲遗传男性或者女性的概率大约相等,但是任何一个新生儿不是男孩就是女孩,不会两者混合(加起来除以二?)。我们现在知道所有我们从父母继承的粒子都是这样。它们不会混合,即使在世代遗传过程中它们会不断地被“洗牌”(重新组合)。当然,诸遗传单位对身体的影响往往会造成“它们混合了”的强烈印象。要是一个高个子与一个矮个子,或者一个白人与一个黑人结婚了,他们的子女往往看来是“中间型”。但是“混合”的表现只适用于遗传粒子对于身体的影响,因为影响身体的粒子数量很大,而每个遗传粒子对身体都有微小的影响,身体表现的是大量粒子影响力的集合。可是在遗传过程中,遗传粒子彼此独立、不相混合。
混合遗传与粒子遗传的区别,在演化思想史上非常重要。达尔文在世时,每个人都相信遗传就是亲代特质的混合。(只有孟德尔例外,他的划时代论文于1865年发表,四年后又宣读了另一篇,可是他1868年当选修道院的“住持”,无暇再接再厉或宣传自己的研究成绩,学界到19世纪结束时才觉悟他的结论的意义。)苏格兰电机工程师弗莱明·杰肯(Fleeming Jenkin,1833~1885)1867年(当时是伦敦大学电机工程学教授)指出:光是混合遗传这个事实(译按:这是当时的流行意见),自然选择就不可能是值得考虑的演化机制。达尔文的反应是:(杰肯教授)“缺乏知识”。一个多世纪后,哈佛大学德裔美籍演化论大师迈尔(Ernst Mayr,1904~2005)对杰肯仍不同情。他于1982年评论道:杰肯《评〈物种起源〉》立论完全“基于当时物理科学家流行的偏见与误解。”然而,杰肯的论证却让达尔文十分忧虑。杰肯以一个船难寓言将他驳斥自然选择论的意旨发挥得淋漓尽致。话说船失事后,有一个白人船员漂流到一个有黑人土著的小岛上……
让我们假定这位白人拥有一切我们所知优于黑人的天赋;我们同意:在生存竞争的战场上,他享高寿的机会比土著酋长大多了;然而,即便如此,我们也无法推出这么一个结论:过了若干世代之后(暂不管确切的数字),岛民就会成为白人。我们的白人船难英雄可能会当上小岛的国王;为了生存,他会杀死许多黑人土著;他会有许多妻子,生许多孩子,而他的臣民中有许多男人因娶不到老婆而绝后……我们白人的优异天赋无疑会让他活到高寿,但是他一个人无论花多少世代也不可能将他臣民的后裔变成白人……在第一子代中,有许多聪明的年轻混血儿,平均说来比黑人优秀多了。我们也许可以期望以下几个世代国王宝座都由多少可说是黄皮肤的人占据;但是有人相信岛上整个族群都会逐渐变成白人吗,甚至黄人?或岛民会逐渐变得有活力、有勇气、有智巧、有耐心、有毅力、能自制?——我们的白人英雄不就是凭着那些天赋打败岛民、留下大量子裔的?!事实上这些质量正是在生存竞争中淬炼出来的,不是吗?(译按:19世纪的西方学者认为黄种人介于白种人与黑种人之间,处于黑人“进化”成白人的过渡阶段。)
请读者不要被杰肯论证中弥漫的白人优越意识岔开了注意力。在杰肯与达尔文的时代,这些种族偏见(racism)就像我们习以为常的物种(species)优越意识一样,“人”权、“人”的尊严、“人”命是神圣的等等,是有识之士随口就能大谈的东西。我们可以用比较中性的例子改写杰肯的论证。如果你混合白漆与黑漆,就会得到灰漆。可是将灰漆与灰漆混合,无法还原白漆与黑漆。混合漆的实验足以代表孟德尔遗传定律大白于世之前的遗传学,即使到了现在,通俗文化中仍然保留了“一加一除以二”的血液混合遗传观念。杰肯的论证其实就是“淹没”效应。依据混合遗传的假设,随着世代交替,少数个体的优异天赋必然会逐代“淹没”、冲淡。整体而言,个别性逐代抹杀,于是族群就“统一”了,根本没有自然选择的余地。而个体间的遗传差异是自然选择的原料。
这个论证你一定觉得非常可信,可是它不只是驳斥自然选择的论证,它还驳斥了遗传过程中无法抵赖的事实!它摆明了就不对,个体间的差异何曾在世代交替过程中消失?!我们彼此间的差异并不比我们祖父母那一辈还要小。个别差异仍然维持着,不多也不少。族群中有个别差异,足够自然选择运作。这是1908年德国医师温伯格(Wilhelm Weinberg,1862~1937)与英国数学家哈代(G. H. Hardy,1877~1947)殊途同归,以数学指出的事实(即高中生物学课本中的“哈——温定律”)。哈代是个不同流俗的学者,他当年(1919~1931)在牛津大学担任过几何学讲座教授,就待在我这个学院里(新学院,New College,14世纪末成立),他在我们学院的“打赌簿”上留下了一段佳话。原来他接受了一位同事半个便士的赌金(近1/480镑),拿全部家产赌“太阳明天仍然会升起”。但是以孟德尔“遗传粒子”(基因)理论完整地破解了杰肯的论证的,是费希尔等人领导的生物统计学派,他们奠定了现代族群遗传学的基础。在当时这颇令人尴尬,因为这批20世纪初期孟德尔信徒的领袖人物都自认为是反达尔文的(见最后一章)。费希尔等人证明了:要是在演化中变化的是各个遗传粒子(基因)的相对频率,而且任何一个生物个体中各个基因不是“有”就是“没有”,那么达尔文的自然选择理论就讲得通了,杰肯的问题因而漂亮地解决了。1930年,费希尔的经典著作《自然选择的遗传理论》出版之后,“新达尔文主义”(neo-Darwinism)之名便不胫而走。它的数字本质可不是个恰巧与遗传信息技术吻合的事实。搞不好生物遗传的数位性质是达尔文演化论必要的先决条件。
在我们的电子技术中,离散的、数字的位置每个都只有两种状态,依惯例以0与1表示,当然你也可以用高与低、开与关、上与下来表示,只要它们不会混淆,而且它们的状态模式可以“读取”(传讯),以影响某个事物即可。电子技术使用各种材质储存以0与1编码的信息,例如磁盘、磁卡、打孔卡片、打孔带,以及智能芯片(其中包括大量微小的半导体单位)。
所有其他生物细胞,管它是柳树种子、蚂蚁还是什么的,主要以化学媒体储存信息,而不是电子媒体。这种媒体利用某些分子种类的“聚合”(polymerizing)性质储存信息。所谓聚合,就是分子彼此相连、成一长链,而且长度没有限制。聚合体有许多种。举个例子来说,聚乙烯是乙烯(一种小分子)聚合成的长链。淀粉与纤维素是聚合糖。有些聚合体是由一种以上的小分子聚合成的,与聚乙烯不一样。一旦聚合体有了异质性(长链由一种以上的分子聚合成的),理论上就可供信息技术利用。要是聚合体长链由两种小分子构成,它们就可以分别代表0与1,于是任何数量、任何种类的信息都可以储存在这种聚合体长链上,只要分子链够长。生物细胞利用的聚合体是多核苷酸(polynucleotides)。在生物细胞中多核苷酸有两个主要的家族,简称DNA与RNA。它们都是核苷酸组成的长链。DNA与RNA都是异质链,由四种不同的核苷酸组成。当然,这正是它们可以用来储存信息的理由。生物细胞的信息技术使用的不是二态码(0与1),而是四态码,按惯例以A、T、C、G代表(即四种核苷酸的英文缩写)。就原理来说,我们使用的二态信息技术与生物细胞的四态信息技术没什么不同。
我在第一章结束时说过,每个人体细胞用来储存信息的空间,足以容纳三四套《大英百科全书》(一套30册)。我不知道柳树种子或蚂蚁细胞的信息容量,但是它们应该与人类属于同一个数量级。一粒百合种子或蝾螈(salamander,一种两栖类)精子储存的信息量相当于60套《大英百科全书》以上。变形虫是原生生物,够“原始”了吧?可是变形虫有些物种,细胞核DNA足以储存相当于100套《大英百科全书》的信息。
令人惊讶的是:有些生物细胞的遗传信息,似乎只有1%实际派上用场,人类细胞就是一个例子,大约相当于一册《大英百科全书》。其他的99%为什么会在细胞中?没有人知道。我曾经指出它们也许是“寄生虫”,占那1%的便宜,它们搭便车进入细胞中,这个理论最近分子生物学家很感兴趣,为它取了个名字,叫它“自利的DNA”。细菌携带的遗传信息比人类细胞少得多,大约只有人类的千分之一,可是细菌的遗传信息也许每一笔都有用:没有什么空间容纳寄生虫。细菌的DNA“只”能容纳一本《新约》!
现代基因工程师已经发展出适当的技术,能够将《新约》或任何其他信息加载到细菌的DNA中。任何信息技术使用的符号、意义都可以任意规定,而DNA中有四个核苷酸“字母”(A、T、C、G),我们可以规定:以三个连续的核苷酸“字母”为一组(共有64种组合),每组都对应一个英文字母表中的字母,于是除了大、小写英文字母(共52个),还可对应12个标点符号。可是把《新约》写入细菌的DNA中,得花5个“人——世纪”,也就是说,要是一个人来做,5个世纪才做得完,我看不会有人想做的。不过,万一这工作完成了,以细菌的繁殖率而言,一天就能复制1000万本《新约》,要是人类能阅读细菌DNA中的字母多好!传教士的美梦也不过如此吧?可惜细菌DNA中的字母实在太小了,即使是1000万本《新约》,仍然能在一根大头针的“圆顶”上共舞。
计算机的内存一般区分为ROM与RAM两种。ROM就是“只读存储器”。严格一点儿说,就是“只能写入一次,可是能读许多次”的内存。制造时只要将以0与1编过码的信息“烧”(写)入内存内,就万事大吉了。内存这样“记下”的信息经久不变,爱读几次就读几次。至于RAM,它是既能读又能写的内存,因此ROM能做的事它也能做,它还能做ROM不能做的事。你随时可以将信息写入RAM中的任何地方,爱写几次就写几次。计算机里的内存,大部分是RAM。我现在在计算机上打出这些字句,它们全都先存到RAM里,我的文字处理程序也暂存在RAM里,但是理论上也可以将它烧在ROM里,从此不再改变它。ROM里存的是一组固定的标准程序,计算机在运算过程中会反复呼叫那些程序,你不能改变它们,即使真心想,也不成。
DNA就是ROM。它可以“读出”几百万次,但是只能“写入”一次——每个细胞里的DNA在细胞形成之初就(复制)组装完毕。任何一个人,身体里每个细胞的DNA都是“烧入”的,终身不变,偶尔发生罕见的随机退化倒不无可能。不过,它能复制。细胞一分裂,它就得复制一份。新生儿发育,增加的新细胞数以万计,每个新细胞的DNA都以先前细胞的DNA为模板,一五一十地复制出来,所有核苷酸(A、T、C、G)的序列都必须忠实无误。每个个体受孕的那一刻,一套新而独特的信息模式就“烧入”他的DNA的ROM中,此后终其一生摆脱不了那个模式。那套信息复制到他身体的每个细胞里(只有生殖细胞例外,他的每个生殖细胞都只得到半套信息,可是由于那半套是临时随机组合出来的,因此每个生殖细胞里的遗传信息都不相同)。
所有计算机内存,ROM也好,还是RAM,都有“地址”。就是说内存中每个位置都有一个卷标,通常是个数字,但是只要约定俗成,用什么当标签都无妨。重要的是:得分别每个记忆位置的地址与内容。每个位置有个地址。举例来说,我的计算机RAM里有65536个记忆位置,我刚刚随手敲进的两个字母现在登录在地址6446与6447里。以后那两个地址里的内容就不同了。每个位置里的内容,就是最近写入那个地址里的东西。ROM里每个位置也有地址与内容,只是一旦写入了任何东西,以后就无法更改了。
DNA是构成染色体的主要分子,它的结构像长的绳梯,平时长梯纠结缠绕,不容易看出头绪。不过DNA分子倒可比作计算机磁盘。我们身体每个细胞里的DNA都与ROM或计算机磁盘一样,上面的每笔信息都有地址卷标。用什么标记位置,数字也好,名字也好,都不重要。重要的是:我的DNA上任何一个特定位置,你的DNA上都有,丝丝入扣,它们地址相同。我的DNA地址321762的内容,也许与你的DNA地址321762的内容一样或不一样。但是我的地址321762在我的细胞中,与你的地址321762在你的细胞中,位置完全一样。这儿“位置”指的是某一特定染色体上的位置。至于这个染色体在各自的细胞中究竟位于什么地方,无关紧要。反正染色体悬浮在细胞核中,位置本就不是固定的。但是染色体长轴上的每个位置都有精确的地址,前后有一定的顺序,就像计算机磁盘也有精确的地址,即使整卷散乱在地面上,而不是整齐地卷起,凭地址也可以找到需要的段落。我们所有的人,所有“智人”,都有同样一套DNA地址,至于同一个地址是不是登录了同样的内容,则不一定。那是我们彼此不同的主要理由。
物种之间没有同样的一套地址。举例来说,黑猩猩有48个染色体,而我们只有46个。严格说来,不同物种不可能比较遗传信息的内容,因为地址对不上号。不过,亲缘关系密切的物种,像人与黑猩猩,染色体上许多“大块文章”里都有同样的内容,连组织都一样,我们很容易判定它们基本上是相同的,虽然它们并不使用同样的地址系统。确定不同个体属于同一物种的判断标准是:它们的DNA使用同一个地址系统。同一个物种的成员,都有同样数目的染色体,只有少数例外,而每一条染色体都有同样的地址、同样的地址顺序。不同个体间的差异,是那些地址中的内容(基因版本)不同导致的。
至于同一地址中的不同基因版本怎样造成个体间的差异,我现在要解释,但是我必须先强调:我所说的只适用于实行有性生殖的物种,而我们正是实行有性生殖的动物。我们的精子或卵子,每个都有23条染色体。一个人类精子中的任何一个基因地址,所有其他精子中都有对应的地址,不管是我的精子还是任何人的;卵子中也有。我身体里其他的细胞都有46条染色体——两套(成双)。那些细胞里同一个地址使用了两次。每一个细胞里第9号染色体都有两条,换言之,“9号染色体地址7230”有两个。这两个地址里的基因版本不一定相同,(同一物种)其他成员的也不一定相同。含有23条染色体的精子,是从含有46条染色体的细胞形成的,同一地址的两个基因每个精子只得到一个。至于是两个中的哪一个,就难说了,我们可以假定那与抛硬币的结果类似——服从随机定律。卵子也一样。结果,虽然同一物种的每个个体都使用同一套地址系统(暂不谈例外情况),以每个地址中的内容(基因版本)而言,每个精子与卵子都是独一无二的。卵子让精子受精后,就有了46条染色体;然后这个受精卵发育成胚胎,每个细胞中的46条染色体,都是受精卵里46条染色体的复本。
我说过,ROM(只读存储器)只有在第一次制造的时候才能写入,制造完成后就不能写入了,细胞里的DNA也一样,不过在复制的过程中,偶尔会发生随机错误。但是,整个物种的ROM——个别ROM的集合——可以写入有利于生存、繁殖的新指令。个体的存活、繁殖不是随机的事件,因此每个世代繁殖成功的个体都无异在物种基因库中写入了改良的存活指令。物种演化,主要是指世代间(同一地址)不同基因版本的比例变化。当然,在每个特定时间点上,每个基因版本都存在于个体的身体里。可是就演化而言,重要的是每个基因地址的不同基因版本“在族群中”的分布。地址系统一直没变,但是族群中不同基因版本的分布,在几世纪中会发生变化。
地址系统也会变,但那可是千载难逢的机缘。黑猩猩有24对染色体,我们有23对。事实上非洲的三种大猿都有24对染色体。我们与黑猩猩源自一个共同祖先,因此在过去某个时候,我们的祖系染色体数目发生了变化:原先的两个染色体合并成一个。换言之,过去至少有一个人,体内的染色体数目与父母的不同。在整个基因系统中,还可能发生其他的变化。我们下面就要讨论,染色体上一整段DNA偶尔会复制到不同的染色体上。我们知道这类事件发生过,因为在不同的染色体上,我们发现了完全相同的长串DNA碱基序列。
一旦计算机从内存某个地址中读取了信息,这份信息的命运可能有二:一是被写到其他地方去,二是成为某个“动作”的一个成分。“写入其他地方”的意思,就是“复制”。我们知道DNA很容易从一个细胞复制到新细胞中,而且大段大段的DNA也可以从一个人复制到另一个人体内,就是他的孩子。“动作”就比较复杂了。在计算机中,有一类动作就是执行程序指令。在我计算机的ROM(只读存储器)中,地址64489、64490、64491的内容合并起来,形成的特定(0与1)模式可以解释成指令,使计算机的小喇叭发出一声“哔!”,那一信息模式是101011010011000011000000。那个信息模式,与“哔!”或噪音没有什么内蕴的关联。那个模式对扬声器的影响(使它发出特定的声音),表面看不出来。那个模式的效果完全是计算机组装方式设定的。同样的,DNA上以四个字母组成的“代码”(基因),与功能——例如影响眼睛(虹膜)的颜色,或行为——也没有什么一眼就能看出的关联。它们的影响,是由胚胎其他部分的发育模式决定的,而那个发育模式又是由DNA上其他基因模式控制的。本书第七章的主题就是基因间的互动。
DNA上的基因,在涉入任何一种行动之前,都得翻译到另一个媒体上。首先,DNA上的基因得译成RNA,一个字母都不能差。RNA也以四个字母构成。从RNA再翻译成另一种不同的聚合体,就是多肽或蛋白质。它也许可以叫作氨基酸聚合体,因为它以氨基酸为基本单位。生物细胞中共有20种氨基酸。所有生物体内的蛋白质都是由这20种氨基酸组成的长链。虽然蛋白质是氨基酸聚合成的长链,大多数蛋白质都不是长条形的。蛋白质每条链都盘缠成一个复杂的结,结的形状由氨基酸顺序决定。因此氨基酸顺序相同的蛋白质长链,会盘缠成相同形状的结,不容变异。氨基酸的顺序是由DNA上的碱基序列(经由RNA)决定的。因此,蛋白质的三向度(空间)盘缠形状,可说是由DNA上的单向度信息(碱基序列)决定的。
翻译程序包括著名的“基因码”(genetic codes,旧译“遗传密码”)。这是一本字典,DNA上每三个字母,最后都可以译成一个氨基酸代码,或“停止读取”符号。四个基本字母可以组成64个“三字母”码,对应20个氨基酸绰绰有余。至于“停止读取”符号,共有3个。许多氨基酸有好几个“三字母”码对应——我想你一定猜得到,因为氨基酸只有20种,而代码有64个。整个翻译工作,从单维的DNA只读存储器(ROM)到精确的蛋白质三维结构,是数字信息技术的绝活儿。至于基因影响身体的循序步骤,就不容易以计算机模型来说明了。
每一个活细胞,即使只是一个细菌,都可以想象成一个巨大的化学工厂。基因(DNA上的字母模式)的功能,表现在对工厂中事件、流程的影响上;它们有这种影响力,关键在它们支配了蛋白质的三维结构。我使用的形容词“巨大的”可能会令你觉得惊讶,尤其是细菌的尺度以一微米为单位,一微米只有百万分之一米。但是你一定记得每个细胞都能装下整部《新约》的纯文本档,此外,说它“巨大”,从它包含大量的精密机器这个事实来说,也绝不夸张。每一台机器都是一个大型蛋白质分子,是在DNA上某一特定段落(基因)的影响之下组装的。有一群蛋白质分子,学者叫作“酶”的,我认为都是机器,意思是:每一个酶都能促发一个特定的化学反应。每一种蛋白质机器都会生产特定化学产品。它们利用漂荡在细胞中的分子当原料,那些分子很可能是其他蛋白质机器的产品。你想知道这些蛋白质机器的大小吗?每一个大约由6000个原子组成。就分子而言,算是相当大了。每一个细胞里约有100万个这类大型分子机器,可区别为2000种,每一种都在化学工厂(细胞)中担负专门的任务。这些酶特有的化学产品,是细胞分化的基础,无论形状还是功能。
所有身体细胞都有同样的基因,可是身体细胞之间却发展出很大的差异,这也许令人觉得惊讶。原因是:每个细胞虽然都有完整的基因组,可是为了维持生存、发挥功能,只需“读取”其中一小组基因就成了,其他的基因就“存而不论”了;而不同种类的细胞,读取的基因不同。在肝细胞中,DNA的只读存储器(ROM)中有关建造肾细胞的特殊指令就不读了,反之亦然。细胞的形状与行为,由细胞读取的基因与从基因译成的蛋白质产物而定。而细胞会读取哪些基因,又受细胞中已有化学物的调控。那些化学物一方面源自细胞先前读过的基因,另一方面又与邻近细胞有关。细胞分裂时,两个子细胞不一定相同。例如原来的受精卵中,某些化学物聚集在细胞的一端,其他的在另一端。这么一个“两极化”的细胞分裂后,两个子细胞接收的化学物组成不同。也就是说,两个子细胞会读取不同的基因,就这样,源自细胞内部的因素就能推动细胞分化的过程。整个生物体最后的形状、四肢的大小、大脑神经线路的铺设、行为模式的发生顺序,都是不同种类的细胞互动的间接结果,而细胞不同,是因为读取的基因不同。这些分化过程,最好以第三章讨论过的“递归”程序来理解,而不是什么中央控制中枢根据某个伟大蓝图排演出来的。在递归程序中,局部要素都能自主。
遗传学家提到“基因的表现效应”时,讨论的就是本章所谓的基因“行动”。DNA对身体、眼睛颜色(瞳孔四周的虹膜颜色)、头发的蜷曲程度、侵略行为的强度,还有其他几千种观察得到的特征,都有影响,都叫作基因的表现效应。DNA起先只在局部施展这些效应,一旦被RNA读取了,翻译成蛋白质,那些蛋白质就会影响细胞的形状与行为。DNA模式中蕴含的信息,有两种读取的方式,这是其中一种。另一种就是复制新的DNA链,我们先前讨论过。
这两种传递DNA信息的方式,根本就不同,一是垂直传递,一是横向传递。垂直传递是传递到其他细胞的DNA,那些细胞能制造其他细胞,最后制造精子或卵子。因此,DNA信息垂直传递到下一个世代,然后再垂直传递到无数的未来世代。我管这种DNA叫作“档案DNA”。它们有不朽的潜力。传递“档案DNA”的细胞系列,叫作生殖系(germ line)。每个身体里都有一套细胞,最后会衍生出精子或卵子,因此就是未来世代的祖先,那套细胞就是生殖系。DNA的信息也能横向传递:传给生殖系以外细胞的DNA,例如肝细胞或皮肤细胞;在这些细胞中再传给RNA,然后是蛋白质,以及各种对于胚胎发育的影响,因而影响成体的形状与行为。你可以将横向传递与垂直传递对应于第三章谈过的两个子程序,发育与生殖。
自然选择就是不同DNA竞争垂直传递管道的结果,当然,不同的DNA进入物种“档案DNA”的成功率并不相同。任何一个DNA的竞争对手,就是在物种染色体特定地址上注册了不同信息的DNA。有些基因比对手基因更成功地留在物种档案中(物种ROM)。“成功”的终极意义是留在物种档案中,成功的判断标准通常是基因通过横向管道对于身体的“行动”。这也与计算机里的生物形模型很相似。举个例来说吧。假定老虎有一个特定基因,通过横向管道影响了上下颚的细胞,使牙齿变得不怎么锐利,可是这个基因的对手基因,却会使牙齿变得更尖利。老虎的牙齿要是特别尖利,就能更利落地杀死猎物;因此就会有更多的子女;因此就能垂直传递更多“利齿”基因的复本。这头老虎同时也传递了其他的基因,不错,但是平均而言,拥有利齿的老虎体内才有利齿基因。就垂直传递而言,这个基因得益于它对各种身体的平均影响力。
DNA作为档案媒体,表现非凡。它保存信息的能力,远胜石板。乳牛与豌豆(以及我们人类)都有一个几乎一样的组蛋白H4基因。它在DNA上,由306个字码组成。我们不能说它在所有物种中都登记在同一个地址下,因为我们无法有意义地比较物种之间的地址卷标。我们能说的是:乳牛DNA上有一串字码,共306个,豌豆DNA上也有这一串306个字码,几乎完全一样。两者只差两个字母。我们不知道乳牛与豌豆的共同祖先究竟生活在什么时候,但是化石证据显示:那必然在10亿到20亿年前。就说15亿年前吧。以我们人类来说,15亿年可真难以想象,在那么悠长的岁月中,从那位远古共同祖先分化出来的两个生物世系,居然将原始信息中的306个字码保存了305个(这是平均数:也许一个世系保存了所有306个字码,另一个世系保存了304个)。刻在墓碑上的字母,不过几百年就难以卒读了。
组蛋白H4这份DNA文件还有一个特征,与石板不同,因此信息能够忠实保存下来更令人觉得不可思议,那就是:它并不是因为材质耐久,所以登录的信息能完整保存。这份文件一代又一代地反复复制过,就像古代的希伯来经典,每80年就由抄手(书记)隆重地誊录一通,免得抄本耗损、字迹漫漶。从豌豆与乳牛的共同祖先,一直传到今天的乳牛身上,这份组蛋白H4文件不知誊录过多少次了,实际的次数说不准,但是可能经过200亿次连续誊录,应是合理的推测。经过200亿次连续誊录仍能准确地保存信息内容的99%,这实在难以找到适当的标尺来打分数。我们可以试着用一种传递游戏来当标尺。请想象:有200亿个打字员坐成一排,这一排可以环绕地球500圈。第一个打字员打出一页文件,然后传给邻座的打字员。他重打一遍,再将打出的复本传给下一个打字员。他重打一遍,将打出的复本再传给下一个打字员。如此这般,一直到复本传到最后一位打字员手里。好了,让我们读读这份文件(或者说,这第200亿位打字员读这份文件)。你猜这份文件与原始文件会有何差别?
为了回答这个问题,我们得对打字员的出错率做些假定。让我们将这个问题扭转过来。每个打字员必须多么仔细,才比得上DNA的表现?答案几乎可说太过荒谬,不值一提。一万亿分之一!连续打一万亿个字母,只准错一个。换言之,整本《圣经》一次誊录25万个复本,只准错一个字母。现在的秘书,每页只出一个错就算不错了。算来组蛋白H4基因的出错率必须放大5亿倍才比得上。一排秘书辗转抄录这份以306个字母写成的文件,到第20名,这份文件只保存了原始文件的99%。到了第10000名秘书的手上,原始文件中的信息只剩下1%。别忘了,整排秘书共有200亿位,这时还有99.9995%没见到复写本呢。
我承认,这个比较多少有点儿诈欺的成分,但是有趣的也在这里,而且这个面相颇富玄机,值得讨论。我的讨论让人产生的印象是:我们想测量的是复制过程中的出错率。但是组蛋白H4文件不只要复制,还必须受自然选择考验。组蛋白关系生物体的生存,极为重要。染色体的结构工程就要用到组蛋白。也许组蛋白H4基因在复制过程中出过许多错,但是带有组蛋白H4突变基因的个体都无法存活,或者至少无法繁殖。为了让比较公平些,我们应该在我们的想象实验中加上些条件,例如每个打字员的打字机与一把枪联机,只要打字员一出错,扳机就会扣动,无异找死。下一名打字员就自动递补上来。(要是读者觉得枪毙太残酷了,也许可以想象打字员坐在弹射椅上,只要一出错,就给弹射出去,但是枪毙比较符合自然选择运作的逻辑。)
你看出来了吧,前面测量DNA恒定性的方法,就是检查特定DNA片段(基因)在地质时间中的变化量,其实混淆了真正的复制忠实度与自然选择的过滤效果。我们只能观察到成功的DNA变异(突变)。导致死亡的突变我们观察不到。我们能够测量到真实的复制忠实度吗?就是每一世代自然选择开始运行之前的情况。可以。取所谓突变率的倒数就成了,突变率是可以测量的。结果,在任何一个复制DNA的事例中,任何一个字母复制错误(点突变)的概率略高于十亿分之一。组蛋白H4基因在演化过程中实际发生的突变远低于这个数字,反映的是自然选择保存这份古代文件的效能。
以基因的标准来说,组蛋白H4基因经得起十数亿年岁月的消磨,是个例外,而非常态。其他的基因变化率就高了,想来自然选择对于它们的变异较能容忍。举个例子好了,血纤维蛋白肽(fibrinopeptides,在凝血过程中形成的蛋白质)在演化中的变化率与基本突变率相去不远。这也许表示血纤维蛋白肽的结构即使出了什么差错也不是性命交关的事。血红蛋白基因的变化率则介于组蛋白与血纤维蛋白肽之间。血红蛋白在血液中执行重要的任务,它的结构的确重要;但是几种不同的版本似乎都能圆满达成任务。
这儿我们碰上了一个似乎难以自圆其说的现象,我们得好好想想才能脱困。演化速率最慢的分子,例如组蛋白,正是受到自然选择严密监控的分子。血纤维蛋白肽演化的速率非常高,只因自然选择并不在乎。它们能变就变了,所以演化速率接近自然突变率。我们觉得两者似乎格格不入,只因为我们太过强调“自然选择是演化的驱动力量”。因此,我们会觉得要是没有自然选择,就没有演化了。反过来说,强大的自然选择压力也许会导致快速的演化。这样想其实颇合理。可是我们却发现自然选择施展的却是踩刹车的力量。要是没有了自然选择,演化的基础速率,就是最大的可能速率。而所谓演化的基础速率,与突变率是同义词。
这一点都不难以解释。只要我们仔细思量,就会觉悟那是理所当然的。以自然选择为机制的演化,不可能快过突变率,因为说到底,突变是唯一创造种内变异的方式。自然选择所能做的,是接受某些新的变异,排斥其他的变异。突变率必然是演化率的上限。实际上,自然选择所关心的大部分是防止“演化变化”(简称“演化”)发生,而不是驱动演化。不过我得在这儿加上一句,我的意思并不是自然选择只是个毁灭的过程。自然选择也能创造,我会在第七章解释。
可是突变率的确很低。换言之,即使没有自然选择,精确保存档案的表现都令人印象极为深刻。保守一点估计,即使没有自然选择,DNA都能精确地复制,大约500万个复制世代才会“抄错”1%个字母。在我们的思想实验中,打字员的表现比起DNA来,实在望尘莫及,即使没有自然选择。想达到DNA的基础水平(没有自然选择的情况),每个打字员都必须打一遍《新约》只错一个字母。也就是说,就打字的本领而言,他们必须比典型的秘书好上450倍。用不着说,这个数字比起“5亿倍”让人觉得踏实多了,但仍然令人肃然起敬(前面说过,在自然选择监控之下,组蛋白基因的复制出错率,相当于誊录整部《圣经》25万次,只错一个字母)。
但是我对打字员并不公平。我等于假定他们无法察觉自己犯的错误,并改正过来。我假定完全没有“校对”的这回事。在实务上,他们当然会校对。因此,我这排数以亿计的打字员,不会让文件的原始文本像我说的那么容易失真。DNA的复制机制会自动进行同样的侦错/除错工作。要是它不做校对,就不会达成我报道过的复制正确率,那可是个惊人的成就。DNA的复制程序包含了各种校对步骤。由于DNA码的字母不像刻在大理石上的象形文字,不是静态的,校对更为重要。DNA上的“字母”分子非常小(记得我用过的比喻吗?一本DNA《新约》一根大头针的头顶都放得下),因此不断地受到冲击——分子受热后变得不安分,相互推挤是十分寻常的事。DNA分子本身也在不断变动,好比信息中的字母不断更新。每一个人类细胞中,每天有5000个DNA“字母”退化,必须以修补机制立即补上。要不是修补机制随时工作、不停工作,细胞核中的遗传信息就会逐渐消散掉。校对刚复制出的文本只是正常修补工作的特例罢了。DNA储存信息既精确又忠实,主要就靠校对机制。
我们已经知道:DNA分子是一种神妙的信息技术的核心。它能将庞大而精确的数字信息收录在极小的空间中;它又能将这份信息保存很长一段时间,单位以百万年计,虽然不可能不出错,可是出错率低得惊人。这些事实会领我们到什么地方去?它们指引我们方向,朝向地球生命的核心真理。本章一开始我谈到柳絮、种仁,就在暗示那个真理:生物是为了DNA的利益而活,而不是颠倒过来。这可不是不言自明的真理,但是我希望能够说服你。DNA分子上的信息,要是以个体生命史的尺度来衡量,几乎可算不朽。DNA信息(加减一些突变)的生命史是以百万年到亿年为单位来衡量的;或者,换句话说,相当于1万个个体到1万亿个个体的生命史。每个生物个体都应视为暂时的传播媒介,DNA信息在漫长的生命史中,不过以生物体为逆旅罢了。
世上充满了存有物!没错,我没有异议,但是这样说不能帮助我们厘清问题。东西存在,要么因为它们最近才出现,要么它们拥有一些特质,使它们在过去不可能被摧毁。岩石不会很快形成,一旦出现了,就坚硬得很,经得起岁月摧折。不然,就不是岩石了,而是沙。也真是,有些岩石变成了沙,所以海滨才有沙滩。耐久的才会以岩石之姿存在世上。另一方面,露珠存在世上,不是因为它们耐久,只因为它们刚形成,还没时间蒸发。我们似乎有两种“存有性”(existenceworthiness):露珠类,简言之就是“可能出现但不会持久”;以及岩石类,“不容易出现,一旦出现了,就可能持续一段时间”。岩石有耐久性,露珠“易于问世”(generatability)。
DNA则左右逢源。DNA分子作为一种实体存有物,就像露珠。在适当的条件下,它们很快就会出现,但是它们不能长期存在世上,几个月内就会被摧毁。DNA分子不像岩石那样耐久。但是它们身上的字母“模式”却像最坚硬的岩石一样耐久。它们有本事存在几百万年之久,因此它们现在仍然存在。DNA与露珠最根本的不同是:新的露珠不是由老的露珠生产的。露珠与露珠都很相似,毫无疑问,但是它们不会特别像“亲代”露珠。露珠与DNA分子不同,不会形成世系,因此不传递信息。露珠是自然发生的,DNA信息必须复制。
“世上充满了东西,个个都有在世上混的本钱!”这样的说辞不仅是废话,而且无关痛痒,几乎可笑,除非我们将这种说辞应用到一种特殊的耐久性上——以大量复本、世系表现的耐久性。DNA信息的耐久性与岩石的不同,它们易于问世,但与露珠不同。就DNA分子而言,说它们“有在世上混的本钱”可不是泛泛之谈,也不是废话。原来DNA分子在世上混的本钱,包括建造像你、我一样的“机器”,那可是已知宇宙中最复杂的东西了。这怎么可能呢?
基本上,理由是:DNA的性质正是任何累积选择过程必要的基本要素。第三章的电脑模型中,我们有意地将累积选择的基本要素设计进去。如果累积选择真的会在世上发生,就必须有某些实体,而且它们的性质构成那些基本要素。现在让我们看看那些要素究竟是什么。我们必须记住一个事实:这些要素必然早已在地球上自然出现了,至少是以某种粗陋的形式存在着,否则累积演化,以及生命,绝不可能发生。我们正在谈的,不一定只涉及DNA,而是生命在宇宙中任何地方出现都必需的基本要素。
当年,犹太人先知以西结被上帝的灵带到堆满骸骨的山谷中。他遵从上帝的命令,向骸骨发预言,使枯骨连接起来,生筋长肉。但是那些躯体仍然没有生气。它们还缺生命要素。一颗没有生物的行星上,有原子、分子、大块物质,随机地互相推挤、依偎,服从的是物理定律。有时物理定律使原子、分子结合在一起,就像以西结的枯骨,有时物理定律使它们分裂、分离。原子有时会形成相当大的集结体,然后瓦解、分崩。但是它们里面仍然没有生气。
以西结召唤四方之风将生气吹入枯骨形成的躯体中。像早期地球一样的死行星(没有生物的行星),必许具备哪些生机,才有机会成为活行星?不是生气,不是风,也不是任何仙丹、妙药。根本不是任何实体,而是一种性质,就是自我复制的性质。这是累积选择的基本要素。必须出现能够复制自己的实体,我叫它们“复制子”(replicators)。至于它们怎么出现的,细节仍不清楚,但它们是在寻常的物理定律支配下出现的,而不是奇迹,殆无疑义。在现代生物中,这个角色几乎完全由DNA扮演,但是任何能复制自己的东西都能胜任这个角色。我们猜测原始地球上的第一个复制子也许不是DNA分子。功能完全的DNA分子不大可能一下子就出现了,通常它得有其他分子的协助才成,而那些分子通常只有生物细胞中才有。最早的复制子也许比DNA粗陋而简单。
另外还有两个基本要素,通常只要第一个(自我复制)有了,就会自动出现。在复制自己的过程中,必然偶尔会出错;即使DNA系统不常出错,也是会出错的,地球上第一个复制子就更容易出错了。此外,至少有些复制子有“力量”(power)影响自己的前途。这最后一个要素,听来比实际上要邪恶。我的意思不过是:复制子的某些性质应会影响它们被复制的概率。这很可能是自我复制的基本事实导致的必然结果,至少会以简陋的形式表现出来。
于是每个复制子都制造了好几个自己的复本。每个复本都与原版相同,拥有原版的性质。当然,这些性质包括“制作更多自己的复本”(复本难免偶尔会夹带错误)。因此,每个复制子都有潜力成为一个世系的始祖,子孙复制子瓜瓞绵绵。每个新的复本必然都是以原料建造的,就是四周游荡的小建材。想来复制子可以当作某种模型或模板。小建材在模型里组装在一起,于是另一个模型就产生了。然后复本脱离模型,自身成为复制另一个复本的模型。因此一个有增殖潜力的复制子族群就形成了。族群不会无限成长下去,因为原料的供应是有限的。
现在我们要讨论我们论证的第二个要素。有时候复制并不完美。错误会发生。任何复制过程都无法完全消弭出错的可能,只能降低发生的概率。这是高级音响制造商一直在努力的事,而DNA复制过程在降低出错率方面,表现亮丽、非凡,我们已经谈过了。但是现代生物的DNA复制机制是个高级技术,包括精密的校对技术,经过许多世代的累积选择,已达成熟的境地。前面说过了,最早的复制子复制本领可能稀松平常多了,以忠实度而言,当然比不上今日的后出转精。
现在回头来看那群远古的复制子族群,瞧瞧复制失误会产生什么后果。用不着说,那不是个由相同的复制子组成的单调族群,其中有变异。复制失误的后果,也许就是丧失自我复制的能力。但是有些失真的复本仍能自我复制,只是与亲代在其他方面有些不同。于是那些带有错误的复本就在族群中繁衍了。
这儿使用“错误”(或“失误”)这个词,你千万别误会,得抹杀它的所有“贬义”。它是相对于高度忠实的复本而言的。复制错误搞不好能产生正面的结果,存活或复制本事反倒提升了,谁知道呢。我敢说许多精致的美食都是意外创造的,原来厨师只想遵循食谱炮制一番,哪知出了岔,新奇的美食因而诞生。要说有什么科学点子是我首创的,有时不过是误解或误读别人的点子罢了。回到太古复制子吧。大多数复制错误也许会降低复制效率,甚至使复制机制死机,但是少数错误反而能提升复制效能,于是带有这种复制“缺陷”的子代成为更好的复制子,亲代“原版”比不上。
“更好”是什么意思?基本上,指的是复制效率更好,但是实务上呢?说到这儿,就得谈第三个要素了。我说过,它就是“力量”,你很快就会了解我的理由。我以“小建材在模型里组装”讨论过复制过程,我说过整个过程的最后一步就是复本脱离模型,成为复制下一个复本的模型。可是“脱离”的时刻“旧模子”的性质也许会有影响,例如一种我叫作“黏度”的性质。假定在太古的复制子族群中,由于过去累积的复制错误,已经有好些不同的变异品种,其中有些品种正巧比较黏——复本不易脱离。最黏的,复本平均要花一小时才能脱离,去干自己的复制事业。比较不黏的,复制完成后,不要一秒钟复本就脱离了,可以立即制造下一个复本。最后哪个品种会在族群中占优势?答案不言而喻。如果这是那两个品种的唯一差异,比较黏的那个注定成为族群中的少数。不黏的品种制造复本的速率,比较黏的品种瞠乎其后,望尘莫及。中间黏度的品种,则速率平平。于是一个朝向低黏度的“演化潮流”就形成了。
这种基本的自然选择过程科学家已经在试管中观察到了类似的例子。有一种叫作Q-beta的病毒,寄生在大肠菌中。Q-beta没有DNA,但是有一条相关的RNA分子,事实上Q-beta主要就是一个RNA分子构成的。RNA也能像DNA一样地复制。
在正常细胞中,蛋白质分子是根据RNA“模板”组装出来的,不同的RNA“模板”组装出不同的蛋白质。而RNA“模板”是从保存在细胞档案室中的DNA主板翻制出来的。但是理论上,建造一个特别的机器(和其他的细胞内机器一样,也是一个蛋白质分子),以RNA“模板”翻制更多RNA“模板”是可能的。RNA复制酶就是这样的机器。在细菌细胞内这样的机器通常毫无用处,细菌根本不会建造它。但是由于复制酶是个蛋白质,就像其他蛋白质一样,细菌细胞中建造蛋白质的机器多才多艺,很容易转而制造复制酶,就像汽车工厂中的机器工具,在战时很快就能征用来制造军火:只要给它们正确的蓝图就成了。这正是Q-beta干的事。
那个病毒干活儿的零件是一个RNA“模板”。表面上,它与细菌细胞中游荡的其他RNA“模板”没什么差别,那些模板是从细菌DNA翻制出来的。但是,要是你仔细阅读那个病毒RNA中的文本,就会发现其中包藏祸心:那是一份制造RNA复制酶的计划。别忘了,RNA复制酶是制造RNA“模板”的机器,因此那个病毒RNA就能大量复制了,数量以指数成长。
于是细菌的生命工厂就被这些自利的蓝图劫持了。我们甚至可以说,它是咎由自取。要是你在工厂里设置的机器尽是些多才多艺的,给它们任何蓝图都能顺利制造出产品来,那么迟早会出现一张蓝图,让那些机器制造那蓝图的复本。于是这些恶棍机器在工厂里越来越多,到处都是,每个都吐出恶棍蓝图,制造复制自己的机器。最后,这个不幸的细菌撑不住了,裂开了,释放出数以百万计的病毒,侵入其他的细菌。这就是病毒在自然中的生命循环。
我把RNA复制酶叫作机器,RNA(模板)叫作蓝图,是有理由的,我会在另一章讨论。但是RNA复制酶与RNA也都是分子,化学家可以将它们从生物体内抽出、纯化,装入瓶子,储存在实验室的试剂架上。这正是美国哥伦比亚大学的分子生物学家施皮格尔曼(Sol Spiegelman,1914~1983)与同事在20世纪60年代做的事。然后他们将这两种分子一起放入试管溶液中,结果发生了有趣的事。在试管中,RNA分子就像个模板,专门合成自己的复本,但是这个过程必须有RNA复制酶的协助才能进行。先是,机器工具与蓝图分别被取出、隔离储存。然后,让它们在水中接近,并供应必要的小分子原料。虽然这时它们是在一个试管中,而不是在活细胞中,两者都恢复了过去的老把式。
从这个实验再跨出一小步,就能在实验室中观察自然选择与演化了。这只不过是(电脑)“生物形”模型的化学版。基本上,实验是这么做的:取一排试管,每一根都注入RNA复制酶溶液,以及合成RNA需要的小分子。每根试管都有机器工具与原料,但是啥事也没发生,因为缺了蓝图。现在将微量RNA倒入第一根试管。复制酶(机器工具)立即开始工作,制造出许多刚加入的RNA分子的复本,那些RNA分子在试管溶液的每个角落都可以发现。现在从这根试管取出一滴溶液,滴入第二根试管中。同样的过程也在第二根试管中上演了,然后从第二根试管取出一滴溶液当种子,“种入”第三根试管,再下一根试管,如此这般,直到最后一根试管。
偶尔,由于随机的复制失误,试管中会出现稍微不同的(突变的)RNA分子。要是变异的RNA分子(突变种)比原先的优异,很快就会在试管中占数量的优势(这里不讨论“优异”的缘由,纯以观察到的复制效率做判断标准)。不用说,试管取出的“种子”溶液,也是变异RNA占优势。因此下一个试管中,原先的RNA与变异RNA都是种子。从出现变异RNA的试管起,检验一系列试管(“世代”),观察到的现象就是不折不扣的“演化变化”(简称“演化”)。从许多回实验的最后一根试管,搜集到最具竞争优势的变异RNA,装瓶、贴标签后可供日后使用。举个例子好了,有个变异RNA叫作V2,比正常的Q-beta RNA复制效率高很多,也许是因为它比较小。V2与Q-beta不同,它不必携带制造复制酶的蓝图。复制酶是由实验者免费供应的。美国加州萨克研究所(Salk Institute)的奥格尔(Leslie Orgel,1927~2007;英国人,1951年获得牛津大学博士学位)以V2做过一个有趣的实验。他的团队为它设计了一个艰困的环境。
他们在试管中加入了溴化乙锭,那是一种毒性试剂,能抑制RNA的合成,就是使机器工具(复制酶)出现故障。一开始,奥格尔使用的毒液非常稀薄。最初几根试管中,毒剂使RNA合成的速率降低了,但是经过9根试管的移转之后,经得起毒剂荼毒的RNA新品种就脱颖而出了(给“选择”出来了)。变异RNA的合成率,相当于正常V2 RNA在没有毒剂的试管中。然后奥格尔的团队将毒剂加重一倍。RNA合成的速率再度降低,但是经过10根(以上)试管的移转之后,经得起高剂量毒剂荼毒的新品种又演化出来了。然后,毒剂再加重一倍。就这样,以逐步加倍毒剂的程序,他们想演化出即使在极高浓度的溴化乙锭溶液中仍能复制的RNA品种。结果RNA V40演化出来了,它在10倍浓度的毒液中仍能复制——那是以抑制“祖先”种(V2 RNA)复制的浓度为计算基准的。从V2演化成V40,要经过100根试管的转移(100个“世代”;当然,在真实世界中,每一次试管转移都对应许多RNA复制世代,而不只是两个)。
奥格尔的实验并未动用复制酶。他发现RNA分子在这些条件下能够自动地自我复制,只不过速率很慢。它们似乎需要其他的催化物质,例如锌。这个发现非常重要,因为在生命史的初期,复制子刚出现的时候,可能还没有协助它们复制的酶。锌倒可能有。
1976年,德国马克斯·普朗克生物物理化学研究所做了一个实验,与奥格尔的实验互补。在生命起源的研究上,那是个影响力很大的研究机构,由1967年诺贝尔化学奖得主艾根(Manfred Eigen,1927~ )领导。艾根的团队在试管中放入复制酶与制造RNA分子所需的原料分子,但是不在溶液中播种(RNA分子)。然而,一个特别的RNA大分子自然地演化出来了,而且在以后的独立实验中,同样的分子一再地演化出来!会不会是试管无意中被RNA分子“污染”了?仔细检查后,这个可能被排除了。这实在是不得了的结果:同样的大分子自动地演化了两次?概率太低了!这比猴子在计算机键盘上随意敲出哈姆雷特的一句话还不可能(还记得吗?我们在第三章讨论过)。那个特别的RNA分子,就像那句话在我们的计算机模型中演化一样,是逐步、累积演化组装成的。
反复在这些实验中产生的那个RNA分子,与施皮格尔曼制造出的,大小相同,结构也相同。只不过施皮格尔曼的RNA分子是从自然界的Q-beta RNA“变化”出来的,艾根的却几乎可说是“无中生有”演化出来的。这张蓝图特别适应加了复制酶的试管环境。因此从两个非常不同的起点出发,通过累积演化,抵达同一终点,可说是由环境选择的。大型的Q-beta RNA分子不太适应试管环境,却非常适应大肠菌的环境。
这样的实验帮助我们了解自然选择具有自动、非蓄意的性质。复制酶“机器”不“知道”它们干吗要制造RNA分子:它们那么做,只不过是它们的形状作祟,并非蓄意。RNA分子也没有筹划自我复制的策略。即使它们能思考,我们也得解释会思考的实体为何会有自我复制的动机。就算我知道复制自己的方法,我也拿不准我会在生涯规划中将复制自己列为优先事项,干吗呀?!可是分子说不上动机。那个病毒RNA的结构只不过刚巧发动了细菌细胞中的机关,于是它的复本就源源不断的生产出来了。任何实体,不管在宇宙中的任何角落,要是刚巧具有复制自己的绝佳本事,那个实体的复本就一定会源源不断地现身,完全自动。还有呢,由于它们自动形成世系,又偶尔会出错,于是在累进演化强有力的指引下,新版本的复制本领往往青出于蓝,后来居上。这个发展道理极为简单,过程又是自动的,一切都在预料之中,简直就不可避免。
在试管中,一个“成功的”RNA分子,关键在它有某种直接、内在的性质,可与我假设例子中的“黏度”比拟。但是“黏度”之类的性质并不引人入胜,只不过是复制子的基本性质罢了——直接影响复制利益的性质。复制子还可能影响其他的事物,那些事物对其他事物有影响,那些事物又影响到其他事物,最后间接影响到复制子复制自己的机会。你可以看出,要是像前面说的因果长链果真存在,我们反复说过的基本原理仍然站得住。复制子只要有复制自己的本事,就会在世上占优势,无论它的复制利益受多长的因果链影响,因果关系多么间接,都不会改变这个原理。同理,世界会被这因果链上的环节占据。我们会讨论那些环节,并对它们大为惊奇。
在现代生物中,我们随时都能看见它们,就是眼睛、皮肤、骨骼、脚趾、大脑、本能。这些事物是复制DNA的工具。它们是DNA造成的;眼睛、皮肤、骨骼、本能等彼此不同,也是DNA的不同造成的。导致它们的DNA,复制的概率受它们的影响,因为它们影响身体的生存与繁殖——身体包含同样的DNA,因此身体与DNA同舟一命。因此,DNA通过身体的特质,影响自己的复制。我们可说DNA有影响自己前途的力量,身体、器官、行为模式则是那个力量的工具。
说到力量,我们说的是后果,能够影响自身前途的复制子产生的后果,不管那些后果是多么的间接。从因到果的链子由多少环节组成并不重要。如果“因”是一个能复制自己的实体,“果”不管多遥远、多间接,都受自然选择的监视。我要借一个河狸的故事,来勾勒这个原理。故事的细节多是臆测之词,但大体上不会太离谱。虽然没有人研究过河狸大脑神经线路的发育,科学家研究过其他动物的,例如线虫。我从那些研究摘取结论,应用到河狸身上,因为对许多人来说,河狸比较有趣、宜人。
河狸的一个突变基因,只不过是一个字母的改变,而完整的基因组文本包含10亿个字母;这个改变发生在基因G。随着小河狸日渐发育长大,改变的字母也与文本中其他字母一起复制到所有细胞里。大多数细胞中,基因G不会被读出来;其他的基因,只要涉及其他细胞类型的运转,就会读出。不过,发育中的大脑有些细胞会读出基因G。它被读出后,就转译成RNA。那些RNA工作复本在细胞里四处游荡,最后有些撞上制造蛋白质的机器,核糖体。核糖体细读RNA工作计划,按规格生产新的蛋白质分子。每个蛋白质都有特定的氨基酸顺序,因而折叠成特定的形状。那些氨基酸顺序是基因G的DNA碱基序列决定的。基因G突变了之后,使原先的氨基酸序列发生了重大的变化,因此蛋白质分子的折叠形状也改变了。
这些稍微改变了的蛋白质分子,在发育中的大脑细胞中由核糖体大量生产出来。它们是酶,就是在细胞中制造其他化合物(基因产物)的机器。基因G的产物会进入细胞膜,与细胞纤维有关,就是与其他细胞建立联系的管道。因为原先的DNA计划发生了微小的改变,这些细胞膜化合物有一些生产率就改变了。因此某些发育中的脑细胞彼此相连的情形也改变了。河狸大脑某一部分的神经线路于是就发生了微妙的变化——DNA文本的一个变化导致的间接、遥远的后果。
河狸大脑这一部分因其在整个神经网络的位置,正巧与河狸的筑坝行为有关。当然,不论河狸什么时候筑坝,都必须使用大部分大脑,但是基因G突变影响了大脑网络的特定部分,因而对行为有一特定的影响。于是河狸在水中以嘴咬着圆木游泳时,会把头抬得很高——相对于体内没有突变基因G的个体而言。这使得圆木上沾的泥巴不大可能在运送途中被水冲走,圆木彼此的附着程度因而增加。这么一来,河狸将圆木塞入水坝后,圆木比较不容易松动。凡是体内有这个突变基因的河狸,塞入水坝的圆木都不易松动。建造水坝的圆木比较紧密地附着在一起,是DNA文本的一个变化导致的后果——间接的后果。
圆木比较紧密地附着在一起,使水坝的结构更坚实,不容易被水冲垮。于是水坝拦住的湖水就增加了,湖中央的巢穴更为安全,不容易受猎食动物的侵袭。这么一来河狸生养成功的子女数量就会增加。要是观察整个河狸族群,那些带有突变基因的个体平均说来生殖成功率较高。那些子女通常都从父母继承了同一突变基因的档案复本。因此,在族群中,这个基因的这一形式数量会随着世代递嬗而越来越多。最后它成为主流、正常形式,不能再以“突变型”指涉了。这时,河狸坝一般而言又改进了一级。
我承认这个故事只是个假说,细节也许不正确,但是那与我的论点无关。河狸坝的演化,受自然选择的监控,因此真实的情况除了细节外,与我的故事不会有什么出入。这个生命观的大意,我在《延伸的表现型》(The Extended Phenotype,1982; 1999)一书中解释、演绎过,这儿就不重复了。你可能注意到:在这个虚拟故事里,至少有11个因果环节将基因与改善了的生存(生殖)串联在一起。在实际的例子中,涉及的环节也许更多。那些环节每一个都是由DNA上的一个变化造成的,无论是对细胞化学的影响,后来对大脑细胞链接模式的影响,再后来对行为的影响,或最后对水坝拦截的水量的影响。即使那些环节不止11个,而是111个,也无妨。基因的变化(突变),只要影响自我复制的概率,就会受自然选择的筛拣。这道理实在太简单了,过程是自动的、不待筹度的。只要累积选择的基本要素——复制、失误、力量——出现了,这样的事(累积演化)是不可避免的。但是这如何发生?地球上,在生命出现之前,那些要素怎么出现的?下一章,我们要讨论如何回答这个困难的问题。