拥挤的伊甸园
就这样,在20世纪80年代,我们发现自己有了很多新近发展的分子生物学工具,一种解释多态性如何作用于群体的理论,一种通过分子序列数据来估计日期的方法,以及一个亟待遗传学回答的尘封已久的问题——人类的起源。万事俱备,只欠东风,而今这个领域需要的只是幸运的洞察力和破旧立新的勇气。这两点刚好出现在20世纪80年代早期北加州旧金山湾区。
艾伦·威尔逊(Allan Wilson)是在加州大学伯克利分校工作的澳大利亚生物化学家,他利用分子生物学——生物学致力于DNA和蛋白质研究的新分支来进行进化分析。按照祖卡坎德尔和鲍林开创的研究路径,艾伦和他的学生们使用分子技术去推断人类与猿类分道扬镳的时间,与此同时,他们也试图就自然选择驱使蛋白质根据周遭环境的需要做出调整的具体而微的细节做一些解读。威尔逊是一个充满革新意识的思想者,他满腔激情地拥抱了分子生物学的新技术。
分子生物学家在研究DNA序列时遇到的问题之一,是这些信息本身所具有的可复制性。存在于我们每一个细胞内部的完整的DNA序列——通常被我们想当然地等同于基因组,对我们体内生成的所有蛋白质进行编码,这还不包括其他数量众多、功能尚不明确的DNA,而且我们还拥有一份副本。DNA被打包进一个被称为染色体的更为齐整的线性结构中,我们拥有23对这样的染色体。染色体存身于细胞的细胞核中。而我们基因组最主要的特征之一,就是它令人惊讶的区隔性,正如计算机中大文件夹套着小文件夹,小文件夹下面又有更小的文件夹一样。在人类的基因组里,有30亿个被称为核苷酸的基础构建单元。这些构建单元大体可分为A、C、G和T四类,我们需要一些方法,以一种直截了当的方式来理解它所承载的全部信息。这就是为什么我们会有染色体,为什么这些染色体会被特别存储起来,而不是与细胞核里的其他物质相混杂。
我们身体中的所有细胞都包含同一基因的两个副本的原因相当复杂,但是它最终着落到性的问题上。受精卵形成时最为重要的事就是父亲的部分基因组和母亲的部分基因组以50∶50的比例整合成为新生儿的基因组。从生物学的角度看来,性的功用之一,就是通过代际继承产生新的基因组。新的基因组的起点,并不单纯是父系基因组和母系基因组一半对一半的结合刹那,而是比这还早,即精子和卵细胞本身形成的时候。这种性成熟之前的混合通常被称为遗传重组。重组之所以成为可能,其原因在于染色体的线性本质——它相对来说更容易在每对染色体的中间部位断开,然后再各自附着到另一半上去,在这个过程中形成新的嵌合的染色体。一旦母亲和父亲的DNA发生混杂,这个过程就必然会发生,究其原因,在于每一代能够生产出更多的多样性,从进化的角度来看,这当然是件好事。一旦环境有所变化,人们需要随时做出反应。
但是,稍等,你也许会说,为什么这些断裂后重新附着的染色体会和先前存在的那个有区别呢?它们都被认为是复制品啊!个中原因,其实相当简单,因为它们并非彼此的精确复制版——在染色体线状构成的很多部位,它们并不全然相同。它们更像是复制品的复制品的复制品的复制品,被一个多少有些问题的复印机生产出来。在每一次染色体复制的过程中都会产生些小小的随机误差,这些误差就是上文提及的突变,每对染色体内部彼此间的不同之处就是我们说的多态性。染色体中每1000个核苷酸中就存在着1个这样的多态性,它是染色体彼此之间相区别的重要依据。正因为如此,一旦重组发生,新的染色体就肯定会和父母双方的有所不同。
这种重组所带来的进化影响体现在,它打破了那些附着在同一DNA上的多态性的集合。这种多样性的生发机制从进化的角度来讲确实是件好事情,但是它也给那些想要读懂藏在人类基因组中的历史书的分子生物学家带来不小的麻烦。重组使得染色体上的每一种多态性都能够独立运作,不再彼此依赖。这种多态性的重组会跨越时空一而再再而三,没完没了,经过成百上千次的代际更替之后,那些曾经一度存在于染色体之上的共同祖先的多态性模式就彻底消失了。子代的染色体被彻底弄混了,原始的存在物无迹可寻。这对于进化研究来说是件坏事,因为,如果我们对于最初的东西知之甚少的话,我们就没法利用奥卡姆剃刀的研究方法来探索多态性的模式,也就更没法了解究竟存在着多少种变化可以用来甄别这些被搅乱了的染色体。所有我们对于分子钟的假设都基于通过突变产生新的多态性的速率。重组会让事实上并无突变的地方看起来像有突变一样,正因如此,我们容易高估从同一祖先分化的时间长度。
威尔逊和其他一些遗传学家在20世纪80年代早期持有一种观点,就是如果我们跳出基因组向外看,在细胞内部我们会发现无处不在的小型的线粒体结构,而通过它们我们有机会解决这个问题。有意思的是,线粒体也有自己的基因组,是细胞中除细胞核外,唯一携带基因组的细胞器。线粒体基因组实际上是进化的遗留物,源自亿万年之前的早期复杂细胞时代,线粒体应当是当初我们某个单细胞的祖先一口吞下的某种远古细菌的遗留物。在后来,线粒体基因组被证明在细胞体内产生能量的功能非常有用,至今仍在作为简化的细胞能量工厂发挥作用,尽管当初它只是被当作寄生物。幸运的是,线粒体基因组只在一个副本里存在(如同细菌基因组),这就意味着它没法重组。这好极了!由此产生这样的结果:与每1000个左右的核苷酸仅拥有1种多态性相比而言,它差不多每100个就会有1种。要做进化的比较研究,我们希望尽可能多地占有多态性资料,因为每一种多态性都有助于提升我们区别不同个体的能力。我们可以这样设想:如果我们只审视其中一种多态性的话,这种多态性通常有A或B两种变量,我们只能把由变量A或B确定的每个个体分类到两个组中去。在另一方面,如果我们同时审视各有两个变量的十组多态性的话,我们会得到更好的解决方案,因为多个个体拥有同一种变量组合类型的可能性要低很多。换句话说,我们拥有的多态性越丰富,我们就越有机会在研究群体之中找到那些有价值的联系模式。既然多态性在线粒体DNA里的存在比在基因组其他部分中多出10倍不止,那么线粒体DNA就成为我们研究的不二选择。
丽贝卡·坎恩(Rebecca Cann)曾在博士生阶段在威尔逊的实验室里工作。她着手研究来自世界各地不同人种的线粒体DNA突变模式。一直以来,在人类胎盘(存储着丰富的线粒体DNA)标本的采集上,伯克利大学的团队成果斐然,这些标本来自欧洲人、新几内亚人、美国本地人等不同的群体。他们的目标是评估整个人类的突变模式,并力图对人类起源问题给出一些解释。他们的研究所得意义非同寻常。
坎恩和她的同事们在1987年出版了他们有关人类线粒体多样性的初步研究成果。这是学界首次使用最大简约法来分析人类DNA多态性的相关数据,以推导出一个人类的共同祖先并估算其年代。在论文摘要中,他们清晰简洁地阐明了研究的主要发现:“所有的线粒体DNA来自一位妇女,据推测该妇女可能生活在距今约20万年的非洲。”这个发现成为一则爆炸性新闻,在通俗小报中人们将这名妇女称为线粒体夏娃,我们所有人的母亲。令人震惊的是,她虽然并非伊甸园里唯一的女性,但却是最幸运的那位。
坎恩和她的同事们所做的分析涉及探寻线粒体DNA序列如何彼此发生关联。在论文中,他们假设如果两个线粒体DNA序列在一个多态位点共享一个序列变异(比如,在一个不是C就是T的序列中定位为C的话),他们就会拥有一个共同的祖先。通过建立线粒体DNA序列网络——共147个——他们能够推断出提供样本的个体之间的关系。这是一个单调乏味的过程,需要花费大量的时间在计算机上进行数据分析。他们的研究结果显示,他们在非洲人那里发现了线粒体DNA序列最大的差异性,这意味着非洲人已经和其他人分道扬镳很久了。也就是说,非洲人才是这个星球上最古老的人类族群,这意味着我们人类其实起源于非洲。
坎恩、斯托金和威尔逊用来分析他们的线粒体DNA序列数据的最大简约法的特征之一,就是它不可避免地会将我们引向遥远过去某特定时间点上的某一个共同祖先。对于那些不参与重组的基因组的其他部分来说(当然,在当前的语境下我们更多是指线粒体),我们能够定义出一个唯一的远祖级别的线粒体,于它而言,现存的所有线粒体都是它的后代。这就像是池塘里一圈圈向外漾开的水波纹能够暗示出石头的落水点一样,毫无疑问肯定会在圆圈中心。这些不断进化的线粒体DNA序列,以及在由母亲向女儿一代代传递过程中不断累积起来的多态性,就像是漾开的水纹,而我们的共同祖先所处的位置,就是石头入水的位置。通过使用祖卡坎德尔和鲍林的分析方法,我们能够“看到”那位生活在成千上万年前的单一祖先,经过一代代的突变产生出今天世上所存的所有不同类型。更进一步说,如果我们知道这种突变发生的概率,并能够通过全球人类多态性样本的采集统计出究竟存在着多少种多态性,我们也就能够计算出,从石头落水到现在究竟过去了多少岁月,回溯到我们今天所有这些突变后代必然从她那里繁衍下来的那位祖先那里。
图2 现代人起源于非洲的证据。线粒体DNA谱系图中最早的分化来自非洲人的序列,他们积累进化产生的变化的时间最长
至关重要的是,尽管一个单一的祖先繁衍出所有今天形形色色的不同人种是事实,但这不意味着这位祖先是当时活着的唯一的一个人,只能说同一时期的其他人没有将血脉传至今天。想象一下18世纪的普罗旺斯小村庄住着10户人家,每一家都有着自己独特的法式海鲜汤的烹饪秘诀,但只通过母亲和女儿的口耳相传。如果这个家庭只有儿子的话,这个秘方就会失传。这样一代代下来,我们最开始拥有的那些烹饪秘方就会逐渐减少,因为有些家庭不够幸运,没有生出女儿。到如今留给我们的仅仅只有一种存世配方——法国名菜:普罗旺斯鱼汤(la bouillabaisse profonde)。为什么这种秘方会流传下来?仅仅是偶然而已,其他家庭就因为在过去的某个时间点上没有女儿,于是他们的秘方就随地中海刮来的干冷北风而逝。再看看今天的这个小村庄,我们多少会因为它缺乏烹饪的多样性而略感失望,他们所有人怎么能够都喝同一种口味的汤呢?
当然,现实生活中,没有人可以把一种烹饪配方原封不动地从一代传到下一代,不进行任何小小的调整以适应新一代人的口味。人们或许在这里加点大蒜辛香,在那里加点百里香,一份定制的母系遗产的变种就出来了。一代又一代,这些围绕相同主题不断变化的配方,在汤碗里生成各自的多样性。当然配方的消亡也仍在继续。如果我们再审视今天这个定制鱼汤的村庄,我们会看到令人吃惊的配方多样性,但是它们仍然都能够回溯到一个单一的共同祖先那里,这要感谢奥卡姆剃刀。这就是染色体夏娃的秘密之所在。
在后来的岁月里,坎恩和她的同事在1987年得出的研究结论得到更为详细的分析支撑,所有研究都指向两个重要的事实:人类线粒体的变异产生于20万年前,毫无疑问,这块打破湖面平静的石头扔在了非洲。于是,在非常短的时间内,至少一个进化周期里,人类自非洲扩散开来并在世界其他地区落地生根。尽管有人会对论文中的统计分析提出些技术层面的不同意见,但是近来有关线粒体DNA的越来越多的研究成果确认并发展了原始分析得出的结论。我们所有人都有一位曾曾曾……祖母,她生活在近15万年前。
达尔文在他1871年出版的讨论人类进化的《人类的由来》(全名《人类的由来与性选择》)里写道:“世界各大区域至今犹存的哺乳动物和同一区域业已灭绝的物种有着非常密切的关系。正是因为如此,我们能够推断非洲曾经生活着一些业已灭绝的古猿,它们与大猩猩和黑猩猩同属一类;既然大猩猩和黑猩猩如今已然是人类近亲,这多少说明我们的先祖更有可能生活在非洲大陆而不是别的地方。”在某种程度上,这种说法有着令人难以置信的远见卓识,因为19世纪绝大多数的欧洲人更愿意将亚当和夏娃放在欧洲或者亚洲。换一种更烦琐的表达,猿类早在230万年前就起源于非洲,只要我们退回得足够远的话,我们就注定会在这片大陆上和我们的祖先相遇。关键是要有一个确定的日期,这也是遗传学研究结论具有革命性意义的原因所在。
以卡尔顿·库恩为代表的人类学家曾经主张人类的不同种族是由世界不同地区的原始人类祖先经由各自独立的物种形成事件进化而来的。这种假说被称为多源论,即使在今天的人类学圈子里仍有学者坚持这种说法。其基本观点认为古代的原人,或说类人动物,在过去两三百万年的时间里逐渐走出非洲,最早在东亚一带站稳了脚跟,然后就地进化为现代人类——在这个过程中产生出库恩分类的不同种族。要想理解这种理论为什么会如此深得人心,我们需要暂时把DNA放在一边,翻找几块古老的骨头。