第三章 夏娃的配偶
女人不需要男人,就像鱼不需要自行车。
——格洛丽亚·斯坦恩(Gloria Steinem)
在上一章里,我们遇到了“夏娃”——一位当今所有人的女性祖先,她生活在将近15万年前的非洲。我们根据留存有我们那位遥远祖母最清晰基因信息的人群开始寻找伊甸园的位置。在我们开始寻找之前,我们有必要厘清夏娃特有的血统。她代表了线粒体家族的根,于是她以一段人类共同的母系历史把世界各地的每一个人联结在一起。然而,这并不意味着我们DNA的每一个部分都讲着同样的故事。因为生殖重组,我们的基因组是由大量的区块组成的,每个区块都是独立进化的。也许一个DNA区块可以溯源到印度尼西亚,而另一个DNA区块是从墨西哥起源的。那么,在追踪最近的一次走出非洲之旅时,夏娃的血统是独一无二的吗?
答案是我们基因组里的其余部分也如同mtDNA一样,呈现出基本相同的模式,尽管它的分辨度相对较低。对β—珠蛋白基因(血液携氧成分)、CD4基因(一种有助于调节免疫系统的蛋白质)和2i染色体上的DNA区的多种形式的研究都表明,非洲人群所拥有的多样性比生活在非洲以外地区的人群要多得多,并且结论给出的年代远小于我们非洲共同祖先200万年的年龄。但问题是,我们使用的这些标记来自我们基因组中占大多数的22对染色体,随着时间的推移,这些信息往往会变得混乱。基因多态性分隔越远,就越容易变得很乱。这种混乱会模糊历史信息,这意味着我们的绝大多数基因组对于追踪迁移并不是非常有用。
然而,有一段DNA最近被证明是揭示人类历史细节的一个宝贵工具。它成为远比我们想象的更为强大的手段,能够勾画出我们的祖先的漫游路径。这就是和mtDNA相当的男性特有的遗传信号,它只从父亲传给儿子。正是出于这个原因,就像我们通过研究mtDNA能够得到女性的传承谱系一样,它也能够定义一个独特的男性血统。就像普罗旺斯村传承的烹饪秘方,血统湮灭和混合变化的所有细节都会在汤谱配方里保存下来,这也同样适用于这段DNA。这就是Y染色体。
等等,你可能会问:这里说的母系血统和父系血统到底是怎么一回事?我一直以为繁衍后代就是将父母的基因组按50∶50的比例混合后制造孩子,为什么会有打破上述这些常规的怪事?对于线粒体DNA来说,答案很是简单明了:它实际上不包括在我们所认为的人类基因组的范围之内,反而更像是生活在最早细胞里的一种寄生细菌,一种残存至今的进化遗留物。对于Y染色体来说,故事要复杂得多。
有性生殖的一个诡异特征是,决定我们性别的染色体,所谓的性染色体,并不遵循50∶50的混合法则。我们的基因组是双重布局的,每个染色体有两个副本,可是,当我们真正研究这些染色体的时候,就不是我们想象的那回事了。这是因为,在大多数动物中,性别是通过一个不匹配的性染色体来决定的。对哺乳动物来说,是雄性不匹配,有一个X染色体和一个Y染色体的哺乳动物是雄性。在雌性中,X染色体和其他染色体一样,以两个拷贝的形式存在,从而允许正常的重组。然而,在雄性中,Y染色体只与X染色体在两端的短区域内匹配,从而在细胞分裂过程中对性染色体进行适当的排列。Y染色体的其他部分,被称为Y染色体的非重组部分,与X染色体几乎毫无关联。因此,它既没有配对的染色体可以重组,也不参与重组。因此它可以不被干扰地一代代传递下去,就像线粒体基因组一样。
Y染色体为群体遗传学家提供了研究人类多样性最有用的工具。原因之一是,mtDNA是一个长约1.6万个核苷酸单位的分子,而Y非常巨大,大约有5000万个核苷酸那么大,有很多很多位点,这些位点可能在过去发生过突变。正如我们在上一章中讲到的,多态性位点越多,给我们提供的处理方法就越好。如果我们只处理兰德施泰纳的血型的话,我们就只能按A、B、AB和O四类来对每个人进行分类。换种方式表达,Y染色体能提供的多态性景观会非常大。而最为关键的是,由于缺乏重组,我们就可以像推断mtDNA一样推断出Y染色体的突变发生顺序。如果没有这个特性,我们就不能使用祖卡坎德尔和鲍林的方法来定义血统,那样的话在寻找祖先这个问题上即便“奥卡姆剃刀”也无能为力。
Y染色体如何能在不参与重组的情况下生存下来?这与我们需要生产更多的多样性以备不时之需的理念相矛盾吗?简单来说,不参与重组肯定会产生负面的进化后果,这也是Y染色体上功能性基因数量偏低的原因之一。那些活跃基因在基因组各部分之间的分布呈现出巨大的数量差异。比如在线粒体中,有37个基因,而核基因组中的基因总数约为3万个,平均每条染色体约1500个。原本存在于线粒体的细菌祖先的成千上万的基因在过去亿万年的时间里消失殆尽,而线粒体本身也变得更具有寄生性,为能在另一个细胞中安逸生活而放弃了自主权。其中有一些线粒体事实上已经插入细胞核DNA中,这种不寻常的情形意味着,我们基因组中有一小部分就起源来说就是细菌。就线粒体DNA的具体情形而言,它看上去似乎对失去自己的基因这件事很有压力,因此把关键基因转移到细胞核中,在那里进行的重组可以让它们做好充分准备来应对进化竞赛。
在Y染色体上我们也能发现同样的基因遗失模式。虽然人类每条染色体上平均会有大约1500个活跃基因,但只有21个在Y染色体上被识别出来。其中一些基因是以多重串联重复形式存在的,就好像复印机断断续续地在过去的某些点上复制该基因一样。这些重复出现的多重串联在我们的统计中被算作单个基因。有意思的是,Y染色体上所有的21个基因都在某种程度上参与了创造“男性”。尤其是被称作“SRY”的基因,它的全称是Sex-determining Region of the Y(Y的性别决定区域),它是未分化胚胎生成雄性的主开关。其他次一级的功能涉及使男人不仅看起来,而且在行为举止上也更像男人。然而,在大多数情况下,构成Y染色体的DNA不具备任何可识别的功能。这就是所谓的“垃圾DNA”,这意味着它从一代传到下一代,而没有被赋予任何实际效用。但是,尽管它有可能是生物垃圾,但对群体遗传学家来说却像不可多得的金砂。
正如我们看到的那样,我们只能通过观察差异来研究人类的多样性,群体遗传学的语言就写在我们每个人携带着的与生俱来的多态性中。这些差异将我们所有人划定为独特的个体,除非我们有双胞胎兄弟(姐妹),否则世界上没有其他人能够和我们一样有相同的遗传多态性模式。这是DNA“指纹”背后的洞察力,常常被用来识别罪犯。应用到Y染色体上,我们可以向历史深处追溯一个独一无二的男性血统,从儿子到父亲,再到祖父,如此这般回溯下去。往极端了说,它让我们可以从今天活着的任何一个男人的DNA回溯到我们的第一个男性祖先——亚当。但是,在区域模式中,不相关的男性是如何被彼此关联起来的呢?每个男人都确定能够把他自己独有的Y染色体链追溯到亚当那里吗?
答案是否定的,但是原因稍微有点复杂。这是因为我们不像自己以为的那样彼此全然不相干。我们基因组的绝大部分情形并不完全为我们的母亲或父亲所独有。既然我们从父母那里各自继承了一半的DNA,那么它所包含的多态性模式就可以用来推断父子关系,毕竟是它将我们与母亲和父亲联系在一起。假如在法庭上我的DNA被证明与一个我从来没有见过的孩子有50%的匹配,有可能我就要给这个孩子支付他未来很多年的抚养费,因巧合而出现这种匹配度的概率是微乎其微的。于是这些多态性将我们和我们的父母划定为我们那个独特的宗谱分支的一部分。地球上其他任何人群的DNA中都不会有这样完全相同的故事。
如果我们再往大一点扩展,去琢磨我们的祖父母以及他们的祖父母等,我们其实在每一代都会丢失一些信号。我和我的父亲有50%的匹配,但只有25%与我的祖父匹配,与我祖父的祖父只有6%的匹配。这是因为,当我们逆着时间往前推,我们每一代都会有新加入的祖先,累积的速度相当之快。我们每个人的父母都各有两个父母,后者又分别有两个父母,依此类推下去。耶鲁大学的遗传学家肯尼思·基德(Kenneth Kidd)指出,如果我们每一代人(约25年)的祖先数量增加一倍的话,当我们回溯到大约500年前时,我们每个人肯定都有超过100万个祖先。如果回溯到诺曼人入侵英国的时候,也就是1000年前左右,我们可以计算出肯定有超过1万亿(1000000000000)个祖先,远远超过了整个人类历史中曾经存在过的人口总数。这是怎么回事?是我们的计算方法有问题吗?
答案是既对又错。算法本身是正确的。至少从古希腊时代开始,人类就已经知道了指数增长的规律。我们都熟知“兔子繁殖”这一真实现象。因此,计数统计中出现的错误不是出自计算器故障,而是源于一种假设,即我们血缘谱系中的每个人都与其他人毫无关系。很显然,人们的祖先很多情况下会有交叉重合,否则我们就无法让这些数字发挥作用。每一代的人数都是乘以一个小于2的数字的结果,事实上,对于大多数人来说,这个数字更接近于1。理由可以通过进行一些带诗意的观鸟活动找到。