字母乱码
埃米尔·祖卡坎德尔(Emile Zuckerkandl)是一位在美国加州帕萨迪纳加州理工学院工作的德国犹太移民。他科研生涯的大部分时间执着于一个问题:蛋白质结构。20世纪50年代到60年代,在与诺贝尔奖获得者、生物化学家莱纳斯·鲍林(Linus Pauling)一起工作的时候,祖卡坎德尔就在研究携带氧原子的血红蛋白的基本结构。之所以选择血红蛋白,是因为它数量巨大并且容易提纯。血红蛋白还有另外的一个重要特性:它被发现广泛存在于每一种哺乳动物中。
蛋白质由氨基酸线性排列而成,小分子构成的肽链以特有的方式链接在一起组成特定的蛋白质。而蛋白质最让人惊异的特性是,尽管它们作用时常常会拧成巴洛克式的复杂形状,也经常会有一些其他的蛋白质以一种复杂的方式附着在它们上面,但活跃蛋白质最终的形状和功能始终为氨基酸简单的线性排列组合所决定。能够合成蛋白质的氨基酸有20多种,其中就包括有赖氨酸和色氨酸。它们被化学家们缩写成单个的字母代号——比如K和Y。
祖卡坎德尔注意到这些氨基酸的排列呈现出有意思的模式。当他着手破解采自不同动物的血红蛋白时,他发现这些血红蛋白很相似。它们通常有着完全相同的排序,10条,20条,甚至是30条氨基酸排成一个系列。当然,这其中会有些细小差异。最让人目瞪口呆的是,这些动物的相关度越高,它们血红蛋白的结构也就越相似。人类和大猩猩就有着本质上完全相同的血红蛋白排序,仅仅在2个位置上有差别,相比较而言,人类和马在15个位置上有区别。对于祖卡坎德尔和鲍林来说,这些分子能够起到某种分子钟的作用,记录下自远古同一个祖先以来的全部时光,只要追溯氨基酸变化的数量就可以实现。在1965年出版的论文里面,他们实际上直接把分子当成“进化史的文献记录”。事实上,我们所有人都携带着由我们的基因写就的历史书。根据祖卡坎德尔和鲍林的说法,分子结构呈现出来的独特图式甚至能够让我们有幸瞥见我们遥远的祖先,只要通过奥卡姆剃刀来缩减要推算的氨基酸的变化数量,我们就可以一步步推回到那个可能存在的起始点。(如图1所示)这些分子事实上是我们的祖先在我们的基因组里埋藏下来的时光胶囊。我们下一步必须要做的事情,就是学着读懂这些时光胶囊。
图1 两个相近分子的进化谱系图,展现了每一谱系中累积的序列变化
当然,祖卡坎德尔和鲍林也意识到蛋白质并非遗传变异的根源。真正起作用的是DNA,它事实上形成了我们的基因组。如果是DNA对蛋白质(DNA指导合成的结果)进行编码,那么研究中最好用的分子就是DNA本身。问题在于DNA特别不容易提取,而且要得到一个完整序列需要很长时间。20世纪70年代中期,沃尔特·吉尔伯特(Walter Gilbert)和弗雷德·桑格尔(Fred Sanger)各自独立发明出了快速获取DNA序列的方法。由于这个发明,他们俩还在1977年共享了诺贝尔奖。对DNA进行排序的能力开启了生物学变革的新纪元并持续到现在,还在2000年达到了高潮。在2000年里,人类基因组框架图完成。DNA研究彻底革新了我们对生物学的看法,于是,它也毫不意外地对人类学研究产生了巨大影响。