第六章 基因地理学家

字数:11536

身处非洲版图的地理学家,

满眼皆是狂野大地的凄凉;

这里遍布起伏的丘陵地带,

人迹罕至终成象群的乐土。1

——乔纳森·斯威夫特(Jonathan Swift),《诗论》

人类基因组计划本应成为一项崇高的事业,可是现在却越来越像某种纠缠不清的泥地摔跤比赛。2

——贾斯汀·吉利斯(Justin Gillis),2000年

从客观角度来讲,人类基因组计划所取得的第一个成果与基因毫无关系。1989年,当沃森、津德与同事们正在全力以赴筹备人类基因组计划时,美国国立卫生研究院一位名不见经传的神经生物学家克雷格·文特尔(Craig Venter)却提出了基因组测序的捷径。3

生性争强好胜的文特尔在学生时代成绩平平,他热衷于冲浪与帆船运动,并且曾经参加过越南战争。文特尔对挑战未知领域的工作充满了信心,他原本接受的是神经生物学方面的培训,可是后来大部分时间都花在了肾上腺素的研究上。20世纪80年代中期,文特尔在美国国立卫生研究院工作期间对于人脑中表达基因的测序工作产生了兴趣。1986年,文特尔听闻勒罗伊·胡德发明了快速测序仪后,他当机立断为自己的实验室购入了早期型号的设备。4测序仪送达之后,文特尔激动地将其称为“成就梦想的宝盒”。5他不仅拥有一双工程师般的巧手,还能像生物化学家一样通过实验来解决问题。只用了短短几个月,文特尔就掌握了使用半自动测序仪进行快速基因组测序的方法。

文特尔实现快速基因组测序的秘诀就在于大幅精简原有的步骤。尽管人类基因组由许多基因组成,但是其结构大部分为非编码序列组成。这种存在于基因之间的序列被称为基因间DNA,它就像是连接加拿大小镇之间绵延不绝的高速公路。菲尔·夏普与理查德·罗伯茨已经证实,基因的编码序列并不是连续排列,那些介于它们之间的非编码序列被称为内含子。

对于基因间DNA与内含子来说,它们就是编码序列之间的间隔序列与间插序列,本身并不编码任何蛋白质信息。[1]某些DNA序列所包含的信息可以决定基因表达的时间与空间,它们负责编码基因调控开关的启动与终止,而其他序列所编码的功能尚不得而知。我们可以把人类基因组的结构用以下例句进行说明:

This.........is the......str...uc......ture... , , , ...of...your... ( ...gen ... ome... ) ... 其中每个单词对应基因编码序列,省略号对应间隔序列与间插序列,偶尔出现的标点符号则代表基因调控序列的界限划分。

※※※

文特尔在测序时首先要忽略掉的就是人类基因组中的间隔序列与间插序列。他认为,既然内含子与基因间DNA并不携带编码蛋白质的信息,那么为何不聚焦于编码“活性”蛋白质的片段呢?在对测序步骤进行反复精简之后,他大胆提出,如果只对基因组中的某些序列进行测序,那么将可能加快完成上述活性片段评估的进程。文特尔在论证了这种基因片段测序法的可行性后,开始应用该方法对脑组织中数以百计的基因片段进行测序。

如果我们把前述英文例句比作基因组的结构,那么文特尔就是通过搜寻例句中的单词片段(struc,your与geno)来完成基因组测序。虽然采用这种方法可能无法了解整句话的内容,但是或许能从中得到足以了解人类基因关键要素的信息。

文特尔发明的“基因片段”测序法令沃森都感到震惊。毫无疑问,这种方法使用起来更加方便且成本非常低廉,但是对于许多遗传学家来说,通过该方法得到的基因组信息支离破碎。[2]不同观点之间的矛盾日趋激化。1991年夏季,当文特尔的团队正致力于脑组织中基因片段的测序工作时,美国国立卫生研究院的技术转让办公室与文特尔联系商讨新基因片段的专利问题。6对沃森来说,这种不和谐的局面令他感到十分尴尬:现在看来,美国国立卫生研究院的研究人员正在分裂为两个阵营,其中一派在为申请新基因片段的专利而努力,而另一派却希望将测序结果免费开放。

然而基因(在文特尔这个案例中,指的是“活性”基因片段)怎么能够申请专利呢?我们应该还记得,斯坦福大学的波伊尔与科恩曾为利用“重组”DNA片段构建遗传嵌合体的方法成功申请专利,并且基因泰克公司也曾为在细菌中合成胰岛素蛋白质取得了专利。1984年,安进公司(Amgen)为应用重组DNA技术分离血液中的促红细胞生成素申请了专利。7如果我们仔细解读此项专利就会发现,虽然其中也涉及某种具有特殊功能蛋白质的生产与分离问题,但是在此之前从未有人为某个基因或某段遗传信息申请专利。难道人类基因与根本不具有专利性的其他身体部位(例如鼻子或者左臂)有什么不同之处吗?还是说新发现的基因片段具有神奇的功能,它理应获得所属权与专利权的保护呢?萨尔斯顿就是坚决反对基因专利的学者之一,他写道:“就我个人理解来说,授予专利是为了保护发明,可是发现基因片段与‘发明’毫无关系,因此为什么要允许基因申请专利呢?”8某位研究人员也以轻蔑的口吻记述道:“这是一种卑劣的掠夺行为。”9

由于基因片段测序只是随机进行,而且大多数基因的功能尚不清楚,因此围绕文特尔申请基因专利展开的争论已经趋于白热化。文特尔发明的测序方法并不能保证待测基因片段能够完全粉碎,所以通过这种方式得到的遗传信息往往残缺不全。虽然偶尔也可以对获得的长段基因片段功能进行推断,但是在大多数情况下,这些基因片段所携带的信息根本不为人知。埃里克·兰德曾经反驳道:“难道能通过描述象尾为大象申请专利吗?更何况只是看到了象尾上彼此独立的三个部分呢。”10在某场关于基因组计划的国会听证会上,按捺不住心中怒火的沃森指出,“几乎所有的猿猴”都可以生成类似的基因片段。英国遗传学家沃尔特·博德默(Walter Bodmer)则警告,如果美国授予文特尔基因片段专利权,那么英国将另起炉灶进行专利申请。11就在短短的几周内,人类基因组计划已经四分五裂,形成了美国、英国以及德国这三大阵营主导的局面。

1992年6月10日,文特尔厌倦了无休止的争吵,他离开美国国立卫生研究院成立了自己的私人基因测序机构。文特尔起初将其命名为基因组研究所(Institute for Genome Research),但是他随即就敏锐地发现了这里面的问题:基因组研究所的缩写为IGOR,而这恰巧与科学怪人手下那个长着斗鸡眼的邪恶管家同名。12于是文特尔将其改名为The Institute for Genomic Research,英文缩写为TIGR。

※※※

根据媒体报道宣传,或者说至少在学术期刊层面,TIGR取得了非凡的成就。文特尔与贝尔特·福格尔斯泰因以及肯·凯泽等杰出科学家合作,他们共同发现了某些与癌症相关的新基因。除此之外,文特尔还一直奋斗在基因组测序工作的最前沿。他对外界的批评格外敏感,当然对此也会予以强有力的反击:1993年,文特尔经过不懈努力,终于将他发明的方法逐步应用到全长基因与基因组测序中。此时,曾经获得诺贝尔奖的细菌学家汉密尔顿·史密斯(Hamilton Smith)也正式加盟,这让文特尔在工作上找到了一位志同道合的新战友。13现在,他决定要对引起致命性肺炎的流感嗜血杆菌(Haemophilus influenzae)进行全基因组测序。

虽然文特尔使用的方法是既往在脑组织中采用的基因片段测序法的延续,但是这次基因组测序研究却标志着某种重要的转折。在本次试验中,他将会使用类似霰弹枪的装置将细菌基因组击碎成为上百万个小片段。接下来,他将随机选取数十万个片段进行测序,然后利用片段之间的重叠序列将其组装,并且最终得到整个基因组的序列。而我们将再次使用英文例句对此进行说明,假设需要通过下列单词片段来构成某个完整的单词:stru, uctu, ucture, structu以及ucture,那么计算机可以根据其重叠部分拼出完整的单词:structure。

综上所述,该测序方法有赖于重叠序列的存在:如果单词片段之间不存在重叠部分,或者说其中某些片段已经缺失,那么都将无法拼出正确的单词。尽管如此,文特尔依然坚信他可以借助这种方法来粉碎并重组大多数基因组。此类方法非常像童谣中矮胖子采取的招数:为了完成拼图,他让国王的手下充当里面的零件。虽然自从20世纪80年代起,基因测序的开拓者桑格就已经使用过这种“鸟枪法”测序,但是文特尔对流感嗜血杆菌基因组的测序堪称该方法应用史上最为大胆的尝试。

1993年冬季,文特尔与史密斯启动了流感嗜血杆菌基因组测序项目。到了1995年7月,这项创举就已经大功告成。文特尔后来写道:“(论文)草稿长达40页。我们深知这篇文章必定会载入史册,同时我也坚信此项试验的结果近乎完美。”14

在众人眼中,上述项目的顺利完成简直就是个奇迹!露西·夏皮罗(Lucy Shapiro)是一位来自斯坦福大学的遗传学家,她记述了实验室团队通宵达旦解读流感嗜血杆菌基因组序列时的场景,而初次见到一个物种的完整基因组令他们感到非常激动。15基因组包括提供能量、编码外壳蛋白、控制营养摄入以及防止免疫入侵的各种基因。桑格在写给文特尔的信中也用“无与伦比”一词形容此项工作。

※※※

当文特尔在TIGR进行细菌基因组测序工作时,人类基因组计划却经历了剧烈的内部变化。1993年,沃森与美国国立卫生研究院的负责人吵得难解难分,随后他辞去了项目负责人的职务。这个位置很快由来自密歇根大学的遗传学家弗朗西斯·柯林斯接替,而他为人们熟知的工作就是曾于1989年成功克隆了囊性纤维化基因。

如果人类基因组计划没有选择柯林斯的话,那么其后续的发展可能就会陷入泥潭,没有人比他更适合来引领该项目克服困难并且勇往直前了。柯林斯出生于弗吉尼亚州,他不仅是个虔诚的基督教徒,亦是一位干练的沟通者与管理者,同时还是一位出类拔萃的科学家。他为人谦虚谨慎且谋略过人,如果把文特尔比作在风浪中顽强抗争的一叶孤舟,那么柯林斯就好似一艘无惧风暴袭扰的远洋邮轮。1995年,当TIGR在流感嗜血杆菌基因组测序中遥遥领先时,人类基因组计划还停留在完善基因测序基本技术的阶段。TIGR应用的测序法是先将基因组粉碎,接着对基因片段进行随机测序,最后再根据重复序列组装基因组。而人类基因组计划采取的测序法更为循规蹈矩,他们将基因组片段组装并排列成物理图谱(确定“谁挨着谁”),先是确定克隆片段的身份与重叠部分,然后再依次对克隆片段进行测序。

对于人类基因组计划的早期领导者而言,逐步克隆法是完成基因组装唯一路径。兰德是一位由数学家转型而来的生物学家,他对鸟枪法测序的反感可以表述为一种审美观的厌恶。他喜欢通过分段的方法来完成基因组测序,而该过程就像是在解决代数问题。兰德担心,文特尔的方法难免会在基因组测序时留下遗漏。兰德问道:“假如你将某个单词拆分成字母,那么还能保证还原这个单词吗?如果你能找到构成该词的所有片段,或者每个片段之间都有重叠部分,那么这种方法也许还说得通。但是一旦某些字母丢失了又该怎么办?”16你可能会根据现有的字母拼出某个与原意截然不同的单词,例如,假设原词是“profundity”,可是你只找到了“p...u...n...y”这几个字母。

与此同时,公共基因组计划的支持者也担心这些半成品会带来假象:如果在测序中有10%的基因组序列被忽略,那么人们将永远无法得到完整的基因组。兰德后来说道:“人类基因组计划的真正挑战并不是测序工作的启动,而是如何完整地实现基因组序列测定……如果在基因组测序过程中留下遗漏,同时又给公众造成已经实现的假象,那么人们就会对于基因组测序计划失去信心。尽管科学家们也会对此表示祝贺,然后一身轻松地回去继续其他工作,但是基因组的序列草图将永远停滞在现阶段。”17

逐步克隆法不仅需要大量资金与基础设施的投入,而且更需要从事基因组研究的科学家具有锲而不舍的精神。在麻省理工学院,兰德已经组建起一支以年轻科学家为核心的强大科研团队,其中包括数学家、化学家、工程师以及一帮20多岁的疯狂电脑黑客。菲尔·格林(Phil Green)是一位来自华盛顿大学的数学家,他正在开发用于基因组测序的算法。与此同时,惠康基金会支持的英国研究团队也在开发自身的分析与组装平台,而当时世界上共有十余个团队致力于基因组数据的采集与组装。

※※※

1998年5月,春风得意的文特尔再次做出了重大决定。尽管TIGR推出的鸟枪测序法已经取得了无可争议的成功,但是文特尔却对研究所的组织架构感到不满。由于TIGR隶属于人类基因组科学公司(HGS)这家营利性机构,这与其非营利性机构的性质完全相悖,18同时文特尔感到此类俄罗斯套娃似的组织架构荒谬绝伦。在与公司老板几经争论后,他决定脱离TIGR。随后文特尔成立了一家新公司,专注于人类基因组测序工作。文特尔将新公司命名为Celera(塞莱拉),取自“accelerate”(加速)的缩写。

就在人类基因组计划会议即将在冷泉港召开前一周,文特尔在杜勒斯机场转机期间于贵宾室偶遇柯林斯。文特尔若无其事地宣布,塞莱拉公司将要用鸟枪法完成人类基因组测序。公司已经购置了200台最先进的测序仪,并且准备以创纪录的速度完成测序工作。虽然最后文特尔同意将大部分信息资源共享,但是他提出了一项霸王条款:塞莱拉公司将会为300个具有重要意义的基因序列申请专利,而它们可能成为治疗乳腺癌、精神分裂症与糖尿病药物的靶点。为了实现这个野心勃勃的目标,他甚至已经制定好了时间表。塞莱拉公司希望能够在2001年前完成整个人类基因组的组装,其进度将比政府资助的人类基因组计划设定的期限提前4年。

在上述言论的刺激下,惠康基金会将项目资助的金额翻倍。而美国国会也同意追加联邦资助的额度,并且为7家美国研究中心拨款6 000万美元用于测序工作。其中酵母遗传学家梅纳德·奥森与基因测序专家罗伯特·沃特斯顿(曾经是一位蠕虫生物学家)提出了重要的战略性建议。19

※※※

1998年12月,蠕虫基因组项目取得了决定性的胜利。20在约翰·萨尔斯顿、罗伯特·沃特森(Robert Waterson)以及其他研究人员的共同努力下,他们采用逐步克隆法(也就是人类基因组计划支持者所认可的方法)完成了整个秀丽隐杆线虫基因组的测序工作。

如果说流感嗜血杆菌基因组完成测序曾让遗传学家们欣喜若狂,那么作为多细胞生物代表的蠕虫基因组亮丽登场才值得人们顶礼膜拜。虽然蠕虫要远比流感嗜血杆菌复杂,但是它与人体结构却有许多相似之处。蠕虫的身体由口部、消化道、肌肉以及神经系统(甚至还有原始的大脑)组成,它们具有触觉与感觉并且能够移动。蠕虫会转动头部躲避有害刺激,而且它们彼此之间还存在着社交关系。蠕虫可能会在食物耗尽后表现出焦虑,也可能在交配时感到短暂的快乐。

秀丽隐杆线虫基因组由18 891个基因组成。[3]其体内36%的编码蛋白质与人体蛋白质相类似,而剩余的大约10 000个基因与已知的人类基因毫无关系。上述10 000个基因为蠕虫所特有,或者说其中蕴含着某种特殊的含义,它们仿佛在提醒人们对于自身基因了解程度的匮乏(事实上,人们后来发现其中许多基因都与人类基因同源)。值得注意的是,只有10%的蠕虫编码基因与细菌中发现的基因结构相似,其余90%的线虫基因组专注于构建复杂的生物体结构。该事实再次验证了进化创新的伟大作用,而单细胞祖先需要经过数百万年的演化才能形成多细胞生物。

就像人类基因一样,单个蠕虫基因也可以拥有多种功能。例如,ceh—13基因能够控制发育中的神经系统细胞的位置,从而使细胞迁移至蠕虫身体的前部,并且该基因还将确保其阴门得到正常发育。21与之相反,多个蠕虫基因也可能具有相同的“功能”,例如,蠕虫口部发育就需要多个基因彼此之间相互协调。

如果我们发现了一万种新型蛋白质,那么它们具有的功能绝对会超过一万种,而这种现象足以证实该项目的与众不同之处。但是蠕虫基因组最引人注目的特征并不是蛋白质编码基因,而是能够转录成RNA信息(不是蛋白质)的基因数量。由于这些基因不能编码蛋白质,因此它们被称为“非编码”基因。尽管它们分布在基因组的各个角落,可是却会聚集于特定染色体上。这些“非编码”基因的数量从几百到几千各不相同。我们已经掌握了某些非编码基因的功能:例如细胞器中体型巨大的核糖体就是蛋白质合成的场所,其中还有可以协助制造蛋白质的特殊RNA分子。其他非编码基因还包括最终被证实可以编码某种名为“microRNA”的小RNA,它们在调控基因表达时具有强大的特异性。尽管如此,多数非编码基因的神秘功能时至今日仍不得而知。虽然这些基因不是暗物质,但是它们却笼罩在基因组的阴影下。即使遗传学家发现了此类基因,人们也难以明确理解其功能或意义。

※※※

然而什么是基因呢?1865年,当孟德尔在研究中首次发现“基因”时,他只知道这是一种令人匪夷所思的现象:它是以离散状态进行代际传递的决定因素,并且可以左右生物体的外在性状或者表型,例如花的颜色或豌豆种子的质地。接下来摩尔根与穆勒通过证实基因是位于染色体上的物质结构加深了人们的感性认识。随后埃弗里根据其化学形态确认DNA就是遗传信息的载体。而沃森、克里克、威尔金斯和富兰克林最终解开了基因的分子结构之谜,它是由两条互补配对的DNA链组成的双螺旋结构。

20世纪30年代,比德尔与塔特姆在研究基因的作用机制时发现,它可以通过改变蛋白质的结构来“发挥作用”。接着布伦纳与雅各布发现了信使RNA这种中间体分子,它在遗传信息翻译成蛋白质的过程中扮演着至关重要的角色。莫诺与雅各布则引入了基因的动态概念,其中信使RNA就像是附着在基因上的调控开关,并且可以通过其数量增减来启动或关闭相应基因。

成功实现蠕虫全基因组测序使基因概念的内涵得到了发扬光大。虽然生物体中某个基因可以对应某种功能,但是单个基因却可以对应多种功能。基因不能直接发出合成蛋白质的指令,它首先要转录为RNA而不是蛋白质。基因结构未必由连续的DNA片段组成,它可能会被非编码序列分成不同的区域。此外,基因上还附着调控序列,它们会与编码基因保持距离。

全基因组测序为人类开启了通向有机生物学未知世界的大门。它就像一部内容浩瀚的百科全书,其中的词条必须不断更新。现在基因组测序已经颠覆了传统的基因概念,甚至从某种意义上说也改变了基因组本身的意义。

※※※

1998年12月,《科学》杂志专刊登载了秀丽隐杆线虫基因组的测序结果,而本期杂志的封面就是一条毫米级别的线虫,该文一经发表便得到了科学界的广泛好评,当然这也是对于人类基因组计划强有力的辩白。22在蠕虫基因组测序完成后几个月,兰德自己领导的团队也传来了好消息:人类基因组计划已经完成了四分之一的测序工作。兰德领导的研究机构位于马萨诸塞州剑桥市肯德尔广场附近的工业区,实验室设在一座光线幽暗且空气干燥的拱形仓库里,共摆放着125台体积巨大的灰色的半自动测序仪[4],它们每秒钟能读取大约200个DNA序列(在这些机器的帮助下,桑格用时3年才完成的病毒测序工作只需25秒就能完成)。人类22号染色体的测序工作已经完成组装,目前正等待进行最后的确认工作。1999年10月,人类基因组计划即将迎来测序开展以来一个值得纪念的里程碑:研究人员即将在全部30亿个碱基对中完成第10亿个碱基对的测序工作(后来证实该碱基对是G—C)。23

与此同时,塞莱拉也在这场激烈的竞争中紧追不舍。由于私人投资者的资金非常充裕,因此塞莱拉的基因测序速度比人类基因组计划快了一倍。1999年9月17日,就在蠕虫基因组测序结果发表9个月后,塞莱拉在迈阿密的枫丹白露酒店举办了一场基因组研究的盛会,并且以完成黑腹果蝇(Drosophila melanogaster)基因组的测序为契机发起了战略反击。24在果蝇遗传学家格里·鲁宾(Gerry Rubin)与一批来自伯克利和欧洲遗传学家的协助下,文特尔的团队在短短11个月内就完成了果蝇基因组的测序,其速度之快打破了此前所有基因测序项目的纪录。随着文特尔、鲁宾以及马克·亚当斯逐个登台亮相发表演说,果蝇基因组测序的意义就显得愈发清晰:自从托马斯·摩尔根在90年前开创了果蝇研究以来,遗传学家已经在果蝇体内发现了大约2 500个基因。塞莱拉的序列草图不仅包含了所有已知的2 500个基因,而且还令人震惊地新增了10 500个新基因。演讲结束时,现场突然一片寂静,在座观众对于上述成果无不充满敬意,文特尔则不失时机地向竞争对手发起攻击:“哦,顺便说一下,我们已经着手进行人类DNA的测序工作,目前看来其(技术门槛)并不比果蝇基因组测序更复杂。”

2000年3月,《科学》杂志在另外一期专刊上发表了果蝇基因组的测序结果,其封面采用了1934年完成的一幅以雌雄果蝇为题材的版画。25即便是鸟枪测序法最坚定的反对者也不得不为这些数据的质量与深度所震撼。虽然鸟枪法在测序时遗漏了某些重要的序列,但是果蝇基因组的关键片段依然可以保持完整。如果将人类、蠕虫以及果蝇的基因进行比较,那么就会发现某些惊人的相似之处。在已知的289个人类致病基因中,26有177个(超过60%)可以在果蝇体内找到同源序列。27由于果蝇体内没有红细胞且不能形成血栓,因此并未发现与镰刀形红细胞贫血症和血友病相关的基因。目前研究人员已经在果蝇基因组内发现了与结肠癌、乳腺癌、泰伊—萨克斯二氏病、肌肉萎缩症、囊性纤维化、阿尔茨海默病、帕金森病以及糖尿病相关的基因或者同源序列。虽然长着四条腿与一对翅膀的果蝇经历了数百万年的进化,但是它与人类却享有共同的核心通路与遗传网络。就像威廉·布莱克在1794年的作品中描述的那样,小巧的苍蝇“就像我一样”28。

众所周知,基因组的大小并不是决定性因素,因此数量有限的果蝇基因却令人感到非常困惑。与那些具有丰富经验的果蝇生物学家的预期相反,果蝇基因组只有区区13 601个基因,比线虫的基因数量少了5 000个。但是果蝇通过数量有限的基因就构建出了结构更为复杂的生物体,它不仅具有雌雄交配、繁衍后代、生老病死与代谢酒精的特征,同时还拥有痛觉、嗅觉、味觉、视觉与触觉等功能,并且与人类一样渴望夏季成熟的瓜果。鲁宾曾经说过:“我们从果蝇基因组研究中获得了启示,生物体的基因数量与其复杂性并不成正比。人类基因组……很可能就是果蝇基因组的放大版……此类复杂特征的进化轨迹从本质上讲是一个循序渐进的过程,而这些交互作用的结果起源于结构相似基因在时空上的隔离。”29

就像理查德·道金斯所描述的那样:“所有动物都具有结构相似的蛋白质库,它们随时处于待命状态……”下面我们举例说明复杂生物体与简单生物体之间的区别,“人类与线虫之间的差异并不在于基因数量的多少,而是生物体能否在千变万化的环境中发挥基因错综复杂的功能”30。如果将果蝇基因组比作德尔斐之船,那么船体的大小并不是主要问题,关键在于船板的连接方式。

※※※

2000年5月,塞莱拉与人类基因组计划之间的竞争已经到了白热化的程度,它们都希望能够率先发布人类基因组序列草图。此时文特尔接到了美国能源部的朋友阿里·帕特里诺斯(Ari Patrinos)的电话,而之前帕特里诺斯已经邀请弗朗西斯·柯林斯晚上到自己家里小聚。文特尔会接受邀请吗?本次会面将仅限于他们三个人之间,并且谈话内容也将严格保密。

其实帕特里诺斯在给文特尔打电话之前已经精心策划了好几个星期。塞莱拉与人类基因组计划竞赛的消息已经通过政治渠道传入白宫。克林顿总统敏锐地意识到,如果塞莱拉在这场竞赛中获胜,那么将使美国政府处于十分尴尬的境地。克林顿在给助手的便签边缘写下了“搞定”31这两个字,而帕特里诺斯就是被派来解决问题的中间人。

一周之后,文特尔与柯林斯在帕特里诺斯位于乔治敦的家的地下娱乐室见了面。可想而知,当时的气氛非常冷淡。帕特里诺斯静待双方的情绪缓和下来,然后才委婉地提到这次会面的主旨:柯林斯与文特尔能否就人类基因组测序发布一份联合声明?

文特尔与柯林斯在见面之前已经对于该提议做好了心理准备。虽然文特尔提出了几点注意事项,但是基本上对于该提议表示了默许。他同意与柯林斯一起在白宫举行联合仪式以庆祝序列草图的完成,并且愿意和后者在《科学》杂志上共同发表文章。然而文特尔并未就项目完成的时间做出任何承诺,就像某位记者后来所描述的那样,这是一个“精心策划的圈套”。

对于文特尔、柯林斯与帕特里诺斯来说,在阿里·帕特里诺斯家地下室进行的会面是他们之间进行的首次磋商。32在随后的三个星期里,柯林斯与文特尔经过深思熟虑制定了发布联合声明的日程:克林顿总统将首先致辞,接着是英国首相托尼·布莱尔表态,随后柯林斯与文特尔将会发表演讲,最终塞莱拉与人类基因组计划将分享人类基因组测序竞赛的并列冠军。白宫方面旋即在知晓双方态度的基础上要求迅速确定日期,而文特尔与柯林斯在征得各自团队的同意后将时间定在2000年6月26日。

※※※

2000年6月26日上午10:19,克林顿总统在白宫接见了文特尔与柯林斯,他在众多科学家、记者与外国政要面前宣布人类基因组“初步测序”首战告捷(事实上,无论是塞莱拉还是人类基因组计划均未完成测序工作,但是两大阵营共同发表联合声明将具有象征性意义;即便白宫宣布了基因组“初步测序”成功的消息,但是塞莱拉与人类基因计划的科学家仍然在计算机前夜以继日地工作,他们正在努力将完成测序的基因片段组装成为有实际意义的基因组)。33英国首相托尼·布莱尔则在伦敦通过卫星转播参加了本次会议。此外在观众席就座的还有诺顿·津德、理查德·罗伯茨、埃里克·兰德以及哈姆·史密斯,当然还有身着纯白西装的人类基因组计划首任负责人詹姆斯·沃森。

克林顿总统首先发言,他将人类基因组图谱与刘易斯和克拉克的探险地图进行了比较:

“将近两个世纪之前,就在我们所在楼层的这个房间里,托马斯·杰斐逊与其助手展开了一幅气势宏伟的地图,而正是该作品承载了杰斐逊总统毕生追求的梦想……这幅地图不仅描绘了山川地貌,还将美利坚合众国的疆土延伸至远方,同时极大地丰富了我们的想象力。今天,全世界的目光都聚焦在白宫东厅,人们将共同见证另一幅伟大地图的诞生。我们在此热烈庆祝人类基因组初步测序工作完美收官。毋庸置疑,这是人类迄今为止所能绘制的最重要与最美妙的地图。”34

文特尔是本次活动的最后一位演讲嘉宾,他还是忍不住要提醒在座的观众,这场由他个人引领的探险也已经同步抵达终点:“在今天中午12:30,塞莱拉基因公司会与人类基因组计划联合召开新闻发布会,研究人员将介绍通过鸟枪法完成测序后进行首次基因组装的过程。目前,我们已经完成了三女两男的基因组测序工作,他们分别是西班牙人、亚洲人、高加索人以及非洲裔美国人。”[5]

※※※

与众多停战协定一样,文特尔与柯林斯之间的约定几乎从达成伊始就面临着危机。在某种程度上,他们二人之间的冲突仍集中在既往的争论上。虽然基因专利申请能否得到受理尚不明确,但是塞莱拉已经决定将收取测序项目订阅费作为盈利模式,而其付费对象就是相关领域的科研人员与制药公司(文特尔机敏地察觉到,大型制药公司可能会根据基因序列来研发新药,尤其是针对某些特殊蛋白质的靶向药)。此外文特尔还希望能够在《科学》杂志这本重量级刊物上发表文章,但是这就需要塞莱拉将遗传图谱告知天下(科学家不应在公开发表论文的同时还坚持为实验数据保密)。可想而知,沃森、兰德与柯林斯均对塞莱拉企图名利双收的行为进行了尖锐抨击。文特尔曾经对某位采访者说道:“我最引以为荣的成就当属被商界与学术圈嫉恨。”35

与此同时,人类基因组计划也遇到了技术瓶颈。就在采用逐步克隆法完成了大部分测序工作之后,这项计划也需要解决把基因序列组装成遗传图谱的难题。虽然该任务从理论上看来并不复杂,但是实际操作中的计算量却非常庞大,更何况某些重要序列在测序过程中会出现缺失。由于克隆与测序手段并不能涵盖基因组的每个角落,因此组装非重叠片段要远比预料中复杂得多,这个过程就好比是在组装一幅残缺不全的拼图。于是兰德又额外招募了一批科学家来帮忙,其中就包括来自加州大学圣克鲁兹分校的计算机学家戴维·豪斯勒(David Haussler)以及他的学生詹姆斯·肯特(James Kent),其中年届不惑的肯特在成为分子生物学家之前曾经是一位程序员。36为了便于肯特编写与测试数以万计的计算机代码,豪斯勒突发奇想说服学校购置了100部台式电脑,此外肯特在夜间都会冷敷手腕以确保早晨能够正常编程。

由于部分人类基因组充满了奇怪的相似重复序列,因此塞莱拉也在基因序列组装时陷入了窘境。就像文特尔所描述的那样:“仿佛迷失在拼图游戏中那片广阔的蓝天里。”尽管负责组装基因组的计算机学家们马不停蹄地工作,并且尽力将完成测序的基因片段进行有序排列,但是组装好的基因组中仍有部分序列不知所踪。

到了2000年冬季,随着塞莱拉与人类基因组计划即将完成,两大阵营之间的蜜月期也走到了尽头。文特尔指责人类基因组计划公然诋毁塞莱拉公司。兰德则致信《科学》杂志编辑部,抗议塞莱拉在兜售序列数据库的同时限制部分资源共享,并且还希望在某些杂志上发表部分经过筛选的数据的行为,塞莱拉就是企图“将基因组数据据为己有并且以此牟利”。兰德对此大声疾呼:“科学写作的历史源自17世纪,其中任何一项发现的问世都伴随着相关数据的公布,目前这种共识已经成为现代科学的基石。如果社会还处于前现代时期,那么人们可能会在拒绝公开结果的情况下提出主张,‘我找到了答案!’或者说‘我能点石成金!’然而专业科学期刊的权威性就在于其信息披露与诚信制度。”37更为尖锐的是,柯林斯与兰德指责这种将人类基因组计划已发表的序列作为组装基因组“骨架”的行为几乎等同于分子抄袭(文特尔对此回应说这种言论简直荒谬之极!塞莱拉在破译基因组时从不需要参考别人的“骨架”)。兰德宣称,假如塞莱拉只依靠自身的设备进行测序,那么其获得的数据不过是“一盘散沙”38。

就在塞莱拉即将完成文章的终稿时,广大科学家强烈呼吁该公司将测序结果交给公共数据库GenBank管理。最终,文特尔同意向科研人员免费提供开放数据,前提是要遵守某些特殊的条款。由于萨尔斯顿、兰德与柯林斯对于文特尔的妥协颇为不满,因此他们选择将论文发表在与《科学》杂志互为竞争对手的《自然》杂志上。

2001年2月15日与16日,人类基因组计划联盟与塞莱拉的文章分别在《自然》与《科学》杂志上发表。上述论文均是内容丰富的长篇巨著,并且几乎占据了这两份杂志的全部篇幅(人类基因组计划撰写的文章大约有66 000字,成为《自然》杂志有史以来刊登过的最长论著)。每部科学著作都是各自时代的写真,而发表在《自然》杂志上的文章在开篇就充分认识到了其所处的历史时刻:

“20世纪初,孟德尔遗传定律的重新发现指明了探索科学之路,而这也让人们对于上个世纪推动生物学发展的遗传信息性质与内容产生了浓厚的兴趣。从此以后,遗传学发展逐渐演化为四个阶段,大约每隔25年就会上一个台阶。

“在第一阶段,染色体被正式确认为遗传学的细胞基础;到了第二阶段,DNA双螺旋结构成为遗传学跨入分子时代的里程碑;而在进入第三阶段后,遗传学已经驶入信息高速路的轨道(例如遗传密码)。同时人们还发现了细胞读取基因中遗传信息的机制,并且根据重组DNA技术实现了遗传物质的克隆与测序。”

这篇文章在结尾之处断言,完成人类基因组测序标志着遗传学从此晋级“第四阶段”。“基因组”时代已经悄无声息地降临,我们将对包括人类在内的所有生物体基因组进行评估。然而这样将再次陷入哲学悖论的迷局:智能机器能否破译控制其自身的指令手册呢?虽然我们已经获得了完整的人类遗传图谱,可是如何进行破译、读取以及理解应另当别论。

[1] “启动”基因转录的DNA序列被称为启动子,这些序列可以编码基因激活的时间与空间信息(因此血红蛋白只在红细胞内表达)。与之相反,“终止”基因转录的DNA序列被称为终止子,它可以编码基因关闭的时间与空间信息(只有当乳糖成为主要供能物质时才会“启动”,否则细菌细胞内的乳糖消化酶基因将始终处于“关闭”状态)。很显然,在细菌中首次发现的调控基因启动与终止的系统在生物界中普遍存在。

[2] 文特尔发明的测序法是遗传学家的制胜法宝,它可以针对编码蛋白与RNA的基因组区域进行测序。文特尔的方法可以发现基因组的“活性部位”,从而使遗传学家能够在基因组上标记出这些区域。

[3] 估算生物体的基因数量是个错综复杂的过程,为此需要对基因的性质与结构进行某些基本的假设。在全基因组测序工作展开之前,我们只能根据基因的功能来对其进行辨别。由于全基因组测序无法反映出基因的功能,因此这相当于在目不识丁的情况下通读百科全书。基因数量估算不仅需要借助基因组测序的结果,还要注意识别DNA片段上那些看似基因的序列,例如,某些包含调控序列或编码RNA序列的片段,或者类似于其他生物体中已知基因的片段。然而随着我们对基因结构与功能了解的不断加深,基因数量也会同步发生变化。例如,目前蠕虫基因组只有19 500个基因,可是其数量将根据研究进展动态发生变化。

[4] 125台半自动测序仪:迈克·汉卡彼勒(Mike Hunkapiller)在发展基因测序技术领域做出了重要贡献,因此半自动基因测序仪才可以迅速实现成千上万对碱基的测序工作。

[5] 当时的实际情况是,文特尔团队只是从受试对象的基因组中选取了某些序列作为代表,并未对上述任何个体的基因组进行完整测序。——译者注


第五章 基因组时代第七章 人之书(共23卷)