里德先生的烦恼
这根神奇的“黄金手指”,到底是怎么精确定位DNA序列的呢?我们又为什么可以对它进行各种拆装组合,在人类基因组的30亿个碱基对里做到精准定位、指哪打哪呢?
在现代生物学和医学的历史上,很少有一个分子,能够用一己之力架起从最基本的生命现象到最强有力的疾病治疗之间的桥梁。事实上,人类探索未知世界的规律,以及利用这些规律更好地武装和造福自身的过程,总是充满了意外、挫折、惊喜和坚持,从来不是能够看完开头就猜出结尾的浪漫肥皂剧。而对热衷科普的笔者来说,这意味着在一个章节的篇幅里讲清楚从实验室到诊室的故事常常是一种无比艰难的体验。
所幸这一次,我们要讲述的是人类探索史上少有的浪漫轻喜剧。一个叫作TFIIIA的神奇分子,见证了几十年中一系列巧合以及巧合带给我们的惊喜。
故事得从20世纪70年代说起。
已经在美国中部久负盛名的华盛顿大学圣路易斯分校任教4年有余的罗伯特・里德(Robert Roeder,见图3-6)有充分的理由志得意满。仅仅30岁出头的他在过去十几年的科学研究生涯中,几乎每一步都踩在了历史的鼓点上。早在攻读研究生期间,他就利用生物化学方法,首次从动物细胞中提取和纯化出了RNA聚合酶I、II、III三兄弟,这是三个能够以基因组DNA为模板,转录出RNA单链分子的蛋白质。你们可能马上会想到,这就是负责完成“中心法则”中从DNA到RNA的信息传递过程的蛋白质分子。
早在20世纪50年代,人们就已经提炼出了分子生物学的“中心法则”,认为基因组DNA正是通过转录(即基于DNA模板的RNA合成)和翻译(即基于RNA模板的蛋白质合成)两个步骤指导蛋白质生产的,从而决定了我们身体的万千性状。但是里德的发现第一次从物质层面说明了从DNA到RNA的信息传递到底是怎么完成的。里德发现的RNA聚合酶,就像流水线上的装配工人,能够根据图纸(DNA上的碱基序列)将一个个碱基装配起来,连成一条长长的RNA链。
图3-6 罗伯特・里德
由于在基因转录调控领域的杰出贡献,罗伯特・里德独享了2013年拉斯克基础医学研究奖。在同行眼里,他是一个勤奋、难以亲近,严谨到近乎刻板的老牌科学家。
里德这一里程碑式的发现迅速进入了教科书,至今仍是生物专业的大学生必修的基本概念之一。要知道,那个时候里德才不过20岁出头!而在里德拿到博士学位,来到圣路易斯开始自己的独立研究生涯之后,他和其他研究生、博士后们再接再厉,揭示了RNA聚合酶三兄弟的不同功能特性,圆满解释了为什么人类身体里需要三种,而不是一种RNA聚合酶。这背后的故事也同样引人入胜,但由于和本书的主题关系不大,这里就不多讲了。
然而,某种源自科学本能的挑剔精神始终在折磨着里德先生。
要知道,他是一个习惯于全天候工作、严谨得近乎刻板的生物化学家。里德的实验室数十年如一日坚持在周六清晨开例会,全然不顾学生们的抱怨和哈欠连天。更夸张的是,他习惯深更半夜打电话给实验室,一个挨着一个向学生询问,确认他们的实验进展。生物化学的训练和思维方式已经写进了里德的大脑和骨髓里。而现在,折磨他的也正是这个。
在一个古板的生物化学家看来,生命现象无非就是化学物质的反应,最多也不过是许许多多个化学反应而已。因此,生物化学家的最高理想,就是把生命体拥有的化学物质找出来,按照一定比例把它们混合在试管里,小心模拟细胞内的环境条件(像是温度、酸碱度、各种离子的浓度等),在试管中重新“创造”代表生命现象的化学反应。对于生物化学家来说,每次在试管里重建出一个生命体内存在的化学反应,理解这个生命过程的化学本质,他们就距离理解生命的秘密又近了一步。
作为一个正统的生物化学家,里德从1973年开始一直在努力做这样的事情。他和学生用非洲爪蟾的卵作为原料(这是一种个头很大的细胞,因此可以提供较多生物化学反应的原材料),从中提纯出他在学生时代就已经发现的RNA聚合酶III。之后,他们又想办法把细胞中的DNA分子给提纯出来。在一个生物化学家的世界里,把RNA聚合酶III和染色体DNA混合在一起,再在试管里放上足够量的单个碱基——有了图纸、原材料和装配工,“砰”的一声,RNA长链应该就会被合成出来。
里德没有猜错。1977年,他和自己的博士后卡尔・帕克(Carl Parker)发表了一篇学术论文,令人信服地说明了RNA聚合酶加上DNA再加上单个碱基分子确实会生产出RNA分子来。新生的RNA分子在X光胶片上清晰可见,这标志着生物化学家在解构生命现象的战斗中,又一次取得了辉煌的胜利。然而,这个胜利在里德看来绝对算不上干净利落。
问题在于,他们实验中所用到的DNA,并不是一条光秃秃的DNA分子,而是一种叫作染色体的东西。这个词在前面的章节里已经出现过,可能大家都还不陌生。所谓染色体,指的是基因组DNA分子在细胞核内和许许多多蛋白纠缠在一起,折叠、缠绕、扭曲形成的复杂结构(见图3-7)。呈双螺旋结构的DNA链条可以很长很长。如果把人类基因组DNA分子拉直放平,总长度大概有两米开外,而直径只有不值一提的数埃。这样细长的东西是无论如何也塞不进小小的微米尺度的细胞核里去的。所以在细胞内,DNA分子需要结合各种各样的蛋白质分子,经历好多重折叠和包装之后,才能形成直径达到微米数量级(扩大了上万倍),而长度缩小到微米数量级(缩小到原来的百万分之一)的结构,被安放到细胞核内。
图3-7 染色体DNA的复杂结构
长长的DNA双链与不同的蛋白质分子缠绕、折叠、扭曲之后化身矮胖的“X”形染色体,得以藏身在小小的细胞核内。
证明了RNA聚合酶加上染色体DNA能够在试管内启动制造RNA的生物化学反应,显然不能让严谨的里德先生满意:天知道染色体DNA上还结合携带了多少种不为人知的蛋白质!在生物化学家的世界里,一个完美的实验应该是干净纯粹的,如果试管里仅有RNA聚合酶、单个的碱基分子和“干净”的DNA长链,这时候看到的RNA转录才是真正令人信服的,不是吗?
但是从此里德的麻烦也来了。里德和帕克在1977年也发现,如果用化学方法去掉基因组DNA分子上结合的所有蛋白质,只留一条光秃秃的DNA分子链,整个试管“生命”系统就失灵了!他们在试管里加上更多的RNA聚合酶和更多的碱基分子,也无法生产出RNA来了。这个发现说明,他们解构生命现象的功夫还没有做到家。很明显,对于RNA生产来说,除了DNA、RNA聚合酶和碱基原材料,至少还有一些重要的东西隐藏在黑暗中。这些被忽略的东西偷偷地隐藏在染色体之中,很有可能就是某个能够和DNA结合的蛋白质分子。这样就能解释为什么比较“脏”的染色体DNA能够在试管里指导RNA生产,而“干干净净”的DNA分子就不行。
这种未知蛋白质是什么呢?怎么把它找出来,最终在试管里人工重现DNA转录的整个过程呢?在接下来的三年里,里德实验室的目标很简单:把这种未知物质找出来!他们用的方法是这样的:首先,他们准备好一批不含杂质的纯净DNA分子,把它们和碱基以及RNA聚合酶预先混合起来。然后,他们把细胞打碎,收集其中的所有蛋白质,然后利用蛋白质的大小和化学性质的不同,把它们分成几十个不同的组分。最后,他们再把分离出的不同蛋白组分,加到预先混合好的DNA、RNA聚合酶、碱基溶液里,看看是否能观察到RNA生产。如果发现某个蛋白质组分确实具备这种能力,就把这个组分的蛋白质继续分离成更小的组分,然后继续丢到试管里看是否能产生RNA,就这么周而复始地细分下去,直到他们最终找到一种能够开动RNA生产线的蛋白质。
这是件极其烦琐但又非常聪明和有效的事情。我们可以用一个寻找龙珠的故事来把它讲得更清楚些。给你一万颗传说中的龙珠,只有一颗能召唤神龙,其他的9 999颗都是鱼目混珠的假货。现在,我要求你从中找出唯一一颗能够召唤神龙的真货,你该怎么办呢?一颗一颗慢慢试下去是不被允许的——神龙很快会等得不耐烦,你自己的人生也有限。更好的方法是一批一批试。比如说,你可以先把龙珠按照个头大小分成10组,每组大约一千颗吧,一卡车一卡车地运给神龙看。好,原来是三号卡车里的龙珠有魔法,可以召唤神龙。那就好办了,你再根据颜色把这一千颗继续分成10组,一笸箩一笸箩装给神龙看。好,现在是红色的那个笸箩有召唤技能。接着,你可以再根据珠子的质地分组、根据珠子的重量分组……按照这个逻辑每次10组分下去,你只要分类4次,就可以很快找到一万颗龙珠中间真正能召唤神龙的那一颗(104=10 000)。
里德他们寻找开启RNA生产线的蛋白质的方法,就和找龙珠的方法差不多。
当然,具体到细胞内的上万种蛋白质,如何对它们进行分类,又如何保证不同轮次的分类能够用上不同的标准(从龙珠的故事里你可以想象,如果每次都根据个头大小分类,分着分着龙珠就不可能再继续分开了),这里面的学问可就大了。从哪里搞到那么多蛋白质?每次按照什么标准分组?分几组?怎么测试它们能否激活RNA的合成……这是最考验神龙召唤者,啊不,生物化学家的时刻。里德实验室成员深厚的生物化学功底帮助了他们。最后,在1980年,寻找“龙珠”的努力终于开花结果了。
在当年发表的几篇学术论文中,里德和他的学生们发现了一系列能够帮助RNA聚合酶在裸露的DNA分子上启动RNA合成的“辅助”蛋白。这些蛋白质分子被赋予了一个全新的名字——转录因子——恰如其分地反映了它们对DNARNA转录过程的重要性。这个新发现终于解决了困扰里德多年的烦恼。现在,他们终于找到了最精简的一条RNA生产线,这条线只需要图纸(DNA)、装配工(RNA聚合酶)、助手(转录因子)和原材料(碱基)就够了。
其中一个这样的转录因子叫作TFIIIA,这个名字简直和里德的个性一样古板无趣。TF正是转录因子英文名称的缩写(transcription factor),III代表这个转录因子是RNA聚合酶III的助手,而A则表明这个蛋白是人类发现的第一个此类分子。仅此而已。单单从名字上,大家大概很难看出TFIIIA就是故事里的那根“黄金手指”,更想不到TFIIIA的发现无意间打开了基因组精确编辑的大门吧!
就在1980年TFIIIA被发现的时候,里德他们就已经注意到,这种转录因子有个异常有趣的特性。和同时期他们发现的许多转录因子不同,TFIIIA并不能帮助所有RNA分子转录。它仅能帮助一种非常特别的RNA(名为5S RNA)的生产,对于其他基因生产RNA的过程则完全袖手旁观不感兴趣。里德他们的进一步研究表明,TFIIIA能够紧密地结合DNA,而且恰恰就结合在编码5S RNA的那一段DNA序列上!那么,有一个很简单的解释就是,TFIIIA蛋白其实就是通过识别和结合5S RNA基因序列,起到开启5S RNA转录的作用的。很可能的是,它在结合5S RNA基因序列之后,能够在这段DNA上动点什么手脚,如赶紧召唤RNA聚合酶开始装配工作,或者调配来足够量的碱基原材料,从而启动这个基因的表达。
那么TFIIIA到底又是怎么找到基因组DNA上的特定基因的呢?在几十亿个碱基对里,它怎么就能一眼识别出5S RNA基因的序列特征呢?之前我们说过,就是依靠人眼一目十行地看也得看上好几年,还不知道会不会看了下面忘了上面,凭什么TFIIIA就能百发百中呢?
这个问题理所当然地吸引了许多生物化学家的关注。1983年,纽约州立大学石溪分校的科学家发现,TFIIIA蛋白需要锌离子的协助才能有效结合DNA序列。到了1984年,里德实验室鉴定出了TFIIIA的完整氨基酸序列和对应的DNA序列。1985年,这两条独立的线索被英国科学家艾伦・克鲁格(Aeron Klug)敏锐地整合到了一起。他提出,TFIIIA蛋白中含有DNA识别模块。每一个这样的模块包含差不多30个氨基酸以及几个游离的锌离子,这几十个氨基酸围绕在锌离子周围,形成了一根类似手指一样的立体结构(见图3-8)。而每一根手指,恰好能够结合和识别出一种特定的DNA 3碱基序列。
当然了,在由数十亿碱基对组成的基因组DNA上,任意一个3碱基序列都可能曾出现过成千上万次。但TFIIIA蛋白识别5S RNA基因的能力却正是由此衍生出来的。TFIIIA蛋白中有9个串联起来但彼此独立的DNA识别模块!9个这样的模块,就对应识别了一段由27个碱基形成的DNA序列。在绝大多数时候,27个碱基的排列顺序足够在一个物种的基因组DNA序列上标识一个独一无二的位置了。对于TFIIIA来说——这个答案已经不言而喻——它确定的这个位置,就在5S RNA基因上!
图3-8 克鲁格的锌手指结构猜想图
1985年,克鲁格首次提出锌手指结构的猜想。他认为每个锌手指由差不多30个氨基酸构成,锌离子(Zn)起到了稳定锌手指结构的功能。锌手指之间相互独立,具备识别特定DNA碱基序列的功能。
对于里德来说,研究做到这里可谓功德圆满。他不光找到了RNA生产所需的全部材料,也理解了其中的所有组分——特别是转录因子——的工作原理。但是对于我们的故事来说,一切才刚刚开始呢。
锌手指的发现,立刻提示了一种基因组精确定位的可能途径。