颠覆和被颠覆
说起来也有意思。“神话”蛋白开启了基因编程时代,但编程时代的主角并不是它。“神话”蛋白的光芒如流星般转瞬即逝,说起在科学史上的影响,可能还比不上被它革了命的锌手指!
话说清末学人龚自珍有名句“但开风气不为师”,意思是说,自己只会用诗文引领思想潮流,绝不开馆授徒、建立朋党影响政治。这句诗后来被中国新文化运动奠基人之一的胡适先生故意歪曲了一下用来自嘲,说自己但开文学革命风气之先,成就却难称一代宗师之誉。
想来很有意思,胡适的故意歪曲反而无意间说出了人类历史发展的某种宿命:作为革命契机的突破,往往不会同时成为新时代的卓越建设者。历史的演进有自己缓慢而坚决的步伐,一个天才既披荆斩棘在旧思想的牢笼上剪破一道缺口,又总领新思维的全局成为一代宗师,这种可能性确实太小了。
我们讲到的“神话”蛋白,恰恰也是这么个“但开风气不为师”的角色。
它领风气之先,一手开启了人类基因组的编程时代。对于它的前辈锌手指来说,科学家们需要烦琐地筛选和组装步骤才能找到一套能够定位基因组特定序列的GPS。而对于“神话”,基于它的完全可编程性,科学家只需要在计算机上把几根“神话”手指按照基因组DNA的编码顺序串联起来,就可以完成“神话”蛋白的设计工作。这两者之间的差别,就像模拟电视和数字电视的差别一样深刻久远。想想吧,在模拟电视时代想要插入一个动画形象需要做多少手工绘画和裁剪,而在数字时代,这一切都可以在计算机上高效完成。
同时,致力于开发“神话”蛋白技术的科学家,充分吸取了锌手指核酸酶技术被专利禁锢的教训,几乎总是第一时间分享和公开新的技术进展,供全世界同行们利用和进一步完善。于是,一时间风起云涌、群贤毕至,各种技术进步以眼花缭乱的节奏出现在学术期刊上。似乎利用“神话”核酸酶技术改造人类基因组的临床实践很快就要发生了!实际上,在短短一两年内,也确实有不少实验室已经开始在探索这种技术的临床价值了。例如,2013年,南非科学家就发表学术论文称,可以利用“神话”核酸酶技术在乙肝病毒基因组上制造基因缺陷,破坏乙肝病毒在人体内的复制机制,用以治疗乙型肝炎。当然了,我们也必须知道,基础研究到临床应用之间的距离往往十分漫长——彼此之间隔着十几二十年的时间、数十亿美元的投入,以及难以预测的运气因素。但至少在当时,人们对于“神话”核酸酶技术的光明前景还是非常乐观的。
但我们不得不承认,“神话”蛋白也有自己的隐忧。正是这点不为人知的毛病,最终决定了它难以成为基因编程时代的一代宗师。
大家可能还记得,我们讨论过如果想要定位人类基因组上的一个特定位置,需要多少碱基排列信息,又需要组装出什么样的GPS。就拿镰刀形红细胞贫血症相关的HBS基因为例,9个碱基的排列是不足以完成精确定位的,而21个碱基就足够了。我们可以假定21个碱基是能够确定人类基因组中任何一个位置的魔法数量,以此来大致估算一下我们需要组装的基因组GPS有多大。
21个碱基,根据一个锌手指对应3碱基序列的规则,需要7个串联的锌手指。一根锌手指大致包括30个氨基酸,那么我们一共需要把大约210个氨基酸串联起来。210个氨基酸是什么概念呢?
必须说明,蛋白质分子并不能随心所欲地进出细胞,因此,当我们把锌手指送进人体细胞的时候,并不是直接把蛋白送进去。医生需要借助传统基因治疗的办法,用病毒工具把编码锌手指蛋白的DNA序列送进细胞,让人体细胞帮助我们制造“黄金手指”。因此,在实际操作中,我们需要借用病毒把一段大约630个碱基长度(3个碱基密码子对应1个氨基酸)的DNA送进细胞。也就是说,锌手指蛋白的效率大约是1:30(1个目标碱基需要30个工具碱基)。当然,实际情况远比这个计算复杂得多,我们还没有算上FokI核酸酶的长度,没有算上许多辅助DNA序列,更没有考虑一般而言我们需要一对,而不是一个锌手指核酸酶来制造DNA双链的断口。
然而“神话”蛋白的效率是多少呢?按照这个简单的计算,是1:102——每一个目标碱基,需要动用一整根“神话”手指,也就是102个碱基!
“神话”蛋白的效率要远远低于锌手指。这种低效率造成了两个问题。第一,针对人类基因组任一位置的定位,都需要超长片段的“神话”DNA,可是病毒载体运输DNA的能力是有极限的,这样一来,想要在运输“神话”DNA的同时携带各种DNA操作工具(FokI基因剪刀)往往就会捉襟见肘。第二,尽管设计出这一长段“神话”DNA仅仅是在计算机上动动手指的事情,但要在实验室里实际克隆出这么一段DNA就没有那么简单了,因为这需要把20多段序列几乎完全一致的DNA分别合成出来,然后再按顺序连在一起,不光实际操作的技术员会觉得困惑,负责DNA连接的蛋白质分子(我们称其为“连接酶”)也经常会搞错顺序!因此,在“神话”蛋白出现的前几年,科学家都在忙活着发明各种能够保证“神话手指”正确组装的技术。
然而,也就是在这短短一两年的时间里,也就是科学家们站在基因编程时代的大门口,充满热情地推动技术发展的时候,“神话”蛋白的风头迅速被另外一种更新的基因编辑技术盖过了,而且还被越甩越远。站在锌手指蛋白肩头,开启基因编程时代的“神话”蛋白从此化身为科学史上一级窄窄的阶梯,任由科学家们摩肩接踵地踏过,走向基因治疗的最前沿。
在“神话”蛋白降临之后的一两年里,发生了什么惊天动地的大事呢?
大家应该已经习惯这样的出场方式了:首创基因编辑之风的锌手指蛋白,来自罗伯特・里德实验室对DNA转录的研究。他们的研究发现了一类能够结合DNA特定位置,并启动RNA合成的蛋白质分子——转录因子。而针对转录因子TFIIIA的研究找到了能够一指点中3碱基序列的“黄金手指”——锌手指蛋白。锌手指蛋白在基因治疗中的亮相完全是意外之喜。“神话”蛋白也一样。它脱胎于乌拉・伯纳斯对黄单胞菌的研究——这本是一个和基因治疗、基因编辑风马牛不相及的研究领域。
2012年,来自生命科学僻静角落的纯粹基础研究,第三次彻底震撼了基因编辑领域。
而这次出头抢了“神话”风头的小兄弟,有个长得可以吓跑一半读者的学术大名,叫“成簇的规律间隔的短回文重复序列”(clustered regularly interspaced short palindromic repeats)。不过大家先不用害怕,这么佶屈聱牙的名字别说你们,就连科学家们也都记不住。于是大家用首字母组合“CRISPR”来称呼这种新技术。CRISPR的发音和英文单词“crisper”(保鲜盒)相似,而新鲜出炉的CRISPR技术也真的像这个发音暗示的那样,鲜活水灵,一个猛子扎到基因编辑的领地里,成功扮演了搅局者的角色。
其实CRISPR本身是个已经有些年头的发现。这种东西最早发现于1987年,那个时候就连锌手指都才初露峥嵘,更别说“神话”蛋白了。
1987年,一些日本科学家在研究大肠杆菌的时候,发现它的基因组DNA上有一些看起来怪里怪气的重复结构:有一段29碱基的序列反复出现了5次,两两之间都被32个碱基形成的看起来杂乱无章的序列隔开了。形象地来说,就像是给你5块一模一样的砖头,再发给你4根颜色不同的皮筋,然后要求你用红皮筋把1号砖头和2号砖头连起来,用绿皮筋把2号和3号连起来,用黄皮筋把3号和4号连起来……这样连起来就有点像日本科学家发现的这段DNA序列了(见图4-6)。
图4-6 CRISPR序列的特征
在细菌基因组DNA上,出现了多次重复的DNA序列(双线),中间夹杂着多变的序列(单线,用数字1—5表示)。
对于这种奇怪序列的具体作用,大家当时完全是一头雾水。在当时看来,DNA主要有两种功能:一是负责编码蛋白质的氨基酸序列,直接参与蛋白质生产(3碱基对应1个氨基酸);二是辅助蛋白质生产(例如有些DNA序列是负责和转录因子结合的)。而这种串联起来的重复结构看上去两者都挨不上边。
当然了,这本身也谈不上是什么大问题,生物学里奇奇怪怪的发现实在太多了。地球生命在半径6 000多千米的地球上进化了40多亿年,有着什么样奇怪的特征都不足为奇。也许大肠杆菌这段DNA压根就没什么用也未可知,人的腋毛和阑尾不是看起来也没什么用处嘛!
然而,仅仅几年以后事情就开始发生变化了。1993年,西班牙科学家弗朗西斯科・莫西卡(Francisco Mojica,见图4-7)在另一种细菌——地中海嗜盐菌——里又一次发现了这种古怪的重复序列。
这就有趣了。要知道从大肠杆菌到地中海嗜盐菌,这两种细菌从生活环境到进化历史都毫无相似之处可言。如果我们在大街上看到一个壮汉提着一串用彩色皮筋绑起来的砖头,还可以认为是这个壮汉闲得无聊或者在酒后装疯,但要是一天之内见到了两个这样的壮汉,肯定会自问一下,这串砖头是不是当地的某种奇怪民俗啊?
图4-7 弗朗西斯科・莫西卡
西班牙埃尔坎特大学科学家,CRISPR/cas9系统早期研究的重要人物。
好巧,莫西卡也是这么想的。于是他继续在各种奇奇怪怪的细菌里寻找。到了2000年,莫西卡利用当时刚刚兴起的生物信息学技术,在海量DNA数据库里进行检索,竟然在20种不同微生物中都发现了这种名为CRISPR的重复DNA结构!
这就有意思了,而且这几乎肯定说明了CRISPR不太可能是偶然现象,也不太可能仅仅是某种奇怪而无用的民俗,它应该有着非常重要乃至性命攸关的生物功能。要知道,对于任何有机生命来说,保存、复制和传递遗传物质都是件很困难也很浪费资源的事情——大家可以回忆一下我们故事里讲到过的DNA半保留复制和DNA损伤的修复。因此,要是CRISPR没有用处,在自然选择的作用下,我们很难想象会有这么多不同的物种会不约而同地同时保留了这么一长串的废物DNA。
于是莫西卡和他的同事决定去探索一下这种未知的功能到底是什么。2005年,他们手里已经掌握了来自60多种细菌的多达4 500段CRISPR序列,接下来就是看看它们之间有没有什么共性。一经对比,自然就看到奥妙了,有88段DNA居然在不同细菌中出现了多次!这88段大多是CRISPR序列中夹在重复序列之间的片段——不是砖头,是连接砖头的彩色皮筋。更妙的是,这88段中还有相当部分——47个——居然还不只存在于细菌里面。它们居然和许多病毒的基因组序列信息高度一致!
当然了,听过了基因治疗的故事,相信你们马上会想到,这些DNA也许是病毒入侵细菌之后,藏身于细菌基因组里的痕迹,就像寄居人体细胞的HIV。但这个最简单的解释其实是站不住脚的。莫西卡他们发现的并不是完整的病毒DNA,而仅仅是病毒DNA的一小段,只有这一小段是没法制造出病毒来的。更重要的是,看起来对于这些病毒DNA片段,细菌是经过了小心处理的,因为它们总是被夹在一段段精心设计的重复序列里。
所以简单来说,这些CRISPR应该不是病毒藏身于细菌基因组的痕迹,反而像是细菌在基因组里收藏了某些病毒不同角度的快照。
这当然不是细菌暗恋病毒的证明——生物学家们没那么浪漫,而且,细菌大概也不会那么热爱这些病毒。因为这些被CRISPR序列记录下来的病毒并不普通。与入侵人体细胞的HIV和入侵植物细胞的烟草花叶病毒类似,CRISPR记录下的病毒,恰好是专门入侵细菌的病毒。它们依靠细菌维持自身的生存繁衍,也因此会对细菌造成致命伤害,所以它们被恰如其分地命名为“噬菌体”。
我们已经说过,宿主和病毒在亿万年的光阴里一直在玩猫捉老鼠的游戏。以人体为例,人体进化出了多种多样的机制来清除入侵身体的病毒颗粒,比如免疫系统。我们身体里有一类具备特殊功能的细胞,能够有效识别和杀灭身体里的病毒,保护身体的其他组织和细胞。
细菌作为一种单细胞生物,显然不可能期待来自其他细胞的帮助。因此,如果细菌也希望抵御病毒的入侵,必须依靠自身细胞内的资源和手段。会不会就是CRISPR?
这个想法初看起来很疯狂:谁能相信一段DNA就能实现一整套免疫系统的功能?但是仔细想想却很耐人寻味。CRISPR肯定有着重要的功能,同时又携带着许多病毒的信息;这些病毒恰恰又是对细菌威胁最大的噬菌体。这三条放在一起的话,一个自然的猜测不就是CRISPR能帮助细菌抵抗噬菌体吗?
这个想法验证起来也不难。我们大家也能设计出这样的实验来:如果一切正如我们的猜测,那携带着某种病毒信息的CRISPR序列应该就具有病毒疫苗的功能。拥有这段CRISPR序列的细菌应该不容易被这种病毒入侵,而如果把这种CRISPR转移到另一种细菌中,也能让这种新的细菌具有免疫力。
很快,就在2007年,这个想法得到了完美证明。一群在丹尼斯克食品配料公司工作的科学家证明,在嗜热链球菌中人工添加一段CRISPR序列,可以帮助细菌抵挡某种对应病毒的入侵。这群科学家甚至还证明,细菌的免疫系统和人体一样,居然还有自我进化的高级功能!每当有新的噬菌体病毒入侵,侥幸存活下来的细菌就会把它的基因组序列整合到自己的CRISPR序列中。下次有同样的病毒入侵时,细菌就可以正确识别和对抗它们了。顺便提一句,这帮科学家的研究对象——嗜热链球菌,乃是现代酸奶工业的基石。因此,他们开展研究的出发点,也许仅仅是为了解决酸奶生产中经常出现的噬菌体感染问题!
好了,截至目前,CRISPR的生物学价值应该足够惊世骇俗了。原来以为只有人类这样的高等生物才拥有复杂的免疫系统,谁能想到只有一个细胞、几微米大小的细菌居然也有。而且和人体免疫系统一样,细菌的免疫系统居然也具备自我进化、迅速适应和对抗新病毒入侵的能力。从任何角度出发,这都是项足以载入史册的重大发现。这个发现无比优雅和简练地说明了有机生命的伟大生命力。一个小小的细菌,没有多余的空间和资源来创造复杂的免疫系统,仅仅用自身基因组序列上的一小段重复DNA片段,就能够抵挡病毒的侵袭。
讲到这里,你可能会问,CRISPR的故事再精彩,和基因编辑、基因治疗又有什么关系呢?其实真相并不复杂。如果合上书本,把前因后果想上几分钟,也许你就会明白其中的奥妙。CRISPR里面含有病毒的部分DNA序列与CRISPR能够抵御病毒的入侵,这两点之间有什么关系吗?凭什么仅靠记录一张病毒的快照,细菌就能够杀死入侵的病毒呢?
想清楚这一点,全新的基因编辑技术就呼之欲出了。