基因组编辑三大利器：TALEN、ZFN和CRISPRCas

2018-06-01

　　激活样效应因子核酸酶(transcription activator-like effector nuclease, TALEN)技术与锌指核酸酶(Zinc-finger nuclease, ZFN)技术组成了一大类强有力的基因组编辑工具，这一大类技术的发展重新划定了生物学研究的边界。这些嵌合核酸酶由两部分组成——一个可编码的序列性DNA结合模块与一个非性的DNA切割结构域。通过DNA双链断裂(DNA double-strand break)来刺激容易出错的非同源末端连接或在特定基因所在的进行的同源定向修复，TALEN和ZFN能够完成一系列遗传学编辑修饰操作。

　　本文将以上述三种技术为例，介绍并探讨新一代位点性基因组工程技术的生物学原理、未来发展趋势，及其在遗传学研究领域的作用和潜在的医学应用前景。

　　TAL效应因子(TAL effector, TALE)最初是在一种名为黄单胞菌(Xanthomonas sp.)的植物病原体中作为一种细菌感染植物的策略而被发现的。这些TALE通过细菌 III类分泌系统(bacterial type III secretion system)被注入植物细胞中，通过靶定效应因子性的基因启动子来调节，来促进细菌的集落形成。由于TALE具有序列性结合能力，研究者通过将FokI核酸酶与一段人造TALE连接起来，形成了一类具有性基因组编辑功能的强大工具，即TALEN。

　　近年来， TALEN已广泛应用于酵母、动植物细胞等细胞水平基因组，以及拟南芥、果蝇、斑马鱼及小鼠等各类模式研究系统。2011年《自然•方法》(Nature Methods)将其列为年度技术，而2012年的《科学》(Science)则将TALEN技术列入了年度十大科技突破，针对该文的评论更是给予它基因组的巡航导弹技术的美誉。

　　如前文所述，典型的 TALEN由一个包含核定位信号(Nuclear localization signal, NLS)的N端结构域、一个包含可识别特定 DNA序列的典型TALE重复序列的中央结构域，以及一个具有FokI核酸内切酶功能的C端结构域组成。不同类型的TALEN元件识别的性DNA序列长度有很大区别。一般来说，天然的TALEN元件识别的性DNA序列长度一般为17-18bp;而人工TALEN元件识别的性DNA序列长度则一般为14-20bp。

　　TALEN技术的原理并不复杂，即通过 DNA识别模块将TALEN元件靶向性的DNA位点并结合，然后在FokI核酸酶的作用下完成特定位点的剪切，并借助于细胞内固有的同源定向修复(HDR)或非同源末端连接途径(NHEJ)修复过程完成特定序列的插入 (或倒置)、删失及基因融合(图2)。

　　TALEN技术的核心原理就是在同一个蛋白(TALEN)上有序地实现引导进入细胞核、靶位点DNA的性识别和靶位点DNA的切割这三个不同的功能，这一点在上述TALEN典型结构一节中已作了较为详细的描述。在具体操作中，例如在实验室条件下，实现TALEN的关键就在于完成DNA的性识别功能，一般说来分为两个步骤。图3与图4分别以“铂金门”TALEN构建系统(Platinum Gate TALEN construction system)和商业化的easyT体系为例，展示了实验操作中TALEN元件的构建。

　　TAL的DNA性识别单位是间隔32个恒定氨基酸残基的二联氨基酸。二联氨基酸与AGCT这4个核苷酸碱基有一一对应的关系：腺嘌呤(A)由NI识别、胸腺嘧啶(T)由NG识别、鸟嘌呤(G)由NN识别，而胞嘧啶(C)则由HD识别。实验操作中，我们通过靶位点的DNA序列可以反推能性识别这一序列的二联氨基酸序列，从而构建TAL靶点识别模块。

　　根据之前对TALEN结构的介绍，我们需要将上一步骤中根据目标DNA序列构建好的一对TAL靶点识别模块与N端的核定位序列、C端的FokI酶连接起来，才能得到一个完整的TALEN元件。一般来说，我们可以采用专门用于构建TALEN的真核表达载体体系，将一对性的TAL靶点识别模块克隆进该载体中，再通过转染等方式导入细胞内。这种体系一般由供体质粒(donor plasmid，提供单基、二联及三联等类型的TAL模块)和骨架质粒(backbone plasmid，用于构建TALEN并表达构建好的TALEN)两类质粒构成，常用的TALEN体系有RCIscript-GoldyTALEN和pC-GoldyTALEN、TAL5-BB和pTAL6-BB及pCS2TAL3-DD和pCS2TALE-RR等。

　　虽然 TALEN技术的基本原理并不难理解，但其发现过程却较为曲折。从1989年首次发现TAL起，研究者前后历时近21年才研究清楚TAL的工作原理。自2010年正式发明 TALEN技术以来，全球范围内多个研究小组利用体外培养细胞、酵母、拟南芥、水稻、果蝇及斑马鱼等多个动植物体系验证了TALEN的性切割活性。

　　2011年大学(Peking University)的 Zhang等人首次使用TALEN技术在斑马鱼中成功实现了定向突变和基因编辑;而爱荷华州立大学(Iowa State University)的Wang等人则在2012年，也以斑马鱼为模式动物，并首次使用TALEN技术在活体内完成了特定 DNA的删除、人工DNA插入等较为复杂的操作。随后TALEN技术在植物、大小鼠的基因组等方面的应用也顺利完成。而2013年 Zhang使用TALEN了DNA双链断裂，提高同源定向修复效率，在斑马鱼中实现了同源重组基因打靶。

　　如前所述，经典的 TALEN体系已经广泛应用，越来越多的实验室以及实验外包公司均能很好地完成TALEN相关实验，但是基本限于单基因的插入或敲除操作，而且主要用于单个基因功能的研究。2013年，首尔国立大学化学系和国家基因工程创新举措研究中心的Kim课题组建立了一个全基因组规模(genome-scale collection)的TALEN体系，他们系统地选取了人类基因组中高度性的序列作为靶位点以避靶(offtarget)效应，通过一种高通量克隆体系，一次性构建了18, 740个编码蛋白的基因的 TALEN质粒。

　　在这项研究中，研究者以一种巧妙的方式优化了TALEN质粒的结构，以检测插入靶位点后质粒对应上EGFP的表达的方式检测了TALEN靶位点插入成功率(图5a)。通过这一方式，他们可以研究不同间隔序列下特定靶位点插入效率(图 5b&c)，从而针对每一个靶位点，都能选出最佳的TALEN体系结构。2014年2月，大学生命科学学院魏文胜课题组依托于一种自主研发的TALE蛋白组装技术(ULtiMATE system)完成了全部 TALE元件的解码工作。

　　近年来，随着TALEN技术逐渐成熟，全球范围内各实验室已广泛使用TALEN技术来完成基因打靶操作。 TALEN通过与显微注跨越干细胞研究、基因治疗、神经网络，以及射、慢病毒感染等技术手段相结合，其应用范动植物育种等多个领域，强力推动生命科学的围越来越广。相信在不远的将来，其应用必将进步。

　　锌指核酸酶(Zinc-finger nuclease, ZFN)又名锌指蛋白核酸酶(ZFPN)，它是一类人工合成的性内切酶，由锌指DNA结合域(zinc finger DNA-binding domain)与性内切酶的DNA切割域(DNA cleavage domain)融合而成。研究者可以通过加工ZFN的锌指DNA结合域，靶向定位于不同的DNA序列，从而使得ZFN可以结合复杂基因组中的目的序列，并由DNA切割域进行性切割。此外，通过将锌指核酸酶技术和胞内DNA修复机制结合起来，研究者还可以自如地在生物体内对基因组进行编辑。目前，在大量植物、果蝇、斑马鱼、蛙、大/小鼠及牛等中，ZFN技术已被广泛应用于靶向基因的突变，通过人工修改基因组信息可以产生遗传背景被修改的新。该技术在医学领域也具有非常重大的价值，对于疾病的基因治疗有潜在意义，具有非常广泛的应用前景。

　　顾名思义，ZFN由负责性识别序列的锌指DNA结合域和进行非性性内切酶切割的DNA切割域两部分组成(图6)。其中锌指DNA结合域部分一般包含3个的锌指(Zinc finger, ZF)重复结构，每个锌指结构能够识别3个碱基，因而一个锌指DNA结合域可以识别9bp长度的性序列(而ZFN二聚体，则包含6个锌指，可以识别18bp长度的性序列)。目前最常用的ZF结构为Cys2His2锌指，其结构由大约30个氨基酸包裹一个锌原子构成。研究表明，增加锌指的数量可以扩大ZFN性识别DNA序列的长度，从而获得更强的序列性。具体操作中，则一般通过模块化组合单个ZF，来获得性识别足够长的DNA序列的锌指DNA结合域。ZFN的三维空间结构如图6所示。

　　图6 ZFN的结构。该图为DNA双链与一对ZFN结合的示意图。每一对锌指用粉色标出，图像左侧的锌指用带状结构表示，右侧的锌指用填充空间结构表示;FokI的DNA切割域如蓝色区域所示;位于连接域与切割域之间的长度为四个氨基酸的“连接区”(linker)如灰色填充空间结构所示。DNA双链的糖-磷酸骨架为橙色，碱基显示为蓝色，在ZF结合位点两侧的DNA区域间距为6bp。该示意图由Smith等人在2000年根据锌指蛋白与DNA结合的晶体结构数据所编译而来。图片来源：Carroll D. (2011) Genome engineering with zinc-finger nucleases. Genetics. 188(4): 773-82.

　　此外，如果锌指DNA结合域与目的DNA序列能够完美配对，即便只含3个ZF结构的ZFN也能在基因组中性地结合18bp长度的序列。通过研究者长期的努力，识别每一种三联碱基的64种锌指组合中已有大部分被发现并编撰成目录，这些相关数据也都能够在公共的数据库或者文献中被检索到。针对每一条需要识别的目标序列，我们都可以使用与密码子对应的类似方式对锌指结构进行模块化组装(modular assembly)，从而获得能够识别特定DNA序列的锌指蛋白结构。

　　ZFN的切割域与DNA结合域通过连接区(linker)结合。在ZFN中应用最广泛的DNA切割域来自IIS型性内切酶FokI。由于切割域与DNA链的结合能力较弱，因此DNA切割域必须以二聚体的形式发挥作用。构建锌指核酸酶时，应针对DNA各链上的邻近区域设计两条ZFN，使其DNA切割域能够位于双链的同一，以达到最佳的切割效果。两条ZFN之间具有被称为“间隔区”的spacer结构，该结构的长度以5～6bp为宜，7bp也能正常工作，合理的“间隔区”设计才能ZFN二聚体拥有最佳的工作空间(图7)。

　　图7 ZFN性识别DNA并与DNA结合示意图。每个DNA识别域包含三个锌指，锌指从N端开始命名，在图中标示为F1、F2、F3。每个锌指结构分别与3个碱基发生直接接触，由此产生性。单独的FokI切割域不具有性识别能力，但当与锌指结构相连，并与另一个FokI切割域形成二聚体后，便能够对DNA双链进行切割。两个切割位点之间的距离约为4bp，如箭头所示。图片来源：Carroll D. (2011) Genome engineering with zinc-finger nucleases. Genetics. 188(4): 773-82.

　　ZFN技术可用于基因组编辑。针对目的基因序列设计并合成ZFN后，使之对DNA进行性切割，从而形成DNA双链断裂区(Double-StrandedBreaks,DSB);通过非同源末端链接(non-homologous end joining, NHEJ)使目的基因失活，或借助同源重组(homologous recombination, HR)等方式完成DNA的修复连接，可以使断裂的DNA双链重新黏合。将以上两步结合起来便可以完成一般的基因组编辑操作，具体机制如图8所示。

　　ZFN技术具有重大的应用价值。在科研和农业领域，该技术既可用于基因的敲除失活，也可用于导入目标基因，使基因激活或阻断，或者人为基因序列，使之符合人们的要求。在医疗领域，经ZFN技术后导入治疗性基因的质粒或干细胞可被导入人体，实现基因治疗。此外，ZFN技术也可以直接用于有害基因的修补替换或是直接删除，以达到相关治疗目的。ZFN技术具有极佳的性和效率，因此能将基因/基因组错误修改的风险降到最低。从理论上来说，研究人员甚至可以在任何中，对处于任意生长时期的细胞进行ZFN操作，可以自如地修改其基因，而还不细胞状态。

　　目前，除了传统的DNA重组技术外，合成具有可控性的锌指结构域的平台主要有两个：其一为Sangamo Bioscience公司所独有，在两个锌指的基础上生产更多 ZF的锌指核酸酶，并与Sigma公司合作，通过 Compozr项目销售预制的锌指;另一个是由锌指联盟(Zinc Finger Consortium)开发的 Oligomerized PoolENgineering(OPEN)技术，该技术主要通过大肠杆菌双杂交系统(E. coli two-hybrid selection system)来对ZFN进行筛选，这是一个平台，其模块化的锌指库和试剂皆可免费获得。

　　早期的 ZFN技术一般采用普通的 FokI-ZFN二聚体形式来其切割效率，但使用过程中可能因同源二聚体效应(homodimerization)而导致脱靶，影响切割性。Miller等人和Szczepek等人在2007年分别开发出FokI的变体，使得ZFN可以在异源二聚体(heterodimer)形式下使用，从而在切割效率的前提下大大提升了性，并减少了细胞毒性，具有更优良的科研和应用价值。

　　ZFN虽然是刚刚兴起的技术，但已被越来越广泛地应用到科研和医疗领域中。ZFN技术的先导之一，Sangamo Biosciences公司正在和大学合作，研究ZFN技术通过介导核酸酶引起CCR5基因座的。这一研究在治疗HIV中具有广阔的应用前景，而且ZFN技术也已尝试应用于杜氏肌营养不良症(Duchenne muscular dystrophy)、21三体综合征等遗传疾病的基因治疗(图9)。

　　早期的ZFN技术需要借助病毒或质粒载体的方式进入细胞，之后再表达形成具有功能的蛋白。但Barbas等人发现ZFN可以依靠自身锌指部分跨过细胞膜进入细胞，并发挥作用，如此则可避免载体插入重要基因而引起突变等潜在风险。近年来，一系列应用ZFN所取得的振奋的科研相继发表在高水平上，如使患有人血液疾病乙型血友病(hemophilia B)的小鼠恢复血液凝结功能;在干细胞领域，研究者使用ZFN技术精确修正基因突变，从而使与人体疾病相关的缺陷蛋白失活等。

　　ZFN技术虽然简易实用，但也具有一定缺陷。ZFN对DNA的剪切需要两个FokI切割区域的二聚化，并且需要至少一个识别单元结合DNA。DNA识别域虽然具有较强的性识别能力，但由于ZFN剪切的过程并不完全依赖同源二聚体的形成，所以一旦形成异源二聚体，就很可能造成脱靶效应，并最终可能导致DNA的错配和序列改变，产生较强的细胞毒性。当这些不良影响积累过多，超过细胞修复机制承受的范围时，便会引起细胞的凋亡。另一方面，该手段仍然受到现有生物学领域研究手段的，因此在细胞内部操作的精确程度和后果都较难预料。如果ZFN引起相关基因突变，则可能会导致一系列意想不到的后果，在与人体相关的应用领域，甚至可能引发癌症。另外，ZFN作为基因治疗的手段之一，如果在生物体内使用，可能会引发免疫反应。现有的研究手段尚不能预测引入的ZNF蛋白是否会引起免疫系统的进攻。并且到目前为止，ZFN技术只能用于体外操作(in vitro)，在对人体提取的细胞进行处理之后，再导入回输到病人体内。而直接向患者体内导入相关ZFN元件进行基因编辑处理则具有较大的潜在风险，且效率不高。以上诸多导致人体相关的ZFN操作较为繁琐，难以推广应用。

　　不论是TALEN技术还是ZFN技术，其定向打靶都依赖于DNA序列性结合蛋白模块的合成，这一步骤非常繁琐费时。而CRISPR/Cas技术作为一种最新涌现的基因组编辑工具，能够完成RNA导向的DNA识别及编辑。CRISPR/Cas技术使用一段序列性向导RNA(sequence-specific guide RNA)引导核酸内切酶到靶点处，从而完成基因组的编辑。CRISPR/Cas系统的开发为构建更高效的基因定点修饰技术提供了全新的平台。

　　CRISPR/Cas系统由CRISPR序列元件与Cas基因家族组成。其中CRISPR由一系列高度保守的重复序列(repeat)与同样高度保守的间隔序列(spacer)相间排列组成。而在CRISPR附近区域还存在着一部分高度保守的CRISPR相关基因(CRISPR-associated gene, Cas gene)，这些基因编码的蛋白具有核酸酶活性的功能域，可以对DNA序列进行性的切割。

　　CRISPR/Cas作为原核生物中普遍存在的一种系统，最初的功能就是识别外源性入侵的核酸序列，并对其进行性降解，以达到抗病毒的作用。这一过程分两步进行——crRNA的合成及在crRNA引导下的RNA结合与剪切，具体机制如图11所示，包含crRNA的生物学合成和RNA的结合与剪切两大步骤。

　　根据功能元件的不同，CRISPR/Cas系统可以分为I类系统、II类系统和III类系统。这三类系统又可以根据其编码Cas蛋白的基因不同而分为更多的亚类。不同类型CRISPR/Cas系统完成干扰的步骤也有所不同(图12)。

　　I类和III类CRISPR/Cas系统进行干扰时只需要crRNA和Cas蛋白两种元件的参与，而II类CRISPR/Cas系统包括crRNA、tracrRNA和Cas蛋白三种元件。其中II类CRISPR/Cas系统最先在后用于小鼠和人类基因组编辑，同时也是目前研究最为充分的系统。根据Cas蛋白的类型不同分为三个亚类：II-A类含有Cas1、Cas2、Cas9和Csn2样蛋白;II-B类含有Cas1、Cas2、Cas4和Csx12样Cas9四种蛋白;II-C类则有Cas1、Cas2及Cas9三种蛋白。此外，II类CRISPR/Cas系统也是目前最常用于人工基因组编辑的CRISPR/Cas系统，其靶向基因组编辑的步骤如图13所示。

　　自1987年大阪大学(Osaka University)的研究人员在细菌的天然免疫系统中发现CRISPR/Cas系统以来，CRISPR作为一种潜在技术在很长时间内都没有得到重视与发展。近年来，由于基因工程技术的突飞猛进，CRISPR/Cas俨然已经成为科学界最炙手可热的热点之一，被广泛应用于各类体内和体外体系的遗传学、转基因模式动物的构建，甚至基因治疗领域。

　　2013年初的《科学》第339卷第6121期连载了两篇具有重要意义的CRISPR技术论文，其中一篇描述的是麻省理工学院(Massachusetts Institute of Technology, MIT)Zhang的研究组使用CRISPR技术完成了多重基因组编辑，另一篇描述了哈佛医学院(Harvard Medical School)Church的研究组首次使用CRISPR技术完成了RNA介导的人类基因组编辑(图14)。他们使用基因工程学方式修改了细菌的II类CRISPR系统，并比较了这种新系统与传统TALEN方法在基因组编辑方面的效率差异，结果发现这种方式比TALEN有更快的时效性。同时，该研究组还建立了一个覆盖约40.5%外显子的基因组水平的gRNA群。

　　图14 使用一种基因工程修饰的II类CRISPR系统完成了人类细胞的基因组编辑。(A)人类细胞的RNA介导基因打靶涉及C末端包含SV40核定位信号(nuclear localization signal)的Cas9蛋白和一个或一个以上的向导RNA(guide RNA, gRNA)的共表达(上半部分共表达两个质粒的结构示意图)，这一过程由人类U6聚合酶III(U6 polymerase III)的启动子介导。Cas完成DNA双链的解聚并在gRNA(guide RNA)的识别下切割特定的DNA双链，该过程前提是其3’端有序列正确的原间隔物模块(protospacer-adjacent motif, PAM)。原则上任何符合GN20GG序列模式的基因组序列都可以被性靶向识别(下半部分靶向识别的作用机制示意图)。(B)一个基因组整合的GFP编码序列被一个终止密码子和一个长达68bp的基因组片段在AAVS1位点的插入打断，使用合适的供体序列通过同源重组(HR)的方式修复GFP序列能诱使GFP功能恢复，形成GFP阳性的细胞，之后则可通过流式细胞术(FACS)分离。T1和T2向导RNA靶向序列定位于AAVS1片段区域。TALEN元件的两个单体的结合位点用上划线表示。

　　同年，中国科学院动物研究所周琪研究员利用CRISPR-Cas技术在大鼠中实现了多基因同步敲除;而怀特海德研究所(Whitehead Insititute)的 Jaenisch利用CRISPR-Cas技术构建了条件敲除的小鼠转基因模型;大学生命科学学院的瞿礼嘉教授课题组利用CRISPR-Cas系统成功地实现了对水稻特定基因的定点突变;杜克大学Pratt工程学院基因组科学研究所的Gersbach研究组则已经开始尝试使用CRISPR技术进行基因治疗。仅这一年内，CRISPR/Cas领域就取得了如此多鼓舞的突破，简直可以用一日千里来形容了。

　　从生物学角度看来，基因定点修饰操作可以分为敲入(knock in)、敲除(knock out)、删失(deletion)及基因融合(gene integration)这几种类型。而其中敲除又有多重敲除(multiplex knockout)和条件敲除(conditional knockout)等特殊类型，本质上均是利用非同源末端链接途径(NHEJ)修复和同源重组(HR)修复，联合性DNA的靶向识别及核酸内切酶完成的DNA序列改变，其总体模式如图15所示。

　　近年来TALEN、ZFN和CRISPR/Cas三大基因定点修饰技术已经广泛应用于生命科学与医学的各个方面，包括但不局限于转基因动植物模型的构建、基因治疗及转基因育种等。虽然TALEN、ZFN和CRISPR/Cas三种技术在技术细节上有着各自独一无二的特色，但它们在各类应用中的基本模式却是相似的，例如在转基因大鼠的构建上，三种技术均是以显微注射的方式进入大鼠胚胎的(图16)。

　　虽然TALEN、ZFN和CRISPR/Cas均能用于与基因组定点修饰相关的各类操作，应用范围有很大程度的重合，但是这三种技术有各自不同的技术特点和适用范围(表1)，因此实际操作中，实验者都会根据实际需要选择合适的基因组定点修饰技术方案。

　　TALEN技术是目前商业化最成功的技术，虽然将单个的TALEN模块进行组装需要大量的克隆和测序操作，十分繁琐，但是很多商业公司可以提供组装好的三联密码子TALEN模块，甚至四联密码子TALEN模块，这样就大大缩短了构建TALEN元件的实验周期。不过也正是因为如此，绝大多数实验室都难以自行完成TALEN技术的完整操作，对其推广造成了障碍。

　　ZFN技术则是最早被广泛使用的基因组定点修饰技术，各大平台均比较完善，有很多可以直接使用的资源，然而由于其自身的三联属性，其设计比TALEN更为繁琐，而且高度依赖于目标序列及其上下游序列，还具有脱靶率高及细胞毒性大等诸多性因素。

　　CRISPR/Cas技术摆脱了合成并组装具有性DNA识别能力蛋白模块的繁琐操作，其gRNA的设计和合成工作量远远小于TALEN和ZFN技术的DNA识别模块的构建过程，且毒性远远低于ZFN技术。然而CRISPR/Cas技术也有上下文依赖性，目前只能应用于上游有PAM序列的靶位。

　　TALEN、ZFN和CRISPR/Cas三大基因组定点修饰技术应用于各个生物医学领域的历史都并不长，但近年来发展无比迅速，积累了大量的网络资源和平台资源。以模式动物果蝇(Drosophila melanogaster)的基因组定点修饰为例，目前可查的基因组定点修饰相关数据库已经多达十七个(表2)。

　　由于在技术特征方面存在区别，TALEN、ZFN和CRISPR/Cas作为不同的技术在研究领域上虽然有极高重复度，但一些特殊的研究领域，在这几种基因组修饰工具的选择上，依然具有较强的偏好性。例如在基因治疗领域，不同技术在应用上也有不同的分工(表3)。

检验医学