第二代测序文库的构建——概述与挑战(1)
在过去的五年中,NGS技术已经被生命科学领域的研究人员广泛使用。同时,随着测序技术的发展和进步,衍生出了一些核酸提取和文库制备的方法。例如,来自单个细胞的RNA和DNA已经成功地用于文库制备。NGS文库制备的基础是将靶核酸、RNA或DNA转化为测序仪可以使用的形式(图1)。在这里,我们比较了几种文库制备策略和NGS应用,重点是与illumina测序技术兼容的文库。然而,需要指出的是,本文讨论的几乎所有原则都可以稍加修改后应用于其他NGS平台,如生命技术公司、罗氏公司和太平洋生物科学公司。
一般来说,文库制备的核心步骤包括:1)片段化和/或选择特定长度的片段,2)将其转化为双链形式,3)将寡核苷酸接头连接到片段末端,4)对文库进行定量;目的DNA片段的大小是构建NGS文库的关键因素。核酸断裂的方法主要包括物理、酶和化学方法。物理方法有声波剪切(代表:Covaris)和超声波(代表:BioRuptor)。酶切方法包括非特异性核酸内切酶和转座酶片段化。在我们实验室,Covaris、Woburn和MA主要用于获得100-5000bp范围内的DNA片段,而Covaris g-TUBEs主要用于获得配对文库所需的6-20kb范围内的DNA片段。酶消化的方法包括DNase I或片段化酶的消化,以及两种酶的混合物(New England biolabs,IP Switzerland MA)。两种方法都有效。然而,碎片化的酶会比物理方法产生更多的假indel。另一种酶切方法是Illumina的Nextera,它使用转座酶进行随机片段化,并将接头序列插入双链DNA中。这种方法有几个优点,包括减少样品处理和制备的时间。
文库的大小由插入片段的大小决定(指连接序列之间的文库部分),因为连接序列的长度是恒定的。相反,最佳插入长度由NGS设备和特定测序应用决定。例如,在illumina中,最佳片段大小受簇产生过程的影响,该过程包括文库制备、稀释和分配到芯片表面用于扩增。虽然短片段扩增更有效,但长片段文库可以产生更大和更分散的簇。我们用illumina测序的最大文库是1500bp。
最佳文库大小也由测序应用决定。对于外显子测序,超过80%的人类外显子长度小于200bp。我们检测了PE100bp,外显子文库大小约为250bp,可以匹配大部分外显子的平均大小,结果中没有重叠的阅读对。RNA-seq文库的大小也由应用决定。对于基因表达分析,我们使用SE100测序。然而,我们选择PE100的方案来确定可变剪接或转录起始和终止位点。在大多数应用中,RNA在断裂前被逆转录成cDNA。通常,二价金属离子(镁或锌)用于RNA的可控热消化。文库片段的大小可以通过调节消化反应的时间来控制,重复性好。
在近期对7个RNA-seq文库制备方法的研究中,大多是先片段化RNA,再加入接头。有两种方法可以合成具有固定3’和5’序列的全长cDNA序列,而不使用随机引物或使用更智能的超低RNA试剂盒。全长cDNA文库(平均2kb)可通过长距离PCR(LD-PCR)扩增。用声波将扩增的双链cDNA切割成合适的长度,用于标准illumina文库的制备(包括末端修复和展平,加入A和接头连接,然后用PCR扩增)。)
文库构建后处理文库大小的另一个步骤是芯片选择和从文库制备中除去接头二聚体或其它副产物。接头二聚体是接头自我连接的结果。这些二聚体的聚类效率非常高,会消耗宝贵的芯片空间,但不会产生任何有效的数据。因此,我们通常使用磁珠法或切胶法进行回收。磁珠法适用于原料充足的情况。如果样品输入有限,将产生更多的接头二聚体。我们的经验是,这种情况下基于磁珠的方法不适用,需要结合磁珠和橡胶切割回收的方法。
在microRNA/小RNA文库的制备中,靶产物通常只比120bp的接头二聚体长20-30bp。因此,需要使用橡胶切割和回收的方法来获得尽可能多的目标序列。这种分离精度不适合磁珠。此外,我们经常需要建立一个大的插入片段文库(1kb),结合更长的PE300阅读长度和无PCR步骤,用于细菌基因组的从头组装。为了获得尽可能多的可用于组装的数据,需要小心地切割和回收胶水,以获得相同大小的插入片段。
在使用DNA样品构建文库的过程中有几个考虑因素,包括起始材料的量以及文库是用于重测序(有可用于比较的参考序列)还是从头测序(需要使用离线数据组装新的参考序列)。由于基因组中存在高GC或低GC区域,文库制备容易存在偏倚。目前,已经开发了解决这些问题的方法,包括仔细选择用于扩增的聚合酶、循环数、条件和缓冲液。
DNA样品的文库制备,无论是用于WGS、WES、ChIP-seq还是PCR扩增子,通常遵循相同的过程。一般来说,对于任何应用程序,目标都是使库尽可能复杂。
目前有几个品牌的DNA数据库试剂盒。竞争也导致了价格的快速下降和质量的提高。这些试剂盒可以处理从ug到pg的多种水平的DNA起始量。但是,我们需要记住,大的初始量可以减少扩增循环的次数,因此文库更加复杂。除了Nextera,文库制备步骤通常还包括:1)片段化,2)末端修复,3)5-末端磷酸化,4)3-末端添加a,5)接头连接,6)几个循环的PCR以富集带有接头的产物。离子激流工艺的主要区别在于平端连接不同的接头序列。
初始DNA片段化后,三种酶(T4多核苷酸激酶、T4 DNA聚合酶和Klenow大片段)的混合物将用于末端补偿和5-末端磷酸化。通过Taq聚合酶或Klenow片段(exo-)将a-尾添加到3-末端。Taq在添加尾部方面更有效,但是当加热方法不可用时可以使用Klenow,例如配对库。在接头连接过程中,最佳的接头:碎片比例约为10: 1,以摩尔计。过多的接头会形成难以分离的二聚体,这些二聚体会主导后续的扩增。在末端修复和一个加成反应之后,磁珠或胶回收的方法是适用的,但是在连接反应之后,我们发现磁珠的方法可以更有效地去除接头二聚体。
为了便于多样本混合,不同的条形码可用于不同的样本。此外,通过不同条形码的引物,也可以通过PCR扩增过程添加条形码。高质量的连接器和带条形码的PCR引物可以从多个供应商处购买。目前DNA文库构建的所有组成部分,从接头到酶,都有详细的文字说明,可以组装成自制的文库制备试剂盒。
另一种方法是Nextera法,利用转座酶随机中断DNA,在单管中进行标记(也叫tagging)。这种工程酶有两个功能:片段化DNA和在片段化DNA的两端添加特定的接头。这些接头序列用于在下一个PCR过程中扩增插入的片段。PCR反应将添加条形码。与传统方法相比,这种制备工艺的优点是将破碎、末端修复和接头连接合二为一。这种方法比机械断裂方法对DNA的初始量更敏感。为了在合适的距离实现断裂,转座酶与样品的比例非常重要。因为碎片大小取决于反应效率,所以所有的反应参数,如温度和反应时间,都非常关键,需要严格控制。
一些研究小组发表了单细胞基因组测序的结果。目前的策略使用多链置换(MDA)来扩增整个基因组。MDA主要使用随机引物和phi29,一种高度渐进的链置换聚合酶。虽然这种技术可以产生足够的数量来构建测序文库,但其问题之一是非线性扩增导致的大量偏差。最近,人们认为可以通过增加半线性前置放大步骤来减少偏差。基于单细胞分离和微流控技术,利用Fluidgm制备单细胞库,每次最多可获得96个单细胞。
对于RNA文库,我们需要根据测序目的筛选文库构建方案。如果目的是发现复杂而全面的转录事件,那么文库需要覆盖整个转录组,包括编码、非编码、反义和基因间RNA,并且需要尽可能完整。然而,在许多情况下,目的只是研究编码可以翻译成蛋白质的mRNA的转录物。另一种情况只涉及小RNA,大多数mirna,包括snoRNA,piRNA,snRNA和tRNA。虽然我们要详细阐述RNA测序文库的原理,但不能一一列举。有兴趣的读者可以自己研究一下。
NGS应用于RNA-seq的第一个成功例子是miRNA。miRNA测序文库的制备非常简单,通常是一步反应。事实上,miRNA在5-末端有一个天然的磷酸修饰,这使得连接酶可以选择性地靶向miRNA。
在illumina步骤的第一步中,通过截短的T4 RNA连接酶2将3-末端封闭和5-末端腺苷酸化的DNA接头连接到RNA样品上。这种酶已被修饰以腺苷酸化3-末端接头底物。因此,在这个反应中,其他RNA片段不会连接在一起。只有腺苷酸寡核苷酸可以连接到游离RNA的3-末端。由于连接器3的末端被堵塞,不能进行自连接。接下来在ATP和RNA连接酶1的作用下加入5端RNA接头。只有5-末端磷酸化的RNA分子可以在连接反应中用作有效的底物。第二次连接反应后,逆转录引物与3-末端接头杂交,开始RT-PCR扩增(通常12个循环)。由于其较小的尺寸和可预测的片段大小(120bp的接头序列加上20-30bp的miRNA插入片段),通常将条形码的文库或多个混合样品一起回收。由于接头二聚体和非miRNA连接(tRNA和snoRNA)的存在,切胶的回收非常重要。这种文库制备方法导致文库的定向测序,总是从原始RNA的第5末端到第3末端。Ion Torrent的miRNA测序原理也差不多。通过两种不同的接头将Ion Torrent连接到mirna的3-末端和5-末端,然后进行RT-PCR。通常,文库构建步骤可以将任何RNA材料构建成定向RNA-seq文库。
miRNA文库的局限性之一是RNA的初始量低(
对于mRNA测序文库,方法主要包括用随机引物或oligo-dT引物合成cDNA或在mRNA片段上添加接头后进行某种形式的扩增。MRNA可以由随机引物或oligo-dT开始,产生一条cDNA链。如果使用随机引物,必须首先去除或减少rRNA。RRNA可以通过基于寡核苷酸探针的试剂去除,例如Ribo-Zero和RiboMinus。此外,polyA RNA可以通过oligo-dT磁珠进行阳性筛选。
一般希望文库能保留原靶RNA链的方向性。比如逆转录产生的反义RNA,起到调节基因表达的作用。事实上,lncRNA分析依赖于定向RNA测序。有几种方法可以制备定向RNA-seq文库。在逻辑上,进行cDNA反应,选择性去除两条链的1,在合成第二条cDNA链时加入dUTP。尿嘧啶包含可被反应酶消化或被不识别尿嘧啶的聚合酶扩增的链。此外,放线菌素D的加入可以减少单链cDNA合成过程中假义链的合成。
另一种杂交方法使用随机或锚定寡-dT引物的接头序列来启动第一链cDNA的合成。接下来,在模板转化步骤中,将3-末端接头序列添加到cDNA分子中。这种方法的明显优点是第一链cDNA分子可以用3-末端的独特序列标签通过PCR直接扩增,而不需要第二链合成。在第一个链合成过程中引入5-末端独特序列标签。
用于cDNA合成的引物设计对于RNA-seq文库非常重要。例如,可以通过设计靶向rRNA的引物来去除rRNA序列(不用于进一步扩增)。NuGEN Ovation RNA-seq结合SPIA(单引物等温扩增)核酸扩增技术和用于第一链cDNA合成的引物来抑制rRNA的扩增。在另一种方法中,使用4096个六聚体来抑制rRNA序列(识别和消除完全匹配)。保留了749个六聚体,用于启动第一链cDNA合成反应。结果,rRNA读数从78%下降到13%。另一种方法,DP-seq,使用44个七聚体引物来扩增大多数小鼠转录物。这种引物设计选择性抑制高表达转录物(包括rRNA)的扩增,并提供胚胎发育模型中低丰度转录物的估计。
最近,发表了一些制备单细胞RNA文库的方法。一种方法是使用第一条cDNA链的多核苷酸尾,结合模板转化反应。结果是第一链cDNA产物可以通过通用PCR引物扩增。如图4B所示,并已并入试剂盒中。另一种方法称为CEL-Seq,在cDNA的5-末端合成T7启动子序列,然后在体外转录过程中进行现象扩增。
单个细胞的总RNA一般是10pg,而polyA RNA只有0.1pg。因此,这些方法在一定程度上需要全转录扩增,以产生足够的初始量用于数据库构建。这种大规模放大的缺点在于产生大量的技术噪声,这个问题还没有解决。(?)
最后,核糖体印迹可以反映细胞mRNA转录物在任何翻译节点的混合。这种方法包括使用核糖核酸酶来溶解细胞,只留下由核小体保护的30个核苷酸的区域。蔗糖密度梯度离心纯化核小体,然后从核小体中提取mRNA。RNA测序的另一个新应用是SHAPE-Seq,它使用酰化试剂以有偏的方式修饰未配对的碱基,以探索RNA的二级结构。通过反转录修饰的RNA和未修饰的对照,可以对获得的cDNA片段进行测序,比较后可以揭示核苷酸水平的碱基配对信息。