NGS接头的详细说明
接头的本质是一个短的碱基序列,基本上包括三个部分:与流动细胞上的寡核苷酸相同或互补的片段P5/P7;测序引物结合部分r 1/R2;用于区分不同样本的索引/条形码。接头是待测DNA片段和流动池之间的桥梁,与接头连接后,目标片段可在流动池上扩增和测序。
连接器的分类方法主要有两种,一种是基于索引的位置,另一种是基于是否匹配PCR free。
(1)根据索引位置,连接器可分为单端索引连接器和双端索引连接器。单端索引连接器表示索引只存在于P5或P7(一般在P7),双端索引连接器表示索引同时存在于P5和P7。(如图2所示)。索引的数量直接影响最终可以混合的样本数量。双端索引可以比单端索引容纳更多的样本。近年来,为了满足一次测量更多样品的需求,带刻度的双端连接器得到了广泛应用。
图2:连接器按索引位置分为单端索引连接器和双端索引连接器,两种连接器连接后的示意图。
(2)根据接头与PCR free数据库是否匹配,接头可分为长接头和短接头(见图3)。长接头,也称为完全接头,包括P5/P7+索引序列+Read 1/2。完整的接头通过TA克隆连接到DNA片段上后,不需要PCR扩增就可以直接在电脑上测序(DNA量够的时候可以直接在电脑上测序,DNA量不够的时候需要PCR扩增使产物达到一定量才可以在电脑上测序)。短接头通过TA克隆连接到DNA片段后,与短接头互补的引物必须通过PCR扩增,扩增产物就是含有完整接头的DNA片段(见图4)。也就是说,短接头必须通过PCR扩增成完整的接头,才能在电脑上测序。
作为关节重要组成部分的Index有何奥妙?简单来说,Index就是混合样本中不同样本的“身份证”,它本身就是一个碱基序列,一般长6nt或8nt。通过这个“身份证”的识别,可以在混合样本中识别单一样本的数据。那么问题来了,四个碱基随机有这么多排列组合。这些可以作为索引吗?选择指数序列的依据是什么?
指标的选择要满足两个原则:基础平衡和激光平衡。
a)基数平衡:指指数序列的复杂程度和平衡性;复杂性是指基础类型的多样性;平衡是指基数之间分配比例的平衡。需要注意的是,基础余额是指多个指数之间的余额,而不是单个指数内的基础余额。最佳的索引序列应该都含有A、T、C、G四个碱基,碱基之间的比例接近25%,如图5所示。
b)激光平衡(必须考虑):是指在一组索引序列中,每个碱基位置A+C =G+T都要满足。在Illumina测序仪中,两个碱基* * * A和C被波长为660nm的红色激光激发;g和T***被波长为532 nm的绿色激光激发。需要注意的是,激光平衡是碱基不平衡情况下的无奈之举,可以在一定程度上提高索引测序中碱基识别的质量,降低数据分离出现问题的可能性,如图6所示。如果样品数量为奇数,则不可避免地无法满足底座平衡和激光平衡。这时可以选择两个列完全互补的索引,再加上一个其他的索引,这样可以最大程度的保证排序质量。
转自:bioon.com.cn NGS连接器奥秘综合分析-商业动态-资讯-生物在线