芯片测序的问题与展望

看到微信官方账号的推文被深度解读

/s/7 bqcpr 1 bmjazhv 408-sv6Q

染色质免疫沉淀测序(ChIP-seq)是一种针对DNA结合蛋白、组蛋白修饰或核小体的全基因组分析技术。随着测序成本的降低,ChIP-seq已经成为研究基因调控和表观遗传机制不可或缺的工具。在本文中,我们对前面的内容进行了总结,分析了ChIP-seq现阶段需要注意的问题以及如何更好地利用这一技术来获得研究成果。

尽管甲醛是一种高渗透性的交联剂,但其交联效率低,因为其反应性仅限于胺。对于哺乳动物细胞,最大交联效率仅为1%。在DNA上停留时间小于5秒的蛋白质不能被蛋白质交联。此外,甲醛还会导致很多其他不相关的蛋白质交联到DNA上,影响后续的分析数据。有报道称,甲醛交联会引发DNA损伤反应机制,从而改变染色质组成,进而使芯片结果出现偏差。因为在加热和低PH下交联反应会发生逆转,所以DNA与蛋白质交联复合物的稳定性也是一个值得关注的问题。

根据有无甲醛交联步骤,切片可分为两种类型。一类是甲醛交联的X-ChIP(交联和机械剪切切片)。另一种是没有交联的芯片,即N芯片(native-ChIP);与X芯片相比,N芯片有很多优点:(1)分辨率高;(2)避免了甲醛交联引起的非特异性蛋白质在DNA上的富集;(3)避免甲醛交联以抵抗抗原表位的覆盖;(4)减少了样本损失。因为用了mnase,N-chip只适合研究组蛋白修饰,不适合研究转录因子。

常用的裂解酶是MNase,即微球菌核酸酶,能降解核小体连接区DNA序列的核酸酶;染色质的MNase消化可以释放独立的核小体。MNase酶解有一定的局限性:(1)倾向于切割A/T碱基位点,使得核小体A/T富集区的表达低于真实情况;(2)MNase不能在核小体边界准确切割,导致染色体开放位置与真实情况有差异;(3)MNase倾向于消化脆性核小体;(4)4)MNase得到的DNA片段相对较短,给后续样品的PCR扩增和检测带来困难。

有研究认为,超声波中断不如酶切温和,不均匀的中断会导致测序结果的背景噪音较高,影响后续的数据分析。当选择中断模式时,(1)如果所研究的蛋白质是高表达的,并且与DNA结合紧密,比如组蛋白,那么样品不需要交联,可以使用酶解;(2)如果所研究的蛋白质表达丰度较低或与DNA结合不紧密,如转录因子,最好用交联剂固定样品,以稳定蛋白质和DNA形态。在这种情况下,超声波破碎是最好的。

ChIP-seq数据可用于分析不同的细胞类型,这些细胞类型的信息可用于推断基因组动态信息或用一些实验数据注释细胞类型的表观遗传图谱。越来越多的研究表明,表观遗传信息与基因表达和染色体构象高度相关,可以用来预测基因表达和染色体构象。在这一节中,我们简要介绍了组蛋白修饰芯片序列分析的先进应用工具。

已经开发了基于机器学习的各种方法,以通过从ChIP-seq实验获得的表观遗传信息来定量推断基因表达水平。例如,将(1)线性回归模型应用于组蛋白修饰和启动子位点的富集,以预测CD4+T细胞中的基因表达;他们使用了19组蛋白修饰,这表明只需要三个启动子位点的修饰就足以模拟基因表达[1]。(2)使用非线性模型(如多元自适应回归线(MARS)和随机森林),绘制了7种人类细胞系中的11个组蛋白修饰和DNase I超敏反应图[2]。这些模型只考虑了启动子位点的表观遗传模式,而没有考虑增强子位点的信息。相反,DeepExpression[3]使用HiChIP data [4],一种高通数量技术来捕获蛋白质的中央染色体环,以考虑增强子及其与启动子的相互作用。还有一些工具使用卷积神经网络(CNN)来预测基因表达[5]或差异基因调控模式[6]。

大量研究表明,增强子上的单碱基多态性会导致遗传病和癌症[7],因此需要一种方法来定义增强子在不同细胞系上的状态。染色质构思捕获(3C)实验扩展了一些新技术:Hi-C[8]、HiChIP[4]和ChIA-PET[9],可以捕获增强子和靶基因之间的空间结构。Hariprakash和Ferrari将探索基因与增强子相互作用的方法分为四类:(1)基于相关性估计所有增强子-启动子对的相互作用强度;(2)基于回归的方法假设多个增强子对单个基因有贡献;(3)基于监督学习和评分的方法可以整合多个ChIP-seq数据集和其他信息类型。这些工具侧重于增强子-启动子相互作用,但还有许多其他类型的染色质相互作用,如增强子-增强子环和相分离产生的弱染色质聚集[10]。CITD[11]和龙[12]分别利用小波变换和势能函数从表观遗传数据中综合分析三维基因组组织。

ChIP-seq数据中的偏差和批次效应对分析有很大影响。因为机器学习方法对训练数据中的噪声敏感,所以一些ChIP-seq样本将被识别为中等质量或被拒绝为低质量数据(导致数据丢失)。如果生物样本比较珍贵(如原代细胞和临床样本),难以大量采集样本,则可能适用“数据插值”方法。这些方法使用来自其他密切相关细胞类型的表观遗传数据进行数据去噪或重建。“数据去噪”旨在通过识别和消除数据中的噪声来提高现有ChIP-seq样本的质量。软件Coda[13]可以对产生噪声的过程进行编码,利用卷积神经网络对ChIP-seq数据中的信号进行恢复。“数据重建”的目的是从计算机中的大数据集生成缺失的芯片序列数据。Chromimpulse [14]是一个新工具,它可以使用回归树来推断使用十种最相关细胞类型的每个删除实验的信号。软件PREDICTD[15]和Avocado[16]使用张量分解来同时插入多个ChIP-seq数据。这些数据插值方法是实际ChIP-seq实验的潜在计算替代方法,并可能为收集生物学上不可能的所有细胞类型和环境条件的表观基因组数据开辟道路。虽然这种方法在计算上具有挑战性,但来自各种细胞类型的人可以使用高质量的数据来鼓励他们实现这一目标。

最近的研究表明,许多细胞类型(包括正常的免疫细胞)在复杂的组织和肿瘤中发挥着重要的辅助功能。为了阐明这种细胞异质性和细胞在发育过程中的命运轨迹,人们发展了各种单细胞测定方法。其中,scChIP-seq可以从低输入样本中以单细胞分辨率分析组蛋白修饰和其他染色质结合蛋白的全基因组。最近,用于单细胞标记和芯片序列文库制备的许多方法已经用于单细胞标记和芯片序列文库制备;这些方法使用微流体系统、Tn5转座酶标记和无芯片策略。

第一种scChIP-seq方法,scDrop-ChIP [17]使用微流控系统标记细胞,结合标准芯片方法,在每个细胞中产生约800个非重复阅读片段。最近开发的微滴微流控方法[18]提供了更高的分辨率,每个细胞产生约10000个不重复的阅读片段。这些方法的局限性在于,大多数实验室通常无法使用特殊的微流体装置。

使用Tn5转座酶的基于标签的文库制备已广泛用于各种NGS分析,包括ChIP-seq。Sc-itChIP-seq [19]在经典的芯片实验之前,利用标记技术对单细胞进行标记,制备文库。这种方法每单位产生9000个不重复的阅读片段。因为实验过程类似于标准的ChIP-seq方法,所以这种方法比scDrop-ChIP更容易使用。

ScChIP-seq开发了几种无芯片方法:单细胞染色质免疫裂解测序(scChIC-seq)[20]和单细胞uli cut & RUN[21];+0];它们基于CUT&RUN方法[22],MNase和蛋白A的融合蛋白用于检测具有特异性抗体的切割靶位点。这些方法每个细胞产生约4100个非重复阅读片段,然后需要严格的实验步骤来制备文库。缺点是读取的比率相对较低(~ 6%)。此外,还开发了三种类似的方法:CUT&Tag [23]]、ACT-seq [24]和CoBATCH [25],它们使用Tn5转座酶和蛋白A作为融合蛋白。在文库制备过程中,目的蛋白与染色体结合后,融合蛋白捕获一抗,然后激活Tn5转座酶标记蛋白结合位点。这些方法的优点是蛋白质结合位点检测和文库制备可以同时进行,从而大大减少了实验步骤和时间。此外,这些方法较少受到由免疫沉淀步骤引起的误差的影响。此外,这些方法显示出约97%的比较率,每个细胞产生约12000个非重复阅读片段。因此,这种无芯片方法具有高通和高质量scChIP-seq分析的潜力。最后,染色质整合标记和测序(ChIL-seq)[26]是另一种无芯片方法,它基于免疫染色而不是芯片。该方法使用与dsDNA偶联的第二抗体探针,其包含T7 RNA聚合酶启动子、NGS接头序列和Tn5结合序列。捕获第一抗体后,通过Tn5转座酶将探针DNA序列整合到靶结合位点。然后通过转录扩增整合区域,并进行RNA纯化和文库制备。该方法可用于单细胞分析,但可能需要多次优化才能实现高通量测序。其他scChIP-seq方法将在未来发展,如同时检测多个组蛋白修饰和其他染色质结合蛋白。这些研究将能够捕获每个细胞染色体上的基因调控因子,并知道它们之间的相互作用。

[1]R. Karlic,H.R. Chung,J. Lasserre,K. Vlahovicek,M. Vingron,组蛋白修饰水平可预测基因表达,美国国家科学院院刊U SA 107(7)(2010)2926-31。

[2]X. Dong,M.C. Greven,A. Kundaje,S. Djebali,J.B. Brown,C. Cheng,T.R.Gingeras,M. Gerstein,R. Guigo,E. Birney,Z. Weng,在各种细胞环境中使用染色质特征模拟基因表达,Genome Biol 13(9)(2012)R53 .

[3]W. Zeng,Y. Wang,R. Jiang,通过密集连接的卷积神经网络整合远端和近端信息预测基因表达,生物信息学36(2) (2020) 496-503。

[4]M.R. Mumbach,A.J. Rubin,R.A. Flynn,C. Dai,P.A. Khavari,W.J. Greenleaf,H.Y. Chang,HiChIP:蛋白质导向的基因表达谱的有效和灵敏分析,Nat方法13(11)(2016)919-922。

[5]R. Singh,J. Lanchantin,G. Robins,Y. Qi,DeepChrome:从组蛋白修饰预测基因表达的深度学习,生物信息学32(17)(2016)i639-i648。

[6]A. Sekhon,R. Singh,Y. Qi,DeepDiff:从组蛋白修饰预测差异基因表达的深度学习,生物信息学34(17)(2018)I 891-i900。

[7]H. Chen,C. Li,X. Peng,Z. Zhou,J.N. Weinstein,n .癌症基因组图谱研究,H. Liang,对近9000个患者样品中增强子表达的泛癌分析,细胞173(2)(2018)386-399 e 12。

[8]E. Lieberman-Aiden,N.L. van Berkum,l.《揭示人类基因组折叠原理的长程相互作用综合图谱》,《科学》326(5950)(2009) 289-93。

[9]M.J. Fullwood,M.H. Liu,Y.F. E.T. Liu,C.L. Wei,E. Cheung,Y.Ruan,一种雌激素受体-α-结合的人类染色质相互作用组,Nature462(7269)(2009) 58-64 .

[10]B.R .萨巴里、a .达尔·阿涅塞、a .博伊贾、I.A .克莱因、E.L .科菲、k .施里尼瓦斯、B.J .亚伯拉罕、N.M .汉内特、A.V .萨穆迪奥、J.C .曼泰加、C.H .李、Y.E .郭、D.S .戴、j .舒杰斯、e .瓦西里、s .马利克、D. Hnisz、T.I .李、西斯

[11]陈,王,宣,陈,张,通过表观遗传图谱的小波变换重新解读三维染色质相互作用和拓扑域,核酸研究44(11)(2016)e 106。

[12]齐,张,用染色质状态预测三维基因组结构,PLoS computo Biol 15(6)(2019)e 1007024。

[13]P.W. Koh,E. Pierson,A. Kundaje,去噪全基因组组蛋白芯片-序列与转换神经网络,生物信息学33(14)(2017)i225-i233。

[14]J. Ernst,M. Kellis,《用于不同人体组织系统注释的表观基因组数据集的大规模插补》,《自然生物技术》33(4) (2015)364-76。

[15]T.J. Durham,M.W. Libbrecht,J.J. Howbert,J. Bilmes,W.S. Noble,使用基于云的张量分解进行预测平行表观基因组学数据插补,natcommun 9(1)(2018)1402。

[16]J. Schreiber,T. Durham,J. Bilmes,W.S. Noble,多尺度深度张量分解学习人类表观基因组的潜在表示,bioRxiv(2019)。

[17]A. Rotem,O. Ram,N. Shoresh,R.A. Sperling,A. Goren,D.A. Weitz,B.E.Bernstein,单细胞芯片-seq揭示由染色质状态定义的细胞亚群,Nat bio technol 33(11)(2015)1165-72。

[18]K. Grosselin,A. Durand,J. Marsolier,A. Poitou,E. Marangoni,F. Nemati,A.Dahmani,S. Lameiras,F. Reyal,O. Frenoy,Y. Pousse,M. Reichen,A. Woolfe,C.Brenan,A.D. Griffiths,C. Vallot,A. Gerard,高通量单细胞芯片-seq鉴定乳腺癌染色质状态的异质性,NatGenet 560

[19]S. Ai,H. Xiong,C.C. Li,Y. Luo,Q. Shi,Y. Liu,X. Yu,C. Li,A. He,使用单细胞itChIP-seq分析染色质状态,Nat Cell Biol 21(9)(2019)1164-1172。

[20]W.L .,K. Nakamura,W. Gao,K. Cui,G. Hu,Q. Tang,B. Ni,K. Zhao,单细胞染色质免疫切割测序(scChIC-seq)以描绘组蛋白修饰,Nat方法16(4) (2019) 323-325。

[21]S.J. Hainer,A. Boskovic,K.N. McCannell,O.J. Rando,T.G. Fazzio,单细胞和早期胚胎中生殖因子的分析,Cell 177(5)(2019)1319-1329 e 11。

[22]P.J. Skene,S. Henikoff,用于DNA结合位点的高分辨率作图的高效靶向核酸酶策略,Elife 6 (2017)。

H.S .卡亚-奥库、S.J .吴、C.A .科多莫、E.S .普莱克尔、T.D .布赖森、J.G .赫尼考夫、k .艾哈迈德、s .赫尼考夫、CUT & amp用于小样本和单细胞高效表观基因组分析的标签,Nat Commun 10(1)(2019)1930。

[24]B. Carter,W.L .,J.Y. Kang,G. Hu,J. Perrie,Q. Tang,K. Zhao,mapping使用抗体引导的染色质标记法在低细胞数和单细胞中进行组蛋白修饰(ACT-seq),Nat Commun 10(1)(2019)3747 .

[25]王,熊,赛,余,刘,张,何,高产量单细胞表观基因组分析,分子细胞76(1)(2019)206-216e 7 .

[26] A. Harada,K. Maehara,T. Handa,Y. Arimura,J. Nogami,Y. Hayashi-Takanaka,K. Shirahige,H.Kurumizaka,H. Kimura,Y. Ohkawa,一种染色质整合标记方法能够以较低的输入实现表观基因组分析,Nat Cell Biol 21(2)(2019)287-296。