酿酒酵母的基因组
酿酒酵母基因组含有约12万个碱基对,分为16组染色体。* * *有6275个基因,其中约5800个可能有真正的功能。据估计,其约23%的基因与人类同源。酵母基因组数据库包含酵母基因组的详细注释,是研究真核细胞遗传学和生理学的重要工具。另一个重要的酿酒酵母数据库[1]由慕尼黑的蛋白质序列信息中心维护。
在酿酒酵母的测序项目开始之前,通过传统的遗传方法鉴定了酵母中约2600个编码RNA或蛋白质的基因。通过对酿酒酵母全基因组测序,发现在12068kb的全基因组序列中有5885个编码特定蛋白的开放阅读框。这意味着酵母基因组中平均每2kb就有一个编码蛋白质的基因,即整个基因组72%的核苷酸序列由开放阅读框组成。这说明酵母基因的排列比其他高等真核生物更紧密。比如线虫的基因组中,平均每6kb就有一个编码蛋白质的基因;在人类基因组中,平均每30kb或更长时间才能发现一个编码蛋白质的基因。酵母基因组的紧密性是由于基因之间的间隔短,基因中的内含子稀少。酵母基因组开放阅读框的平均长度为1450bp,即483个密码子,最长的是位于号染色体上的一个功能未知的开放阅读框(4910个密码子),少数开放阅读框超过1500个密码子。在酵母基因组中,也有编码短蛋白的基因,例如,PMP1基因编码由40个氨基酸组成的质膜蛋白脂质。此外,酵母基因组还含有:约140个编码RNA的基因,排列在染色体数目的长端;40个编码SnRNA的基因,分散在16条染色体上;属于43个家族的275个tRNA基因也广泛分布在基因组中。表1提供了酵母基因在每条染色体上的分布概况。表1酵母染色体图谱
染色体数目长度(bp)基因数目和tRNA基因数目
I 23×103894
Ⅱ 807 188 410 13
Ⅲ315×10318210
Ⅳ 153 197479627
V 569 202 27113
Ⅵ 270×10312910
Ⅶ 109 093 657233
Ⅷ561×10326911
Ⅸ 439 8862 2110
X 745 44237924
Ⅺ66 64 483 3116
Ⅻ 1078 1715 3422
ⅻi 924 430 45921
ⅺv 7843 284 1915
XV 109 2283 56020
X ⅵ 94 806 148717测序揭示了酵母基因组中广泛的碱基组成变化。大部分酵母染色体都不同程度、大范围地由富含GC的DNA序列和GC缺失的DNA序列组成。GC含量的这种变化与染色体结构、基因密度和重组频率有关。GC含量高的区域一般位于染色体臂中部,这些区域的基因密度高;GC含量低的区域一般靠近端粒和着丝粒,这些区域的基因数量相对较少。Simchen等人证实,酵母遗传重组即双链断裂的相对发生率与染色体富含GC的区域相耦合,不同染色体的重组频率不同。较小的染色体ⅰ、ⅲ、ⅳ和ⅸ的重组频率高于全基因组的平均重组频率。
酵母基因组的另一个明显特征是含有许多重复的DNA序列,其中有些是完全相同的DNA序列,如rDNA和CUP1基因、Ty因子及其衍生的单一LTR序列。开放阅读框或基因间隔区存在大量的三核苷酸重复序列,引起了人们的极大关注。因为有些人类遗传病是由三核苷酸重复数的变化引起的。相互间高度同源的DNA序列较多,称为遗传冗余。酵母中很多染色体的末端都有长度超过几十kb的高度同源区域,这些区域是遗传丰度的主要区域,并且这些区域还在进行频繁的DNA重组过程。遗传丰度的另一种形式是单基因重复,其中分散型最典型,另一种罕见的类型是集群分布型基因家族。聚类同源区(CHR)是酵母基因组测序揭示的位于多条染色体上的一些同源大片段,每个片段包含几个相互对应的同源基因。它们的排列顺序和转录方向非常保守,可能会有小片段插入或删除。这些特征表明,簇同源区是染色体大片段复制和完全分化之间的中间产物,因此是研究基因组进化的良好材料,被称为基因复制的化石。染色体末端重复、单基因重复和聚类同源区构成了酵母基因组遗传丰度的一般结构。研究表明,遗传丰度中的一组基因往往具有相同或相似的生理功能,因此其中一个或几个基因的突变不能表现出可识别的表型,这对酵母基因的功能研究非常不利。因此,许多酵母遗传学家认为,理解遗传丰度的真实性质和功能意义,并发展与之相关的实验方法是主要的困难和中心问题。