识别进化!新冠病毒精确完整基因注释图谱完成,可更好评估突变的关键作用

Evelyn Zhang

新冠大流行开始几个月后,科学家能够对导致Covid-19感染的新冠病毒的全基因组进行测序。虽然那时人们已经知道了它的许多基因,但蛋白质编码基因的完整组成部分还没有确定。

而如今,在进行了广泛的比较基因组学研究后,麻省理工学院的研究人员产生了他们所称的最准确和最完整的SARS-CoV-2基因组基因注释。

1

他们研究证实了一些蛋白质编码基因,并发现其他一些被认为不编码任何蛋白质的基因。“我们能够使用这种强大的比较基因组学方法来识别进化特征,从而发现这个极其重要的基因组中真正具有功能的蛋白质编码内容。”

该研究团队还分析了自新冠病毒开始感染人类以来,在不同的SARS-CoV-2分离株中出现的近2000个突变,从而可以评估这些突变在改变病毒逃避免疫系统或变得更具传染性的能力等方面可能有多重要。

SARS-CoV-2基因组由近30,000个RNA碱基组成。根据蛋白质编码基因与相关病毒中发现的蛋白质编码基因的相似性,科学家已经确定了几个已知的编码蛋白质编码基因的区域。其他一些区域被怀疑编码蛋白质,但它们没有被确定归类为蛋白质编码基因。

研究人员确认了SARS-CoV-2基因组中的6个蛋白质编码基因,除了所有冠状病毒中已确定的5个。他们还确定,编码ORF3a基因的区域也编码另一个基因,他们将其命名为ORF3c。这种基因内基因在大基因组中是罕见的,但在许多病毒中很常见,它们的基因组处于选择压力下保持紧密。

研究人员还表明,其他5个被认为可能的基因区域并不编码功能性蛋白质,他们还排除了还有更多保守的蛋白质编码基因尚未被发现的可能性。

“我们分析了整个基因组,非常确信没有其他保守的蛋白质编码基因,”该研究的主要作者、CSAIL研究科学家欧文·荣格里斯(Irwin Jungreis)说。

在这项新研究中,研究人员还分析了自首次发现SARS-CoV-2以来出现的1800多个突变。对于每一个基因,他们将该特定基因在过去的进化速度与自当前大流行开始以来的进化程度进行了比较。

他们发现,在大多数情况下,那些在当前大流行之前长时间快速进化的基因会继续进化,而那些倾向于缓慢进化的基因则保持了这种趋势。然而,研究人员也确定了这些模式的例外,这可能有助于阐明病毒是如何进化的,因为它已经适应了新的人类宿主。

研究人员还分析了引起关注的变异中出现的突变,如来自英国的B.1.1.7菌株、来自巴西的P.1菌株和来自南非的B.1.351菌株。许多使这些变异更危险的突变在刺突蛋白中发现,并帮助病毒更快地传播,避开免疫系统。然而,每一种变异都带有其他突变。研究人员说,这些数据可以帮助其他科学家把注意力集中在那些似乎最有可能对病毒的传染性产生重大影响的突变上。

这项研究由美国国家人类基因组研究所和美国国立卫生研究院(NIH)资助。

译/前瞻经济学人APP资讯组

参考来源:https://news.mit.edu/2021/map-sars-cov-2-genome-0511

可行性研究报告

广告、内容合作请点这里:寻求合作

咨询·服务

相关阅读

精彩推荐