如何分析新冠病毒的基因组数据?



生信分析系列|如何分析新冠病毒的基因组数据?

2021-12-27 17:28 来源: 医学大数据挖掘分析

原标题:生信分析系列|如何分析新冠病毒的基因组数据?

公众号:医学大数据挖掘分析

0 背景

2019年末出现的新型冠状病毒SARS-COV-2对全球人类健康构成了无时无刻不在的威胁。在2020年3月初,世界卫生组织认为COVID-19(SARS-COV-2引起的疾病)可被定为大流行病。截止到2021年3月2日,全球范围内的确诊病例已经超过1.1亿,死亡病例超过250万。在往期推文中(:利用Nextstrain全面了解新冠病毒)我们已经介绍过一个研究SARS-CoV-2的传播和演变的开源项目。

通过生信分析对新冠病毒的基因序列进行挖掘,了解新冠病毒的传播和演变,对采取有效的公共卫生措施和监测非常重要。今天,小编就跟大家继续拓展生信分析系列,分享一下如何对新冠病毒的基因序列进行分析(下文所举例子对2020年4月之前采集的病毒数据进行分析)。

如何分析新冠病毒的基因组数据?

图1 数据统计来源于Google

1 数据准备

数据来源

目前大部分新冠病毒的基因序列存放在GISAID(Global Initiative on Sharing All Influenza Data,https://www.gisaid.org,全球共享流感数据倡议组织)数据库上。

GISAID建立于2008年5月,是由全世界一些较权威的医学科学家组建,致力于改善流感数据的共享。目前GISAID上已经存放了超过58万条来自世界各地实验室的新冠病毒序列数据。除了序列信息外,GISAID还提供序列的meta数据,包括病毒采集的地方和日期,序列提交的时间,序列的质量,提交的实验室等。

在获取GISAID上的数据之前,需要先注册账号,注册完成后还需要经过审核,审核通过后就能获得下载权限了。

数据清洗

原始数据中有一些测序质量较低的序列需要去除,防止这些数据对下游分析造成干扰。从GISAID下载的序列带有测序质量的信息,可以根据这些信息对序列进行清洗。

以CNCB的新冠病毒数据库为例,如果序列的未知碱基大于15个,或者简并碱基的数量大于50个,则被标记为低质量序列。在分析时,我们可以把这些序列剔除掉。

数据处理

获得干净的序列数据后,接下来就可以做比对分析了。比对分析是指把各条序列与参考序列相同位置上的碱基作比较,以确定突变信息。

比对工具有很多种,小编用的比对工具是MAFFTv7.450,使用方法可以参考官方文档(https://mafft.cbrc.jp/alignment/software/)。目前公认的参考序列的GISAID编号是EPI_ISL_402125。同时,GISAID上也有比对好的结果文件供下载。

2 分析方向

经过以上的预处理后,就可以开始进行我们的数据挖掘工作了。分析的方向有很多,这里简要地介绍一下突变分析进化分析

突变分析

通过比对我们知道了各个突变所处的位置,要进一步统计这些突变发生在哪个区域,需要对参考序列进行注释。注释是指确定病毒序列上的编码区,例如最重要的编码病毒S蛋白在序列中的位置。

序列的注释信息可以从NCBI中获得(https://www.ncbi.nlm.nih.gov/sars-cov-2/)。通过统计突变出现的次数,我们可以知道哪些是高频突变以及它们出现的编码区,并作进一步的深入分析,如图2是小编分析的各种高频突变在新冠基因组上的分布。

如何分析新冠病毒的基因组数据?

图2

比如,之前受到很大关注的突变D614G(对应图2中的A23403G突变)出现在编码新冠病毒S蛋白的区域中,而S蛋白是与细胞接触进而感染细胞的关键。为了解这个突变与病毒的传染能力是否有关,我们可以进一步分析这个突变是否改变了S蛋白的结构导致病毒与细胞的亲和力更高等。另外,对共同突变的分析可以揭示新冠病毒的多样性。

例如,小编发现根据共同突变能够把病毒分为18个病毒亚群,它们的分布在各大洲有明显的区别(图3)。

如何分析新冠病毒的基因组数据?

图3

进化分析

通过进化分析,我们可以追踪病毒的演变情况,推断病毒的传播路径以及估计病毒出现的时间等。




上一篇:同城跑腿系统的发展前景分析
下一篇:蛋白质组学,药物研发