一文掌握GSEA,超详细教程!



关于文章中使用的GSEA分析方法和参数,我们截取对应原文:Gene Set Enrichment Analysis was performed using the GSEA software (https://www.broadinstitute.org/gsea/) with permutation = geneset, metric = Diff_of_classes, metric = weighted, #permutation = 2500.

根据以上信息可知,上图是研究者使用GSEA软件所做的分析结果。文章通过GSEA分析,发现

与心脏发育有关的基因集 (影响心脏的收缩力、钙离子调控和新陈代谢活力等)在 iwt 组 (GATA基因野生型)中普遍表达更高,而在 G296S 组 (GATA基因的一种突变体)中表达更低;

而对于参与内皮或内膜发育的基因集,在 iwt 组中表达更低,在 G296S 组中表达更高。

作者根据这个图和其它证据推测 iwt 组的心脏发育更加完善,而 G296S 组更倾向于心脏内皮或内膜的发育,即GATA基因的这种突变可能导致心脏内皮或内膜的过度发育而导致心脏相关疾病的产生。

与心脏发育有关的基因集 (影响心脏的收缩力、钙离子调控和新陈代谢活力等)在 iwt 组 (GATA基因野生型)中普遍表达更高,而在 G296S 组 (GATA基因的一种突变体)中表达更低;

而对于参与内皮或内膜发育的基因集,在 iwt 组中表达更低,在 G296S 组中表达更高。

作者根据这个图和其它证据推测 iwt 组的心脏发育更加完善,而 G296S 组更倾向于心脏内皮或内膜的发育,即GATA基因的这种突变可能导致心脏内皮或内膜的过度发育而导致心脏相关疾病的产生。

那么GSEA分析是什么?

参考GSEA官网主页的描述:Gene Set Enrichment Analysis (GSEA) is a computational method that determines whether an a priori defined set of genes shows statistically significant, concordant differences between two biological states (e.g. phenotypes).

在上述Cell文章中,作者更加关心参与心脏发育的基因集 (即a priori defined set of genes)与两个状态(突变体和野生型,状态的度量方式是基因表达)的关系,因此利用GSEA对其进行分析后发现,参与心脏发育 (收缩力、钙调控和新陈代谢)的基因集的表达模式更接近于iwt组的表型,而不是G296S组; 而参与心脏内皮或内膜发育的这些基因的表达模式更接近于G296S组的表型而不是iwt组的表型。

这就是GSEA分析所适用的主要场景之一。它能帮助生物学家在两种不同的生物学状态 (biological states)中,判断某一组有特定意义的基因集合的表达模式更接近于其中哪一种。因此GSEA是一种非常常见且实用的分析方法,可以将数个基因组成的基因集与整个转录组、修饰组等做出简单而清晰的关联分析。

除了对特定gene set的分析,反过来GSEA也可以用于发现两组样本从表达或其它度量水平分别与哪些特定生物学意义的基因集有显著关联,或者发现哪些基因集的表达模式或其他模式更接近于表型A、哪些更接近于表型B。这些特定的基因集合可以从GO、KEGG、、hallmark或MSigDB等基因集中获取,其中MSigDB数据库整合了上述所有基因集。研究者也可自定义gene set (即新发现的基因集或其它感兴趣的基因的集合)。

GSEA分析似乎与GO分析类似但又有所不同。GO分析更加依赖差异基因,实则是对一部分基因的分析 (忽略差异不显著的基因),而GSEA是从全体基因的表达矩阵中找出具有协同差异 (concordant differences)的基因集,故能兼顾差异较小的基因。因此二者的应用场景略有区别。另外GO富集是定性的分析,GSEA考虑到了表达或其它度量水平的值的影响。另外 ,对于时间序列数据或样品有定量属性时,GSEA的优势会更明显,不需要每个分组分别进行富集,直接对整体进行处理。可以类比于之前的

GSEA定义

Gene Set Enrichment Analysis (基因集富集分析)用来评估一个预先定义的基因集的基因在与表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献。其输入数据包含两部分,一是 已知功能的基因集(可以是GO注释、MsigDB的注释或其它符合格式的基因集定义),一是 表达矩阵 (也可以是排序好的列表),软件会对基因根据其与表型的关联度(可以理解为表达值的变化)从大到小排序,然后判断基因集内每条注释下的基因是否富集于表型相关度 排序后基因表的上部或下部,从而判断此基因集内基因的协同变化对表型变化的影响。

(The gene sets are defined based on prior biological knowledge, e.g., published information about biochemical pathways or coexpression in previous experiments. The goal of GSEA is to determine whether members of a gene set Stend to occur toward the top(or bottom) of the list L, in which case the gene set is correlated with the phenotypic class distinction.)




上一篇:基因组学深入挖掘·研究方案(上篇)
下一篇:Science子刊:基因分析揭示罕见突变对自闭症严重