超详细教程│GSEA基因集富集分析



Oh no!什么预定义基因集,什么生物学状态,什么一致性差异,这都什么鬼?

预先定义的基因集:首先它是一个基因集合,它包含的是感兴趣的基因,比如某个通路,某个GO term,或hall marker基因集两个生物学状态:即实验组和对照组,可以是癌症和正常,男和女一致性差异:也就是预定义的基因集中的基因在两个生物学状态中呈现出相似的差异状态;说白了就是某个通路/GO条目中的基因集在实验组和对照组中呈现出一致的上调或者下调趋势~

GSEA与常规富集分析的区别在哪里呢?(敲黑板,划重点)

常规富集分析必须先做差异筛选,用筛选的基因(无论多少)进行功能富集,这种方式可能由于筛选参数的不合理导致漏掉一些关键信息。

而GSEA无需做差异分析,直接拿所有基因的表达量即可找到实验组和对照组有一致性差异的感兴趣的通路。好处就是,不经筛差异可以保留了这些关键信息,进而找到那些差异不很明显但是基因差异趋势很一致的功能基因集。

当然,常规富集分析和GSEA分析没有说哪个更好,实际应用中能解决问题即可,引用一句名言:黑猫白猫,能抓住老鼠的就是好猫

那么问题又双叒来了,我该怎么用?

终于唠叨到了正题,小编的絮叨症又犯了!

超详细教程│GSEA基因集富集分析

超详细教程│GSEA基因集富集分析

安装篇

windows/mac用户可以打开GSEA网站:

点击Download进行下载应用程序(要先注册再登录)。可以点击launch下载桌面小程序,或者点击download gsea-3.0.jar 文件。前者双击后直接会在桌面生成一个快捷方式,后者是一个jar文件放在哪里就直接双击即可使用。当然前提还是要更新你的java版本呦!

超详细教程│GSEA基因集富集分析

双击小程序或者jar文件就可以看到GSEA软件的使用界面啦!

超详细教程│GSEA基因集富集分析

超详细教程│GSEA基因集富集分析

使用篇

文件准备

1. 样品表达量文件(res, gct, pcl, or txt)——必需文件

通常用.gct为后缀。文件第一行以“#1.2”开头;文件第二行的第一列为基因个数、第二列为样品个数;文件的第三行为表达谱的矩阵的title信息,第一列为基因symbol/探针号,第二列为基因/探针的描述信息,第三列以后为样品id。接下来的行对应每个基因/探针在每个样品中的表达信息。文件以tab作为分隔符。

超详细教程│GSEA基因集富集分析

2. 样品表型分类文件(cls)——必需文件

样品表型分类文件需以.cls为后缀。文件第一行为三个数字,第一个是样品的总数,第二个是样品分为几类,第三个数字通常为1。第二行也通常三个字符串,第一个为#,第二个为分类1的名称,第三个位分类2的名称。第三行为每个样品的分类信息,0代表分类1,1则代表分类2。文件以空格或者tab分割。

超详细教程│GSEA基因集富集分析

3. 预定义基因集(gmx or gmt)——非必需文件

通常用.gmt作为后缀。若采用GSEA预定义的MSigDB数据库中的功能基因集分析,则无需自己定义该文件。每一行为一个功能基因集,第一列为基因集的名称,第二列为简单描述,第三列及以后列为该功能基因集所包含的基因symbol。基因集包含多少个基因,就列出多少个基因。文件以tab作为分隔符。

超详细教程│GSEA基因集富集分析

开始分析

1.上传文件

首先点击左侧面板的Load data,其次在右侧面板点击Browse for files。弹出下述文件上传框,可以选择上面准备好的gct, cls等文件。

超详细教程│GSEA基因集富集分析

2.参数选择




上一篇:瞄准分子诊断细分市场 高特佳投资企业——睿昂基因成功上市
下一篇:习近平在中共中央政治局第二十九次集体学习时