手把手教你GEO数据库表达谱差异基因分析(下):



原创 手把手教你GEO数据库表达谱差异基因分析(下):GEO2

2019-08-12 12:46 来源:百味科研芝士

原标题:手把手教你GEO数据库表达谱差异基因分析(下):GEO2

本文首发于“百味科研芝士”微信公众号,未经允许,禁止转载。

功能介绍 高端大气基金标书,系统全面R和统计; 深入浅出生信神器,实用百变科研工具; 热气腾腾时事资讯,诙谐有趣医学科普; 此号可知科研百味,分享干货玩转芝士

上次为大家介绍了分析GEO数据库基因表达谱差异基因的R版本,可能很多小伙伴在运行R时候会出现很多报错,导致R代码运行失败,不过没关系(再调整代码),今天我将为大家解决“不懂R,如何分析GEO数据库基因表达谱的差异基因?”这个问题。

开始部分的处理和R版的是相同的。首先,进入GEO的首页,两种方法,大家可以回忆一下。进入主页搜索框后输入“cervical cancer”,点击search。

展开全文

跳转界面看注释,寻找感兴趣的基因表达芯片。

本帖还是选择了宫颈癌的基因表达芯片“GSE89657”来分析。

点击芯片标题,查看注释信息。

下拉页面至最底端!直接点击GEO2R选项,GEO2R是GEO数据库自带的在线分析工具,本帖将介绍使用GEO2R分析差异基因。

点击GEO2R后弹出如下界面,这步最重要的是定义分组。

首先需要对样本芯片进行分组,下拉Define groups,分别创建两个分组T(肿瘤组),C(对照组),分别点击回车键完成分组

对样本进行分组:选择各样本后点击T或C,就可完成分组

下拉页面,有“TOP250选项”和“Save all results”两个选项,前者是保存前250个基因(按P-Value大小排序),后者则是这张芯片的全部基因。

点击“Save all results”选项,跳转页面。

新建一个GEO2R.txt文件,将以上结果粘贴在txt文档里面,用EXCEL打开,筛选logFC>1或logFC<-1,P<0.05的为差异基因。

最终,通过整理(本帖中删除了没有基因名字的行,所有和原文差异基因数量有差别),共筛选出2317个差异基因,其中上调的基因915个,下调的基因1402个。

GEO2R计算出来的差异基因没有基因的表达矩阵,因此我们需要下载矩阵文件,并且需要将矩阵文件里面的基因探针ID与刚刚求出的差异基因的genesymbol进行匹配。我们用excel打开下载好的矩阵文件GSE89657_series_matrix,在列T,U粘贴差异基因的ID和genesymbol两列,列V开始将芯片中的样本按顺序复制。

我们需要用到EXCEL中的VLOOKUP匹配函数,它的表达式书写是VLOOKUP(查

找值,数据的范围,列序号,匹配条件)。首先我们在表格V2书写“=VLOOKUP(T2,




上一篇:好用的基因共表达网络分析工具
下一篇:奶粉中的五种核苷酸:麦蔻乐冠配方的匠心独运