vlambda博客
学习文章列表

R语言入门06:GEO数据库中数据的下载

用R语言处理GEO数据,第一个问题就是下载数据,然后转换成ID,因为做测序和芯片时,是以测序的编号进行的,只有转换成gene ID,才能进行差异表达的分析,如火山图和热图。在处理数据时,ID转换是很大的难点。

在处理梳理部分GEO数据时,只需要更改蓝色部分和红色部分,就可以得到热图或火山图。为什么说是部分呢?因为有些GEO数据中,不含有R语言可识别的gene ID,需要更复杂的转换语言。可识别的gene ID就是给出基因名称(GENE_SYMBOL),不可识别的gene ID是嵌在注释信息里面的一长串信息,那些就需要进一步的处理。



我们从简单的部分——获取GEO入手。

library(GEOquery)           #加载GEO语言包

gset = getGEO('GSExxxxx',destdir = '.',getGPL = F,AnnotGPL = T)

#获得数据

#destdir全称是 destination dir,指编译时的输出目录

#getGPL = F指不获取GPL

#AnnotGPL = T指注释GPL,个人理解,获得GSExxxxx数据和所在平台GPL的注释,但是不获取GPL的数据


gset = gset[[1]]               # 转为对象

expr = exprs(gset)          # 表达矩阵

pdata = pData(gset)       # 样本信息

gset@annotation            # 查看芯片平台


参考资料

  1.  01