vlambda博客
学习文章列表

不会R语言?生信分析一键完成——网页工具GEPIA详解(一)


近几年生信分析掀起一番热潮,生信文章的数量也逐年激增。相比于在实验室里对着细胞和试剂绞尽脑汁,生信分析仅仅用一台电脑和一根网线就可以分析出大量数据,从而发表高质量SCI文章,受到国内外学者的热捧。

但是生信分析同样有一定门槛,其分析通常需要使用到R语言,这给广大科研工作者造成一定的困扰,毕竟编程语言从头学起需要一定的时间和精力。

然而,随着各种各样的网页工具的出现,网页内置的R包和现成的基因数据允许广大生信小白们可以自己进行数据的生信分析。

今天,我们就来介绍一个非常实用的网页工具——GEPIA。

不会R语言?生信分析一键完成——网页工具GEPIA详解(一)


GEPIA

GEPIA全称Gene Expression Profiling Interactive Analysis,在2017年由北京大学张泽民教授实验室开发。

平台包括来自TCGA和GTEx数据库的9736个肿瘤组织和8587个正常组织的RNA测序数据,主要提供的功能有:基因表达分析,基因相关性分析,生存分析,相似基因预测,降维分析等。



PART1

单基因表达分析


该功能主要用于了解感兴趣的基因在不同肿瘤中的表达情况。


基因基本信息

和大部分数据库一样,输入基因名字后,会有下拉菜单,如果你只记得基因名的前几个字母,就可以通过下拉菜单中找到对应的基因。例如我想搜索CD147(BSG)基因,在输入CD14三个字母的时候,下拉菜单就已经把包含这四个关键字的基因罗列出来。

不会R语言?生信分析一键完成——网页工具GEPIA详解(一)

点击“GoPIA!”后在页面的左侧可以看到该基因的基本信息,包括该基因的Ensembl ID,基因全称,以及该基因的别名,图中可以看到,CD147就是这个BSG基因的别名之一。

下面的Summary则是对这个基因的简介,主要介绍该基因的表达及其功能。右侧上方的链接则是可以转到其他数据库的快速链接,包括GeneCard,NCBI,Ensembl等等。


基因在各部位表达量

下方的图则是该基因在人体不同部位的表达量。左侧为肿瘤组织,右侧为正常组织,颜色越深,表达量越高。从该图中可以看到 CD147在肾肿瘤中表达是显著上升的。用鼠标光标放在图上可以显示具体表达数值。

不会R语言?生信分析一键完成——网页工具GEPIA详解(一)


页面往下拉,可以看到一个这样的图,这个图是显示了该基因在所有肿瘤组织及其配对的正常组织中的整体表达情况。在上方缩写代表了不同的癌症数据库,如果你第一眼看花了,没关系,网站很贴心的帮你罗列出来了,点击“Click here”就会在页面最左边显示每个缩写的全称。在下面的图也是该基因的表达图,只不过从点状图变成柱状图。

不会R语言?生信分析一键完成——网页工具GEPIA详解(一)

不会R语言?生信分析一键完成——网页工具GEPIA详解(一)


相似基因

页面底部,有一张表格,显示了与该基因相似的基因。如下图所示,表中显示了与CD147相似的前10位基因。PCC(Pearson correlation coefficient)表示皮尔森相关系数,数值越接近1或-1,则相关性越强(正值代表正相关;负值代表负相关)。

右上角的Search框框中可以搜索你想要找的相似基因,从而得到该基因和CD147的相关程度,点击基因的名字也可以进行快速搜索。

不会R语言?生信分析一键完成——网页工具GEPIA详解(一)


癌症表达量

接下来就是两个最常用的功能,分析某个基因在某个癌症中表达是否具有差异,以及其对生存预后的影响。如下图,我们点击“Expression DIY”可以看到下拉菜单有四个选项,对于单基因分析,我们暂且介绍前三项。

不会R语言?生信分析一键完成——网页工具GEPIA详解(一)

第一项Profile与之前介绍的基因在肿瘤及正常组织表达图相同,在这里可以单独选择某个数据库,不再赘述。

第二项Boxplot是最常用的功能,可以用箱式图表达某基因在某肿瘤组织中的表达情况。如上图所示,我们要得到CD147在ACC(肾上腺皮质癌)和HNSC(头颈鳞癌)的表达,点击“Plot”,得到下图。

不会R语言?生信分析一键完成——网页工具GEPIA详解(一)

图中显示CD147在肾上腺皮质癌中与正常组织相比表达有差异,而在头颈鳞癌中没有。图下方也显示了选取的肿瘤组织和正常组织的数目。该图可以在右上角保存在PDF格式,十分方便。

第三项的Stage plot中,则是可以分析该基因在同一种肿瘤的不同分期中的表达是否有差异。例如我们想要得到CD147在肾上腺皮质癌不同分期中的表达,如下图。从图中可以看出,使用one-way ANOVA分析得到F值为0.857,其对应的P值为0.468,提示CD147在各分期的肾上腺皮质癌中表达并无明显差异。

不会R语言?生信分析一键完成——网页工具GEPIA详解(一)



PART2

生存分析


最后,介绍一下另一个最常用的功能——生存分析。如果想要分析单基因生存分析,点击“Survival Plots”,选择想分析的数据库,点击“Plot”。如下图,分析的是CD147在低级别胶质瘤中的生存分析。

不会R语言?生信分析一键完成——网页工具GEPIA详解(一)

结果如下图所示,可以看出CD147低表达的患者预后明显好于高表达患者。同样,该图可以直接保存为PDF格式。

不会R语言?生信分析一键完成——网页工具GEPIA详解(一)

以上就是对GEPIA的单基因表达分析和生存分析的介绍,下篇我们将介绍GEPIA的其他功能,敬请期待!

注:如使用该工具,请引用参考文献如下,谢谢!


参考文献:

Tang Z, Li C, Kang B, Gao G, Li C, Zhang Z. GEPIA: a web server for cancer and normal gene expression profiling and interactive analyses. Nucleic Acids Res. 2017;45(W1):W98‐W102. doi:10.1093/nar/gkx247



一个人学习太累,不妨加入投必得医学交流群”,和数百位硕博一起学习。


快扫二维码撩客服,

带你进入投必得医学交流群,

让我们共同进步!

↓↓


- END -


长按二维码关注「投必得医学」,更多科研干货在等你!