vlambda博客
学习文章列表

生物及医学研究者R语言从0入门系列一1


什么是R语言

R是统计领域广泛使用的诞生于1980年左右的S语言的一个分支。可以认为R是S语言的一种实现。而S语言是由AT&T贝尔实验室开发的一种用来进行数据探索、统计分析和作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。后来新西兰奥克兰大学的Robert Gentleman和Ross Ihaka及其他志愿人员开发了一个R系统。由“R开发核心团队”负责开发。R可以看作贝尔实验室(AT&T  BellLaboratories)的RickBecker,JohnChambers和AllanWilks开发的S语言的一种实现。当然,S语言也是S-Plus的基础。所以,两者在程序语法上可以说是几乎一样的,可能只是在函数方面有细微差别,程序十分容易地就能移植到一程序中,而很多一的程序只要稍加修改也能运用于R


相比于传统统计软件的优点

先医学统计软件包括SPSS,STAT,MATLAT,GRAPHPAD PRIZE.R相比上述软件灵活性更高,数据可视化更全面,在生物信息学programming中是绝对的统治地位。拥有免费,大量开源的包。

R的特性

R是自由软件

这意味着它是完全免费,开放源代码的。可以在它的网站及其镜像中下载任何有关的安装程序、源代码、程序包及其源代码、文档资料。标准的安装文件身自身就带有许多模块和内嵌统计函数,安装好后可以直接实现许多常用的统计功能。

R是一种可编程的语言

作为一个开放的统计编程环境,语法通俗易懂,很容易学会和掌握语言的语法。而且学会之后,我们可以编制自己的函数来扩展现有的语言。这也就是为什么它的更新速度比一般统计软件,如,SPSS,SAS等快得多。大多数最新的统计方法和技术都可以在R中直接得到。

所有R的函数和数据集是保存在程序包里面的

只有当一个包被载入时,它的内容才可以被访问。一些常用、基本的程序包已经被收入了标准安装文件中,随着新的统计分析方法的出现,标准安装文件中所包含的程序包也随着版本的更新而不断变化。在另外版安装文件中,已经包含的程序包有:base一R的基础模块、mle一极大似然估计模块、ts一时间序列分析模块、mva一多元统计分析模块、survival一生存分析模块等等。

为何要学习R

随着时代进步传统的医学统计软件已经进入发展瓶颈,或者说是开发瓶颈,越来越多的统计学与生物学专家转向R,也有更多工具库在R上开发出来,因此R语言就是未来医学及生物研究运用的基础。所以,做科研,R是数据分析和作图的通吃万金油工具。功能极其强大。

本教程特点

市面上的教程包括博客和视频,有些做的也很不错,为何我要再做一遍R的教程。最主要的原因就在于这些教程过于冗长,很多是对我们做临床数据分析或者生信分析完全无用的,且不适合无计算机基础出入门研究生研究。因此本教程以初学者角度出发,在短时间内教学如解读、分析别人的R代码,并编写自己的代码,这就是做这份R教程的原因。后续我们也会开发一些相关视频教程。