R语言 | 推论性统计
R语言
语言学与R语言的碰撞
Xu & Yang
PhoneticSan
学习参考
Discovering Statistics Using R
Statistics for Linguistics with R
How to Do Linguistics with R
R in Action
Analyzing Linguistic Data
R Graphics Cookbook
··· ···
Recap
变异性可以表明一组数据的分散或集中程度,通常使用全距、四分位距、方差和标准差来进行测量。
全距是由数据中的最大值减去最小值得到,它可以对数据进行简单描述,但是对极端值敏感,容易做出错误的数据分布分析。
四分位数将数据等分为四份,第一四分位数与第三四分位数之间的距离被称为四分位距,相较于全距而言,四分位数对极值不是很敏感,可以更好地描述数据分布情况。
四分位数可以通过箱形图进行展示,使用boxplot( )函数可以进行基本的绘制,ggplot2包中可以使用geom_boxplot( )函数
方差和标准差是统计分析中最常用的参量,可以描述某数据与平均值的距离。
R: The R Project for Statistical Computing
https://www.r-project.org/
RStudio:
https://rstudio.com/
之前我们提到过,统计可以分为描述性统计和推论性统计(inferential statistics)。推论性统计指的是由随机取得的样本来推断总体属性的一种统计方法,我们需要保证三个方面的基本要求:观察的独立性,方差同质性,以及数据正态性,这在我们之后具体的推论统计方法中会逐一介绍。推论性统计主要通过两种方法来实现对总体的推断:估计(estimation)和假设检验(hypothesis testing)。在介绍具体的推论统计方法之前,我们先对推论性统计的基础概念和技巧进行广义上的讨论。
R Project
Linguistics
1
z分数:标准化
在讲变异性时,我们提到过可以使用平均数来反应数据的集中程度。但是,当我们仅仅有平均数并不足以让我们了解到某个数据在这一组数据中的位置。比如采集数据元音/a/的F1平均值为850 Hz,有一位发音人/a/的F1数值为860 Hz。这位发音人的发音究竟合不合格?我们需要了解到这位发音人在这组数据分布中的具体位置,这样我们才能知道发音到底如何。
然而很明显的是,我们通过平均数只能知道他比平均数高10 Hz,这说明分数本身并不能提供关于其在分布内具体位置的信息。这时我们就需要借助一些手段来获得位置信息。之前提到的标准差表示着数据的离散程度,那么我们借助平均数和标准差,就能了解到860 Hz的F1在分布中的具体位置。采用的方法之一,就是使用z分数(z-score)进行标准化,从而获得原始数据的精确位置。下图为z分数的计算公式,计算某一数据的z分数,只需使用该数据与平均值的差值除以标准差即可。
z分数计算公式
z分数指出了每一个具体数据在分布中的精确位置,其中它的+和-具有意义,分别表示该数据比平均值是高还是低,得出的分数则表示计算的数据距离平均值有几个标准差。当所有的数据都被转换为z分数后,我们就能得到一个z分数的分布,它和原始数据分布的形状是一样的。
z分数图示
在推论性统计中,z分数提供了一个确定具体数据如何代表它的总体的客观办法。越靠近0的z分数说明其所代表的数据离总体平均值越近,反之越远。因此,有时候我们可以使用z分数剔除极端值。比如,我们通常使用z=3来进行判断,从而便于我们过滤数据。
R Project
Linguistics
2
概率和分布
在研究过程中,我们不可能每次都研究总体的情况。比如我研究普通话连读变调的规律,不可能把所有说普通话的人的语音数据都采集来做分析,那样估计做到一两百岁也还在提数据过程中。因此,我们都是首先通过采集样本进行分析,然后再由样本去推断总体的属性。
在采集样本过程中,我们会有意识地去进行选择。比如前面提到的普通话连读变调的规律,我们去哪里选择样本会更好地代表想要展示的总体呢?你肯定会说:“当然是找北京本地人最好了,因为普通话是以北京语音为标准音。”其实在这个过程中,你已经在使用概率(probability)这一概念去搜集样本了。
我们再回顾一下开始提到的研究的两个步骤:从总体中采集样本进行分析,由样本得出的结果推断总体的属性。在第一步中,我们通过使用概率,可以很好地确定我们从这个总体中获得我们期望样本的概率,概率越大,那么就会更有利于我们之后研究的进展。
概率和推论统计是总体和样本的纽带
现在我们回到分布上。之前我们提到过,通过集中趋势的相关参量可以得到数据的分布情况,将分布情况可视化后,就能得到分布的图形。分布主要分为两种类型:正态分布(normal distribution)和偏态分布(skewed distribution),其中偏态分布又分为正偏态(positive skew)和负偏态(negative skew)。上面z分数的图示就是一个标准正态分布,它的平均数、众数、中位数是重合的,位于峰值位置。而对于偏态分布,这三个参量分别位于不同的位置,后面我们会详细介绍。
偏态分布
一个标准的正态分布是对称的,中央频数最高,两端逐渐降低。虽然它精确的形状是由公式定义的,但是正态分布也可以通过包含在分布中,每个区域的面积比例来进行描述。一般情况下,与平均数相差1个标准差的数据占据总数据的68%,相差2个标准差占据95%的数据,相差3个标准差占据了总体99.7%的数据。
使用面积比例描述正态分布
如何得知精确的面积比例?在众多统计学教材中,我们都可以找到正态分布表,通过这个表,我们则可以具体到某一个数据位置占据了多少的面积比例,这也为我们之后的具体统计方法打下了基础。
R Project
Linguistics
3
检测正态分布
我们上面提到了正态分布的形状,以及面积比例。那么,回到我们研究中来,该如何检测我们的数据符不符合正态分布呢?其实有很多方法都可以帮助我们观察,比如图示法等等。下面我们介绍几种帮助我们检测和观察数据是不是正态分布的方法:偏度(skewness)和峰度(kurtosis),分位图(quantile-quantile plot,又称Q-Q plot),夏皮罗-威尔克检验(Shapiro-Wilk test),K-S检验(Kolmogorov-Smirnov test)。
首先我们讲解偏度和峰度。偏度(skewness)是用来测量数据对称性的参数。正如我们上面提到的,它可以分为正偏态和负偏态。当数据的集中趋势的几个参量从小到大排列依次是平均数、中位数、众数,这时的分布是一个负偏态分布(又叫左偏态,left-skewed),偏度值是负数,左尾比右尾长。当数据的集中趋势的参量从小到大依次是众数、中位数、平均数时,这时的分布是一个正偏态分布(又叫右偏态,right-skewed),偏度值是正数,右尾比左尾长。当偏度为0时,表明这个分布是一个标准的正态分布。
偏态分布
在R中,通过使用moments包可以调用skewness( )函数来计算数据的偏度。没有这个包的请先安装包,然后调用。我们依旧以languageR中verbs数据集为例,计算其中Length Of Theme的偏度。直接使用skewness( )函数计算即可。为了方便,我同时画出该数据的直方图和密度曲线。可以看到,计算出来的偏度是0.05左右,如果严格按照定义来讲是一个正偏态分布,从图形中也隐约可见右尾略长。不过这种分布我们会近似看作正态分布。
偏度计算及其图形展示
如果说偏度是看数据的对称性,那么峰度则是看数据的尖耸性,进而推理出数据分布的陡缓性,峰度系数越大,说明该数据的极端值越多。与偏度类似,峰度也有三个“指标”。当峰度等于3时,它是一个标准的正态分布,峰值尖耸度正好。如果峰度大于3,则说明有过高的峰度。如果峰度小于3,则说明数据峰度不足。在R中,我们使用moments包中的kurtosis( )函数即可计算数据的峰度。我们同样使用languageR包中verbs数据集,可以看到它的峰度约为2.40,比较接近3但是依旧不是一个标准的正态分布。
峰度计算
第二种检测正态分布的方法是分位图。通俗来讲,分位图是将理论上的分位数与你样本实际的分位数进行对比,如果散点在直线y=x附近分布,则说明你的数据是典型的正态分布,反之则不是正态分布,其中离得很远的点是极端值。这有些类似于将你的数据点进行回归分析,看是否符合理论上设定的直线。
符合正态分布的分位图
在R中,我们可以直接使用qqnorm( )函数来绘制基本的分位图,也可以使用ggplot2包中的qplot( )函数来进行绘制,或者在ggplot( )函数基础上添加geom_qq( )函数来绘制散点并添加geom_qq_line( )添加直线。同样以verbs数据集为例,我们可以看到Length of theme的散点并没有在y=x附近均匀分布,说明该数据并不是一个完美的正态分布数据。
verbs数据集的正态分布检测
下面两个检测正态分布的方法分别是Shapiro-Wilk检验和K-S检验。这两种检验都采用零假设(H0),即两个数据分布符合理论分布,样本是来自一个正态分布的总体。如果检测结果具有显著性差异,则说明是一个非正态分布;反之,则是一个正态分布。在R中,我们可以使用shapiro.test( )函数和ks.test( )函数来对数据进行检测。
sapiro.test( )函数使用示例
讲了这么多,我们也只是对正态分布有一个大概的了解,至于检测方法,在我们之后的研究中也不会很常用。但是,了解了正态分布,将会对我们下一次要讲的假设检验有很大的帮助。
—END—
排版:Xu & Yang