vlambda博客
学习文章列表

R语言卡方检验|问卷的交叉分析





你是否好不容易收集到了一大波问卷数据却不知道该如何分析?你是否只会将问卷星上的数据照搬到分析报告中,凭“直觉”解释各个变量之间的关系?你是否想要对数据进行专业分析却无从下手?下面就来了解一下如何借助R语言对问卷数据卡方检验交叉分析吧!






为什么选择卡方检验



卡方检验作为非参数检验中非常重要的一种方法,可以对分类变量之间的相关关系进行分析,适用范围十分广泛。在问卷调查中,许多题目是单选题和多选题,这些题都可以被视为是分类变量,每个选项就是该分类变量的一个类别。如果我们想研究一下被调查者的特征(如性别、职业等)与某个行为选择之间是否是相关的,就可以用卡方检验。举个栗子, 我们对毕业后工作的校友发个关于工作经历的调查问卷,其中设置一题问他/她是否有跳槽经历。我们就可以将该题的反馈信息与校友的个人特征信息(性别、专业、婚姻状况、是否在外地打拼等)进行交叉分析。看看是否性别、专业、婚姻、在外工作这些因素会影响个人跳槽与否的选择。







什么是卡方独立性检验



有两种常见的卡方检验,一种为拟合优度的卡方检验,就是验证一个分类变量的各类别组的频数分布与假定的频数分布有显著性差异;例如,我们想验证一下被调查群体中男性和女性的人数是否有显著性差异,就可以用拟合优度的卡方检验。一种更为常用的是独立性卡方检验。简单说:它检验两个分类变量之间是否存在相关性,俗称:交叉分析。

卡方独立性检验的原假设和备择假设如下:H0(原假设):两个分类变量无关,相互独立。H1(备择假设):两个分类变量有关。

它是一种卡方检验,是因为要验证这个假设检验,需要将样本统计量转换成卡方值χ2,该统计量的抽样分布是卡方分布。根据卡方分布和统计量的观测值可以计算出p值,即原假设为真被你错误拒绝的概率(准确说:原假设为真,得到的样本观察结果及极端的结果出现的概率)。当你犯这种错误的概率足够小,则可以拒绝原假设,接受H1:两个分类变量相关。检验统计量χ2的计算公式(Karl Pearson, 1900)为:


其中,fo和fe分别是交叉表格中实际的观测频数和两个分类变量独立时的期望频数。该统计量描述了交叉表格中各单元格的实际频数与分类变量独立假设下理论频数的差异程度。卡方值越大,实际频数与独立假设的期望频数相差越远,那么分类变量越可能显著相关。该检验统计量的自由度df=(行数-1)(列数-1)。具体如何计算,我们就不赘述了。下面就让R出场搞定卡方检验的计算问题。




如何利用R语言进行卡方检验



让我们以狗熊会精心整理的脱单情况问卷中“社交小团体和自己单身情况之间的关系”为例,来演示一下吧!

整体思路:首先将要分析的两个变量用列联表整合;其次对其进行卡方检验,得到检验结果显著后,再对各单元格的状况进行残差分析,最后得出结论。


处理数据


R语言卡方检验|问卷的交叉分析


计算列联表


列联表就是两个分类变量的频数分布表。计算出列联表后,观察各个单元格的频数。根据单元格的频数,选择正确的检验方法和函数参数设置。

  • 当样本容量n> 40且理论频数 < 5时,要使用Yates校正的卡方检验。R代码:chisq.test(x, correct = T))。

  • 当n < 40 或理论频数<1的时候,使用fisher精准检验更加稳妥一些。R代码:fisher.test())。

R语言卡方检验|问卷的交叉分析
R语言卡方检验|问卷的交叉分析


 制作棘状图


棘状图可以由vcd包的spine()函数或者基础自带的spineplot()函数绘制。通过棘状图可以直观的观察到两个变量间的差异。

R语言卡方检验|问卷的交叉分析
R语言卡方检验|问卷的交叉分析


卡方独立性检验


R语言中的卡方检验十分便利,只需要一个函数即可计算出卡方检验需要的参数值。

R语言卡方检验|问卷的交叉分析
R语言卡方检验|问卷的交叉分析
R语言卡方检验|问卷的交叉分析
R语言卡方检验|问卷的交叉分析

由卡方检验的结果可知:卡方值=5.8026,自由度=1,p值=0.016<0.05

因此我们可以得出结论:个体单身情况与其所在社交小团体单身情况显著相关。


残差分析 


在得出卡方检验结果显著后,进行残差分析可以检验各单元格的状况。

R语言卡方检验|问卷的交叉分析
R语言卡方检验|问卷的交叉分析

这里的残差是Pearson残差。它等于(观测值-期望值)/期望值的平方根。在残差分析表格中,单元格的值为正表示观测值高于期望值,为负表示观测者低于期望值。

由残差分析可知:社交小团体脱单率越高,个体的脱单率也就越高。也就是说混迹在非单身的社交小团体的人更容易脱单,单身狗抱团取暖往往形成了单身联盟,想要脱单更加不易。当然这也只是脱单原因的其中一个因素,大家不要因为自己脱不了单而责怪单身朋友啊。

这样一个小小案例分析结束后,有没有对卡方检验简单掌握了呢?当然了,想要更加熟练的运用卡方检验,还需要更多研究和练习。赶快去拿自己以往的调查问卷数据练练手吧!




R语言卡方检验|问卷的交叉分析

参考资料


[1]卡方检验词条:https://baike.baidu.com/item/%E5%8D%A1%E6%96%B9%E6%A3%80%E9%AA%8C/2591853?fr=aladdin

[2]结合日常生活的例子,了解什么是卡方检验:https://zhuanlan.zhihu.com/p/69888032

[4]卡方检验, 简书:https://www.jianshu.com/p/d4588897e54d




R语言卡方检验|问卷的交叉分析

文字/王藩蓉

排版/杨梦

指导老师/朱振涛

-  END -