开展回归分析,必须要了解回归诊断的原理与方法
“如何分析真实世界研究数据”系列(9)
一、什么是LINE
二、线性回归分析的线性条件
三、什么是残差
先了解回归分析的两个概念: 误差与残差
误差(Errors):观测值与真实值的偏差。
这种真实值(true value)往往是不可观测的,观测值只能无限靠近真实值,却无法等同于真实值,靠近真实值的远近,即是观测误差的大小。观测值靠真实值近,则称观测误差小,否则称观测误差大。
回归模型可以用一下公式来表达误差:
残差(Residuals):估计值与观测值的偏差。
这个观测值既可以是通过某种工具测量得到的,也可以是通过某种统计学方法获得的,而估计值一般是通过某种数据模型方法得到的。这个估计值与观测值之间的偏差就叫做残差。
残差的回归模型可以用以下公式来表达:
也就是说,Y预测值和真实值就是残差
刚才的LINE条件,除了线性条件之外,最准确的方法是以下的条件:
误差项ε是一个期望值为零的随机变量,即E(ε)=0。
同x的时候,ε的方差都相同或者固定。
误差项ε是一个服从正态分布的随机变量,且相互独立。
ε一般情况下不知道,因此,我们用e残差来ε代替进行正态性、方差齐性的分析(值得注意的是,ε的独立的,而e本身是相关的)
四、残差分析
一般来说没有准确的方法来判定正态性、方差齐性和独立性,但是可以结合残差分析图来判定各个正态性、方差齐性和独立性是否成立。
如何看残差图?
通常我们利用Y与X的散点图来观察是否可以使用线性回归,并使用t和F检验来验证其正确性。
但是残差有着得天独厚的优势,因为各个残差项的平均数是0,所以可以通过观测残差图来修正模型。各种残差分布如图1所示。
根据残差性质,一个好的模型残差分布应是(a)中的分布。
(b)中表明数据中可能存在某个异常值,这时需要将异常值删去建立模型,当然要标明此模型不适合该检测值。
而(c)表明,Y的观测值的方差并不相同,是随着X的增加而增加的,所以这就需要对Y进行变换或者其他求解方法来消除这个影响。而(d)也是异方差,随着X增加而增减。
(d)、(e)中表明Y与X之间存在非线性的关系,需要考虑新的曲线关系,而不再是线性回归。当然也可能Y存在自相关。
那误差项是否服从正态分布该如何检验?常用的方法是频数分布图和QQ图。频数分布图不需再说,这里展示下QQ如图2所示。
图2:QQ图
观测QQ图,只要上面的点基本在一条直线上,就可表明误差项服从正态分布。
五、利用SPSS软件进行残差分析
现在利用SPSS软件开展残差分析,探讨残差的独立性、正态性和方差齐性
残差分析同时与线性回归分析进行,可见以下的SPSS界面,包括“图”按钮、“保存按钮”
“图”按钮
选择右侧的“图”按钮,将DEPENDNT选择入区域2,ZRESID选择入区域1,并在区域3勾选标准化残差图的“直方图”和“正态概率图”。同样地,要绘制标准化预测值的图形,需要选择下一个,将“*ZRESID”选入Y轴,将“*ZPRED”选入X轴,见图。(*ZRESID表示标准化残值、*ZPRED表示标准化预测值。)
“保存”按钮
点击确定,上述过程都完成之后,最终得到4个图形,即标准化残差直方图、标准化残差正态P-P图、关于因变量的标准化残差图、标准化预测值图,可用4个图形来判断残差的特征和LINE的条件是否满足(具体不再这里显示了)
此外,对于LINE的独立性问题,SPSS软件还给予另外一种检验方法,Durbin-Watson
得到如下的结果:
一般来说,Durbin-Watson检验值分布在0-4之间,越接近2,观测值相互独立的可能性越大。本研究中Durbin-Watson检验值为0.399,即观测值的相互独立性条件符合。
更多精品文章推荐:
2.
3.
5.
7.