vlambda博客
学习文章列表

开展回归分析,必须要了解回归诊断的原理与方法



“如何分析真实世界研究数据”系列(9)


真实世界研究主要采用的统计学方法是回归分析。一个好的回归模型,不仅需要合适的自变量筛选方法,构建的模型也需要进一步接受检查、评价,以来判断所建模型是否科学、合适。其中,经常被我们忽视的,便是回归诊断。
 
回归诊断是对回归分析中的假设以及数据的检验与分析,主要用于检验关于回归假设是否成立,以及检验模型形式是否错误,否则我们得到回归方程就缺乏理论依据。 这些检验主要探究的问题为:
1)自变量与因变量的线性关系是否成立;
2)残差是否为随机性、是否为正态性、是否不为异方差;
3)高度相关的自变量是否引起了共线性;
4)样本数据中是否存在异常值。
5)样本数据是否存在着强影响值

我分4个篇文章讲解回归诊断方法。


首先介绍的是线性回归分析LINE条件假设模型是否成立的4个条件

一、什么是LINE

学过医学统计学的往往都知道,不是所有定量数据都可以开展线性回归的,线性回归模型有一些适用条件, 简称LINE:
1. 线性(L)
2. 独立性(I)
3. 正态性(N)
4. 方差齐性(E)


在这里,我首先严肃纠正一直以来对LINE四个条件的错误理解。


线性: 自变量 X和应变量Y必须要有线性关系吗?不是!只有当X是定量数据或者等级数据(不设哑变量)时,才要求X与Y有线性的关系。当X是二分类或无需多分类,没有线性条件的要求!


独立性: 要求Y各观察值相互独立吗? 不是!是要求残差是独立的!


正态性: 要求Y各观察值正态分布吗?  不是!是要求残差正态分布!


方差齐性: 要求不同的X时,Y方差相等吗? 不是!同样是残差方差相等!

二、线性回归分析的线性条件

若研究者对一组研究对象开展队列研究,基线测量胰岛素、基线血糖水平,2年后随访病人是否患有糖尿病,监测其血糖水平。
 

现在探讨随访后血糖与极限胰岛素、基线血糖、糖尿病的关系。


所以我开展线性回归分析,首先要进行线性关系研究。
线性关系的分析方法很简单,直接绘制散点图,即可查看四个变量之间的关系。对于自变量为定量数据的基线胰岛素、基线血糖而言,与随访血糖最好有明确的线性关系。作为分类指标,是否有糖尿病与随访血糖的关系,往往是不明确,因此,可以直接忽略两者关系,不影响结果的分析。
 

开展回归分析,必须要了解回归诊断的原理与方法


Q1: 如果自变量是等级数据或者定量数据,当与结局变量的关系是非线性关系,比如曲线关系,怎么办?


常见的处理方法:将定量数据转为多分类等级数据,并且设置哑变量进行回归分析!

三、什么是残差

先了解回归分析的两个概念: 误差与残差


误差(Errors):观测值与真实值的偏差。

这种真实值(true value)往往是不可观测的,观测值只能无限靠近真实值,却无法等同于真实值,靠近真实值的远近,即是观测误差的大小。观测值靠真实值近,则称观测误差小,否则称观测误差大。


回归模型可以用一下公式来表达误差:

开展回归分析,必须要了解回归诊断的原理与方法


残差(Residuals):估计值与观测值的偏差。

这个观测值既可以是通过某种工具测量得到的,也可以是通过某种统计学方法获得的,而估计值一般是通过某种数据模型方法得到的。这个估计值与观测值之间的偏差就叫做残差。


残差的回归模型可以用以下公式来表达:

开展回归分析,必须要了解回归诊断的原理与方法

也就是说,Y预测值和真实值就是残差


刚才的LINE条件,除了线性条件之外,最准确的方法是以下的条件:

误差项ε是一个期望值为零的随机变量,即E(ε)=0。

同x的时候,ε的方差都相同或者固定。

误差项ε是一个服从正态分布的随机变量,且相互独立。


ε一般情况下不知道,因此,我们用e残差来ε代替进行正态性、方差齐性的分析(值得注意的是,ε的独立的,而e本身是相关的)

四、残差分析

一般来说没有准确的方法来判定正态性、方差齐性和独立性,但是可以结合残差分析图来判定各个正态性、方差齐性和独立性是否成立。


如何看残差图?


通常我们利用Y与X的散点图来观察是否可以使用线性回归,并使用t和F检验来验证其正确性。


但是残差有着得天独厚的优势,因为各个残差项的平均数是0,所以可以通过观测残差图来修正模型。各种残差分布如图1所示。

 开展回归分析,必须要了解回归诊断的原理与方法


根据残差性质,一个好的模型残差分布应是(a)中的分布。

 

(b)中表明数据中可能存在某个异常值,这时需要将异常值删去建立模型,当然要标明此模型不适合该检测值。

 

而(c)表明,Y的观测值的方差并不相同,是随着X的增加而增加的,所以这就需要对Y进行变换或者其他求解方法来消除这个影响。而(d)也是异方差,随着X增加而增减。

 

(d)、(e)中表明Y与X之间存在非线性的关系,需要考虑新的曲线关系,而不再是线性回归。当然也可能Y存在自相关。

 

那误差项是否服从正态分布该如何检验?常用的方法是频数分布图和QQ图。频数分布图不需再说,这里展示下QQ如图2所示。

 开展回归分析,必须要了解回归诊断的原理与方法

图2:QQ图


观测QQ图,只要上面的点基本在一条直线上,就可表明误差项服从正态分布。

五、利用SPSS软件进行残差分析

现在利用SPSS软件开展残差分析,探讨残差的独立性、正态性和方差齐性

残差分析同时与线性回归分析进行,可见以下的SPSS界面,包括“图”按钮、“保存按钮”

开展回归分析,必须要了解回归诊断的原理与方法


“图”按钮

选择右侧的“图”按钮,将DEPENDNT选择入区域2ZRESID选择入区域1,并在区域3勾选标准化残差图的“直方图”和“正态概率图”。同样地,要绘制标准化预测值的图形,需要选择下一个,将“*ZRESID”选入Y轴,将“*ZPRED”选入X轴,见图。(*ZRESID表示标准化残值、*ZPRED表示标准化预测值。)


开展回归分析,必须要了解回归诊断的原理与方法


开展回归分析,必须要了解回归诊断的原理与方法


“保存”按钮


开展回归分析,必须要了解回归诊断的原理与方法


点击确定,上述过程都完成之后,最终得到4个图形,即标准化残差直方图、标准化残差正态P-P图、关于因变量的标准化残差图、标准化预测值图,可用4个图形来判断残差的特征和LINE的条件是否满足(具体不再这里显示了)

 

此外,对于LINE的独立性问题,SPSS软件还给予另外一种检验方法,Durbin-Watson

开展回归分析,必须要了解回归诊断的原理与方法


得到如下的结果:

一般来说,Durbin-Watson检验值分布在0-4之间,越接近2,观测值相互独立的可能性越大。本研究中Durbin-Watson检验值为0.399,即观测值的相互独立性条件符合。




更多精品文章推荐:


2.

3.

5.

7.