开展回归分析，必须要了解回归诊断的原理与方法

vlambda
2020-01-14

开展回归分析，必须要了解回归诊断的原理与方法

“如何分析真实世界研究数据”系列（9）

真实世界研究主要采用的统计学方法是回归分析。一个好的回归模型，不仅需要合适的自变量筛选方法，构建的模型也需要进一步接受检查、评价，以来判断所建模型是否科学、合适。其中，经常被我们忽视的，便是回归诊断。

回归诊断是对回归分析中的假设以及数据的检验与分析，主要用于检验关于回归假设是否成立，以及检验模型形式是否错误，否则我们得到回归方程就缺乏理论依据。这些检验主要探究的问题为：

1）自变量与因变量的线性关系是否成立；

2）残差是否为随机性、是否为正态性、是否不为异方差；

3）高度相关的自变量是否引起了共线性；

4）样本数据中是否存在异常值。

5）样本数据是否存在着强影响值

我分4个篇文章讲解回归诊断方法。

首先介绍的是线性回归分析LINE条件假设模型是否成立的4个条件

一、什么是LINE

学过医学统计学的往往都知道，不是所有定量数据都可以开展线性回归的，线性回归模型有一些适用条件，简称LINE：

1. 线性（L）

2. 独立性(I)

3. 正态性(N)

4. 方差齐性（E）

在这里，我首先严肃纠正一直以来对LINE四个条件的错误理解。

线性：自变量 X和应变量Y必须要有线性关系吗？不是！只有当X是定量数据或者等级数据（不设哑变量）时，才要求X与Y有线性的关系。当X是二分类或无需多分类，没有线性条件的要求！

独立性：要求Y各观察值相互独立吗？不是！是要求残差是独立的！

正态性：要求Y各观察值正态分布吗？不是！是要求残差正态分布！

方差齐性：要求不同的X时，Y方差相等吗？不是！同样是残差方差相等！

二、线性回归分析的线性条件

若研究者对一组研究对象开展队列研究，基线测量胰岛素、基线血糖水平，2年后随访病人是否患有糖尿病，监测其血糖水平。

现在探讨随访后血糖与极限胰岛素、基线血糖、糖尿病的关系。

所以我开展线性回归分析，首先要进行线性关系研究。

线性关系的分析方法很简单，直接绘制散点图，即可查看四个变量之间的关系。对于自变量为定量数据的基线胰岛素、基线血糖而言，与随访血糖最好有明确的线性关系。作为二分类指标，是否有糖尿病与随访血糖的关系，往往是不明确，因此，可以直接忽略两者关系，不影响结果的分析。

开展回归分析，必须要了解回归诊断的原理与方法

Q1: 如果自变量是等级数据或者定量数据，当与结局变量的关系是非线性关系，比如曲线关系，怎么办？

常见的处理方法：将定量数据转为多分类等级数据，并且设置哑变量进行回归分析！

三、什么是残差

先了解回归分析的两个概念：误差与残差

误差（Errors）：观测值与真实值的偏差。

这种真实值（true value）往往是不可观测的，观测值只能无限靠近真实值，却无法等同于真实值，靠近真实值的远近，即是观测误差的大小。观测值靠真实值近，则称观测误差小，否则称观测误差大。

回归模型可以用一下公式来表达误差：

开展回归分析，必须要了解回归诊断的原理与方法

残差（Residuals）：估计值与观测值的偏差。

这个观测值既可以是通过某种工具测量得到的，也可以是通过某种统计学方法获得的，而估计值一般是通过某种数据模型方法得到的。这个估计值与观测值之间的偏差就叫做残差。

残差的回归模型可以用以下公式来表达：

开展回归分析，必须要了解回归诊断的原理与方法

也就是说，Y预测值和真实值就是残差

刚才的LINE条件，除了线性条件之外，最准确的方法是以下的条件：

误差项ε是一个期望值为零的随机变量，即E(ε)＝0。

同x的时候，ε的方差都相同或者固定。

误差项ε是一个服从正态分布的随机变量，且相互独立。

ε一般情况下不知道，因此，我们用e残差来ε代替进行正态性、方差齐性的分析（值得注意的是，ε的独立的，而e本身是相关的）

四、残差分析

一般来说没有准确的方法来判定正态性、方差齐性和独立性，但是可以结合残差分析图来判定各个正态性、方差齐性和独立性是否成立。

如何看残差图？

通常我们利用Y与X的散点图来观察是否可以使用线性回归，并使用t和F检验来验证其正确性。

但是残差有着得天独厚的优势，因为各个残差项的平均数是0，所以可以通过观测残差图来修正模型。各种残差分布如图1所示。

开展回归分析，必须要了解回归诊断的原理与方法

根据残差性质，一个好的模型残差分布应是(a)中的分布。

(b)中表明数据中可能存在某个异常值，这时需要将异常值删去建立模型，当然要标明此模型不适合该检测值。

而(c)表明，Y的观测值的方差并不相同，是随着X的增加而增加的，所以这就需要对Y进行变换或者其他求解方法来消除这个影响。而(d)也是异方差，随着X增加而增减。

(d)、(e)中表明Y与X之间存在非线性的关系，需要考虑新的曲线关系，而不再是线性回归。当然也可能Y存在自相关。

那误差项是否服从正态分布该如何检验？常用的方法是频数分布图和QQ图。频数分布图不需再说，这里展示下QQ如图2所示。

开展回归分析，必须要了解回归诊断的原理与方法

图2:QQ图

观测QQ图，只要上面的点基本在一条直线上，就可表明误差项服从正态分布。

五、利用SPSS软件进行残差分析

现在利用SPSS软件开展残差分析，探讨残差的独立性、正态性和方差齐性

残差分析同时与线性回归分析进行,可见以下的SPSS界面，包括“图”按钮、“保存按钮”

“图”按钮

选择右侧的“图”按钮，将DEPENDNT选择入区域2，ZRESID选择入区域1，并在区域3勾选标准化残差图的“直方图”和“正态概率图”。同样地，要绘制标准化预测值的图形，需要选择下一个，将“*ZRESID”选入Y轴，将“*ZPRED”选入X轴，见图。（*ZRESID表示标准化残值、*ZPRED表示标准化预测值。）