vlambda博客
学习文章列表

R语言—回归诊断(1)

我们可以轻松地利用lm()对数据集进行回归建模,但是建模后还要面临一些问题:这个模型是否是最佳模型?模型多大程度满足OLS模型的统计假设?模型是否经的起更多数据的检验?如果拟合出来的图形指标不好,该如何继续下去?这时我们要对模型进行回归诊断。
在建模的时候我们使用了普通最小二乘回归法(OLS)对模型参数进行估计,但是在使用之前要满足OLS模型的统计假设。
1、正态性:对于固定的自变量值,因变量值成正态分布
2、独立性:因变量之间相互独立
3、线性:因变量和自变量之间线性相关
4、同方差性:因变量的方差不随自变量的水平不同而变化,也称作不变方差。
下面以women数据集为例,利用plot()函数进行回归诊断。

#利用plot()函数进行回归诊断

> fit<-lm(weight~height,data = women)

> par(mfrow=c(2,2))

> plot(fit)

左上:残差拟合图。检验自变量和因变量之间是否线性相关,若相关残差值和拟合图是没有任何关系的,从结果上看,显然是曲线关系,这意味着要加上一个非线性项。
右上:正态Q-Q图。标准化的残差分布图,若满足正态分布,那么图上的点应该落在呈45度角的直线上,若非如此,则违反了正态性。
左下:位置尺寸图。主要是检验是否同方差性,若同方差,周围的点应该随机分布。
右下:残差杠杆图。可以用来鉴别出离群点、高杠杠点和强影响点。
不过,我们无法从该结果中检验独立性,只能根据收集的数据来验证,这就需要个人对数据的了解程度。
只用此种方法进行回归诊断,确实还存在一定的局限性,同时,还有一些改进的方法。想知道更多的话,那咱们下期见喽!


扫描二维码

获取更多精彩

大康的笔记

R语言—回归诊断(1)