vlambda博客
学习文章列表

相关分析与回归分析(2)

在上一讲,我们系统的了解到(一元)相关分析的概念及其分析路径,我们可以通过散点图,结合皮尔逊系数、p值得到变量间线性相关关系的密切程度,那么,如何进一步建立变量间定量关系表达式,得到变量间的变化规律,这就需要用到另外一个联系密切的工具——回归分析。

------------------------------------------------------------------------------

回归分析:探讨对象为单个的连续型Y单个或多个的连续型X的线性关系。

一元线性回归:一个y一个x

多元元线性回归:一个y多个x

简而言之,就是通过建立一个回归方程来估计自变量x与随机变量y的均值之间的关系式。这一章,我们先以一元回归分析的案例来搞清楚回归分析的功能与开展步骤。


【案例】程验证想确认温度X对产量Y是否有线性关系。


那么接下来,该怎么得到我们想要的结论呢?


Step 01

收集Y和X的数据

主动设置/被动收集皆可


声明:

以上数据来自詹大师培训资料

如涉及版权问题

请联系作者删除


Step 02

散点图分析

定性观察是否具有相关性


相关分析与回归分析(2)


Step 03

相关系数分析

定量分析是否具有相关性


相关分析与回归分析(2)

结合上一讲相关分析的内容,从r值与p值来看,很显然产量与温度是强相关的,而且是正线性相关。


Step 04

回归分析

获得最佳回归模型


相关分析与回归分析(2)

Minitab会直接计算给出一个回归方程(如上图),那么这个方程到底怎么样,到底是不是我们要的最佳模型呢?

相关分析与回归分析(2)

没错,有问题,看P值!

回归P值<0.05,

温度项P值<0.05,

我们可以认为模型已经最佳。


Step 05

拟合优度分析

检查模型是否有效


相关分析与回归分析(2)


相关分析与回归分析(2)

相关分析与回归分析(2)

这里,我们主要看的是

  • 误差的均方和MSE:与回归因子项MS对比要足够小

  • R-sq:尽可能的大

  • R-sq(调整):尽可能的大

显然,案例中的模型是有效的。

那么,模型是否有异常呢?


Step 06

残差分析

检查模型是否有异常


相关分析与回归分析(2)

相关分析与回归分析(2)

这里,我们可以通过上面的图与数据进行分析:

  • 残差图:要求正态,无喇叭口无弯曲,无上行或下行趋势。

  • 标准化残差:p一般在±2之内即可(对应大约95%的置信区间),如果样本量较大,允许有个别点超出范围,超出范围的比率不要超过5%

很显然,残差分析显示模型无异常。

相关分析与回归分析(2)


Step 07

预测

主动设置的试验数据,可以预测


(假如这里的数据是主动设置然后试验收集获取的)

相关分析与回归分析(2)

这里,简单的解读一下怎么看预测项

置信区间:

理论上在1200℃温度情况下生产多次,产品均值应在(163.244, 196.756),

这个结论有95%的把握

预测区间:

理论上在1200℃温度情况下生产一次,产品均值应在(143.976,216.024),

这个结论有95%的把握

-------------------------------------------------------------------

到这里

回归分析按上面7个步骤就全部完成了。


也许很多人会问:

方差分析表中SS,MS,模型汇总表中R-sq,R-sq(预测),标准化残差……

这些都是怎么来的,判定标准又是啥?


别急,这些都是后面的内容接下来都会一一解答。