相关分析与回归分析(2)
在上一讲,我们系统的了解到(一元)相关分析的概念及其分析路径,我们可以通过散点图,结合皮尔逊系数、p值得到变量间线性相关关系的密切程度,那么,如何进一步建立变量间定量关系表达式,得到变量间的变化规律,这就需要用到另外一个联系密切的工具——回归分析。
------------------------------------------------------------------------------
回归分析:探讨对象为单个的连续型Y与单个或多个的连续型X的线性关系。
一元线性回归:一个y一个x
多元元线性回归:一个y多个x
简而言之,就是通过建立一个回归方程来估计自变量x与随机变量y的均值之间的关系式。这一章,我们先以一元回归分析的案例来搞清楚回归分析的功能与开展步骤。
【案例】工程验证想确认温度X对产量Y是否有线性关系。
那么接下来,该怎么得到我们想要的结论呢?
Step 01
收集Y和X的数据
主动设置/被动收集皆可
声明:
以上数据来自詹大师培训资料
如涉及版权问题
请联系作者删除
Step 02
散点图分析
定性观察是否具有相关性
Step 03
相关系数分析
定量分析是否具有相关性
结合上一讲相关分析的内容,从r值与p值来看,很显然产量与温度是强相关的,而且是正线性相关。
Step 04
回归分析
获得最佳回归模型
Minitab会直接计算给出一个回归方程(如上图),那么这个方程到底怎么样,到底是不是我们要的最佳模型呢?
没错,有问题,看P值!
回归P值<0.05,
温度项P值<0.05,
我们可以认为模型已经最佳。
Step 05
拟合优度分析
检查模型是否有效
这里,我们主要看的是
误差的均方和MSE:与回归因子项MS对比要足够小
R-sq:尽可能的大
R-sq(调整):尽可能的大
显然,案例中的模型是有效的。
那么,模型是否有异常呢?
Step 06
残差分析
检查模型是否有异常
这里,我们可以通过上面的图与数据进行分析:
残差图:要求正态,无喇叭口无弯曲,无上行或下行趋势。
标准化残差:p一般在±2之内即可(对应大约95%的置信区间),如果样本量较大,允许有个别点超出范围,超出范围的比率不要超过5%
很显然,残差分析显示模型无异常。
Step 07
预测
主动设置的试验数据,可以预测
(假如这里的数据是主动设置然后试验收集获取的)
这里,简单的解读一下怎么看预测项
置信区间:
理论上在1200℃温度情况下生产多次,产品均值应在(163.244, 196.756),
这个结论有95%的把握
预测区间:
理论上在1200℃温度情况下生产一次,产品均值应在(143.976,216.024),
这个结论有95%的把握
-------------------------------------------------------------------
到这里
回归分析按上面7个步骤就全部完成了。
也许很多人会问:
方差分析表中SS,MS,模型汇总表中R-sq,R-sq(预测),标准化残差……
这些都是怎么来的,判定标准又是啥?
别急,这些都是后面的内容接下来都会一一解答。