vlambda博客
学习文章列表

回归分析,真让人想家。



姚明的孩子大概率不会比他高


石头哥第一次接触回归分析,脑海中想象的是回家,丝毫没有和统计量化联系起来。哎,谁让自己很长时间没回家,新媒体小编真是苦啊。这个词简直是勾起了想家的欲望啊(广告词:回归分析,让人想家)。



不过回归分析的提出,还真的和家庭成员之间的关系有关系。话说100多年前有个叫高尔顿的老兄,这哥们原来在剑桥大学学医,后来接受了一笔遗产(也就是说突然暴富,不用再苦逼学习了,这也是石头哥的愿望啊),他放弃了医学的学习,涉猎了多个学科,还去非洲考察两年(哎,有钱就是好,可以实现学术自由),最终他的兴趣转向了遗传学。


他研究什么呢?他研究了1074对父母与每对父母的一个儿子(外国人是有多能生?)的身高关系,发现平均身高比较高的父母,儿子也相对比较高;平均身高比较低的父母,儿子也相对比较低。这是常识啊,石头哥动动小脚趾也能想到。不过他发现了一个有趣的现象,儿子身高(与儿子们的平均身高)的差距比父母身高(与父母们平均身高的)的差距要小,也就是说子代的身高会围绕平均身高进行一定程度的回归,以避免出现子代身高随父母身高而出现两端分化的情况。(石头哥爸爸身高165,妈妈身高162,但是石头哥身高178.哈哈,感谢回归定律)。打一个更为形象的比方,姚明和妻子叶莉都属于中国人身高里的异常值,我们可以断定他们的孩子肯定会比较高,但不大可能超过她俩的平均身高,而是会离同龄人身高的平均值更近。


大自然就是这么神奇与公平,所以父母平均身高比较矮的同学,也不要太担心自己会比较矮,父母平均身高比较高的同学,也不必沾沾自喜,你们的身高都会向平均身高来回归。天行有常,这就是自然规律吧。


好吧,石头哥啰嗦了半天,到底要告诉我们什么呢?


回归分析,真让人想家。


回归分析是量化分析的基石

不懂回归,犹如学音乐不懂音律。


自从高尔顿将回归分析引入统计学之后,这个概念便大行其道。其实在上面的例子中,我们已经提到了,子代身高既受到父母身高的影响,也有向平均值回归的趋势。如果我只让你猜,小明的身高是多少?你肯定觉得我在逗你玩,臣妾也不好猜啊。我如果告诉你,小明父母的身高,你就会有一个猜测的依据,我如果再告诉你小明班上同学的平均身高,你就会猜测的更准确一些。高尔顿最初就是发现了可以根据父母身高来预测子女身高,而回归分析指的就是用某一个变量(如父母身高)来预测另一个变量(如子代身高),以此来探索两个变量之间的关系。前面提到的身高现象,高尔顿称之为“向平均数方向的回归” (regression toward mediocrity),翻译为“线性回归”。从高尔顿起,“线形回归”的术语因此沿用下来,作为根据一种变量(如父母身高)预测另一种变量(如子女身高)或根据多个自变量(如受教育水平、父母受教育水平)来预测一个因变量(如收入水平)关系的统计方法。


我们在日常生活中很容易观察到这类变量关系例如,父母如果受教育水平都比较高,那么其子女的受教育水平可能会比较高。于是,父母受教育水平为自变量,子女受教育水平为因变量。在学术研究上,这个被称为一元回归分析(即分析一个自变量对一个因变量的影响,在实际研究中很少见,但却是学习回归分析的基础)。我们可以根据父母的受教育水平来预测子女的受教育水平。


再比如,一个人的受教育程度越高,他的收入水平也可能越高。我们可以根据一个人的受教育程度来预测他的收入水平。


在现实生活中,一般很少有一个自变量影响一个因变量的情况,比方说,子女受教育水平高,既与父母受教育水平有关系,也与其它因素有关,比方说家庭年收入、父母陪伴孩子学习的时间、学校作业量等。也就是说,导致某一个结果的原因是多种的。在研究上称之为多个自变量对一个因变量的影响。这个称作多元回归分析(即多个自变量对一个因变量的影响,日常研究中最常见的就是这类分析,这也符合哲学关于万物是普遍联系的观点。不好意思,石头哥又开始卖瓜啦)


一句话,回归是预测的学问,当我们通过自变量去预测因变量时,误差越小,预测就会越准。凡是预测必带来误差,因此,通过平均值来预测,能够有效较少误差。(例如上文,凭空猜小明身高为1.6米,当告诉你小明同学平均身高为1.75米时,你可能会重新猜他身高为1.72米,也就是会更靠近平均值。如果小明的真实身高为1.7米,那么,知道平均值和不知道平均值的情况下,误差减少了0.08米。)这也就是为什么说“平均值是预测”(李连江语),就是说当我们用平均值去预测时,可以极大减少误差。这也就是为什么在统计学及回归分析中如此看重平均值的原因。了解了平均值,才能明白什么是标准差,什么是方差,也才能明白什么叫T检验,什么叫方差分析,什么叫总变差(Total variation,SSt),什么叫剩余变差(或残差residual variation,未被解释的变差或组内变差——within group variation),什么叫模型变差(Model variation, SSm,是指被解释的变差,亦称为组间变差——between-group variation)。怎么样?是不是开始感觉有点蒙了,石头哥在听课的时候听到这里的时候也有点被吓尿了的感觉,谁让文科生天生对数字、对符号、对公式恐惧啊。不过,只要明白了,回归分析就是为了降低预测的误差,一切都起源于平均数,你就不会惧怕上面的术语了。某大神说过,文科生学统计,重在应用,那些公式,你一生只学一次就好了。


我们再举个栗子,看看如何理解回归分析。给大家看两张图,先看第一张:


回归分析,真让人想家。


很熟悉的赶脚有没有?这不就是高中学的一元一次方程吗?方程式是Y = a + bX,a是截距,b是斜率。在这个数学关系中,所有的x和y即横轴和纵轴交叉的点(x,y),都会落在这条斜线上。这是堪称完美的线性关系。好吧,这只是数学公式上成立。真实世界的情况是什么样的呢?让我们看第二张图:


回归分析,真让人想家。


我们会看到,很多真实观察到的点,并没有落在中间的直线上。这是因为真实世界中不存在完美相关,总是有一定的误差。这个误差来自实际观测值(图中蓝色点)与预测值(黑线与红线交叉的点)之间的差异,也就是e,也被称作残差(我们前面提到了,也叫做剩余变,即未被解释的变差)。所以,我们在建构回归方程时,就是要把所有的e变得最小,也就是让预测的误差最小。我们经常听到的最小二乘法就是干这个事的。当我们这么做的时候,就能出现一条直线,保证用这条直线来预测因变量时,误差最小。


当然,以上只是最基础的两个变量之间的回归,我们还会接触多个自变量与一个因变量之间的回归。包括其后要接触到的因变量为类别变量时的回归。见下图。如果学习回归分析,可以先从线性回归分析入手。为什么呢?卖个关子吧。


回归分析,真让人想家。



如何学习线性回归?这门课程来帮你



学习统计有多种方法,牛人自己看书就行(石头哥承认自己不是牛人,很多地方看书是看不懂的,至于为啥看不懂,说来话长,此处按下不表)。那像石头哥这些小白咋办呢?参加培训班?动辄几千元的报名费,加上往返路费和住宿,学生党真的是无能为力啊。别急,或许可以考虑下在线学习,它的优点有:不开刀、见效快、不住院、效果好、成本低……


哦哦,抱歉,石头哥走神了。其实啊,石头哥和大家一样期待优质又能负担得起的网络课程。这不,我们邀请到南京大学社会学院的吴愈晓教授,这简直是石头哥心中的大神啊。回归大神将带来《应用线性回归分析》课程,用15个小时的时间,38节课程,238页ppt,满满的都是诚意,带你深度玩转应用线性回归分析。


吴老师长期从事社会学教学与研究,在回归分析领域可谓独树一帜。好啦,正式介绍来啦:


吴愈晓,南京大学社会学院教授、博导,教育部青年长江学者。主要研究领域为社会分层与流动、教育社会学、职业与劳动力市场和定量研究方法等。在《中国社会科学》、《社会学研究》、《社会》以及Sociological Perspectives等杂志发表论文多篇。主要讲授“社会统计学与定量数据分析”、“社会分层与流动”等课程。2011年入选教育部 “新世纪优秀人才支持计划”。


吴老师将带来以下授课内容:


第一讲 线性变量分析基础

1.1 抽样调查数据分析基础

1.2 连续变量的描述和统计推断

1.3  T 检验(t-test)分析

1.4  方差分析的概念介绍

1.5  方差分析的命令操作及补充


第二讲  相关与简单回归

2.1  散点图、协方差与相关系数

2.2  线性关系:一元线性回归(1)

2.3  线性关系:一元线性回归(2)

2.4  线性关系:一元线性回归(3)

2.5  线性关系:一元线性回归(4)

2.6 自变量为虚拟变量的简单回归模型


第三讲 多元线性回归模型

3.1 多元分析类型(一):虚假相关(1)

3.2 多元分析类型(一):虚假相关(2)与 抑制变量

3.4 多元线性回归模型

3.5 自变量为类别变量的回归模型

3.6 多元线性回归几个知识点

3.7 嵌套模型及补充


第四讲  统计交互

4.1 什么是交互效应?

4.2 两个虚拟变量的交互效应

4.3 连续变量与虚拟变量的交互效应

4.4 类别变量与连续变量的交互效应(1)

4.5 类别变量与连续变量的交互效应(2)

4.6 连续变量之间的交互效应(1)

4.7 连续变量之间的交互效应(2)

4.8 连续变量之间的交互效应(3)


第五讲 回归诊断与变量转换

5.1 线性回归假定与诊断  

5.2 处理不满足回归假定的方法(1)

5.3 处理不满足回归假定的方法(2)

5.4 处理不满足回归假定的方法(3)

5.5 处理不满足回归假定的方法(4)   

5.6 处理不满足回归假定的方法(5)


第六讲 常见的数据问题与解决方案

6.1 数据缺失   

6.2 奇异值  

6.3 共线性问题

6.4 未观察到的变量


第七讲 课程总结

7.1 课程总结(1)    

7.2 课程总结(2) 


吴老师讲课的特点是不推演公式,但是会提到公式(对了,他提过,有些公式一生只做一次就够了)重在应用和分析。他会给大家一个数据库,并通过stata软件进行数据分析和结果解读。


回归分析,真让人想家。

(吴老师正在仔细解读回归分析)


所以,这门课非常适合一边听课,一边自己进行操练,并对照视频进行学习和解读。举个例子,在演示嵌套模型时,吴老师每次增加一个新的自变量进入模型,跑出结果,然后分析结果,非常直观、动态演示了随着自变量的增加,统计结果是如何变化的过程。通过这样的反复操练的方式,你就能真正理解为什么要做嵌套模型,为什么要做控制。也终于能看懂那些之前以为的高大上的模型是如何从最基础的建模开始发展起来的。听吴老师的课,真的是统计“祛魅”的过程。真的,回归分析没那么神秘和艰深,当你自己根据吴老师的方法跑一个模型,你就明白石头哥绝对没有撒谎。不夸张的说,石头哥在录制现场是聚精会神听了3天,至少有10年,石头哥没有这么专心听过课了。至少有10年,没有听过这么过瘾的课程了。(汪峰的歌在耳畔响起)


吴老师说,学习统计没有捷径,唯有大量的实际练习,才能觅得真经。我们一起来听听吴老师怎么说:



为了提升学习效果,萌萌的吴老师决定将课程课件、do文件都给到大家。石头哥也要提醒大家,不会stata也没关系,我们后面会有专门的stata操作课上线。这门课的重点不是stata,而是统计原理和应用结果解读。学完这么课,那些类似的曾经看不懂的回归分析文章就能摸到基本的门道,也才能真正理解诸如T 检验、方差分析、控制变量、统计交互、回归假定等的含义,也才能真正学会解读分析结果,并如何在文章写作中进行表达。


迈过了线性回归这道坎,才敢说真正走上了统计量化分析之路。还是那句话,一个人走不远,一群人才走得更远。快来跟随吴愈晓大神的脚步,走上回归分析的康庄大道吧!



适用人群


刚踏入统计学大门的“门外汉”

对量化研究一知半解的“小白”

急需攻克回归分析的“青椒”

任何对回归感兴趣的学者


现价仅需199元/人


回归分析,真让人想家。

长按二维码立即订阅学习



回归分析,真让人想家。


查看更多优质课程可关注学术志

回归分析,真让人想家。