vlambda博客
学习文章列表

波士顿房价预测——回归分析案例(献给初学者)

波士顿房价预测——回归分析案例(献给初学者)

作者|Nature

出品|AI机器思维



人类生活的现实社会经常遇到分类与预测的问题,目标变量可能受多个因素影响,根据相关系数可以判断影响因子的重要性。 正如一个病人得某种病是多种因素影响造成的。

房价的高低也是受多个因素影响的,如房子所处的城市是一线还是二线,房子周边交通方便程度如通不通地铁,房子周边学校和医院等,这些都影响了房子的价格。

医学领域根据自变量以及某个阈值判断病因归属。 生物领域根据父辈的基因经过回归分析判断对子辈的影响。

今天给大家通过案例讲讲回归分析,回归分析在经济、社会学、医学、生物学等领域得到了广泛的应用,这种技术最早可以追溯到达尔文(Charles Darwin)时期。

达尔文的表弟Francis Galton致力于研究父代豌豆种子尺寸对子代豌豆尺寸的影响,采用了回归分析。 回归分析对人体健康研究也可以重要,病因分析。 19世纪高斯系统地提出最小二乘估计,从而使回归分析得到蓬勃发展。

目前回归分析的研究范围可以分为如下几个部分组成:

线性回归: 一元线性回归、多元线性回归和多个因变量与多个自变量的回归。
回归诊断: 通过数据推断回归模型基本假设的合理性、基本假设不成立时对数据的修正、回归方程拟合效果的判断以及回归函数形式的选择。
回归变量的选择: 根据什么标准选择自变量和逐步回归分析方法。
参数估计方法: 偏最小二乘回归、主成分回归和岭回归。
非线性回归: 一元非线性回归、分段回归和多元非线性回归。
定性变量的回归: 因变量含有定性变量和自变量含有定性变量。
现实中常用的回归分析是线性回归、逻辑回归、多项式回归和岭回归。

本节以线性回归案例讲解,以波士顿房价数据集为线性回归案例数据,进行模型训练 ,不讲过多理论,理论大家可以自己去看资料,到处都是理论材料。

波士顿房价预测——回归分析案例(献给初学者)

波士顿房价数据说明: 此数据源于美国某经济学杂志上,分析研究波士顿房价( Boston HousePrice)的数据集。 数据集中的每一行数据都是对波士顿周边或城镇房价的情况描述,下面对数据集变量说明下,方便大家理解数据集变量代表的意义。

CRIM: 城镇人均犯罪率
ZN: 住宅用地所占比例
INDUS: 城镇中非住宅用地所占比例
CHAS: 虚拟变量,用于回归分析
NOX: 环保指数
RM: 每栋住宅的房间数
AGE: 1940 年以前建成的自住单位的比例
DIS: 距离 5 个波士顿的就业中心的加权距离
RAD: 距离高速公路的便利指数
TAX: 每一万美元的不动产税率
PTRATIO: 城镇中的教师学生比例
B: 城镇中的黑人比例
LSTAT: 地区中有多少房东属于低收入人群
MEDV: 自住房屋房价中位数(也就是均价)

波士顿房价预测——回归分析案例(献给初学者)

首先对数据分析,处理特殊异常值,然后才是模型和评估,并应用模型进行预测。

1.首先导入数据集,对数据进行分析

波士顿房价预测——回归分析案例(献给初学者)

程序运行后结构现实特征变量如下:

波士顿房价预测——回归分析案例(献给初学者)

对上面程序加入如下语句分析数据集数据样本总数,与特征变量个数:

波士顿房价预测——回归分析案例(献给初学者)

程序运行后显示波士顿数据集506个样本,13个特征变量:

波士顿房价预测——回归分析案例(献给初学者)

我们根据经验也可以看到,房价的高低在中国具体的房价就有太多维度了,比方说学区房、超市、菜场、高铁、机场、地铁、就业等等,而波士顿房价给出了13个特征维度变量预测房价,和中国比还是有很大差距的。 国情不一样也影响房价。

继续对上面数据分析,查看前五条数据,看下这13个变量数据情况:

波士顿房价预测——回归分析案例(献给初学者)

程序运行后结果显示前5条数据如下:

波士顿房价预测——回归分析案例(献给初学者)


2.对自变量进行特征分析,并画出散点图,分析因变量与自变量的相关性,把不相关的数据剔除。
程序如下:

波士顿房价预测——回归分析案例(献给初学者)

程序运行后结果显示如下:
CRIM: 城镇人均犯罪率

波士顿房价预测——回归分析案例(献给初学者)

ZN: 住宅用地所占比例

波士顿房价预测——回归分析案例(献给初学者)

INDUS: 城镇中非住宅用地所占比例

波士顿房价预测——回归分析案例(献给初学者)

CHAS: 虚拟变量,用于回归分析

波士顿房价预测——回归分析案例(献给初学者)

NOX: 环保指数

波士顿房价预测——回归分析案例(献给初学者)

RM: 每栋住宅的房间数

波士顿房价预测——回归分析案例(献给初学者)

AGE: 1940 年以前建成的自住单位的比例

波士顿房价预测——回归分析案例(献给初学者)

DIS: 距离 5 个波士顿的就业中心的加权距离

波士顿房价预测——回归分析案例(献给初学者)

RAD: 距离高速公路的便利指数

波士顿房价预测——回归分析案例(献给初学者)

TAX: 每一万美元的不动产税率

波士顿房价预测——回归分析案例(献给初学者)

PTRATIO: 城镇中的教师学生比例

波士顿房价预测——回归分析案例(献给初学者)

B: 城镇中的黑人比例

波士顿房价预测——回归分析案例(献给初学者)

LSTAT: 地区中有多少房东属于低收入人群

波士顿房价预测——回归分析案例(献给初学者)

经过上面散点图的分析,可以看到数据异常的变量需要特殊处理,根据散点图分析,房屋的’RM(每栋住宅的房间数)’,‘LSTAT(地区中有多少房东属于低收入人群)’,'PTRATIO(城镇中的教师学生比例)’特征与房价的相关性最大,所以,将其余不相关特征剔除。

波士顿房价预测——回归分析案例(献给初学者)

二、任务介绍
1、通过数据挖掘对影响波士顿房价的因素进行分析。
2、搭建一个波士顿房价预测模型。
本案例我们以每栋住宅的房间数RM研究与房价的关系。
程序如下:

波士顿房价预测——回归分析案例(献给初学者)

程序执行后模型相关系统如下:

波士顿房价预测——回归分析案例(献给初学者)

图形显示如下:

通过分析可以看出住宅平均房间数与最终房价一般成正相关。

对上面程序改造,我们也可以分析其他特征变量对房价的影响。 具体大家可以根据案例改造学习。






——往期精彩——







您的关注和在看是对我们最大的鼓励!