R语言分析数据 | 31省城镇居民消费水平分析

vlambda
2020-06-30

R语言分析数据 | 31省城镇居民消费水平分析

1.引言

居民的消费是一个国家整个经济活动成果的最终体现，也是反映人民物质和文化生活需要的满足程度。因此对全国居民的消费水平数据进行分析是很重要的。本篇报告根据2007年全国31个省、市、自治区的城镇居民的消费水平在食品，衣着等8项指标上的支出的数据，进行了聚类分析，主成分分析，因子分析以及对应分析等。通过分析我们可以知道各省市的居民在哪部分的花费最多，以及各个地区的消费水平，也从侧面反映出了地区的经济情况。

2.数据描述

在本篇报告中收集到全国31个省、市、自治区2007年城镇居民生活消费的8项指标数据，分别为：

①食品：人均食品支出(元/人)；

②衣着：人均衣着商品支出(元/人) ；

③设备：人均家庭设备用品及服务支出(元/人) ；

④医疗：人均医疗保健支出(元/人) ；

⑤交通：人均交通和通讯支出(元/人) ；

⑥教育：人均娱乐教育文化服务支出(元/人) ；

⑦居住：人均居住支出(元/人) ；

⑧杂项：人均杂项商品和服务支出(元/人)。

为了更加直观的显示出数据，针对以上8项指标，我们按照各省、市、自治区的总体消费水平的均值做条形图，如图1所示，然后用各指标的均值做条形图，如图2所示，

图1

图2

图3

通过上面两个简单的图，可以直观的看出，在31个省、市、自治区中,上海市的平均消费水平最高，通过数据计算，上海市的平均消费水平为2156.924元/人，而青海的消费水平最低，计算出为939.0487元/人。而在8项指标中，人们在食品上的花销最大，杂项平均消费额最低。通过箱尾图也可得出同样的结论，如图3所示。

3.数据分析

在本小节中，会对上述数据进行聚类分析、主成分分析、因子分析，最后再进行对应分析。

3.1 聚类分析

聚类分析是指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程，它是一种重要的人类行为。衡量不同数据源间的相似性，以及把数据源分类到不同的簇中。下面我们对其进行系统聚类分析，先画一个散点图，看看其分布效果。

图4：散点图

在聚类分析中，主要步骤可分为以下几步：

①数据预处理；

②为衡量数据点间的相似度定义一个距离函数；

③聚类或分组；

④评估输出。

其聚类统计量主要包括距离和相关系数两类，在其距离中又分为：欧氏距离、马氏距离以及兰氏距离，R语言中默认为欧氏距离。通过计算，我们得出了31个省、市、自治区的距离阵，如图5所示：

图5：距离矩阵

在系统聚类中，主要包括：最短距离法、最长距离法、中间距离法、类平均法、重心法、离差平均和法等6中聚类方法。接下来我们使用了六种聚类方法对分别对数据进行了聚类分析：

聚类分析

1、最短距离法

2、最长距离法

3、中间距离法

4、类平均法

5、重心法

6、离差平均和法

根据其聚类图，可以看出，不同的聚类方法其聚类结果不同，但我们通常用离差平均和法进行聚类，下面给其加分类框。

滑动查看更多图片

通过分析，我们将上述分类结果进行总结归纳如下：

图15：分类结果

3.2主成分分析

主成分概念首先由Karl Pearson在1901年引进，在多数实际问题的评估中，不同指标之间是有一定的相关性，势必增加分析问题的复杂性。而主成分分析就是设法将原来的指标重新组合成一组新的互不相关的几个综合指标来代替原来指标。同时根据世纪需要从中选取几个较少的综合指标来尽可能多的反映原来的指标的信息。下面，我们对居民消费数据做主成分分析：