R语言分析数据 | 31省城镇居民消费水平分析
1.引言
居民的消费是一个国家整个经济活动成果的最终体现,也是反映人民物质和文化生活需要的满足程度。因此对全国居民的消费水平数据进行分析是很重要的。本篇报告根据2007年全国31个省、市、自治区的城镇居民的消费水平在食品,衣着等8项指标上的支出的数据,进行了聚类分析,主成分分析,因子分析以及对应分析等。通过分析我们可以知道各省市的居民在哪部分的花费最多,以及各个地区的消费水平,也从侧面反映出了地区的经济情况。
2.数据描述
在本篇报告中收集到全国31个省、市、自治区2007年城镇居民生活消费的8项指标数据,分别为:
①食品:人均食品支出(元/人);
②衣着:人均衣着商品支出(元/人) ;
③设备:人均家庭设备用品及服务支出(元/人) ;
④医疗:人均医疗保健支出(元/人) ;
⑤交通:人均交通和通讯支出(元/人) ;
⑥教育:人均娱乐教育文化服务支出(元/人) ;
⑦居住:人均居住支出(元/人) ;
⑧杂项:人均杂项商品和服务支出(元/人)。
为了更加直观的显示出数据,针对以上8项指标,我们按照各省、市、自治区的总体消费水平的均值做条形图,如图1所示,然后用各指标的均值做条形图,如图2所示,
图1
图2
图3
通过上面两个简单的图,可以直观的看出,在31个省、市、自治区中,上海市的平均消费水平最高,通过数据计算,上海市的平均消费水平为2156.924元/人,而青海的消费水平最低,计算出为939.0487元/人。而在8项指标中,人们在食品上的花销最大,杂项平均消费额最低。通过箱尾图也可得出同样的结论,如图3所示。
3.数据分析
在本小节中,会对上述数据进行聚类分析、主成分分析、因子分析,最后再进行对应分析。
3.1 聚类分析
聚类分析是指将物理或抽象对象的集合 分组为由类似的对象组成的多个类的分析过程,它是一种重要的人类行为。衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。下面我们对其进行系统聚类分析,先画一个散点图,看看其分布效果。
图4:散点图
在聚类分析中,主要步骤可分为以下几步:
①数据预处理;
②为衡量数据点间的相似度定义一个距离函数;
③聚类或分组;
④评估输出。
其聚类统计量主要包括距离和相关系数两类,在其距离中又分为:欧氏距离、马氏距离以及兰氏距离,R语言中默认为欧氏距离。通过计算,我们得出了31个省、市、自治区的距离阵,如图5所示:
图5:距离矩阵
在系统聚类中,主要包括:最短距离法、最长距离法、中间距离法、类平均法、重心法、离差平均和法等6中聚类方法。接下来我们使用了六种聚类方法对分别对数据进行了聚类分析:
聚类分析
1、最短距离法
2、最长距离法
3、中间距离法
4、类平均法
5、重心法
6、离差平均和法
根据其聚类图,可以看出,不同的聚类方法其聚类结果不同,但我们通常用离差平均和法进行聚类,下面给其加分类框。
滑动查看更多图片
通过分析,我们将上述分类结果进行总结归纳如下:
图15:分类结果
3.2主成分分析
主成分概念首先由Karl Pearson在1901年引进,在多数实际问题的评估中,不同指标之间是有一定的相关性,势必增加分析问题的复杂性。而主成分分析就是设法将原来的指标重新组合成一组新的互不相关的几个综合指标来代替原来指标。同时根据世纪需要从中选取几个较少的综合指标来尽可能多的反映原来的指标的信息。下面,我们对居民消费数据做主成分分析:
图16:主成分分析结果
由上面运算结果显示,主成分1的贡献率为54%,主成分2的贡献率为30%,两者累计贡献率为84%。其中,主成分1主要反映了食品、设备、交通、教育、居住、杂项等六个指标的信息,主成分2 主要反映了衣着、医疗两方面的信息。
图17:主成分分析结果
通过上图,我们可以分析出,北京主要在医疗方面消费较高,上海在交通方面消费较高,浙江在杂项上消费高等等。
3.3因子分析
因子分析是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数的几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。要进行因子分析,首先要计算其相关系数,然后分别计算不旋转与旋转情况下的因子分析,如下所示:
不旋转因子分析
旋转因子分析
由上两图可以看出,各项的累计贡献率相同,说明旋转与否并不损失信息,但旋转之后的载荷可以更好的区分。例如:在旋转后的图中,第一个日常因子主要包括食品、设备、交通、教育、杂项等五个方面。第二个因子主要是衣着和医疗。第三个因子主要是居住。
3.4 对应分析
对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来,它最大的特点是能把众多的样品和众多的变量同时做到同一张图解上,将样品的大类及其属性在图上直观而又明了的表示出来,具有直观性。在本小节中,我们做了一个对应分析,根据计算结果绘图如下:
滑动查看更多图片
总结其分析结果,我们可以看出,有些地区其对应效果不是很好,其主要是因为选取了二维的数据,只能表示71.3%的信息,所以其结果准确率不是很好。但对极端值敏感性比较好。
木兮羊
好好学习,天天向上!