搜文章
推荐 原创 视频 Java开发 iOS开发 前端开发 JavaScript开发 Android开发 PHP开发 数据库 开发工具 Python开发 Kotlin开发 Ruby开发 .NET开发 服务器运维 开放平台 架构师 大数据 云计算 人工智能 开发语言 其它开发
Lambda在线 > 老坛学Python > 统计关系的数据可视化(一)

统计关系的数据可视化(一)

老坛学Python 2020-02-05


今日主题:seaborn库中可视化数据关系的实践操作,我们一起来耍一耍scatterplot()、lineplot()和relplot()这三个函数。




 数据可视化的意义


每一天我们都会获得到各种各样的数据,为了问题的解决,我们需要适当的做一些数据的分析,其中最直观的方式就是绘图,通过将数据转变为图表,我们能发现一些趋势,找到数据之间相互关系,从而 制定合理的方案进行问题的解决。下面我们依次耍耍 scatterplot()、lineplot()和relplot()这三个函数


  库导入与数据准备



玩耍中使用的是iris数据集,这个数据集一共有5个变量,分别是sepal_length(花萼长度)、sepal_width(花萼宽度)、petal_length(花瓣长度)、petal_width(花瓣宽度)、species(花种类)


import seaborn as snsimport matplotlib.pyplot as pltimport pandas as pd
iris = pd.read_csv('iris.csv', encoding='utf8')



 scatterplot()



这个函数的初始化需要传入这些参数:

seaborn.scatterplot(x=None, y=None, hue=None, style=None, size=None,  data=None, palette=None, hue_order=None,                     hue_norm=None, sizes=None, size_order=None                    size_norm=None, markers=True, style_order=None                    x_bins=None, y_bins=None, units=None, estimator=None, ci=95                    n_boot=1000, alpha='auto', x_jitter=None, y_jitter=None, legend='brief', ax=None, **kwargs)

其实之前的文章已经耍过这个函数了,这儿用用一点点代码让它刷下存在感。

# 记号的大小和类型分类来自于species下的变量,# 如果把sizes设置成10,那么标记的就喵喵大了,数字越大记号也越大# s:表示方框,d:表示菱形,^:表示三角形g = sns.scatterplot(x='sepal_length', y='petal_length', hue='species', palette='Set1', data=iris, edgecolor='black', hue_order=iris.species.value_counts().index, size='species', sizes=[10, 50, 100], style='species', markers=['s', 'd', '^'])plt.show()


统计关系的数据可视化(一)



linesplot()



这个函数,之前的推文还没介绍过,我们来看看有啥子不一样哒。

seaborn.lineplot(x=None, y=None, hue=None, size=None, style=None,                  data=None, palette=None, hue_order=None, hue_norm=None                 sizes=None, size_order=None, size_norm=None, dashes=True                 markers=None, style_order=None, units=None, estimator='mean'                 ci=95, n_boot=1000, seed=None, sort=True, err_style='band'                 err_kws=None, legend='brief', ax=None, **kwargs)

然后我们进行了如下的设置:

# 从效果上来看,marker只需要设置True或 False,程序会自动分配标记# 形状只有实线和虚线两种,分类越多,点越密集,这个功能由dashes控制# 默认请款下会对数据进行估计,并绘制数据的标准偏差带,类型有band(带状)、bars(条状)等# sizes 参数不能设置大了,毕竟是线了,设置4都感觉有些宽了。# sort参数需要保持默认缺省状态,如果数据集中的点不是按照由大到小或有小到大排列的话# 把sort设置成 False,绘图的时候,就会按照数据从数据集中出现的先后顺序来绘制图形了,# 那样的图可能就没有意义, 不是我们想要的了g = sns.lineplot(x='sepal_length', y='petal_length', hue='species', hue_order=['setosa', 'versicolor', 'virginica'], data=iris, palette='Set1', size='species', sizes=[1, 2, 3], style='species', markers=True, dashes=False, estimator='mean', err_style='bars', sort=True)
plt.show()


统计关系的数据可视化(一)



relplot()


预知后事如何,见下回分解....


— E N D —


 

“像海绵吸水一样学习知识”

ID : 老坛学Python

 记录·分享·成长

统计关系的数据可视化(一)

点“在看”给我一朵小黄花

版权声明:本站内容全部来自于腾讯微信公众号,属第三方自助推荐收录。《统计关系的数据可视化(一)》的版权归原作者「老坛学Python」所有,文章言论观点不代表Lambda在线的观点, Lambda在线不承担任何法律责任。如需删除可联系QQ:516101458

文章来源: 阅读原文

相关阅读

关注老坛学Python微信公众号

老坛学Python微信公众号:gh_ad15296d4962

老坛学Python

手机扫描上方二维码即可关注老坛学Python微信公众号

老坛学Python最新文章

精品公众号随机推荐