Python开发工程师告诉你正确如何上手数据可视化…

2018-08-07 08:50:35来源:博客园 阅读 ()

新老客户大回馈,云服务器低至5折

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

数据可视化

进群:125240963   即可获取数十套PDF哦!

1. 安装 Matplotlib

在Linux系统中安装matplotlib

Ubuntu17.10内置Python2版本和Python3版本,可以采用下面的方式安装Matplotlib。

$ sudo apt-get install python3-matplotlib

如果你使用的是Python 2.7,执行如下命令:

$ sudo apt-get install python-matplotlib

如果你安装了pip 就可以使用下面的方式安装:

$ pip install matplotlib

如果你的安装比较慢,可以尝试这种方式来安装:

$ pip3 install matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple

常用的国内源地址有:

  • 阿里云 http://mirrors.aliyun.com/pypi/simple/
  • 豆瓣(douban) http://pypi.douban.com/simple/
  • 清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/
  • 中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/

在Windows系统中安装matplotlib

在Windows下下载Python后记得在安装的时候选择加入pip到环境变量。然后用下面的命令:

pip install matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple

测试matplotlib

>>>import matplotlib

>>>

如果没有出现任何错误信息,就代表安装成功!

2. 绘制简单的折线图

下面来使用 matplotlib 绘制一个简单的折线图,再对其进行定制,以实现信息更丰富的数据可视化。我们将使用平方数序列 1 、 4 、 9 、 16 和 25 来绘制折线图。

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

修改标签文字和线条粗细

图形表明数字是越来越大的,但标签文字太小,线条太细。所幸 matplotlib 让你能够调整可视化的各个方面。

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

校正图形

图形更容易阅读后,我们发现没有正确地绘制数据:折线图的终点指出 4.0 的平方为 25 !下 面来修复这个问题。

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

使用scatter()绘制散点图并设置其样式

有时候,需要绘制散点图并设置各个数据点的样式。要绘制单个点,可使用函数 scatter() ,并向它传递一对 x 和 y 坐标,它将在指定位置绘制一 个点:

import matplotlib.pyplot as plt

plt.scatter(2, 4)

plt.show()

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

下面来设置输出的样式,使其更有趣:添加标题,给轴加上标签,并确保所有文本都大到能够看清:

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

使用scatter()绘制一系列点

要绘制一系列的点,可向 scatter() 传递两个分别包含 x 值和 y 值的列表,如下所示:

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

自动计算数据

手工计算列表要包含的值可能效率低下,需要绘制的点很多时尤其如此。

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

matplotlib允许你给散点图中的各个点指定颜色。默认为蓝色点和黑色轮廓,在散点图包含的数据点不多时效果很好。但绘制很多点时,黑色轮廓可能会粘连在一起。要删除数据点的轮廓,可在调用scatter()时传递实参edgecolor='none':

自定义颜色

要修改数据点的颜色,可向scatter()传递参数c,并将其设置为要使用的颜色的名称,如下所示:

plt.scatter(x_values, y_values, c='red', edgecolor='none', s=40)

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

你还可以使用RGB颜色模式自定义颜色。

plt.scatter(x_values, y_values, c=(0, 0, 0.8), edgecolor='none', s=40)

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

(0, 0, 0.8) 它们分别表示红色、绿色和蓝色分量。值越接近0,指定的颜色越深,值越接近1,指定的颜色越浅。

使用颜色映射

颜色映射(colormap)是一系列颜色,它们从起始颜色渐变到结束颜色。在可视化中,颜色映射用于突出数据的规律,例如,你可能用较浅的颜色来显示较小的值,并使用较深的颜色来显示较大的值。

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

这些代码将y值较小的点显示为浅蓝色,并将y值较大的点显示为深蓝色。

自动保存图表

plt.savefig('squares_plot.png', bbox_inches='tight')

第二个实参指定将图表多余的空白区域裁剪掉。如果要保留图表周围多余的空白区域,可省略这个实参。

3. 随机漫步

在自然界、物理学、生物学、化学和经济领域,随机漫步都有其实际用途。例如,漂浮在水滴上的花粉因不断受到水分子的挤压而在水面上移动。水滴中的分子运动是随机的,因此花粉在水面上的运动路径犹如随机漫步。我们稍后将编写的代码模拟了现实世界的很多情形。

创建RandomWalk()类

为模拟随机漫步,我们将创建一个名为RandomWalk的类,它随机地选择前进方向。这个类需要三个属性,其中一个是存储随机漫步次数的变量,其他两个是列表,分别存储随机漫步经过的每个点的x和y坐标。

RandomWalk类只包含两个方法:__init__ ()和fill_walk(),其中后者计算随机漫步经过的所有点。下面先来看看__init__(),如下所示:

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

选择方向

我们将使用fill_walk()来生成漫步包含的点,并决定每次漫步的方向。

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

绘制随机漫步图

下面的代码将随机漫步的所有点都绘制出来:

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

给点着色

我们将使用颜色映射来指出漫步中各点的先后顺序,并删除每个点的黑色轮廓,让它们的颜色更明显。为根据漫步中各点的先后顺序进行着色,我们传递参数c,并将其设置为一个列表,其中包含各点的先后顺序。由于这些点是按顺序绘制的,因此给参数c指定的列表只需包含数字1~5000,如下所示:

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

重新绘制起点和终点

除了给随机漫步的各个点着色,以指出它们的先后顺序外,如果还能呈现随机漫步的起点和终点就更好了。为此,可在绘制随机漫步图后重新绘制起点和终点。我们让起点和终点变得更大,并显示为不同的颜色,以突出它们,如下所示:

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

隐藏坐标轴

如果不想显示坐标的尺寸,可以隐藏:

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

调整尺寸以适合屏幕

在不同的电脑上面,由于屏幕的不同,图像的大小也是不同的,为了达到这种效果,我们可以这样做:

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

4. Matplotlib进阶-Seaborn

Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图。

安装方式

安装方式类似于matplotlib , 在Windows下和Linux下面都可以采用pip安装方式。

set_style( )

set_style( )是用来设置主题的,Seaborn有五个预设好的主题: darkgrid , whitegrid , dark , white ,和 ticks 默认: darkgrid

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

直方图

直方图的绘制:

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

箱型图

箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

联合分布

两个变量的画图

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

不用圆点表示的话也是可以的,可以用其他方式来表示,比如六角形来表示:

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

热力图

相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。

相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。公式:

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

多变量图

关注数据框中各个特征之间的相关关系,呈现图形的展示,给人以直观的感受。而不是"冰冷"的数字。可以非常方便的找到各个特征之间呈现什么样的关系。比如线性,离散等关系。

Python开发工程师告诉你正确如何上手数据可视化,赶紧围观!

 

 

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:1千京豆等于十块钱!用Python实现京东自动登录领京豆!挣外快咯

下一篇:利用Python来打造一款颜值检测打分项目!原来最美的女神是她!