Python开发工程师告诉你正确如何上手数据可视化…
2018-08-07 08:50:35来源:博客园 阅读 ()


数据可视化
进群:125240963 即可获取数十套PDF哦!
1. 安装 Matplotlib
在Linux系统中安装matplotlib
Ubuntu17.10内置Python2版本和Python3版本,可以采用下面的方式安装Matplotlib。
$ sudo apt-get install python3-matplotlib
如果你使用的是Python 2.7,执行如下命令:
$ sudo apt-get install python-matplotlib
如果你安装了pip 就可以使用下面的方式安装:
$ pip install matplotlib
如果你的安装比较慢,可以尝试这种方式来安装:
$ pip3 install matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple
常用的国内源地址有:
- 阿里云 http://mirrors.aliyun.com/pypi/simple/
- 豆瓣(douban) http://pypi.douban.com/simple/
- 清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/
- 中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/
在Windows系统中安装matplotlib
在Windows下下载Python后记得在安装的时候选择加入pip到环境变量。然后用下面的命令:
pip install matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple
测试matplotlib
>>>import matplotlib
>>>
如果没有出现任何错误信息,就代表安装成功!
2. 绘制简单的折线图
下面来使用 matplotlib 绘制一个简单的折线图,再对其进行定制,以实现信息更丰富的数据可视化。我们将使用平方数序列 1 、 4 、 9 、 16 和 25 来绘制折线图。


修改标签文字和线条粗细
图形表明数字是越来越大的,但标签文字太小,线条太细。所幸 matplotlib 让你能够调整可视化的各个方面。


校正图形
图形更容易阅读后,我们发现没有正确地绘制数据:折线图的终点指出 4.0 的平方为 25 !下 面来修复这个问题。


使用scatter()绘制散点图并设置其样式
有时候,需要绘制散点图并设置各个数据点的样式。要绘制单个点,可使用函数 scatter() ,并向它传递一对 x 和 y 坐标,它将在指定位置绘制一 个点:
import matplotlib.pyplot as plt
plt.scatter(2, 4)
plt.show()

下面来设置输出的样式,使其更有趣:添加标题,给轴加上标签,并确保所有文本都大到能够看清:


使用scatter()绘制一系列点
要绘制一系列的点,可向 scatter() 传递两个分别包含 x 值和 y 值的列表,如下所示:


自动计算数据
手工计算列表要包含的值可能效率低下,需要绘制的点很多时尤其如此。


matplotlib允许你给散点图中的各个点指定颜色。默认为蓝色点和黑色轮廓,在散点图包含的数据点不多时效果很好。但绘制很多点时,黑色轮廓可能会粘连在一起。要删除数据点的轮廓,可在调用scatter()时传递实参edgecolor='none':
自定义颜色
要修改数据点的颜色,可向scatter()传递参数c,并将其设置为要使用的颜色的名称,如下所示:
plt.scatter(x_values, y_values, c='red', edgecolor='none', s=40)

你还可以使用RGB颜色模式自定义颜色。
plt.scatter(x_values, y_values, c=(0, 0, 0.8), edgecolor='none', s=40)

(0, 0, 0.8) 它们分别表示红色、绿色和蓝色分量。值越接近0,指定的颜色越深,值越接近1,指定的颜色越浅。
使用颜色映射
颜色映射(colormap)是一系列颜色,它们从起始颜色渐变到结束颜色。在可视化中,颜色映射用于突出数据的规律,例如,你可能用较浅的颜色来显示较小的值,并使用较深的颜色来显示较大的值。


这些代码将y值较小的点显示为浅蓝色,并将y值较大的点显示为深蓝色。
自动保存图表
plt.savefig('squares_plot.png', bbox_inches='tight')
第二个实参指定将图表多余的空白区域裁剪掉。如果要保留图表周围多余的空白区域,可省略这个实参。
3. 随机漫步
在自然界、物理学、生物学、化学和经济领域,随机漫步都有其实际用途。例如,漂浮在水滴上的花粉因不断受到水分子的挤压而在水面上移动。水滴中的分子运动是随机的,因此花粉在水面上的运动路径犹如随机漫步。我们稍后将编写的代码模拟了现实世界的很多情形。
创建RandomWalk()类
为模拟随机漫步,我们将创建一个名为RandomWalk的类,它随机地选择前进方向。这个类需要三个属性,其中一个是存储随机漫步次数的变量,其他两个是列表,分别存储随机漫步经过的每个点的x和y坐标。
RandomWalk类只包含两个方法:__init__ ()和fill_walk(),其中后者计算随机漫步经过的所有点。下面先来看看__init__(),如下所示:

选择方向
我们将使用fill_walk()来生成漫步包含的点,并决定每次漫步的方向。

绘制随机漫步图
下面的代码将随机漫步的所有点都绘制出来:


给点着色
我们将使用颜色映射来指出漫步中各点的先后顺序,并删除每个点的黑色轮廓,让它们的颜色更明显。为根据漫步中各点的先后顺序进行着色,我们传递参数c,并将其设置为一个列表,其中包含各点的先后顺序。由于这些点是按顺序绘制的,因此给参数c指定的列表只需包含数字1~5000,如下所示:


重新绘制起点和终点
除了给随机漫步的各个点着色,以指出它们的先后顺序外,如果还能呈现随机漫步的起点和终点就更好了。为此,可在绘制随机漫步图后重新绘制起点和终点。我们让起点和终点变得更大,并显示为不同的颜色,以突出它们,如下所示:


隐藏坐标轴
如果不想显示坐标的尺寸,可以隐藏:


调整尺寸以适合屏幕
在不同的电脑上面,由于屏幕的不同,图像的大小也是不同的,为了达到这种效果,我们可以这样做:


4. Matplotlib进阶-Seaborn
Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图。
安装方式
安装方式类似于matplotlib , 在Windows下和Linux下面都可以采用pip安装方式。
set_style( )
set_style( )是用来设置主题的,Seaborn有五个预设好的主题: darkgrid , whitegrid , dark , white ,和 ticks 默认: darkgrid


直方图
直方图的绘制:


箱型图
箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。


联合分布
两个变量的画图


不用圆点表示的话也是可以的,可以用其他方式来表示,比如六角形来表示:


热力图
相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。
相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。公式:


多变量图
关注数据框中各个特征之间的相关关系,呈现图形的展示,给人以直观的感受。而不是"冰冷"的数字。可以非常方便的找到各个特征之间呈现什么样的关系。比如线性,离散等关系。

标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
- python3基础之“术语表(2)” 2019-08-13
- python3 之 字符串编码小结(Unicode、utf-8、gbk、gb2312等 2019-08-13
- Python3安装impala 2019-08-13
- 小白如何入门 Python 爬虫? 2019-08-13
- python_字符串方法 2019-08-13
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash