如何成为数据分析师系列(二):可视化图表进阶

2018-12-31    来源:raincent

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

继上一篇如何成为数据分析师系列(一):可视化图表初阶整理了折线图、柱形图、散点图、饼图4种基本图表的特性及其使用场景,这次整理了一些平常不太使用,但在合适的场景的使用它们,往往能为你的分析报告加分不少的图表。

需要说明的是,这次演示的图表几乎都是用Tableau制作的「因自身学习的原因」,不再是Excel制作的图表。其中有部分图,仍旧能用Excel制作,有部分已经不适合使用Excel制作了。

树状图(TreeMap)

 

如何成为数据分析师系列(二):可视化图表进阶

 

功能&应用场景

主要功能用于可视化整体与部分关系,以区块表示部分层级(不同区块用颜色区分),用矩形面积表示大小关系。

缺点

以面积表示大小,当数值相近时人眼难以辨别,当然可通过填充数值弥补。

漏斗图(FunnelPlot)

 

如何成为数据分析师系列(二):可视化图表进阶

 

应用场景

适用于关键业务环节数据比较,将各环节串联起来构成漏斗,量化流程内环节,追踪各环节转化率。转化是漏斗图主要表达信息。

♦ 电商类:访问 -> 注册 -> 购物车 -> 下单 -> 付款;

♦ 营销推广:展现 -> 点击 -> 访问 -> 咨询 -> 下单 -> 付款;

♦ CRM:潜在客户阶段 -> 意向客户阶段 -> 谈判阶段 -> 成交签约。

以上只是常见漏斗,实际各种业务流程都可构建漏斗。

缺点

♦ 漏斗图在实际分析中并不常见,但在PPT中用作信息描述却明显优于干巴巴的数字

♦ 追踪流程较困难,而企业是结果导向的,我们更在意整个流程的转化率,有时不会深究细节;

有时候我们更关心某环节转化率在时间维度上的变化。

漏斗图 vs 行为路径分析

漏斗图要区分于行为分析路径图,行为分析路往往是你对用户的访问路径未知,而漏斗图则是基于已知关键流程构建。

样式变种:将面积形式变种为柱形图样式,显得更加清晰

 

如何成为数据分析师系列(二):可视化图表进阶

 

雷达图(RadarChart)

 

如何成为数据分析师系列(二):可视化图表进阶

 

应用场景

雷达图主要用于静态的多维对比,它直观地呈现几个观察对象在多个指标上对比情况。

缺点

能表达的静态数据信息有限,线条不宜超过5条,指标不宜超过8个。

注意事项

雷达图中的指标必须是正向且可以比较的,也就是指标代表越好,且当指标差异较大时,需要进行标准化,消除单位影响。

♦ 指标必须是相同表征含义:如都是越大代表越好,或越小代表越好;

♦ 雷达图的数据必须进行标准化;

♦ 雷达图是静态数据很量,不可能有时间维度。

制作过程

数据如图

 

如何成为数据分析师系列(二):可视化图表进阶

 

♦ 数据源-第一个指标要重复一列,作为环形的起点和终点;

♦ 在Tableau中要进行透视表操作;

♦ 生成路径: CASE [数据透视表字段名称]

WHEN '认证两分钟回复率' then 1

WHEN '认证数' then 2

WHEN '消息两分钟内回复率' then 3

WHEN '消息回复率' then 4

WHEN '回复消息数' then 5

WHEN '质检得分' then 6

ELSE 7

END

♦ 生成弧度:IF [路径]=7 THEN pi()/2 ELSE PI()/2 - ([路径]-1)*2*PI()/6 END

♦ 生成X = [数据透视表字段值]*COS([弧度])、Y = [数据透视表字段值]*SIN([弧度])

 

如何成为数据分析师系列(二):可视化图表进阶

 

箱线图/盒须图(Box plot)

 

如何成为数据分析师系列(二):可视化图表进阶

 

箱线图是利用五个统计量:最小值、第1分位数、第2分位数、第3分位数、最大值 来描述数据的图形。

应用场景

主要用于观察数据分布:观察分布&异常值&偏态等

♦ 箱线图可直观明了地观察数据的分布情况,对不同数据批的数据分布进行对比;

♦ 箱线图可直观明了地识别数据批中的异常值;

♦ 箱线图可初步判断数据批中的偏态和尾重; 异常值出现于一侧的概率越大,中位数也越偏离上下四分位数的中心位置; 异常值集中在较小值一侧,则分布呈现左偏态;异常值集中在较大值一侧,则分布呈现右偏态。

图形元素说明

 

如何成为数据分析师系列(二):可视化图表进阶

 

矩盒两端的位置分别对应数据的Q1、Q3分位数,矩形盒内部绘制一中位数线

♦ 内限=Q1-1.5*IQR、=Q3+1.5*IQR IQR(四分位矩)=Q3-Q1,它反映了中间50%数据的离散程度(数值越小,中间50%数据越集中)

♦ 外限=Q1-3*IQR、=Q3+3*IQR 内限以外位置都是异常值,其中在内限与外限之间的为温和异常值(Mild outliers),外限以外的称为极端异常值(extreme outliers)。

应用举例

 

如何成为数据分析师系列(二):可视化图表进阶

 

甘特图(Gantt chart)

 

如何成为数据分析师系列(二):可视化图表进阶

 

应用场景:项目管理

甘特图对于说明项目各元素的起始与终止日期效果非常好,清楚看到需要完成的内容和截止时间对于项目的成功非常关键。 多数情况下,我们把甘特图和项目管理联系到一起,不过它其实还可以用来表现随时间推移事物的变化(人员、机器、订单等)。

♦ 显示项目进度。例如:说明关键可交付成果、所有者、截止期限。

♦ 显示随时间推移的其他事物使用事项。例如:机器使用的持续时间、团队成员有空与否,订单发货时间等。

桑基图(Sankey diagram)

 

如何成为数据分析师系列(二):可视化图表进阶

 

桑基图,即桑基能量分流图,也叫桑基能量平衡图。

起源

♦ 1898年Matthew Henry Phineas Riall Sankey绘制的“蒸汽机的能源效率图”而闻名世界,此后便以其名字命名为“桑基图”。

应用场景

♦ 展示分类维度间的相关性,以流的形式呈现同一类别的元素数量;

♦ 表示集群的发展,比如特定人群的分布,如:杏仁活跃医生在一段时间的活跃状态变迁;

♦ 具有流程图的性质,表示能量/物质流转。

核心特征

最明显的特征是始末端的分支宽度总各相等,即所有主支宽度的总和应与所有分出去的分支宽度的总和相等,保持能量的平衡。

图形制作

1.S型曲线-sigmoid Fuction

 

如何成为数据分析师系列(二):可视化图表进阶

 

该函数图像的特点有: 1. 连续,光滑,严格单调; 2. 关于(0, 0.5)中心对称; 3. 值域为(0,1).

1. 简单桑基图 数据格式如下。左为Data,右为模型Model,要求制作桑基图表示用户ID从position 1变化为position 2的路径。

 

如何成为数据分析师系列(二):可视化图表进阶

 

 

如何成为数据分析师系列(二):可视化图表进阶

 

a. 连接Excel文件,将Data与Model均拖入数据,并由Link进行inner join连接;

b. 创建计算字段Sigmoid Function代表S曲线函数:1/(1+EXP(1)-[t]);

c. 创建计算字段Curve代表曲线:[Position 1]+(([Position 2]-[Position 1])*[Sigmoid Function]);

d. 将t拖拽至[列],Curve拖拽至[行],并调整为连续的维度; e. 将Name、ID拖到详细信息,Name拖拽到颜色;

f. 选择标记类型为 线,一个简单的桑基图就完成了,示例可参见Tableau文件。

 

如何成为数据分析师系列(二):可视化图表进阶

 

难点理解:曲线是如何生成的!

♦ 每一个用户有position 1、position 2,以ID=1的用户为例:

  1. position 1=1
  2. position 2= 100
  3. [Position 2]-[Position 1]=99
  4. ([Position 2]-[Position 1])*[Sigmoid Function]

将上式记作A,根据S曲线特性,当t->负无穷时,函数s->0,A->0;因s函数严格单调,当t增大时,s增大;当t->正无穷时,s->1,A->([Position 2]-[Position 1])。所以curve=[Position 1]+(([Position 2]-[Position 1])*[Sigmoid Function])可生成一条S曲线.

难点是设置position,让每个类别的点靠近。不仅是大类别要靠近,细分类别也要靠近

词云

 

如何成为数据分析师系列(二):可视化图表进阶

 

应用场景

词云图是为了描述事物的主要特征,要求能够让人一眼看出一个事物的主要特征,越明显的特征越要突出显示。不要为了词云而词云,要关注制作词云要表达什么信息(包括数据的关系是什么)

♦ 内容型网站对内容关键词提取制作词云作为网站导航;

♦ 人物肖像刻画、事物肖像刻画、小说核心主题刻画,总之对于各种事物进行某种主题的刻画,可以选用词云,如果是表现层次化关系,则不建议使用词云。(下图就不是词云最合适的运用场景)

 

如何成为数据分析师系列(二):可视化图表进阶

 

主要特征

词云是可视化中较为艺术化的图表。 Word直接展示对象,Word字体大小表示某种度度量。

以上就是图表类型的介绍了。其实图表类型还有很多很多,如基于鼠标点击的热力图、基于网络传播的关系图等等,但它们都不再适合用Excel或Tableau制作,需要用R/Python进行绘图,暂时用不上,故没有再往下写的必要。

此外,图表制作还有很多主意事项,比如:背景色的使用

黑色背景给人以震撼,但它的情感色调是郑重、悲伤、紧张 白色背景比较单调,但它的情感色调是以轻松

具体的图表如何使用,它是非常灵活的,见仁见智。这些基础理论只是将图形的特征介绍清楚,具体如何用仍需要结合业务场景、分析目标等。

标签: 电商 数据分析 推广 网络

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:2019 年,被高估的 AI 与数据科学该如何发展?

下一篇:2018 年最受欢迎的 Python 库,你都用过吗?