如何使用Data Analytics制作箱线图?相信对于很多学习数据分析的朋友来说,都要对于制作箱线图有一定的了解,进而更好的做好数据分析,今天我们通过今天我们通过数据分析网站-DataHunter与大家一起来探讨一下关于如何利用Data Analytics制作箱线图,更好的帮助大家做好数据分析。
一、你需要先知道的基本统计知识
中位数:从小到大排列数据集,然后计算中间位置。
总数是奇数,则为位于中间的数值;总数是偶数,则中位数就是中间两个数的平均值
四分位数:
一般,数据集中的最小值我们称之为下界,最大值称之为上界
计算四分位数之前,第一步需要先求中位数M,
下四分位数Q1=数据集中所有数值由小到大排列后第25%的数字
上四分位数Q3=数据集中所有数值由小到大排列后第75%的数字
四分位数间距IQR=Q3-Q1
下界(Min):Q1-1.5IQR
上界(Max):Q3+1.5IQR
箱线图其实就是四分位数图形化展示。
二、箱线图的作用
1、识别出可能的异常值
箱线图最重要的作用就是可以识别出可能的异常值。在数据清洗环节,可以借助箱线图对异常值进行检查和处理。
2、多批同类数据的比较
箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了50%的数据。因此,箱子的宽度在一定程度上反映了数据的波动程度。箱体越扁说明数据越集中,端线越短也说明数据集中。
所以箱线图也常见用于质量管理、人事测评、探索性数据分析等统计分析活动。
三、如何制作箱线图(应用举例)
场景:某客户经理想查看各省顾客的大概订单数量,以探索各省的大客户都有哪些
步骤方法:
第一步:导入数据
第二步:选择新建图表为“箱线图”
将“省份”拖入维度,“订单数量”拖入度量,“顾客姓名”拖入颜色
就能一步生成箱线图。
说明:此处维度用于整体聚合,颜色用于分组聚合。
第三步:观察分析,得出结论
将鼠标悬浮至异常点上,可查看相关数据:河南省内,高瑞光这位顾客的订单量要远高于其他顾客,属于标准的“大客户”
从中位数上,还可以看到不同省份之间的订单量差异,可以看出,在已展示的十个省份中,山西省的整体订单量略高,西藏较低。
另外鼠标悬浮在每个箱子上都能看到该省内所有顾客的订单量的四分位数信息。
小结:
1、箱线图是四分位数的图形展示;
2、箱线图的主要作用是识别异常值以及对同类数据进行比较。
通过上面的三大数据分析的基本知识分享,希望可以帮助大家更好使用Data Analytics制作箱线图,更好的利用数据分析创造价值。更多有关数据分析工具的相关了解,请关注:数据分析网站-DataHunter