随着互联网技术的进步,新数据生成的速度和体量越来越大,比如,在波音公司的“鱼鹰”项目中,为提升“鱼鹰”直升机起飞和降落的效率,需要协同传感器记录的大量数据。每次起飞或降落的数据多达1TB,10次起降的数据与美国国会图书馆的数据存储量相当。
这样的情况在日常工作中同样不胜枚举,不运用数据可视化工具,要从数据的规律和异常中发现问题,将是不可能完成的任务。数据分析过程主要包括6个既相对独立又互有联系的阶段(如图所示)
大多数情况下,人们更愿意接受图形这种数据展现方式,因为它能更加有效、直观地传递出分析师所要表达的观点。一般情况下,数据是通过表格和图形的方式来呈现的。常用的数据图表包括饼图、柱形图、条形图、折线图、散点图、雷达图等,我们可以对这些图表进一步整理加工,使之变为我们所需要的图形,例如金字塔图、矩阵图、漏斗图、帕累托图等。
在之前的文章中,数猎哥给大家介绍过,在什么场景下使用什么可视化图表最为合适(详情参考《活用这23种图表,让你的数据分析胜人一筹》)。今天我们就来给大家说说如何熟练的运用数据可视化工具,生成这些图表,让你的数据分析能力提升数十倍。(本文主要借助 DataHunter 自主研发的 Data Analytics 数据可视化软件制作图表)
要进行数据分析,在明确了分析的目的和思路之后,就需要进行数据的收集与准备。如今企业的数据源有多种类型,如何将各种不同类型的数据进行整合,是有效提高数据利用的关键。Data Analytics 支持各种数据类型,企业本地和云端的内外部Excel/CSV等数据文件,还支持企业各种业务系统、第三方互联网数据、公共数据服务平台等来源。
1.Excel文件导入
登录工作台以后,可以看到“看板”“故事板”“数据关联”“工作表”等4大功能板块,点击右侧“工作表”,进入到操作界面,点击“新建工作表”,然后点击“Excel”,上传所需工作表,成功以后点击“保存”即完成了数据源的导入。
2.数据库导入
点击“新建工作表”,进入数据来源选择页面,Data Analytics 目前支持My SQL、Postgre SQL、SQL Server、Hive、GreenPlum、Oracle等主流数据库。以My SQL为例,点击“My SQL”,填写相关信息,点击链接,选择要保存的数据,在默认分组下可看到导入的数据源。
3.公共数据源导入
目前 Data Analytics 支持的公共数据来源有统计数据(全国地区农产品价格指数、全国居民GNP统计、人口结构比、人口增长率、普通高校毕业人数、全国地区人口统计、全国地区GDP统计、人民币外汇牌价)、金融数据(沪市A股收盘详情、沪市A股实时详情)、天气实时数据。以沪深A股收盘详情为例,点击“新建工作表”,点击公共数据,选择“沪深A股收盘详情”并保存,即可在默认分组中可以看到添加的数据。
数据关联分析是从大量数据集中发现关联性和相关性,从而描述一个事物中某些属性同时出现的规律和模式。一个典型例子是购物篮分析,该过程通过发现顾客放入其购物篮中的不同商品之间的联系,分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商制定营销策略。其他的应用还包括价目表设计、商品促销、商品的排放和基于购买模式的顾客划分。
Data Analytics 也支持各种数据源的关联,在工作台点击“数据关联”,然后点击右侧有一个“➕”按钮,添加我们之前上传好的数据表,重复上述步骤再添加一个数据表。完成以后对两个表进行数据关联,只需要将它们拖动到一起,系统就会弹出“表关联配置”对话框。然后选取需要关联的字段即可。右侧的加号还可关联多个字段,垃圾箱可删除关联字段。
鼠标悬停“表关联配置”的绿色图标上,可显示四种关联方式(全部联接、左侧联接、右侧联接、内部联接),系统默认全部联接。如果没有特殊需求,点击“提交”就完成了两个表的数据关联。如果想查看详细数据点击中间“绿色圆点”即可查看。
1.简单拖拽、更换图表
在完成数据源的导入和数据关联之后,我们就可以进行数据可视化图表的制作了。在工作台的“看板”模块,点击“新建看板”并命名。找到该看板,点击右上角“➕”添加需要的图表类型,选择对应的工作表。然后工作区域列出了刚刚上传的工作表名称,字段部分列出了工作表中所有字段类型(T表示文字,#表示数字,日历图标表示时间)。
在制作图标时,需要注意度量项只能放数值类型的字段,维度项可以是文本、时间、数字等类型字段。比如,将日期拖入维度项,销售收入和销售毛利拖入度量项,就生成了简单的柱状图。如果更换其他图表样式,在切换图表区域点击对应的图标即可。值得注意的是在针对不同图表时,对维度项和度量项的要求会在下方提示,如果你拖入的字段不符合维度和度量要求,该图表的图标会显示灰色,也就无法生成相应的图表。
2.函数计算
除了直接利用数据生成图表外,还可以利用函数计算来做图表可视化。这里以销售成本为例,点击度量项里的“添加计算”,在输入框中填写销售收入减去销售毛利,点击确定即可在图表上看到新的销售成本了。
1.柱状图
柱状图是一种应用得很广泛的图形,它表征分类型变量与数值型变量的关系,常用于多个维度的比较和变化。柱形图至少需要一个数值型维度,通常文本维度/时间维度通常作为X轴,数值型维度作为Y轴。
在看板模块点击右上角“➕”,选择图表类型为柱状图,添加工作表。准备完毕后,把“系列”拖入维度项,“销售成本”拖入度量项,生成柱状图后把空值去掉,将“系列”拖入筛选器,去掉空值,最后命名“系列销售成本”即可完成。
2.折线图
折线图是用来观察数据的趋势,主要展示数据随时间或有序类别的波动情况的趋势变化。对比时使用,常见时间维度对比。如果是无序类别则无法展示数据特点。
比如我们使用折线图反应2017年上半年销售变化,在看板模块点击右上角“➕”,选择图表类型为折线图,添加工作表。准备完毕后,把“日期”拖入维度项,“销售收入”拖入度量项,将“日期”拖入筛选器,去掉空值,最后进行图表命名即可完成。
3.饼图
饼图经常表示一组数据的占比,需要数值维度。饼图也是有缺陷的,例如30%和35%在饼图上凭肉眼是难以分辨出区别的。当类别过多,也不适宜在饼图上表达。因此在使用饼图时我们需要顺时针降序排列,同时维度取值在10个以内。
饼图如何进行制作呢?在看板模块点击右上角“➕”,选择图表类型为饼图,添加所需工作表。比如我们想探究各系列利润对比,将“系列”拖入维度项,“销售毛利”拖入度量项,除此之外对大类进行简单筛选,去掉空值,并命名“各系列利润对比”即可完成。
4.散点图
散点图在报表中不常用到,但是数据分析中比较常见。散点图通过坐标轴来揭示数据间的关系,发掘变量与变量之间的关联,当存在大量数据点,结果更精准,比如回归分析。当数据量小的时候会比较混乱。气泡图是散点图的变种,它使用气泡代替散点图的数值点,面积大小代表数值大小。
在看板模块点击右上角“➕”,选择图表类型为散点图,添加工作表。准备完毕后,把“大类”拖入维度项,“销售收入”与“销售成本”拖入度量项,去掉空值,并命名“各大类销售收入与成本对比”。如果想生成气泡图,将“大类”拖入筛选器,将“销售收入”拖入大小筛选器即可完成。
5.地图
一切和空间属性有关的分析都可以用到地理图。比如各地区销量,或者某商业区域店铺密集度等。一般用颜色深浅或气泡大小来展示区域范围的数值大小。比如人口密度、各地区销量,或者某商业区域店铺密集度等。
在看板模块点击右上角“➕”,选择图表类型为地图,添加所需工作表。准备完毕后,将省份拖入维度项,销售收入拖入度量项,并命名“各省销售状况”即可完成。
1.图表筛选
筛选功能可以帮你更迅速的编辑图表,并查看数据。比如在生成的柱状图中日期维度有很明显的空值,这时只需要将“日期”拖入筛选框,然后点击非空值即完成了筛选。
再比如我们现在想查看1-3月份的销售数据,这时点击筛选框内“日期”按钮,然后点击离散日期选项卡,选择相对应的月份就可以了。这里不同类型的字段有不同的筛选方式,文本类型有常规、条件、空值三种筛选方式;日期类型有相对日期、离散日期、时间范围、空值筛选四种方式;数值类型有范围、条件、空值筛选方式。
2.筛选器
(1)单选、多选、数值筛选
在上文中我们分享了针对单个图表的筛选功能,但如果我们需要同时针对多个图表进行筛选,可以使用筛选器功能,Data Analytics 支持四种筛选器(单选、多选、时间、数值),可以方便用户在不同维度下查看各个图表中的数据特性。
进入看板模块,点击绿色“➕”,在下方选择单选筛选器,将“城”市拖入筛选字段,这里可以看到上文中制作的所有图表,中间显示了对应的城市,右侧还可以更换筛选器。完成设置后,点击左上角的返回,勾选“九江”即可看到所有图表都做了筛选。
(2)时间筛选
时间筛选器的操作步骤同上,需要补充的是在右侧的日期筛选器样式有:标准日期控件、滑块控件、默认项选择。这里我们以滑块控件来举例,点击后退回到看板页面,在滑块上选择不同的时间范围,可以看到各图表对应的时间变化。
1.简单配色
最后我们需要对生成的可视化图表进行配色,主要的目的是让配色容易辨识与区分,方便查看数据的人进行分析。Data Analytics 支持各种颜色的搭配。如果想要对默认配色进行修改,可以在颜色区域进行设置,例如,我们想把销售收入的蓝色改为橙色,点击颜色区域编辑图标,在左侧数据项选择需要改色的销售收入,勾选橙色即可,这里还可以自定义颜色。
2.条件配色
此外各图表还支持条件着色功能,方便我们去查看数据,比如打开一个交叉表,将销售收入拖入颜色选项卡,选择条件着色,限定条件为大于等于50万,勾选颜色,最后点击确定即可看到效果。如果想进行多条件着色,在条件着色选项里点击“➕”即可。
在这里我们主要给大家分享了Data Analytics 基础的操作步骤,此外,还有许多额外的功能辅助我们进行数据分析,比如:看板的分享、各维度数据的钻取、数据预警监测、数据过滤联动等功能等待大家去进一步的探索。你可以添加小助手微信Kelly-HR,了解你最想使用的功能。
这里需要注意,数据可视化只是表层的东西,数据分析才是核心。要让数据分析更好地帮助我们做决策,最先需要得到可视化数据,DataHunter的数据可视化工具能帮到你。Data Analytics是一个轻量级业务数据可视化平台,可一键快速接入企业本地和云端内外部Execl/CSV等数据文件,无需编程仅需简单的拖拽即可制作酷炫的数据可视化看板,用直观的数据帮你做好的决策。