产品
解决方案
产品说明
关于我们

Data Analytics

这是一款用于企业数据可视化分析的自助式敏捷BI产品,可以针对企业业务数据进行自由维度的探索式分析,释放IT压力,真正将数据分析工作交还给最懂业务的人,提高企业决策效率。

典型客户:小米、克丽缇娜、雀巢、联合利华.....

Data Analytics 点击试用

Data MAX

这是一款用于企业数据可视化展示呈现的标准+自由定制化产品,将业务数据经过处理后以实时的炫酷的可视化形式展示出来,广泛应用于领导驾驶舱、指挥中心、展览展会等场景。

典型客户:人民日报、富力集团、OPPO、民生银行.....

Data Max 点击试用

咨询电话

400-1024-262

关注DH小助手

可随时微信沟通

首页 > 关于我们 > 行业信息 > 文章详情
数据可视化攻略-疫苗案例解析
2018-10-12

  随着一篇《疫苗之王》的刷屏,问题疫苗引发了社会各界的广泛讨论和关注。我们作为专业的数据分析师,可以从自己的专业角度来分析与思考一些有价值的信息。今天我们就通过数据分析网站-DataHunter与大家一起探讨一下从疫苗数据采集到数据可视化的全过程,并最终通过数据分析得到了相关结论。
 

  一、数据采集

  误区:

  1、想以“一己之力”拿到所有相关数据;

  2、只有会爬虫的技术人员才有可能拿到所有数据。
 

  正解:

  善于“搜索”:一般热点问题发生之后的2-3天后,总会出现很多侠义之士无私分享多个维度的有用数据,我们需要做的就是善于搜索,不借助任何代码,去收集这些数据。当然如果你是非常厉害的数据爬虫专家,可以自己去拿。
 

  “问题疫苗”数据采集过程:

  1、百度搜索框输入“问题疫苗数据”,并选择右下角搜索工具,将时间范围限制在“1天内”(与图片输入内容不一致)

数据分析师
数据分析师

  2、点击第一篇文章,发现里面只有结果,却没有放数据集(很多网站出于自己的考虑,发表文章都会隐去数据集)。
 

  如何应对呢?

  答:从文章里面随便复制一段内容,然后粘贴到搜索框继续搜索,这样就可以找到百度收录的所有相关文章

数据分析师

  (文章内容,随便选择一段复制)

数据分析网站

  (搜索结果)

  我们同样点击查看第一条搜索结果的具体内容

  功夫不负有心人,这篇文章里,将数据集的地址给到了我们。

数据分析网站

  如果第一条搜索内容没有,我们可以接着查看第二条第三条的数据;

  如果百度搜索没有,我们还可以尝试搜狗微信搜索、微博搜索、垂直搜索(例如v2ex等程序猿聚集的地方);

  总会找到你需要的数据的!

  3、进入上面文章中提到的网址(https://github.com/fuckcqcs/fuckcqcs),找到需要的资源,点击下载

数据分析网站

  二、数据清洗

  注意:即使原作者已经将数据尽可能的结构化了,但是要想让这些数据为你所用,仍需要做一些工作,遇到问题别慌,99%的问题都能通过百度解决:)
 

  “问题疫苗”数据清洗过程:

  1、解压上一步中我们下载的数据包,找到csv文件

数据分析工具
数据分析工具

  2、刚拿到这些数据是不是特别兴奋,但是打开后却发现是乱码

数据分析工具

  3、其实从网络上下载的很多csv文件都有这个问题,通过百度可以get解决这个问题的小技巧:

  第一步:将文件通过记事本打开;

  第二步:另存为选择“全部文件”、再选择编码方式为“ANSI”

数据分析师

  再次打开数据,就可以发现乱码问题轻松解决啦!

数据分析网站

  4、整合及清洗数据

  作者提供了26个省的数据,散落在26个csv文件中,不利于后续的数据分析,所以首先要将这26个文件整合成1个文件。
 

  通过观察,我们发现整合过程中主要有三个问题:

  第一:price列,有的带计量单位,有的没有计量单位;

  第二:浙江省的csv文件中,字段名称与其他25个表略有不同,另外还有错别字问题;

  第三:吉林省的数据里有空格;
 

  如何解决?

  第一:利用excel的“数据-分列”功能,将不必要的计量单位隔离出来,删掉;

  第二:浙江省的数据将src和name两个字段混合成了一个字段,疫苗名称不标准,并且增加了很多不必要的包装信息。处理这种情况则需要重复利用“数据-分列”功能,将多余的信息完全分离出来,输出标准化的“name”,并将其他字段按顺序补充完整;最后再替换相关错别字;

  第三:选中吉林省数据,利用“查找-替换”功能,去掉所有空格;
 

  三、数据分析及可视化

  1、将数据导入Data Analytics

数据分析工具
数据可视化

  2、根据自己的分析目的,迅速拖拽生成图表,并排列组合形成看板备用。

  (视频教程链接:https://www.datahunter.cn/user/videos.html 只需要看图表制作和看板制作两小节就够了,共计5分钟)
 

  第一步:明确分析目的

  我想通过这些数据分析哪些问题呢?(每个人的出发点不同,最后输出的数据可视化内容也就不同)

  宏观问题:26个省的疫苗的进口/国产采购比率如何?疫苗生产大厂有哪些?

  微观问题:问题疫苗生产厂家都往哪些省市销售过疫苗?主要生产的疫苗名称是什么?
 

  第二步:根据上述目的生成相关图表

  a、将src字段拖入维度和度量,通过生成环图来查看26个省份采购数据中的国产和进口疫苗比例对比。

  很明显可以观察到,26个省,国产疫苗采购比例高达96%。

数据可视化

  b、将prov字段拖入维度,name拖入度量项,查看近两年26省疫苗采购数据记录数。

  如下图所示,内蒙古、江西、贵州的疫苗采购记录数最多,其他省份相对较弱,我们也希望未来能如原数据采集者所愿,有关部门能扩大采购信息公开程度。(用单色渐变)

数据分析师

  c、我们再看看本次问题疫苗企业长春长生在各省的销售分布(非特指问题疫苗)

       颜色越深,说明该省份采购长生的疫苗记录越多。

  d、长春长生疫苗企业涉及的疫苗产品(动图)

  可以看到,问题疫苗企业生产的疫苗产品涵盖了绝大多数的二类疫苗。

  e、将上述图表排列组成看板,通过联动过滤或数据下钻,进一步细查数据

  (动图占位)
 

  四:小结

  1、前期准备工作会占到数据可视化过程70%以上的时间

  数据采集、数据清洗的过程会耗费较多时间,如果你不熟悉相关技巧的话,可能会需要更多的时间;

  2、善于搜索

  99%的问题都可以通过搜索解决,比起学会代码,对小白来说,“搜商”的提高更重要;

  3、善于利用工具

  如果用excel出图、做数据可视化,花费的时间可能要多出2-3个小时,利用像Data Analytics这样的BI产品,可以提高数据可视化的效率;

  最后希望通过本文,能让大家简单了解数据可视化的整套流程,帮助更多的朋友通过数据探索世界。更多有关数据分析工具的相关了解,请关注:数据分析网站-DataHunter

热门文章
免费试用DataHunter产品
Data Analytics
业务驱动型BI工具
免费试用
Data MAX
极致性价比的大屏可视化产品
免费试用
Data Formula
敏捷型数据中台
免费试用
Copyright © 2018 北京数猎天下科技有限公司 | 京ICP备16063904号-1