随着一篇《疫苗之王》的刷屏,问题疫苗引发了社会各界的广泛讨论和关注。我们作为专业的数据分析师,可以从自己的专业角度来分析与思考一些有价值的信息。今天我们就通过数据分析网站-DataHunter与大家一起探讨一下从疫苗数据采集到数据可视化的全过程,并最终通过数据分析得到了相关结论。
一、数据采集
误区:
1、想以“一己之力”拿到所有相关数据;
2、只有会爬虫的技术人员才有可能拿到所有数据。
正解:
善于“搜索”:一般热点问题发生之后的2-3天后,总会出现很多侠义之士无私分享多个维度的有用数据,我们需要做的就是善于搜索,不借助任何代码,去收集这些数据。当然如果你是非常厉害的数据爬虫专家,可以自己去拿。
“问题疫苗”数据采集过程:
1、百度搜索框输入“问题疫苗数据”,并选择右下角搜索工具,将时间范围限制在“1天内”(与图片输入内容不一致)
2、点击第一篇文章,发现里面只有结果,却没有放数据集(很多网站出于自己的考虑,发表文章都会隐去数据集)。
如何应对呢?
答:从文章里面随便复制一段内容,然后粘贴到搜索框继续搜索,这样就可以找到百度收录的所有相关文章
(文章内容,随便选择一段复制)
(搜索结果)
我们同样点击查看第一条搜索结果的具体内容
功夫不负有心人,这篇文章里,将数据集的地址给到了我们。
如果第一条搜索内容没有,我们可以接着查看第二条第三条的数据;
如果百度搜索没有,我们还可以尝试搜狗微信搜索、微博搜索、垂直搜索(例如v2ex等程序猿聚集的地方);
总会找到你需要的数据的!
3、进入上面文章中提到的网址(https://github.com/fuckcqcs/fuckcqcs),找到需要的资源,点击下载
二、数据清洗
注意:即使原作者已经将数据尽可能的结构化了,但是要想让这些数据为你所用,仍需要做一些工作,遇到问题别慌,99%的问题都能通过百度解决:)
“问题疫苗”数据清洗过程:
1、解压上一步中我们下载的数据包,找到csv文件
2、刚拿到这些数据是不是特别兴奋,但是打开后却发现是乱码
3、其实从网络上下载的很多csv文件都有这个问题,通过百度可以get解决这个问题的小技巧:
第一步:将文件通过记事本打开;
第二步:另存为选择“全部文件”、再选择编码方式为“ANSI”
再次打开数据,就可以发现乱码问题轻松解决啦!
4、整合及清洗数据
作者提供了26个省的数据,散落在26个csv文件中,不利于后续的数据分析,所以首先要将这26个文件整合成1个文件。
通过观察,我们发现整合过程中主要有三个问题:
第一:price列,有的带计量单位,有的没有计量单位;
第二:浙江省的csv文件中,字段名称与其他25个表略有不同,另外还有错别字问题;
第三:吉林省的数据里有空格;
如何解决?
第一:利用excel的“数据-分列”功能,将不必要的计量单位隔离出来,删掉;
第二:浙江省的数据将src和name两个字段混合成了一个字段,疫苗名称不标准,并且增加了很多不必要的包装信息。处理这种情况则需要重复利用“数据-分列”功能,将多余的信息完全分离出来,输出标准化的“name”,并将其他字段按顺序补充完整;最后再替换相关错别字;
第三:选中吉林省数据,利用“查找-替换”功能,去掉所有空格;
三、数据分析及可视化
1、将数据导入Data Analytics
2、根据自己的分析目的,迅速拖拽生成图表,并排列组合形成看板备用。
(视频教程链接:https://www.datahunter.cn/user/videos.html 只需要看图表制作和看板制作两小节就够了,共计5分钟)
第一步:明确分析目的
我想通过这些数据分析哪些问题呢?(每个人的出发点不同,最后输出的数据可视化内容也就不同)
宏观问题:26个省的疫苗的进口/国产采购比率如何?疫苗生产大厂有哪些?
微观问题:问题疫苗生产厂家都往哪些省市销售过疫苗?主要生产的疫苗名称是什么?
第二步:根据上述目的生成相关图表
a、将src字段拖入维度和度量,通过生成环图来查看26个省份采购数据中的国产和进口疫苗比例对比。
很明显可以观察到,26个省,国产疫苗采购比例高达96%。
b、将prov字段拖入维度,name拖入度量项,查看近两年26省疫苗采购数据记录数。
如下图所示,内蒙古、江西、贵州的疫苗采购记录数最多,其他省份相对较弱,我们也希望未来能如原数据采集者所愿,有关部门能扩大采购信息公开程度。(用单色渐变)
c、我们再看看本次问题疫苗企业长春长生在各省的销售分布(非特指问题疫苗)
颜色越深,说明该省份采购长生的疫苗记录越多。
d、长春长生疫苗企业涉及的疫苗产品(动图)
可以看到,问题疫苗企业生产的疫苗产品涵盖了绝大多数的二类疫苗。
e、将上述图表排列组成看板,通过联动过滤或数据下钻,进一步细查数据
(动图占位)
四:小结
1、前期准备工作会占到数据可视化过程70%以上的时间
数据采集、数据清洗的过程会耗费较多时间,如果你不熟悉相关技巧的话,可能会需要更多的时间;
2、善于搜索
99%的问题都可以通过搜索解决,比起学会代码,对小白来说,“搜商”的提高更重要;
3、善于利用工具
如果用excel出图、做数据可视化,花费的时间可能要多出2-3个小时,利用像Data Analytics这样的BI产品,可以提高数据可视化的效率;
最后希望通过本文,能让大家简单了解数据可视化的整套流程,帮助更多的朋友通过数据探索世界。更多有关数据分析工具的相关了解,请关注:数据分析网站-DataHunter